アプリ嫌いな人などいるのだろうか? ジェシー・リュイはアプリ嫌いだ。新しいAIスタートアップであるrabbitの創業者であるリュイと初めて話をした後、少なくともそう思った。rabbitは、「CES 2024」でポケットサイズのデバイス「R1」を発表した企業である。
何かのタスクをこなすためには、スマートフォンを取り出して適切なアプリを探し出し、画面を何度もタップしなくてもいい。代わりに、リュイはR1に“話しかけて”ほしいと思っている。R1に話しかける際に使うプッシュ・トゥ・トーク(PTT)ボタンを押すだけで、ユーザーの手をわずらわせることなく、「rabbits」と呼ばれる一連の自動化スクリプトがタスクを実行してくれるのだ。
R1は赤っぽいオレンジ色をした四角いデバイスで、そのサイズは正方形の付せん1冊ほど。スウェーデンのTeenage Engineeringと共同開発された(リュイは同社の役員でもある)。
R1の左側には2.88インチのタッチ式ディスプレイがあり、その右側にはスクロールホイールが備わっている。スクロールホイールの上にあるのは360度の回転が可能なカメラだ。これは「rabbit Eye」と呼ばれ、自撮りカメラかメインカメラとして使える。使わないときはカメラのレンズを上向きか下向きにすれば、プライバシー保護用のレンズカバー代わりになる。
rabbit Eyeはビデオ通話にも使えるが、従来のスマートフォンのカメラのようには使えない。この点については後で詳しく説明する。
右側面にはPTTボタンがあり、長押しすればR1に音声コマンドを出せる。さらに4G/LTEデータ通信用のSIMカードスロットがあって常時接続が可能なので、ほかのデバイスとペアリングする必要はない(R1はWi-Fiネットワーク接続も可能だ)。充電用のUSB-Cポートがあり、rabbitは1回の充電で「1日中」もつとしている。
R1の価格は199ドル(約28,800円)だが、毎月の携帯電話の接続料金も必要になる。そして、その設定は自分でしなければならない。R1は1月9日から米国で予約受付が開始されており、3月下旬に出荷される。
このポケットサイズのR1は、決してスマートフォン代わりになるものではない。映画を観たりゲームをしたりするために使うことはできないが、あなたの手をわずらわせる単純な仕事を軽減してくれる。
リュイはこれを、自分のスマートフォンを秘書に渡してタスクを完了させる行為になぞらえている。例えば、Uberの車両を呼ぶようなことだ。側面のPTTボタンを長押ししながら「エンパイア・ステート・ビルまでUberを呼んで」と話しかけるだけだ。R1は数秒かけてユーザーのリクエストを解析し、画面に運賃などの詳細を示すカードを表示し、配車を依頼する。このプロセスはレストランの予約や航空券の予約、Spotifyのプレイリストへの曲の追加など、さまざまなカテゴリーでも同じだ。
特徴的な点は、R1にはアプリが搭載されていないことである。クラウド上にあるアプリのAPI(アプリケーション・プログラミング・インターフェイス)のようなシステムにも接続しない。プラグインもなければ、プロキシーアカウントもない。そしてスマートフォンとペアリングもしない。
「rabbit OS」は、ウェブポータル経由で特定のアプリにアクセスを切り替えられるレイヤーとして機能する。リュイは「rabbit Hole」というウェブページを示した。そこにはOpenTableやUber、Spotify、Doordash、Amazonといったサービスのアカウントにログインするためのリンクがいくつも表示されていた。リンクのひとつをタップすると、サインインを求められる。これで基本的に、接続されたアカウントでユーザーに代わってアクションを実行する権限をrabbit OSに許可することができる。
こうした仕組みはプライバシーの悪夢をもたらすようにも思えるが、rabbitはサードパーティのサービスのユーザー認証情報は一切保存しないと説明している。また、認証はすべてサードパーティのサービスのログインシステムで実行されるので、いつでも自由にrabbit OSとのリンクを解除し、保存されたデータを削除できるという。
また、R1はトランシーバーのようなPTTボタンを使って音声コマンドからプロンプトを起動するので、呼びかけに使うウェイクワードはなく、一般的な音声アシスタントのように常にユーザーの声に注意を傾ける必要もない。R1のマイクはユーザーがボタンを押したときだけ有効になり、音声を録音する仕組みだ。
「大規模アクションモデル」を活用
R1のバックエンドを支えているのは、大規模言語モデル(OpenAIのChatGPTを搭載)とrabbitが開発した大規模アクションモデルの組み合わせだ。大規模言語モデル(LLM)がユーザーの意図を理解し、大規模アクションモデル(LAM)がユーザーのリクエストを実行する流れだ。
このLAMはデモンストレーションによって学習する。つまり、LAMはモバイル、デスクトップ、クラウドのインターフェイスを通じて人間がどのようにタスクを実行するかを観察し、そのタスクを再現するわけだ。rabbitは最も人気のあるアプリ向けにいくつかのアクションをトレーニングしており、rabbitの性能は時間とともに拡張していくだろう。
わたしたちはデバイスに話しかけることに慣れてしまっている。SiriやGoogle アシスタントのような音声アシスタントにテキストを送ってもらったり、ダフト・パンクの曲の音量を上げてもらったりしている。
しかし、rabbitのやり方は違う。rabbitのメディア向け資料によると、rabbit OSはタスクだけでなく「雑用」も処理できるようにつくられているという。「雑用」というものはタスクよりも複雑で、リアルタイムでの対話が必要になるものだ。例えば、旅程を調べてユーザーのスケジュールと予算に最適な選択肢を予約することや、オンラインスーパーのカートに商品を追加し、精算と支払いに必要なすべての手順を完了することなどである。
R1のLAMの最も興味深い機能は、実験的な「ティーチモード」だろう。これは後日のアップデートで提供される予定の機能で、R1のカメラをPCやスマートフォンに向けたうえで、R1に学習させたいタスクを実行するだけだ。
リュイが示した例は、アドビの「Photoshop」の透かしを消去する作業だった。ユーザーは基本的に、自動化したい特殊なタスクの実行方法を学習させるために自分の「ウサギ(rabbit)」を訓練していることになる。あなたの「ウサギ」がその特殊なタスクを学習したら、あとは側面のボタンを押すだけで、あなたが教えたことを実行するようR1に頼めるようになる。
リュイによると、R1の開発チームは人気のゲーム「ディアブロ IV」で生き残る方法をR1に教えたという。敵を倒し、ヘルスバーを満タンに保つ方法をすべて実演で示したのだ。理論的には、「ウサギ」に頼んでキャラクターをつくってレベルアップさせれば、ディアブロで苦労する必要はなくなる。
AIを活用した「パーソナルコンパニオン」の座を競い合うデバイスの数は増えている。ただし、R1はHumaneのウェアラブルデバイス「Ai Pin」とは異なり、簡単に世界の情報を利用できるようにするためだけのツールではない。rabbitの開発チームは、R1がデジタル世界とのインターフェイスになることを望んでいる。
「わたしたちは皆さんの問題を解決しようとしています」と、リュイは説明する。「使い方を学ばなくても使い方がわかるような、直感的に操作できるツールの提供を目指しています」
Instagram content
This content can also be viewed on the site it originates from.
(WIRED US/Edit by Daisuke Takimoto)
※『WIRED』による人工知能(AI)の関連記事はこちら。CESの関連記事はこちら。
雑誌『WIRED』日本版 VOL.51
「THE WORLD IN 2024」は好評発売中!
アイデアとイノベーションの源泉であり、常に未来を実装するメディアである『WIRED』のエッセンスが詰まった年末恒例の「THE WORLD IN」シリーズ。加速し続けるAIの能力がわたしたちのカルチャーやビジネス、セキュリティから政治まで広範に及ぼすインパクトのゆくえを探るほか、環境危機に対峙するテクノロジーの現在地、サイエンスや医療でいよいよ訪れる注目のブレイクスルーなど、全10分野にわたり、2024年の最重要パラダイムを読み解く総力特集。詳細はこちら。