[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

OpenAI、AIが自らブラウザを操作する「Operator」公開--まず米国のProユーザー向け

 OpenAIは現地時間1月23日、ブラウザを操作してタスクを実行できるAIエージェント「Operator」を米国のProユーザー向けに公開した。同エージェントは、ブラウザ上でウェブページの閲覧やタイピング、クリック、スクロールといった操作を行うことができ、AIが独自にタスクを実行できる初期のエージェントの1つとなる。

Operator Operator
※クリックすると拡大画像が見られます

 Operatorは、日常生活で発生するさまざまなタスクを自動化できる。例えば、フォームの記入や食料品の注文、ミームの作成などを実行可能だ。人間が普段利用するインターフェースを直接操作できるため、作業効率を大幅に向上できるという。

使い方

 Operatorは「Computer-Using Agent(CUA)」という新しいモデルを基盤としている。このモデルは、GPT-4oの視覚認識機能と強化学習による高度な推論を組み合わせることで、AI自身がグラフィカルユーザーインターフェース(GUI)を操作できるようになった。ウェブページを「視覚的」に理解し、マウスやキーボードを用いた操作が可能だ。また、操作中に問題が発生した際には、推論能力を活用して自動で修正を試みる。

 Operatorの利用方法はシンプルだ。実行したいタスクをAIに説明するだけで、必要な操作を自動で進める。ログインや支払い情報の入力、CAPTCHA(AI判別ツール)対応が必要な場合は、Operatorがユーザーに手動操作を依頼する仕組みも備えている。

ブラウザを操作できるAIエージェント ブラウザを操作できるAIエージェント
※クリックすると拡大画像が見られます

 さらに、ウェブサイトごとにカスタム指示を設定できるため、たとえば特定の航空会社や食品の注文設定をあらかじめ登録できる。複数タブを開くように、複数のタスクを同時に処理することもできる。

 OpenAIは、Operatorの実用性を高めるため、DoorDashやInstacart、Uberといった企業と協力している。Instacardで最高製品責任者を務めるダニエル・ダンカー氏は「Operator は、食料品の注文などを驚くほど簡単にする技術的なブレークスルーだ」と述べたという。

 また、「特に行政分野のワークフローとの親和性が高い」といい、米Stockton市と提携し、市民が行政サービスをより簡単に利用できる取り組みを進めているという。これは米トランプ政権が政府効率化省(DOGE)で進める行政改革向けのアピールの可能性もある。

今後はPro以外のユーザーにも拡大

 Operatorの開発において、OpenAIは安全性を最優先にしているという。ユーザーが完全に操作をコントロールできる仕組みや、データプライバシー管理を簡素化する機能を備えるほか、悪意のあるウェブサイトからユーザーを保護する対策も導入している。さらに、Operatorが悪意ある行為に利用されないように強化学習も施した。

 Operatorは現在、リサーチプレビューの段階にあり、広範なタスクに対応可能だが、スライドショーの作成やカレンダー管理など複雑な操作には課題が残る。初期ユーザーからのフィードバックをもとに、精度や安全性の向上が図られる見込みだ。

 今後、OperatorはAPIとしての提供や、より高度なワークフローへの対応も計画している。対象ユーザーもPro以外のPlus、Team、Enterpriseユーザーへと拡大する方針だ。

コンセントに挿して充電器にもなるAnkerのモバイルバッテリー(価格をAmazonでチェック)

CNET Japanの記事を毎朝メールでまとめ読み(無料)

-PR-企画広告

企画広告一覧

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]