OpenAIは現地時間1月23日、ブラウザを操作してタスクを実行できるAIエージェント「Operator」を米国のProユーザー向けに公開した。同エージェントは、ブラウザ上でウェブページの閲覧やタイピング、クリック、スクロールといった操作を行うことができ、AIが独自にタスクを実行できる初期のエージェントの1つとなる。
Operatorは、日常生活で発生するさまざまなタスクを自動化できる。例えば、フォームの記入や食料品の注文、ミームの作成などを実行可能だ。人間が普段利用するインターフェースを直接操作できるため、作業効率を大幅に向上できるという。
Operatorは「Computer-Using Agent(CUA)」という新しいモデルを基盤としている。このモデルは、GPT-4oの視覚認識機能と強化学習による高度な推論を組み合わせることで、AI自身がグラフィカルユーザーインターフェース(GUI)を操作できるようになった。ウェブページを「視覚的」に理解し、マウスやキーボードを用いた操作が可能だ。また、操作中に問題が発生した際には、推論能力を活用して自動で修正を試みる。
Operatorの利用方法はシンプルだ。実行したいタスクをAIに説明するだけで、必要な操作を自動で進める。ログインや支払い情報の入力、CAPTCHA(AI判別ツール)対応が必要な場合は、Operatorがユーザーに手動操作を依頼する仕組みも備えている。
さらに、ウェブサイトごとにカスタム指示を設定できるため、たとえば特定の航空会社や食品の注文設定をあらかじめ登録できる。複数タブを開くように、複数のタスクを同時に処理することもできる。
OpenAIは、Operatorの実用性を高めるため、DoorDashやInstacart、Uberといった企業と協力している。Instacardで最高製品責任者を務めるダニエル・ダンカー氏は「Operator は、食料品の注文などを驚くほど簡単にする技術的なブレークスルーだ」と述べたという。
また、「特に行政分野のワークフローとの親和性が高い」といい、米Stockton市と提携し、市民が行政サービスをより簡単に利用できる取り組みを進めているという。これは米トランプ政権が政府効率化省(DOGE)で進める行政改革向けのアピールの可能性もある。
Operatorの開発において、OpenAIは安全性を最優先にしているという。ユーザーが完全に操作をコントロールできる仕組みや、データプライバシー管理を簡素化する機能を備えるほか、悪意のあるウェブサイトからユーザーを保護する対策も導入している。さらに、Operatorが悪意ある行為に利用されないように強化学習も施した。
Operatorは現在、リサーチプレビューの段階にあり、広範なタスクに対応可能だが、スライドショーの作成やカレンダー管理など複雑な操作には課題が残る。初期ユーザーからのフィードバックをもとに、精度や安全性の向上が図られる見込みだ。
今後、OperatorはAPIとしての提供や、より高度なワークフローへの対応も計画している。対象ユーザーもPro以外のPlus、Team、Enterpriseユーザーへと拡大する方針だ。
CNET Japanの記事を毎朝メールでまとめ読み(無料)
「もったいない」という気持ちを原動力に
地場企業とともに拓く食の未来
地味ながら負荷の高い議事録作成作業に衝撃
使って納得「自動議事録作成マシン」の実力