AWSが「AIの民主化」に着手
「この10年、技術は大きく進化しました。では今後10年は? 過去10年より進化が小さい、とは思えません。そこで皆さんはどうするのでしょうか。 座していてはいけません。御社のライバルは必ず何か手を打ってきます」
Amazon.comの子会社であり、ネットサービスインフラ事業のトップ企業、Amazon Web Services(以下AWS)のCEOであるアンディー・ジャシー氏は、11月29日(現地時間)、米ラスベガスで開催中の開発者会議「AWS re:Invent 2017」の基調講演で、聴衆にそう語りかけた。
AWS re:Invent 2017は、4万3000人以上の来場者を集める、世界最大の開発者会議のひとつだ。冒頭のジャシーCEOの言葉は多分にあおり気味だが、それだけの人々がAWSの新しい技術情報を求めており、投資の機運がある、ということでもある。
ここでは、特に長い時間を割いた、AIの中核技術である「ディープラーニング」に関する発表について解説していきたい。
「10分で使える深層学習カメラ」を出す狙い
ディープラーニングとは、端的に言えば、大量のデータからソフトウエアが自動的に学習し、判断を下す基準を作る技術である。この数年で、音声認識や画像認識の精度は急激に進歩したが、その背景にあるのは、ディープラーニング技術の進化と、学習に使えるデータの劇的な増加だ。
今回、AWSはディープラーニングが関わる技術を多く発表した。だが、これらが完全に独創的で他社に先駆けたものか、というと、実はそうではない。どちらかといえば、競合他社を追いかけた……といった方が正しい。
音声を認識し、テキストへと変換できるサービス(API)「Amazon Transcribe」のようなものも、マイクロソフトなどがすでに発表済みで、しかも日本語対応済みだったりする。むしろ今回、「AWSらしさと強み」を強く感じさせたのは、披露されたハードウエア製品である。ディープラーニングによる画像認識機能を最初から盛り込んだAWS謹製ビデオカメラである「AWS DeepLens」だ。最初からカメラに認識機能を組み込んだものとしては世界初の製品で、2018年初めに、249ドルで発売される。
世界初のディープラーニング搭載……というと、技術的にものすごいことをしている、と思いがちだ。だが実は、DeepLensには、「技術的」にはあまり特別な部分はない。現在も同じ事は、PCや組み込み用コンピューターにビデオカメラを組み合わせれば作れる。重要なのは、「全てが一体で、箱をあけて10分で試せる」ことなのだ。
カメラを使った映像認識によるサービス構築は、顔認識から商品の認識まで、非常に大きな可能性を秘めている。だが、そのためのシステムを作り、ディープラーニングが使えるように設定するには、かなりの手間とノウハウが必要だ。開発を単に「試してみる」のも難しい。
しかしDeepLensならば、機器は一つにまとまっているし、AWSを介した開発のための設定も終わっている。ディープラーニングに関する経験が非常に少ないエンジニアであっても、後ほど紹介する「Amazon SageMaker」や「Amazon Rekognition Video」などを使い、すぐに「画像から必要なものを認識し、サービスに活かす」ためのテストを始められる。基本的な画像認識のためのテンプレートは搭載済みだ。
学習モデルができ上がり、DeepLens上でうまくサービスが動くようになったら、今度はそれを「本番環境」に移行する番だ。その時には、使う機器やカメラが変わる可能性もあるが、AWSの管理機能を組み合わせることで、移行が容易な構造になっている。
そしてもちろん、すでにさまざまな業務アプリケーションがAWS上で動いているならば、それらとの接続・連携も簡単になる。
「私たちは『かっこいいから』という理由で技術を開発することはありません。顧客に、デベロッパーにとって役に立つかどうかで決めています」ジャシーCEOはそう語る。DeepLensはさほど格好良い製品ではないが、この言葉を合わせて考えると、まさに「AWSらしいディープラーニングへのアプローチ」だ。
スポーツ番組が深層学習でもっと面白くなる。狙いは「技術の民主化」
さて、ディープラーニングは音声認識や画像認識の形で分かりやすく成果が出始めているものの、その応用範囲は、製造機械の効率的な運用からセキュリティー管理、機器の自動的なデザインに至るまで、非常に幅広い。
基調講演では、AWSをオフィシャル・テクノロジーパートナーに選んでいるナショナル・フットボール・リーグ(NFL)の例が示された。NFLは各試合をリアルタイム解析し、選手やボールの動きなどを「Next Gen Stas」としてまとめている。現在は1試合で3TBのデータになっているそうだが、これは「従来の一週間分の全試合のデータに相当」(NFL・CIOのミシェル・マッケナ−ドイル氏)するという。
さらには、試合の映像と選手につけたNFCタグの情報から、フォーメーションや選手の動きを完全に把握し、「このプレイではどの選手がどう動き、結果、パスの成功率はどの選手が何%になるのか」を予測するところまでを情報化しようとしている。情報を高度化することで、「スタジアムに来てないファンでも、解説者と同じ情報を手に出来るようにすることで、熱狂を高める」(NFL・マッケナ-ドイル氏)ことが狙いだ。
こうした分析の多くが、ディープラーニングによって実現されている。
一方で現状、ディープラーニングを使ってソフト開発を行うには、専門の知識が必要になる。それだけでなく、精度の高い結果を得るための「学習モデル」を得るまでには、かなりの試行錯誤も必要になる。NFLのような大規模な例ではなく、もっとシンプルな開発であってもハードルは高い。
ジャシーCEOはこれを「普通の技術者のものではない」と表現した。一般的なデータベースやウェブ技術のように、一般的な技術者が扱える日常の道具にすること、すなわち「ディープラーニングの民主化」(ジャシーCEO)こそが、AWSの狙いである。
ディープラーニング開発のハードルを下げる
そこでAWSは、ディープラーニングに関し、大きく2つのアプローチについて発表を行った。ひとつは「顧客が独自にディープラーニングを使ったサービスを作る方法」であり、もうひとつが「AWSがディープラーニングを使って開発した技術を使う方法」だ。まずは前者について説明しよう。
実はこれまでも、ディープラーニング処理を行うためのインフラとしては、AWSが一般的に使われていた。ただ、その設定でも、最終的に使う「学習モデル」を得る過程でも、かなりの試行錯誤と手間が必要になった。また、そこから実際のサービスの形にするにも、それなりの苦労があった。
そこで作られたのが「Amazon SageMaker」というシステムだ。「管理の手間を軽減する」というAWSの特徴を活かし、開発を始めるまでの手間と、最後に「サービス化」するための手間は大幅に軽減する。また、学習の過程を効率化する仕組みを搭載することで、十分に賢い学習モデルを得るまでの時間も短くなる。
AWSも参入した「音声書き起こし」サービス
Amazon SageMakerは、開発に専門知識が必要であることに変わりはない。世の中にには、「人物の識別」や「音声認識」などの結果だけを得たい、というライトに使いたい開発者もいる。そうした人々のための道具も、AWSは用意している。「Amazon Rekognition Video」や「Amazon Transcribe」、「Amazon Translate」といったサービスである。
これらは、「学習済みAI」と呼ばれるもので、事前学習などが一切必要なく、プログラミングのコードに組み込むだけでいきなり使えるもの。言ってみればAIサービス構築の即席麺のようなものだ。特に興味深いのは「Amazon Transcribe」だろう。これはいわゆる「音声書き起こし」サービス。録音した打ち合わせやインタビューをサービスに通すと、自動的にテキストデータ化される。
スマートフォンやスマートスピーカーの音声アシスタントなどで、音声認識そのものは一般的になった。だが、数十分もの音声データの書き起こしに特化したサービスは意外と少ない。筆者も個人的に、すぐに使いたいくらいだ。狙いはずばり、議事録やインタビュー、電話対応の音声を広く活用するためである。人手による書き起こし作業が不要になり、データ化のハードルが下がれば、業務は確実に効率化する。
自動翻訳である「Amazon Translate」も、Amazon Transcribeによる「テキストデータの増大」を見込んでのものだ。他の言語の情報を楽に読みたい、というのは、やはり当然のニーズである。
同時に、文書解析サービスである「Amazon Comprehend」が提供されるのだが、これが実に興味深い。Transcribeのサービスの登場によってテキストデータの量が増大すると、その中身の精査が問題になる。常に全文を読むのは大変だからだ。
そこで、文書解析技術を使い、要約を作ったり、大量の文書から特定のテーマに関わるものを抽出したりするサービスなのだ。文書解析は珍しい技術ではないが、ノウハウが拡散しておらず、ディープラーニングと同様に「民主化していない」技術だ。この辺の組み合わせが、戦略の妙なのだろう。
ただし、日本人にとっては非常に残念なことに、Amazon TranscribeやAmazon Translateは、現時点では日本語に対応しない。AWS側の公式回答として、対応時期も未定となっている。マイクロソフトがそうしたように、日本語対応するのかどうかは気になるところだ。
一方で、英語圏では既にこの種の深層学習ベースのサービスが、「開発者なら誰でも使える機能」として提供され始めている現実は、ビジネス開発に大きく影響する。音声書き出しや翻訳APIを前提にした、破壊的なサービスが日本より相当早く立ち上がってくる可能性があるからだ。
西田宗千佳: フリージャーナリスト。得意ジャンルはパソコン・デジタルAV・家電、ネットワーク関連など「電気かデータが流れるもの全般」。主な著書に「ポケモンGOは終わらない」「ソニー復興の劇薬」「ネットフリックスの時代」「iPad VS. キンドル 日本を巻き込む電子書籍戦争の舞台裏」など 。