アマゾン「AWS DeepLens」発表が意味するAI化社会の破壊的加速とは

#AI First #AI（人工知能）#アマゾン（Amazon）#アマゾン・ウェブ・サービス（AWS）#ディープラーニング

Dec 1, 2017, 11:15 AM

17,522

AWSが「AIの民主化」に着手

「この10年、技術は大きく進化しました。では今後10年は？過去10年より進化が小さい、とは思えません。そこで皆さんはどうするのでしょうか。座していてはいけません。御社のライバルは必ず何か手を打ってきます」

Amazon.comの子会社であり、ネットサービスインフラ事業のトップ企業、Amazon Web Services（以下AWS）のCEOであるアンディー・ジャシー氏は、11月29日（現地時間）、米ラスベガスで開催中の開発者会議「AWS re:Invent 2017」の基調講演で、聴衆にそう語りかけた。

AWS re:Invent 2017は、4万3000人以上の来場者を集める、世界最大の開発者会議のひとつだ。冒頭のジャシーCEOの言葉は多分にあおり気味だが、それだけの人々がAWSの新しい技術情報を求めており、投資の機運がある、ということでもある。

ここでは、特に長い時間を割いた、AIの中核技術である「ディープラーニング」に関する発表について解説していきたい。

Amazon Web Services（AWS）のアンディー・ジャシーCEO。3時間弱にわたる基調講演のほとんどを彼一人が担当した。

「10分で使える深層学習カメラ」を出す狙い

ディープラーニングとは、端的に言えば、大量のデータからソフトウエアが自動的に学習し、判断を下す基準を作る技術である。この数年で、音声認識や画像認識の精度は急激に進歩したが、その背景にあるのは、ディープラーニング技術の進化と、学習に使えるデータの劇的な増加だ。

今回、AWSはディープラーニングが関わる技術を多く発表した。だが、これらが完全に独創的で他社に先駆けたものか、というと、実はそうではない。どちらかといえば、競合他社を追いかけた……といった方が正しい。

音声を認識し、テキストへと変換できるサービス（API）「Amazon Transcribe」のようなものも、マイクロソフトなどがすでに発表済みで、しかも日本語対応済みだったりする。むしろ今回、「AWSらしさと強み」を強く感じさせたのは、披露されたハードウエア製品である。ディープラーニングによる画像認識機能を最初から盛り込んだAWS謹製ビデオカメラである「AWS DeepLens」だ。最初からカメラに認識機能を組み込んだものとしては世界初の製品で、2018年初めに、249ドルで発売される。

deeplens01 — 「世界初のディープラーニング搭載ビデオカメラ」をうたう、「AWS DeepLens」。開発者向けの製品で、2018年に249ドルで販売を開始する。

deeplens02 — 手元に置くとこういう感じ。すでにイベント参加者向けに配布された実機の開封動画がYouTubeなどに公開され始めている。動画を見る限りは、この写真の印象と違い「意外と大きい」という感覚。

世界初のディープラーニング搭載……というと、技術的にものすごいことをしている、と思いがちだ。だが実は、DeepLensには、「技術的」にはあまり特別な部分はない。現在も同じ事は、PCや組み込み用コンピューターにビデオカメラを組み合わせれば作れる。重要なのは、「全てが一体で、箱をあけて10分で試せる」ことなのだ。

DeepLensの詳細。技術的な新しさよりも、「箱をあけて10分」（右上に書かれている）で試せる形にまとまっていることが重要。

カメラを使った映像認識によるサービス構築は、顔認識から商品の認識まで、非常に大きな可能性を秘めている。だが、そのためのシステムを作り、ディープラーニングが使えるように設定するには、かなりの手間とノウハウが必要だ。開発を単に「試してみる」のも難しい。

しかしDeepLensならば、機器は一つにまとまっているし、AWSを介した開発のための設定も終わっている。ディープラーニングに関する経験が非常に少ないエンジニアであっても、後ほど紹介する「Amazon SageMaker」や「Amazon Rekognition Video」などを使い、すぐに「画像から必要なものを認識し、サービスに活かす」ためのテストを始められる。基本的な画像認識のためのテンプレートは搭載済みだ。

学習モデルができ上がり、DeepLens上でうまくサービスが動くようになったら、今度はそれを「本番環境」に移行する番だ。その時には、使う機器やカメラが変わる可能性もあるが、AWSの管理機能を組み合わせることで、移行が容易な構造になっている。

そしてもちろん、すでにさまざまな業務アプリケーションがAWS上で動いているならば、それらとの接続・連携も簡単になる。

「私たちは『かっこいいから』という理由で技術を開発することはありません。顧客に、デベロッパーにとって役に立つかどうかで決めています」ジャシーCEOはそう語る。DeepLensはさほど格好良い製品ではないが、この言葉を合わせて考えると、まさに「AWSらしいディープラーニングへのアプローチ」だ。

スポーツ番組が深層学習でもっと面白くなる。狙いは「技術の民主化」

さて、ディープラーニングは音声認識や画像認識の形で分かりやすく成果が出始めているものの、その応用範囲は、製造機械の効率的な運用からセキュリティー管理、機器の自動的なデザインに至るまで、非常に幅広い。

基調講演では、AWSをオフィシャル・テクノロジーパートナーに選んでいるナショナル・フットボール・リーグ（NFL）の例が示された。NFLは各試合をリアルタイム解析し、選手やボールの動きなどを「Next Gen Stas」としてまとめている。現在は1試合で3TBのデータになっているそうだが、これは「従来の一週間分の全試合のデータに相当」（NFL・CIOのミシェル・マッケナ−ドイル氏）するという。

さらには、試合の映像と選手につけたNFCタグの情報から、フォーメーションや選手の動きを完全に把握し、「このプレイではどの選手がどう動き、結果、パスの成功率はどの選手が何％になるのか」を予測するところまでを情報化しようとしている。情報を高度化することで、「スタジアムに来てないファンでも、解説者と同じ情報を手に出来るようにすることで、熱狂を高める」（NFL・マッケナ-ドイル氏）ことが狙いだ。

こうした分析の多くが、ディープラーニングによって実現されている。

NFLが開発中の、次世代試合解析システム。アメフトの複雑なフォーメーションを自動的に判別、ランの経路やパスの成功確率などを予測する。

選手ごとの成績データベースに合わせたプロジェクションも可能。テレビでのスポーツ観戦体験が大きく変わる、ということだ。

一方で現状、ディープラーニングを使ってソフト開発を行うには、専門の知識が必要になる。それだけでなく、精度の高い結果を得るための「学習モデル」を得るまでには、かなりの試行錯誤も必要になる。NFLのような大規模な例ではなく、もっとシンプルな開発であってもハードルは高い。

ジャシーCEOはこれを「普通の技術者のものではない」と表現した。一般的なデータベースやウェブ技術のように、一般的な技術者が扱える日常の道具にすること、すなわち「ディープラーニングの民主化」（ジャシーCEO）こそが、AWSの狙いである。

ディープラーニング開発のハードルを下げる

そこでAWSは、ディープラーニングに関し、大きく2つのアプローチについて発表を行った。ひとつは「顧客が独自にディープラーニングを使ったサービスを作る方法」であり、もうひとつが「AWSがディープラーニングを使って開発した技術を使う方法」だ。まずは前者について説明しよう。

実はこれまでも、ディープラーニング処理を行うためのインフラとしては、AWSが一般的に使われていた。ただ、その設定でも、最終的に使う「学習モデル」を得る過程でも、かなりの試行錯誤と手間が必要になった。また、そこから実際のサービスの形にするにも、それなりの苦労があった。

そこで作られたのが「Amazon SageMaker」というシステムだ。「管理の手間を軽減する」というAWSの特徴を活かし、開発を始めるまでの手間と、最後に「サービス化」するための手間は大幅に軽減する。また、学習の過程を効率化する仕組みを搭載することで、十分に賢い学習モデルを得るまでの時間も短くなる。

「Amazon SageMaker」。ディープラーニングの開発に必要な要素をパッケージ化し、管理を容易にした上で、学習にかかる時間を短くする仕組みを備えている。結果、目的のサービスを開発するまでに必要な時間を削減できる。

AWSも参入した「音声書き起こし」サービス

Amazon SageMakerは、開発に専門知識が必要であることに変わりはない。世の中にには、「人物の識別」や「音声認識」などの結果だけを得たい、というライトに使いたい開発者もいる。そうした人々のための道具も、AWSは用意している。「Amazon Rekognition Video」や「Amazon Transcribe」、「Amazon Translate」といったサービスである。

映像をリアルタイム認識する「Amazon Rekognition Video」。人の存在や動きなどを検出し、その情報を使ったサービスを構築できる。

自動翻訳サービスの「Amazon Translate」。英語・フランス語など6カ国語に対応。こちらも、日本語への対応時期は未定。

これらは、「学習済みAI」と呼ばれるもので、事前学習などが一切必要なく、プログラミングのコードに組み込むだけでいきなり使えるもの。言ってみればAIサービス構築の即席麺のようなものだ。特に興味深いのは「Amazon Transcribe」だろう。これはいわゆる「音声書き起こし」サービス。録音した打ち合わせやインタビューをサービスに通すと、自動的にテキストデータ化される。

スマートフォンやスマートスピーカーの音声アシスタントなどで、音声認識そのものは一般的になった。だが、数十分もの音声データの書き起こしに特化したサービスは意外と少ない。筆者も個人的に、すぐに使いたいくらいだ。狙いはずばり、議事録やインタビュー、電話対応の音声を広く活用するためである。人手による書き起こし作業が不要になり、データ化のハードルが下がれば、業務は確実に効率化する。

自動翻訳である「Amazon Translate」も、Amazon Transcribeによる「テキストデータの増大」を見込んでのものだ。他の言語の情報を楽に読みたい、というのは、やはり当然のニーズである。

同時に、文書解析サービスである「Amazon Comprehend」が提供されるのだが、これが実に興味深い。Transcribeのサービスの登場によってテキストデータの量が増大すると、その中身の精査が問題になる。常に全文を読むのは大変だからだ。

そこで、文書解析技術を使い、要約を作ったり、大量の文書から特定のテーマに関わるものを抽出したりするサービスなのだ。文書解析は珍しい技術ではないが、ノウハウが拡散しておらず、ディープラーニングと同様に「民主化していない」技術だ。この辺の組み合わせが、戦略の妙なのだろう。