(c)MONEYTODAY 【03月08日 KOREA WAVE】米オープンAI社は2日(現地時間)、音声テキスト変換モデルの「ウィスパー」(Whisper)APIを公開した。人工知能(AI)が人の言葉を理解し、適切な答えを出せるようAIコールセンターが一歩近づいた形だ。 オープンAIが昨年9月に公開したウィスパーは、ウェブで収集した68万時間の多言語やマルチタスクデータで学習した自動音声認識(ASR)システムだ。様々な言語の音声を認識したり、これを英語に翻訳してくれる。当時オープンAIは「大規模なデータセットをベースにイントネーションや周辺の騒音に対する堅牢性(robustness)が向上した。データセットの3分の1は非英語データだ」と説明した。 ウィスパーAPIは毎分0.006ドルで、さまざまなファイル形式(m4a・mp3・mp4・mpeg・mpga・wav・webm)に適用できる。オ