フランスのAI分野のスタートアップMistral AIが発表したLLM「Mixtral-8x7B」はパラメータが47Bに及ぶ規模ながら13Bのモデルと同等の速度、コストで動作させられ、推論性能は「GPT3.5」を超えている。この革新を可能にしたのは1991年に提案された古い概念です。
この記事は会員限定です。会員登録すると全てご覧いただけます。
AIやデータ分析の分野では、毎日のように新しい技術やサービスが登場している。その中にはビジネスに役立つものも、根底をひっくり返すほどのものも存在する。本連載では、ITサービス企業・日本TCSの「AIラボ」で所長を務める三澤瑠花氏が、データ分析や生成AIの分野で注目されている最新論文や企業発表をビジネス視点から紹介する。
「LLMはパラメーター数が多いほどいい」──そう思い込んでいた常識が覆されようとしています。
2023年末、フランスのAI分野のスタートアップMistral AIが発表したLLM「Mixtral-8x7B」がAI業界に新たなパラダイムをもたらしました。云わば、必要なときに必要な専門家を起動するようなアーキテクチャを採用することで、パラメータは47B(470億)に及ぶ規模ながら13B(130億)のモデルと同等の速度、コストで動作させられます。推論性能は「GPT3.5」(推定3550億パラメータ)を超えました。
この革新を可能にしたのは「Mixture of Experts」(MoE)と呼ばれる技術です。面白いことに、この技術は1991年に提案された古い概念です。MixtralはこれをLLMに応用することでAIの可能性を切り開きました。
この技術はどうしてこのような驚異的なパフォーマンスを実現でき、なぜ古い技術がブレークスルーを起こせたのでしょうか。そして何より、この技術は企業のAI戦略をどのように変えていくのでしょうか。
MoEの特徴は「専門家」の活用方法にあります。Mixtral-8x7Bにはタスクを振り分ける「ルーター」と8つの「エキスパートモデル」があり、推論時にはルーターが適したモデル2つを選んで推論させます。これにより実質的に13Bのパラメーターで推論できます。このような切り替えが従来のモノリシックなモデルでは実現が困難でした。
Mixtral-8x7Bの性能は数字が物語っています。専門知識を問うベンチマーク「MMUL」では70.6%、数学的推論を評価する「GSM8K」では74.4%を記録しました。これらは、はるかに大規模なモデルと比肩する、あるいはそれを上回る結果です。
実用面での機能も充実しています。また、英語、フランス語、イタリア語、ドイツ語、スペイン語の5言語に対応しており、各言語でほぼ同等の高い性能を示した上、長文の分析や生成にも強いです。
システム設計の観点からも、誰もが使いやすいように改善が進められています。Mistral AIはMoEモデルを効率的に動かすためのオープンソースソフトウェア(vLLM)の開発に協力しています。これにより、クラウド環境での展開が容易になり、特に中小規模の企業でもMoEベースのモデルを活用しやすくなっています。
ただし、複数のコンピュータで処理を分担する際の通信の遅れや、大量のデータを効率的に管理する方法など、技術面での改善の余地はまだあります。
企業がMoEモデルを活用する際には段階的なアプローチが推奨されます。まずはLLMの運用コストがボトルネックとなっている領域や、特定ドメインでの応用が求められる分野から検討を始めるのが賢明でしょう。実証実験では、性能評価と同時にシステム統合の実現性も確認する必要があります。
特に注目すべきは、前回紹介したBitNetとの組み合わせの可能性です。BitNetによるパラメータ圧縮とMoEの効率的な専門家選択を組み合わせることでさらなる効率化が期待できます。
今後の展望として、MoEはさらなる発展が期待されています。通信オーバーヘッドの削減やメモリ使用効率の向上といったシステム最適化に加え、マルチモーダルタスクへの展開も進んでいます。
こうしたMoEの採用により、LLMの利用シナリオは大きく広がりつつあります。特に、計算リソースの制約が導入障壁となっている領域での活用が期待されます。企業は、この技術革新がもたらす機会を見極め、自社のAI戦略に組み込んでいくことが推奨されます。
Copyright © ITmedia, Inc. All Rights Reserved.