年末だし、今年の技術まとめを主観的に書いておきますね。
動画生成AIはじまる
2月にOpenAIのSoraが発表されて、動画生成AIが盛り上がりはじめました。
12月に一般公開されましたが、それまでにも複数の動画AIモデルが発表されて、動画生成AIの実用化がはじまった年になったように思います。
とはいえ、なんだか微妙だなーという感じ。
デモは、ベストofベストだったなーと。
生成できそうな動画を生成するのが大事そう。
エージェントによる推論スケーリング
OpenAIのo1が9月に発表され、推論に計算力を使うことでもスケーリングすることが示されました。
思考方針を管理するモデルが、内部で実際に思考を行うモデルに推論を行わせて、その結果をまとめて表示するような仕組みです。そうやって、推論時にコストをかけることでも性能が出せるようになっています。
論理的な問題に強さがある一方で、日常的な用途では5月に発表された4oが必要十分な性能を出しており、なかなか使い所が難しいなという気がしています。
小規模言語モデル
昨年12月のMicrosoftのPhi-2や今年2月のGoogleのGemmaから注目されはじめた小規模な言語モデルが、性能もあがって実用的になってきました。
今月発表されたSarashina2.1-1Bでは、1Bという小さなモデルであるにもかかわらず、完全なJavaコードの生成ができています。
https://huggingface.co/sbintuitions/sarashina2.1-1b
もちろん、ちゃんとコードを書かせるという用途に使えるほどではないけど、モデルサイズを考えるとすごい。もう少しモデルサイズを大きくすれば十分な性能が出そうでもある。
マイクロソフトは小さな言語モデルをSLMと呼んでいますが、同じ技術をサイズで用語をわけるというのは筋が悪いなと思っています。AI Insideは47BのモデルをSLMと呼んだりしてますが、さすがに高性能なゲーム用GPUでも動かせないモデルはSLMという言葉を使う意図から外れてるんではと思ったり。
WebAssemblyの活性化
8月にSafariでもWebAssembly(WASM)にGCが組み込まれたプレビューが出たことで、WASMの利用が本格化してきたように思います。
https://www.publickey1.jp/blog/24/safariwasmgcsafari_technology_preview_202wasmgc.html
LLVMを使う言語だけではなく、JavaScript/TypeScriptやPyhotn、Flutter/DartでもWASMに対応してきています。
JavaでもCheerpJ 3.0がWASM対応で実装されなおしています。また、このCheerpJを転用してx86コードが動くようにもなっていますね。
ARM版Windowsはじまった?
QualcommのSnapdragon X Elite/Plusを搭載したWindowsマシンが6月に発表されリリースされました。性能も遜色ないものになっているようです。
また、x86エミュレータも割と本気を出してきたようで、WindowsでもARMが選択肢になってきました。
同時に、Copilot+PCやAI PCといって、最低メモリ容量を16GBとしたことで、今後は16GBのメモリを載せたモデルが標準になってくるというのも、うれしいかもしれません。
雑感
LLMの単体モデルの高性能化は4oくらいで伸び悩み始めたような感じがあります。学習データの枯渇や計算リソースの制限のような学習側の問題だけではなく、実用として4o程度の性能があれば十分になってきて、これ以上のモデルを開発する経済合理性も下がってきているような。
そこでエージェントを使うようなo1が出たり、より小さなモデルで性能を出すという方向にシフトしている感じがします。
また、チャットUIで直接LLMと対話する場合の性能は十分になってきたというか、これ以上を求める場合のギャップを乗り越えるのが難しくなってきていて、今後はたとえばGoogleのAstraやOpenAIのAdvanced Voice Modeように状況を見ながらサポートをしてくれるようなものなど、アプリケーションとの統合が大切になってくるように思います。
AI領域以外では、WebAssemblyが領域を広めるということの他に、そろそろRISC-VがWebサーバーなどの分野でも話が聞こえてくるかもな、というところかな。