皆さんこんにちは Acroquestのデータサイエンスチーム「YAMALEX」のチームリーダ、@tereka114です。 YAMALEXチームでは、コンペティションへの参加や自社製品開発、技術研究などに日々取り組んでいます。 大規模言語モデル(通称:LLM)は近年、非常に注目される技術となりました。 ただ、7Bや13Bといった巨大モデルのパラメータは推論時間も長時間で計算時間の面からも運用が非常に難しいです。 しかし、vLLMを使えば、高速化できます。本記事では、推論をどこまで高速化できるのかを検討したいと思います。 ※本記事はLLM・LLM活用のAdvent Calendar 24日目の記事です。 qiita.com vLLMとは? vLLMによる高速化実践 vLLMを利用しない場合 vLLMを利用する vLLMに加えてAWQを利用して量子化する Auto Prefix Caching