Appleは、NVIDIAとの共同研究による大規模言語モデル(LLM)の推論処理高速化についての研究成果を2024年12月18日に発表しました。Appleが独自に開発した「ReDrafter」技術をNVIDIAのGPU向け推論フレームワーク「TensorRT-LLM」に統合することで、処理速度を最大2.7倍に向上させることに成功し、消費電力とGPU使用量の削減も実現したとのことです。 Accelerating LLM Inference on NVIDIA GPUs with ReDrafter - Apple Machine Learning Research https://machinelearning.apple.com/research/redrafter-nvidia-tensorrt-llm NVIDIA TensorRT-LLM Now Supports Recurrent