AIのLLMアーキテクチャの新技法「KV共有」「mHC」「圧縮アテンション」とは何か？

オープンウェイトの大規模言語モデル(LLM)がプロンプト入力による質疑応答の枠を超え自律的かつ高精度な課題解決を行う方向に進化する上で、推論モデルやエージェントワークフローは欠かすことのできない手法となっていますが、より多くのトークンを長時間保持する必要があることからKey-Valueキャッシュ(KVキャッシュ)のサイズ・メモリ帯域幅・アテンションコストといったリソースが実行上の主要な制約となります。LLM開発者はリソースのコストを削減する目的でLLMアーキテクチャに様々な工夫を取り入れてきましたが、2026年4月から5月にかけてリリースされたLLMについて注目すると長文コンテキストの効率化に非常に重点を置いている傾向にある、とLLMリサーチエンジニアの Sebastian Raschka氏は指摘しています。

続きを読む…

関連記事