1. LLM推論でVRAMを圧迫するKVキャッシュの見積もり方法

    [PROGRAMMING]

    LLM推論では、重みよりもKVキャッシュが先にVRAMを圧迫することがある。層数、隠れ次元、コンテキスト長、精度から必要量を概算する式と、長文や大きなバッチで増えやすい点を解説している。