月之暗面(Moonshot AI)于2025年10月31日发布了名为‌Kimi Linear‌的新型混合线性注意力架构,旨在解决大型语言模型(LLM)在处理长序列任务时面临的计算效率和性能瓶颈‌。

核心创新:Kimi Delta Attention (KDA)

Kimi Linear的核心是‌Kimi Delta Attention (KDA)‌,一种表达能力更强的线性注意力模块‌。它通过更精细的门控机制,实现了对循环神经网络有限状态记忆的有效利用,让模型能够更智能地保留重要信息并遗忘冗余信息‌。

性能与效率突破

性能提升‌:在包括短上下文、长上下文和强化学习等多种场景的公平比较下,Kimi Linear的性能全面超越了传统的全注意力(full attention)模型‌。

效率飞跃‌:将Key-Value (KV) 缓存的使用量减少高达75%‌。

在处理百万级别的长上下文时,实现高达6倍的解码吞吐量提升‌。

技术亮点:混合层设计‌:采用3:1的混合层设计,每3层线性注意力(KDA)后加1层全注意力,既保留全局语义建模能力,又节省计算资源‌。

工程优化‌:引入分块并行计算和kernel fusion优化,减少显存I/O开销,并能无缝对接vLLM推理框架‌。

行业意义:Kimi Linear的发布标志着Transformer时代的一个重要转折点,它提供了一种“即插即用”的替代方案,在提升性能的同时显著增强了效率‌。

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部