美团于2025年9月1日正式发布并开源了其首个大规模语言模型LongCat-Flash-Chat。这款模型因其独特的架构和出色的效率表现,引起了业界广泛关注。
以下是关于LongCat-Flash-Chat的主要信息梳理:
特性维度 | 具体信息 |
---|---|
模型名称 | LongCat-Flash-Chat |
发布/开源时间 | 2025年9月1日 |
模型架构 | 混合专家模型(Mixture-of-Experts, MoE) |
总参数量 | 5600亿(560B) |
激活参数量 | 18.6B-31.3B(平均27B) |
关键创新 | 零计算专家机制、快捷连接架构(ScMoE) |
突出特点 | 极高的推理速度(声称比DeepSeek-V3快50%)、在智能体(Agent)任务中表现优异 |
开源地址 | Hugging Face、GitHub |
核心创新与技术亮点
LongCat-Flash-Chat的核心竞争力主要源于其两项创新的架构设计:
零计算专家(Zero-Computation Experts)机制:模型能动态分配算力资源。对于简单的token(如常见词汇),直接原样输出,不消耗计算资源;对于复杂的token(如需要逻辑推理的部分),则调用完整的计算资源。这种“好钢用在刀刃上”的方式,显著提升了计算效率。
快捷连接架构(Shortcut-Connected MoE, ScMoE):通过在层与层之间引入跨层捷径(Shortcut),使得稠密计算与MoE层的通信能够并行执行。这大大减少了传统的通信等待时间,是实现超高推理速度的关键。
性能表现
根据美团官方信息和技术报告:
推理速度:在H800显卡上实现了超过100 tokens/秒的生成速度,理论每token输出时间相比DeepSeek-V3降低近50%。
综合能力:在通用领域知识、编程等场景的能力与头部模型(如DeepSeek-V3.1、GPT-4.1等)相比可能还存在一定差距,但在智能体(Agentic)任务(如工具调用、指令遵循)中表现突出,达到了开源模型的先进(SOTA)水准。
成本控制:高效的推理也带来了低成本优势,输出成本可低至5元/百万token。
应用场景
LongCat-Flash-Chat的高速度和在智能体任务上的优异表现,使其非常适合需要快速响应和复杂交互的应用场景,例如:
在线客服与虚拟助手:能够几乎实时地回答用户问题,提升用户体验。
美团内部业务集成:可嵌入外卖、到店等本地生活场景,用于智能决策、营销策略生成等。
开源与获取
美团已将LongCat-Flash-Chat在Hugging Face和GitHub平台开源,任何开发者都可以下载、使用和研究这个模型。
Hugging Face地址:huggingface.co/meituan-longcat
GitHub地址:github.com/meituan-longcat/LongCat-Flash-Chat
总结
美团LongCat-Flash-Chat的发布和开源,不仅是美团AI技术实力的一次重要展示6,也为开源社区提供了一个在推理速度和处理智能体任务方面具有显著优势的新选择。它通过创新的架构设计,在保证模型性能的同时,极大地提升了效率并降低了成本。
需要注意的是,模型在通用知识和编程等场景的能力与顶级模型相比可能尚有差距,且目前暂不支持图像等多模态功能。但其在特定领域的优势以及开源策略,无疑会对AI开发者社区和行业竞争格局产生影响。
发表评论 取消回复