美团正式发布并开源了其首个大规模语言模型LongCat-Flash-Chat

21 阅读 0 评论 0 点赞

美团于2025年9月1日正式发布并开源了其首个大规模语言模型LongCat-Flash-Chat。这款模型因其独特的架构和出色的效率表现，引起了业界广泛关注。

以下是关于LongCat-Flash-Chat的主要信息梳理：

特性维度	具体信息
模型名称	LongCat-Flash-Chat
发布/开源时间	2025年9月1日
模型架构	混合专家模型（Mixture-of-Experts, MoE）
总参数量	5600亿（560B）
激活参数量	18.6B-31.3B（平均27B）
关键创新	零计算专家机制、快捷连接架构（ScMoE）
突出特点	极高的推理速度（声称比DeepSeek-V3快50%）、在智能体（Agent）任务中表现优异
开源地址	Hugging Face、GitHub

LongCat-Flash-Chat的核心竞争力主要源于其两项创新的架构设计：

零计算专家（Zero-Computation Experts）机制：模型能动态分配算力资源。对于简单的token（如常见词汇），直接原样输出，不消耗计算资源；对于复杂的token（如需要逻辑推理的部分），则调用完整的计算资源。这种“好钢用在刀刃上”的方式，显著提升了计算效率。
快捷连接架构（Shortcut-Connected MoE, ScMoE）：通过在层与层之间引入跨层捷径（Shortcut），使得稠密计算与MoE层的通信能够并行执行。这大大减少了传统的通信等待时间，是实现超高推理速度的关键。

根据美团官方信息和技术报告：

推理速度：在H800显卡上实现了超过100 tokens/秒的生成速度，理论每token输出时间相比DeepSeek-V3降低近50%。
综合能力：在通用领域知识、编程等场景的能力与头部模型（如DeepSeek-V3.1、GPT-4.1等）相比可能还存在一定差距，但在智能体（Agentic）任务（如工具调用、指令遵循）中表现突出，达到了开源模型的先进（SOTA）水准。
成本控制：高效的推理也带来了低成本优势，输出成本可低至5元/百万token。

LongCat-Flash-Chat的高速度和在智能体任务上的优异表现，使其非常适合需要快速响应和复杂交互的应用场景，例如：

美团已将LongCat-Flash-Chat在Hugging Face和GitHub平台开源，任何开发者都可以下载、使用和研究这个模型。

美团LongCat-Flash-Chat的发布和开源，不仅是美团AI技术实力的一次重要展示6，也为开源社区提供了一个在推理速度和处理智能体任务方面具有显著优势的新选择。它通过创新的架构设计，在保证模型性能的同时，极大地提升了效率并降低了成本。

需要注意的是，模型在通用知识和编程等场景的能力与顶级模型相比可能尚有差距，且目前暂不支持图像等多模态功能。但其在特定领域的优势以及开源策略，无疑会对AI开发者社区和行业竞争格局产生影响。