技术

美团LongCat 2.0用国产芯片超越GPT-5.5,开源编程模型震撼AI圈

Susan Hill

LongCat 2.0拥有1.6万亿参数,支持100万token上下文窗口,并在衡量真实软件工程能力的主流基准测试中超越了OpenAI的GPT-5.5。这一模型由美团开发——一家在中国以外主要被视为外卖应用的企业。

模型在SWE-bench Pro上获得59.5分,GPT-5.5为58.6分。分差看似微小,但这一系统的训练方式才是成就的关键所在。美团使用超过5万张国产AI加速卡训练LongCat 2.0,未动用任何英伟达硬件——自2022年以来,中国已无法大量进口英伟达芯片。芯片厂商尚未官方公布,但业界普遍猜测为华为昇腾910B系列。若属实,这将是华为芯片训练的模型首次在公开基准测试中达到前沿水准。

LongCat 2.0采用混合专家(MoE)架构:每次查询仅激活330亿至560亿参数,推理速度快,无需昂贵的企业级硬件。百万token上下文窗口支持在单次会话中加载完整代码库。在SWE-bench Multilingual上得分77.3;在Terminal-Bench(测试真实Unix环境导航能力)上得分70.8。

正式发布前,该模型以代号「Owl Alpha」在OpenRouter悄然运行约两个月。使用者注意到其异常出色的代码能力,却不知其来源。美团在发布后确认,Owl Alpha正是LongCat 2.0的早期评估阶段。

MIT许可证只讲了故事的一部分。尽管这是最开放的开源许可证之一,模型权重目前仍未公开——GitHub仓库和Hugging Face页面均显示「即将发布」。目前LongCat 2.0仅可通过托管API访问,无法下载、微调或本地部署。

美团每日处理逾5000万份餐饮订单,并在对外发布前悄然构建了内部语言模型「知机」(Zhichi)。LongCat 2.0是美团首款公开模型,也是目前开源授权下性能最强的代码系统之一。

权重公开后,LongCat 2.0将直接与Meta的Llama 4.1和DeepSeek-V4 Pro角逐最强可下载开源代码模型的地位。至于哪款国产芯片支撑了这些成绩,这一问题的答案将远远超出AI领域的范畴。

标签: , , , , ,

讨论

有 0 条评论。