Deep Cogito发布4款开源混合推理模型 具备自我提升“直觉”能力
旧金山AI初创公司Deep Cogito(由谷歌前员工创立)近日发布四款新型开源大语言模型,均属于Cogito v2系列,参数规模从700亿—6710亿,采用混合授权模式向开发者与企业开放。该系列模型最大亮点是具备自我改进的推理能力,能通过内部反思优化思维路径,减少冗余推理步骤。
模型分为稠密型(Dense)和混合专家型(MoE)两类:稠密型70B和405B模型适合低延迟应用与有限GPU环境;MoE架构的109B和671B模型通过稀疏路由机制降低计算成本,尤其适用于高性能推理任务。其中671B MoE旗舰模型在推理任务中性能媲美顶尖开源模型,推理链长度比DeepSeek R1缩短60%,且推出8位量化版本以降低部署门槛。
这些模型采用“迭代蒸馏与放大”技术,将推理过程内化为模型权重,形成类似“直觉”的高效思维路径。在数学计算、法律推理等任务中表现突出,如快速解决火车行程问题、准确判断亲属关系等。值得关注的是,该公司总训练成本仅350万美元,远低于同类模型。该模型已在Hugging Face等平台上线,支持本地部署与API调用,为开源AI社区提供新的发展思路。
表情