时间:2026/1/23 阅读:13 关键词:DeepSeek
据媒体报道,有开发者发现 DeepSeek 在 GitHub 中更新了一系列 FlashMLA 代码,横跨 114 个文件中有 28 处都提到了未知的MODEL1大模型标识符。
该标识符与已知的现有模型DeepSeek-V3.2被并列或区别提及。根据代码上下文分析,MODEL1很可能代表一个不同于现有架构的新模型。

开发者分析认为MODEL1与V32在关键技术上存在区别,主要体现在键值KV缓存的布局、稀疏性处理方式以及对 FP8 数据格式的解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。
下一篇:华为出台式电脑啦!!