BlockBeats 消息,1 月 21 日,据量子位报道,DeepSeek-R1 發布一週年之際對新模型「MODEL1」進行了曝光。DeepSeek 在 GitHub 更新 FlashMLA 代碼,橫跨 114 個文件中有 28 處提到 MODEL1,與 V32 作為不同的模型出現。已知 V32 是 DeepSeek-V3.2,MODEL1 很可能是新的架構。代碼中的具體差異體現在 KV 緩存佈局、稀疏性處理和 FP8 解碼方面,在記憶體優化上有多處不同。