【焦点热闻】一文读懂DeepSeek-V3.2核心技术DSA:API疯狂降价性能不减的背后

2025-09-30 11:37:52 来源: AI寒武纪

DeepSeek 刚刚发布的实验模型 DeepSeek V3.2 引入了自研的稀疏注意力机制DSA,虽然是一个小版本的更新,但API价格最高降幅高达75%,这简直太残暴了


(资料图片仅供参考)

据DS官方的公众号发布,DeepSeek-V3.2-Exp 是一个实验性的版本。是一个迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention,说明deepseek还在憋大招,而这个DSA是非常关键的,deepseek也在公众号说了,作为一个实验性的版本,DeepSeek-V3.2-Exp 虽然已经在公开评测集上得到了有效性验证,但仍然需要在用户的真实使用场景中进行范围更广、规模更大的测试,以排除在某些场景下效果欠佳的可能,诚挚希望广大用户在对比测试中提供宝贵的反馈意见,反馈链接:

https://feedback.deepseek.com/dsa

DSA首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升

那么DSA究竟是如何工作的?

DSA 的两大核心组件

DSA 的设计思想是先筛选,后计算。它将复杂的注意力计算分解为两个协同工作的核心组件:

1.闪电索引器 (Lightning Indexer):一个轻量级的筛选器。它的任务是快速扫描整个上下文,为每个查询(Query)找出最相关的少数关键信息(Key)。为了追求极致的速度,它使用了非常小的键缓存(每个 token 仅 128 维)

2.稀疏多潜在注意力 (Sparse Multi-Latent Attention, MLA):一个重量级的计算器。它只对索引器筛选出的关键信息进行完整维度的注意力计算,从而避免了对海量无关信息的无效计算。它的键缓存更大(每个 token 512 维),以保证计算的精确性

DSA 的四步工作流程

DSA 的整个计算过程可以分解为以下四个步骤:

第一步:查询与键的投影 (Query & Key Projection)

与标准 Transformer 模型类似,输入的隐藏状态(hidden states)首先会被投影到查询(Query)和键(Key)空间,并融入旋转位置编码(rotary embeddings)来保留位置信息

创新之处在于:DSA 在这一步还会从隐藏状态中为每个注意力头(per-head)额外投影出一组权重。这组权重将在后续步骤中用于重新调整注意力得分(logits),让模型可以动态地为不同头分配不同的重要性

第二步:索引器评分 (Indexer Scoring)

闪电索引器开始工作。它使用轻量级的键缓存,快速计算查询(Q)与所有键(K)的点积得分(Q·K),并进行掩码(mask)和缩放(scale)

随后,它会用第一步生成的逐头权重来乘以这些得分。这一步的目的是让模型自主学习并放大那些在当前上下文中更重要的注意力头的信号

为了最大化硬件效率,这个评分过程运行在 DeepSeek 自研的DeepGEMM上,该算子为英伟达的 Hopper 和 Blackwell 架构 GPU 提供了深度优化

第三步:Top-k 选择 (Top-k Selection)

评分完成后,索引器会为每个查询,从整个上下文的所有 token 中,选出得分最高的 2048个 token。这些被选中的 token 被认为是与当前查询最相关的部分

(一个特殊情况:如果上下文的总长度本身就小于或等于 2048,那么索引器会选中所有 token,此时 DSA 的行为等同于全注意力)

第四步:执行稀疏 MLA (Sparse MLA)

最后,轮到重量级的稀疏多潜在注意力(MLA)登场。它会获取第三步筛选出的 2048 个 token 的索引,然后调用高效的 FlashMLA 稀疏计算核(sparse kernel),只在这部分优中选优的数据上执行注意力计算

由于计算范围被大幅缩小,它可以跳过所有不相关的上下文位置,从而极大地提升了计算速度和内存效率

DSA 的设计精髓在于其完美的权衡:

精确性:通过 Top-k 筛选机制,确保了注意力计算集中在最相关的信息上,避免了在无用信息上分散注意力,从而保持了极高的精度

高速度:通过闪电索引器、专门优化的稀疏计算核(FlashMLA)以及更小的缓存设计,极大地降低了计算复杂度和内存占用,实现了闪电般的速度

正如 网友@teortaxesTex所评论的:“AGI 将是稀疏的”。DeepSeek 的 DSA 机制,用一个微型的全注意力索引器作为导航,精准地指导了后续的大规模稀疏计算,这无疑是通往高效通用人工智能的一条极具前景的技术路径。DeepSeek 在注意力机制上的不断探索和果断迭代,也展现了其强大的技术创新能力

每日热点