尊龙人生|校霸被校草强迫H|人工智能也要考默写?Deepseek v4:百万上下

发布时间:2026-05-20 22:12:59 文章来源:尊龙凯时 -人生就是博!厨卫科技有限公司

  Z6尊龙官网Z6尊龙官网✿◈★,尊龙凯时 - 人生就是搏!✿◈★,尊龙凯时人生就是博z6com✿◈★,国际大事当你在看一本小说的时候✿◈★,是否会发现自己经常看到后面忘了前面?当你和朋友从早聊到晚✿◈★,是否会发现已经不记得最开始的话题?但最近更新的DeepSeek-V4不会忘记✿◈★。

  就在大前天✿◈★,全新系列模型DeepSeek-V4堂堂上线并同步开源✿◈★。这一全新版本最厉害的能力之一✿◈★,就是它拥有超长的上下文窗口✿◈★,可以记住并理解长达百万字符的内容(约等于十本《哈利·波特》)✿◈★。

  这意味着它可以读完一整套学术论文集再回答你的问题✿◈★,也可以记住几十轮长对话中的每一个细节✿◈★,而不是一边聊天一边忘记前面的对话✿◈★。

  这听起来理所当然✿◈★,但对人工智能来说✿◈★,这其实是一个非常难的问题✿◈★。今天尊龙人生✿◈★,我们就从最基础的地方讲起✿◈★,让你明白DeepSeek-V4的百万上下文到底有多厉害✿◈★。

  2017 年✿◈★,Google发表了一篇名为《Attention is All You Need》(注意力就是你所需要的一切)的论文✿◈★。这标题小编觉得非常欢愉啊✿◈★,毕竟捏他了披头士的名曲《All You Need Is Love》✿◈★,还引得后来者争相模仿这一标题范式✿◈★。

  这篇论文提出了注意力机制✿◈★,彻底改变了人工智能处理语言的方式✿◈★。如今所有的大语言模型✿◈★,包括 ChatGPT✿◈★、DeepSeek✿◈★,都是建立在这个机制之上的✿◈★。

  注意力机制的核心是✿◈★:Q(Query✿◈★,查询)✿◈★、K(Key✿◈★,标签)✿◈★、V(Value✿◈★,含义)三个矩阵✿◈★。

  V(Value)✿◈★,是这些概念标签背后对应的具体含义✿◈★,比如“动物”对应的V里藏着关于猫✿◈★、狗✿◈★、大象的各种知识✿◈★。

  Q(Query)✿◈★,你想要查找的内容✿◈★,模型拿着这个查询Q去和所有的标签K比较相似度✿◈★,找到最匹配的标签✿◈★,然后按照匹配程度✿◈★,把对应的含义V加权平均起来✿◈★,得到最终的理解结果✿◈★。

  第一步✿◈★:算相似度✿◈★。Q·KT就是让查询Q和每一个标签K做“点积”——两个大小固定的向量方向越一致✿◈★,点积越大✿◈★,说明这个标签K越匹配当前的查询Q✿◈★。

  第二步✿◈★:归一化概率✿◈★。原始相似度分数可能特别大或特别小✿◈★,直接用来加权不稳定✿◈★,所以先除根号下dk✿◈★,(dk是向量维度✿◈★,开根号是为了防止数值溢出)✿◈★,再对其使用softmax函数✿◈★。softmax本质上是用自然常数e的指数来放大差距✿◈★,再归一化成概率✿◈★。它能让重要的东西被大幅突出✿◈★,不重要的被压得很小✿◈★,模型的“注意力”因此能被聚焦✿◈★。

  第三步✿◈★:加权求和✿◈★。用第二步得到的概率分布✿◈★,对所有的含义V做加权平均✿◈★:权重越高的含义V✿◈★,在最终结果里占比越大✿◈★。这就是“注意力”的核心✿◈★:让模型把注意力集中在最相关的内容上✿◈★。

  刚刚读到这里的小伙伴可能会有误解校霸被校草强迫H✿◈★,那就是大模型是每次对话是生成一个查询Q去查阅一个固定的标签含义KV表✿◈★,这样做确实理论上可行✿◈★,但是得到的模型会很呆板✿◈★:模型只能处理固定的内容✿◈★,一旦超出了预设KV表的范围✿◈★,它就只能两眼一抹黑了✿◈★。实际的大模型使用的是“多头自注意力机制”✿◈★,看起来好像很复杂校霸被校草强迫H✿◈★,别急✿◈★,我们一个一个来✿◈★。

  在自注意力机制里✿◈★,Q✿◈★、K✿◈★、V 全部来自同一段输入✿◈★,只是各自经过了一个不同的线性变换✿◈★,相当于从不同角度看同一件事✿◈★,分别去回答如下的问题✿◈★:

  我们考虑一个非常简单的例子✿◈★:“很重”✿◈★、“重新”两个词语中的“重”尊龙人生✿◈★,虽然这两个字都是一模一样的✿◈★,但是在自注意力机制里✿◈★,模型可以做到第一个“重”的标签K标记这是质量✿◈★、含义V表明这个很大✿◈★,查询Q去问这个对应什么东西✿◈★;而第二个“重”的标签K则和次数有关✿◈★,含义V表明至少是第二次✿◈★,查询Q会去问这个和什么事情相关✿◈★。

  我们会发现✿◈★,不同于静态的QKV✿◈★,动态生成QKV的好处在于✿◈★:模型能根据实际语境来给一个词打上更合适的标签K✿◈★,赋予更合适的含义V✿◈★,以及做出更准确的查询Q✿◈★。如此模型便可以在不同的场景中都能准确理解含义✿◈★、做出贴切的回答✿◈★。

  多头注意力机制则着重于解答另一个问题✿◈★:原版的注意力机制确实可以实现一个词多个标签K多个含义V✿◈★,但查询Q只有一个✿◈★,在一些多义词或者有歧义的场景面前多少有些不够看了✿◈★。

  比如在一个经典的“逗老外”短句“一行行行行行”中✿◈★,连着出现了五个“行”✿◈★,对于其中每一个“行”如何理解✿◈★,显然一个查询Q是远远不够用的✿◈★,因为“行”有两个读音和两套含义✿◈★:háng(行列校霸被校草强迫H✿◈★、行业)和xíng(行走✿◈★、可以)校霸被校草强迫H✿◈★,如果只有一个查询Q✿◈★,它只能问一个维度的问题✿◈★,要是问到了“这个字是动作吗?”——答案是都不是✿◈★,所有“行”最后的含义V都是一样的尊龙人生✿◈★,整个句子都乱套了✿◈★。多头注意力相当于给每个词配了多个查询Q✿◈★,每个查询Q负责一个不同的关注角度✿◈★:“这个是动作么”✿◈★、“这个是名词么”✿◈★、“这个是形容词么”✿◈★,哪怕有些查询Q确实无法分辨✿◈★,模型最终还是可以分清每一个“行”究竟是什么✿◈★。

  答案也非常简单✿◈★,我们可以通过同时跑h组独立的注意力(称为h个 attention head注意力头)✿◈★,每个头各自学习不同的Q✿◈★、K✿◈★、V矩阵✿◈★,能够从不同维度来理解同一段输入✿◈★。最后把h个头的结果拼接起来✿◈★,得到更全面的表示✿◈★。这就像是同时委托了32个侦探✿◈★,每人从一个不同线索探案(作案时间✿◈★,作案方法✿◈★,人际关系……)✿◈★,最后汇总成一份全面的报告✿◈★。

  以上就是第一代多头注意力机制的实现方法✿◈★,初代GPT ✿◈★、BERT都用的是这套方案✿◈★。但是这种方法存在一个问题✿◈★,每个头都有独立的标签K✿◈★、含义V✿◈★,使用时必须把h份KV全部缓存在显存里✿◈★,显存开销随头数等比增加✿◈★,用起来实在是太肉痛了(如果你正好读了下一部分的内容就会发现✿◈★,随着模型处理文字数量的增加✿◈★,这些KV也会进一步线性增长✿◈★,吃掉你更多宝贵的显存✿◈★,这下更肉痛了✿◈★!)✿◈★。

  所以✿◈★,现在第二代多头注意力机制GQA(分组查询注意力✿◈★,Grouped Query Attention)不再让每个查询Q都有独立对应的标签K和含义V✿◈★,而是让多个查询Q共享同一对标签K和含义V✿◈★。比如我们原来有32个注意力头✿◈★,现在我们把32个查询Q分成8组✿◈★,每组4个查询Q共用同一对KV✿◈★。这样KV的存储量直接降为原来的1/4✿◈★,但模型的表达能力损失不大✿◈★,因为每个查询Q还是独立提问✿◈★,只是查的是同一份档案✿◈★。就如同32个侦探仍然各自独立分析问题✿◈★,但情报档案室从32份缩减为8份✿◈★,每4个侦探共享一份资料✿◈★。这节省了大量档案室空间✿◈★,侦探们的分析视角却没什么损失✿◈★。GQA 被 LLaMA 2/3✿◈★、Mistral✿◈★、Gemma 等模型广泛采用✿◈★,是当前工程实践中显存与性能平衡的主流方案✿◈★。

  现在我们有了注意力机制✿◈★,可以理解单个词了✿◈★。但语言不是孤立的词语堆砌✿◈★,而是有前后联系的句子✿◈★、段落✿◈★、篇章✿◈★。

  模型处理一个新词的时候✿◈★,不仅要理解这个词本身✿◈★,还要理解它和前面所有词的关系✿◈★。新词的查询Q除了和自己的标签K比较✿◈★,还要去和所有之前读过的词的标签K比较一遍✿◈★。这样✿◈★,模型就能“看到”整个已读内容的全貌✿◈★,理解前后的关联✿◈★。

  举个小学一年级语文考试里的经典题型✿◈★:“它”在文中指代什么?模型要理解“它”✿◈★,就得让“它”的查询Q去和前面所有词的标签K做比较✿◈★,看看哪个名词的标签K和“它”最匹配✿◈★,找到之后✿◈★,就可以尽可能地继承那个名词的含义V✿◈★,从而正确理解“它”代指的是谁✿◈★。

  第一✿◈★,存储压力大✿◈★。模型必须把从对话开始的所有KV都存在显存里✿◈★。上下文越长✿◈★,要存的KV越多✿◈★,显存很快就撑不住了✿◈★。

  第二✿◈★,计算量爆炸✿◈★。每个新的查询Q都要和所有之前的标签K做比较✿◈★。如果上下文长度是n✿◈★,每处理一个新词就要做n次比较✿◈★,整个处理过程的总计算量就和n2成正比——这是个等差数列求和✿◈★,幼儿园就学过✿◈★,增长非常快✿◈★。上下文翻倍✿◈★,计算量会变成原来的四倍✿◈★。

  第三✿◈★,重要信息被淹没✿◈★。每个查询Q最终得到的是所有含义V的加权平均✿◈★,如果上下文太长✿◈★,大量不太重要的含义V会“稀释”掉线个线索里寻找真正凶手的印迹✿◈★,就可能被无关线索淹没✿◈★。

  为了解决上下文过长的问题✿◈★,研究者们想出了一个办法——压缩稀疏注意力(CSA✿◈★,Compressed Sparse Attention)✿◈★。老规矩✿◈★,我们挨个看前面的前缀是啥意思✿◈★。

  首先尊龙人生✿◈★,压缩✿◈★。把一系列前后相连的标签含义KV分组打包✿◈★,合并成一个更紧凑的KV✿◈★,丢掉没什么用的细节✿◈★。就像你读完一章书校霸被校草强迫H✿◈★,不用记住每一句话尊龙人生✿◈★,只需要记住这一章大概讲了什么✿◈★。压缩之后✿◈★,存储的KV数量大幅减少✿◈★,计算量自然也降下来了✿◈★。

  其次✿◈★,稀疏✿◈★。每次新的查询Q来了✿◈★,不让它和所有的标签K都比较✿◈★,而是先用一个小型筛选器✿◈★,挑出它认为最重要的若干个KV✿◈★,只让这些KV参与计算✿◈★。就像考试前✿◈★,老师会划重点一样✿◈★,我们只要复习最重要的知识点就好✿◈★。与此同时✿◈★,这个筛选器通常还保留一个滑动窗口✿◈★,让最近的一些KV更容易被选中✿◈★。

  利用CSA✿◈★,存储压力变小了✿◈★,计算量也不再随上下文长度的平方增长✿◈★,而且理论上能突出核心信息✿◈★,避免重要内容被淹没✿◈★。但它也带来了新的问题✿◈★,即注意力涣散✿◈★。

  首先✿◈★,它会遗忘重要的事✿◈★。如果上下文太长✿◈★,要点太多✿◈★,超过了筛选器的截断上限✿◈★,后续的查询Q就永远看不到那些被排在上限之外的标签内容KV了✿◈★。

  第二✿◈★,可能出现前言不搭后语的现象✿◈★。一旦超出了滑动窗口(这个通常不会太大✿◈★,一般是数百个词)✿◈★,当上下文太大时✿◈★,你又正好和模型进行一段比较长的交流✿◈★,那你刚刚和模型说的话就可能入不了筛选器的法眼✿◈★,导致模型前后两段前言不搭后语✿◈★。

  本次DeepSeek-V4的核心架构创新✿◈★,正是把两种不同“压缩力度”的注意力机制混合起来用✿◈★:CSA(压缩稀疏注意力)+ HCA(重度压缩注意力✿◈★,Heavily Compressed Attention)✿◈★。

  CSA(压缩稀疏注意力)是我们刚刚谈到的老朋友了✿◈★,在 DeepSeek-V4 中✿◈★,CSA 把每32个连续的的标签含义KV打包压缩成1个输入✿◈★。压缩之后✿◈★,再用一个轻量级的“闪电筛选器”从中挑出最相关的若干个KV✿◈★,让查询Q只关注这些被选中的部分✿◈★。此外✿◈★,CSA 还保留了一个滑动窗口✿◈★,把最近几个词的原始KV原封不动地留下来✿◈★,保证模型对刚说过的话仍然有清晰的记忆✿◈★。

  这就像是在读一本书时校霸被校草强迫H✿◈★,每 32 页写一段总结(压缩)✿◈★,做题时从所有总结里找最相关的几段(稀疏)✿◈★,同时把当前翻开的那一页原文留着随时查(滑动窗口)✿◈★。

  CSA 的核心架构✿◈★,它首先对KV进行压缩✿◈★,然后筛选最重要的一些KV✿◈★,此外还会保留最近的一些原始KV✿◈★。 图源✿◈★:DeepSeek-V4 技术报告(参考文献[3])

  HCA(重度压缩注意力)则更加剑走偏锋✿◈★,它嫌弃CSA的压缩力度还是太保守了✿◈★:其把每128个相邻的标签含义KV都压缩成1个输入✿◈★,是CSA压缩率的四倍✿◈★。代价是细节损失更大✿◈★,但好处是压缩后剩下的输入数量已经少得可以不做稀疏筛选了✿◈★,直接让Q看到所有压缩后的输入✿◈★,彻底避免了筛选器漏掉重要信息的问题✿◈★。

  这就像是把一整部小说的每 128 页浓缩成一句话(高度摘要)✿◈★,虽然细节基本都没了✿◈★,但因为总结的数量足够少✿◈★,可以把每一条都看一遍✿◈★,不会因为筛选器而遗漏✿◈★。

  HCA的核心架构✿◈★,它使用了更激进的压缩✿◈★,并且不对压缩后的内容进行筛选✿◈★,此外✿◈★,HCA同样保留了一个能看见最近原始KV输入的滑动窗口✿◈★。 图源✿◈★:DeepSeek-V4 技术报告(参考文献[3])

  DeepSeek-V4在模型内部将CSA层和HCA层交替排列校霸被校草强迫H✿◈★,CSA层负责近中距离的精细依赖✿◈★,保留更多细节✿◈★,带稀疏筛选✿◈★;HCA层负责超远距离的模糊记忆✿◈★,极度压缩✿◈★,全量关注✿◈★。两者配合✿◈★,让模型既不会忘记刚才说的话✿◈★,也不会对几十万字之前的内容完全没有印象✿◈★。

  其实✿◈★,这种混合注意力机制✿◈★,和人类的记忆方式惊人地相似✿◈★。短期记忆对应CSA的滑动窗口✿◈★,就如同你刚才说的话✿◈★,我记得清清楚楚✿◈★;中期记忆对应CSA的压缩+筛选✿◈★:上个月讨论过某个话题✿◈★,大概知道是什么尊龙人生✿◈★,但细节记不太清了✿◈★,只有印象最深的几点还记得✿◈★;长期记忆对应HCA的重度压缩✿◈★:很久之前发生的事✿◈★,已经浓缩成了几个模糊的印象✿◈★,细节基本忘光校霸被校草强迫H✿◈★,但大概发生过什么还是知道的✿◈★。

  DeepSeek-V4的混合注意力✿◈★,正是在模拟这种分层的记忆机制✿◈★。用工程的方式尊龙人生✿◈★,让机器拥有接近人类的记忆结构✿◈★。

  DeepSeek-V4 凭借CSA + HCA混合注意力架构✿◈★,真正实现了原生百万上下文✿◈★。在长上下文任务的多项评测中✿◈★,DeepSeek V4-Pro-Max超越了 Gemini-3.1-Pro✿◈★,成为目前开源模型中长上下文能力最强的选手✿◈★。

  当然✿◈★,再好的评测成绩✿◈★,也比不上大家用起来的感受✿◈★。现在✿◈★,DeepSeek-V4已经向公众开放✿◈★,欢迎大家前去试用✿◈★,感受它的厉害之处✿◈★。也欢迎大家在评论区告诉小编✿◈★,新版本的使用感想如何?哪里让你惊喜✿◈★,哪里又需要改善?

COPYRIGHT © 2021 尊龙凯时 -人生就是博!卫浴 ALL RIGHTS RESERVED 尊龙凯时 -人生就是博! 尊龙凯时