DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目

业界 来源:快科技 2025-02-19 13:50:00 阅读:402

近日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,其主要内容是关于NSA(即Natively Sparse Attention,原生稀疏注意力)

与此同时,在论文署名中,第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。

根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。

据了解,NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。

同时,NSA通过针对现代硬件的优化设计,在提高推理速度的同时、降低预训练成本,而不会牺牲性能。

它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。

DeepSeek团队表示,稀疏注意力为提高效率同时保持模型能力,提供了一个有前景的方向。

公开资料显示,NSA(即Natively Sparse Attention,原生稀疏注意力)是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

它专为长文本训练与推理设计,能够利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现。

延伸阅读
  • 美国AI公司Anthropic遭美政府猛烈制裁

    事情有点突然:美国AI公司Anthropic,被美国政府猛烈“制裁”了。当地时间本月27日,美国政府宣布将Anthropic列入“供应链风险”黑名单,这意味着任何与美国军方合作的公司如果敢用Anthr

  • Deepseek官网入口 Deepseek网页版登录地址

    Deepseek官网入口是https://www.deepseek.com,这是访问DeepSeek最主要且稳定的途径。在任意主流浏览器的地址栏中,准确输入该网址,随后按下回车键,即可迅速加载 Dee

  • 深度deepin 23.1正式发布!AI默认引擎切换至DeepSeek

    今天,深度操作系统宣布,deepin 23.1版本已正式发布。此版本聚焦于解决基础组件更新后的安装效率问题,大幅提升新用户安装体验,同时集成多项功能优化与问题修复,进一步优化系统使用。本次版本的重点改

赞助链接
在线咨询

注册即可享受安全、稳定、可信的SSL证书服务立即购买

Copyright © 2015 KnowSafe All rights reserved.

蜀ICP备20019199号-1