
DeepSeek发布最新NSA技术论文!创始人梁文锋参与引人注目
声明:该文章来自(快科技)版权由原作者所有,K2OS渲染引擎提供网页加速服务。
近日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,其主要内容是关于NSA(即Natively Sparse Attention,原生稀疏注意力)。
与此同时,在论文署名中,第一作者袁景阳是在DeepSeek实习期间完成的这项研究。让人感到惊喜和意外的是,据论文署名排名,DeepSeek创始人梁文锋现身论文著作者之中,在作者排名中位列倒数第二。
根据论文摘要,DeepSeek团队认为,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。
据了解,NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。
同时,NSA通过针对现代硬件的优化设计,在提高推理速度的同时、降低预训练成本,而不会牺牲性能。
它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。
DeepSeek团队表示,稀疏注意力为提高效率同时保持模型能力,提供了一个有前景的方向。
公开资料显示,NSA(即Natively Sparse Attention,原生稀疏注意力)是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。
它专为长文本训练与推理设计,能够利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现。
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
- 1 凝聚发展梦想 引领世代友好 7904514
- 2 那尔那茜涉嫌高考报名材料造假 7808997
- 3 南京这次成真“南哥”了 7713364
- 4 从5月份数据看消费市场新亮点 7616899
- 5 那尔那茜高考文化课449分 7522287
- 6 曝哈梅内伊藏身地堡 已提名接班人 7428146
- 7 63岁马景涛直播时晕倒 7328958
- 8 伊朗核设施遭“重大破坏”画面公开 7232235
- 9 汪峰牵手宁静 森林北评论区沦陷 7140927
- 10 伊朗街头大爷嗑着瓜子看拦截无人机 7047374