微信公众号
微信视频号
抖音号
小红书
头条号
更多
以上自媒体由本平台或本平台合作伙伴提供服务。
提示信息将显示在这里。
2月18日,DeepSeek在海外社交平台X上发布了一份技术报告。该报告主要介绍了NSA(Natively Sparse Attention),这是一种专为超快速处理长文本而设计的稀疏注意力机制。这种机制经过优化,可以在现代硬件上高效运行,从而加快推理速度并降低成本,同时保持良好的性能。
据观察,在这篇题为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》的论文中,DeepSeek的创始人梁文锋也被列为共同作者。
微信里点"发现",扫一下
二维码便可将本文分享至朋友圈。