刚刚！DeepSeek重大发布！梁文锋参与共创！

　　每经编辑金冥羽

　　2月18日，DeepSeek在海外社交平台发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse Attention，原生稀疏注意力）。

　　据介绍，NSA专为长文本训练与推理设计，能利用动态分层稀疏策略等方法，通过针对现代硬件的优化设计，显著优化传统AI模型在训练和推理过程中的表现，特别是提升长上下文的推理能力，在保证性能的同时提升了推理速度，并有效降低了预训练成本。

刚刚！DeepSeek重大发布！梁文锋参与共创！第1张

　　在这篇名为《原生稀疏注意力：硬件对齐且可原生训练的稀疏注意力机制》（Native Sparse Attention： Hardware-Aligned and Natively Trainable Sparse Attention）的论文署名中，DeepSeek创始人兼CEO梁文锋也作为共创在列。

刚刚！DeepSeek重大发布！梁文锋参与共创！第2张

　　其他研究人员来自DeepSeek、北大和华盛顿大学，其中第一作者Jingyang Yuan（袁景阳）是在DeepSeek实习期间完成的这项研究。

　　值得一提的是，今日中午12点（太平洋时间17日晚8点），马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式，观看人数超过100万人。

刚刚！DeepSeek重大发布！梁文锋参与共创！第3张

　　Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应，它可以分析图像和回答问题，并为X上的许多功能提供支持。此前马斯克在X上造势称，Grok 3是“地球上最聪明的人工智能”。

　　在此次直播中，马斯克透露，实际上，到训练进行到92天时，集群的规模已经扩大到了20万块GPU。

　　编辑|金冥羽杜波

发表评论取消回复

11人参与，17条评论

符癸酉
2025-02-19 15:13:29回复
DeepSeek实习期间完成的这项研究。　　值得一提的是，今日中午12点（太平洋时间17日晚8点），马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式，观看人数超过100万人。　　Grok 3是xAI对OpenAI的o3-mini和

宜访波
2025-02-19 08:55:41回复
上，到训练进行到92天时，集群的规模已经扩大到了20万块GPU。　　编辑|金冥羽杜波

矫乙亥
2025-02-19 09:58:42回复
的R1等模型的回应，它可以分析图像和回答问题，并为X上的许多功能提供支持。此前马斯克在X上造势称，Grok 3是“地球上最聪明的人工智能”。　　在此次直播中，马斯克透露，实际上，到训练进行到92天时，集群的规模已经扩大到了20万块GPU。　　编辑|金冥羽杜波

向甲戌
2025-02-19 09:37:10回复
　　每经编辑金冥羽　　2月18日，DeepSeek在海外社交平台发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse Attention，原生稀疏注意力）。　　据介绍，NSA专为长文本训练与推理设计，能利用动态分层稀疏策略等方

酆元之
2025-02-19 12:26:42回复
了20万块GPU。　　编辑|金冥羽杜波

焉壬戌
2025-02-19 11:39:43回复
上造势称，Grok 3是“地球上最聪明的人工智能”。　　在此次直播中，马斯克透露，实际上，到训练进行到92天时，集群的规模已经扩大到了20万块GPU。　　编辑|金冥羽杜波

务白瑶
2025-02-19 14:18:58回复
o3-mini和DeepSeek的R1等模型的回应，它可以分析图像和回答问题，并为X上的许多功能提供支持。此前马斯克在X上造势称，Grok 3是“地球上最聪明的人工智能”。　　在此次直播中，马斯克透露，实际上，到训练进行到92天时，集群的规模已经扩大到了20万块GPU。　　编

薄又夏
2025-02-19 16:39:21回复
　　每经编辑金冥羽　　2月18日，DeepSeek在海外社交平台发布了一篇纯技术论文报告，论文主要内容是关于NSA（Natively Sparse Attention，原生稀疏

钦天烟
2025-02-19 09:27:49回复
观看人数超过100万人。　　Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应，它可以分析图像和回答问题，并为X上的许多功能提供支持。此前马斯克在X上造势称，Grok 3是

杭痴梅
2025-02-19 08:14:53回复
一提的是，今日中午12点（太平洋时间17日晚8点），马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式，观看人数超过100万人。　　Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应，它可以分析图像和回答问题，并

贝幻露
2025-02-19 08:02:15回复
　值得一提的是，今日中午12点（太平洋时间17日晚8点），马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式，观看人数超过100万人。　　Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应，它可以分析图像和回答

植从云
2025-02-19 07:00:36回复
，DeepSeek创始人兼CEO梁文锋也作为共创在列。　　其他研究人员来自DeepSeek、北大和华盛顿大学，其中第一作者Jingyang Yuan（袁景阳）是在DeepSeek实习期间完成的这项研究。　　值得一提的是，今日中

之如筠
2025-02-19 14:10:14回复
锋也作为共创在列。　　其他研究人员来自DeepSeek、北大和华盛顿大学，其中第一作者Jingyang Yuan（袁景阳）是在DeepSeek实习期间完成的这项研究。　　值得一提的是，今日中午12点（太平洋时间17日晚8点），马斯克旗下A

戢甲戌
2025-02-19 14:57:01回复
上，到训练进行到92天时，集群的规模已经扩大到了20万块GPU。　　编辑|金冥羽杜波

莱壬申
2025-02-19 08:45:43回复
ware-Aligned and Natively Trainable Sparse Attention）的论文署名中，DeepSeek创始人兼CEO梁文锋也作为共创在列。　　其他研究人员来自DeepSeek、北大和华盛顿大学，其中第一作者Jingyang Yuan（袁景阳）是在

象念寒
2025-02-19 17:19:41回复
tion： Hardware-Aligned and Natively Trainable Sparse Attention）的论文署名中，DeepSeek创始人兼CEO梁文锋也作为共创在列。　　其他研究人员来自DeepSeek、北大和华盛顿大学，其中第一作者Jingy

环从天
2025-02-19 07:14:38回复
　　据介绍，NSA专为长文本训练与推理设计，能利用动态分层稀疏策略等方法，通过针对现代硬件的优化设计，显著优化传统AI模型在训练和推理过程中的表现，特别是提升长上下文的推理能力，在保证性能的同时提

刚刚！DeepSeek重大发布！梁文锋参与共创！

泄矢宏朗管理员

美国新罕布什尔州一度假村缆车系统发生故障约120人一度被困

海外持有的美国国债规模在12月份下降但2024年全年录得增长

发表评论取消回复

刚刚！DeepSeek重大发布！梁文锋参与共创！

泄矢宏朗管理员

美国新罕布什尔州一度假村缆车系统发生故障 约120人一度被困

海外持有的美国国债规模在12月份下降 但2024年全年录得增长

相关文章

发表评论取消回复

美国新罕布什尔州一度假村缆车系统发生故障约120人一度被困

海外持有的美国国债规模在12月份下降但2024年全年录得增长