据知情人士透露,英伟达(NVDA.US)新一代 Blackwell AI芯片在高容量服务器机架中存在严重的过热问题。这些问题导致设计调整与项目延期,使谷歌、 Meta 和微软等主要客户对能否按计划部署 Blackwell 服务器感到担忧。
知情人士透露,Blackwell GPU 专为 AI 和高性能计算(HPC)设计,但在配置 72 个处理器的服务器中出现过热问题,此类服务器每个机架功耗最高可达 120 千瓦。过热问题迫使英伟达多次修改机架设计,不仅限制了 GPU 性能,还可能损坏硬件。客户因此担心,这些技术问题会延迟数据中心的处理器部署进程。
为应对这一难题,英伟达要求供应商调整机架设计,并与合作伙伴一起优化散热系统。尽管这种工程改进是大规模技术发布中的常规步骤,但也进一步推迟了产品交付时间。
英伟达发言人针对此事对回应称,公司正与云服务提供商密切合作,设计调整属于正常研发流程的一部分。英伟达希望通过这种合作,确保最终产品在性能和可靠性方面达到预期,同时加紧解决技术瓶颈。
修订后的 Blackwell GPU 于今年 10 月底才进入量产,预计最快明年 1 月底出货。谷歌、Meta、微软等科技巨头依赖英伟达 GPU 训练其最强大的 AI 模型,其延期对这些客户的研发计划和产品发布造成的影响自然是不可避免。
今年 3 月,英伟达展示了 Blackwell 芯片,当时曾表示将在第二季度发货。
发表评论
2024-11-18 17:17:24回复
2024-11-18 15:24:35回复
2024-11-18 14:03:40回复