141GBH20芯片“满血”实测

禁令解除72小时：141GB H20 跑满血实测，DeepSeek 性能超预期

7月15日中午，英伟达CEO黄仁勋在硅谷一场临时直播里宣布，美国政府即时取消H20芯片的对华出口限制。

通知发出后，国内云计算厂商云工场科技同步启动“解禁测试”，72小时内完成了深度验证。

以下五段还原全部关键信息。

一、解禁背景

过去九个月，H20因“性能超标”被列入管制清单，期货价格一度炒到12000美元/片。

新规上线意味着AI公司可按市场价正常采购，首批货船本周三已驶离洛杉矶港，预计8月上旬抵沪。

二、测试硬件

测试机为裸金属8卡H20服务器，总共141GB显存，采用NVLink 4.0互联。

为了排除软件变量，部署vLLM推理框架与官方发布的DeepSeek-R1 671B非量化版，全部保持FP16精度。

三、数据门槛

1.首Token延迟：并发1—100范围，TTFT从未超过2.8秒，最低0.1秒即可看到回复。

2.100用户并发实测：

•256 tokens输入/输出：1124 tokens/s

•1K tokens：1100 tokens/s

•2K tokens：1020 tokens/s

性能几乎不受长度拖累，彻底扫掉“长文降级”顾虑。

四、场景提炼

低并发（<10人）：延迟低于1秒，系统利用率30%左右，适合中小团队在线演示或客服机器人。

中高并发（50—100人）：吞吐量跃升至600～1100 tokens/s，在线问诊、短视频文案、多媒体问答等大流量业务可直接用上。

极限长文（100人+2K上下文）：依然能稳定跑在1000 tokens/s以上，复杂文档总结同样实时交互。

五、意义与展望

云工场科技把本次测试纳入异构算力池，已覆盖NVIDIA H20、L20、RTX 4090，以及华为910B、昆仑芯P800、燧原S60，支持DeepSeek、LLaMA、盘古等本地部署。

实测给出一条清晰结论：解禁72小时内，国产AI不再受算力“上限卡脖子”。

随着更多H20入关，“低成本跑大模型”将从少数头部实验室走向千行百业的日常产线。

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

大妈骑三轮撞上路边停车不规范的小车下一秒直接倒车后逃逸！