友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com
141GBH20芯片“满血”实测
6
0
近七日浏览最多
最新文章
禁令解除72小时:141GB H20 跑满血实测,DeepSeek 性能超预期
7月15日中午,英伟达CEO黄仁勋在硅谷一场临时直播里宣布,美国政府即时取消H20芯片的对华出口限制。
通知发出后,国内云计算厂商云工场科技同步启动“解禁测试”,72小时内完成了深度验证。
以下五段还原全部关键信息。
一、解禁背景
过去九个月,H20因“性能超标”被列入管制清单,期货价格一度炒到12000美元/片。
新规上线意味着AI公司可按市场价正常采购,首批货船本周三已驶离洛杉矶港,预计8月上旬抵沪。
二、测试硬件
测试机为裸金属8卡H20服务器,总共141GB显存,采用NVLink 4.0互联。
为了排除软件变量,部署vLLM推理框架与官方发布的DeepSeek-R1 671B非量化版,全部保持FP16精度。
三、数据门槛
1.首Token延迟:并发1—100范围,TTFT从未超过2.8秒,最低0.1秒即可看到回复。
2.100用户并发实测:
•256 tokens输入/输出:1124 tokens/s
•1K tokens:1100 tokens/s
•2K tokens:1020 tokens/s
性能几乎不受长度拖累,彻底扫掉“长文降级”顾虑。
四、场景提炼
低并发(<10人):延迟低于1秒,系统利用率30%左右,适合中小团队在线演示或客服机器人。
中高并发(50—100人):吞吐量跃升至600~1100 tokens/s,在线问诊、短视频文案、多媒体问答等大流量业务可直接用上。
极限长文(100人+2K上下文):依然能稳定跑在1000 tokens/s以上,复杂文档总结同样实时交互。
五、意义与展望
云工场科技把本次测试纳入异构算力池,已覆盖NVIDIA H20、L20、RTX 4090,以及华为910B、昆仑芯P800、燧原S60,支持DeepSeek、LLaMA、盘古等本地部署。
实测给出一条清晰结论:解禁72小时内,国产AI不再受算力“上限卡脖子”。
随着更多H20入关,“低成本跑大模型”将从少数头部实验室走向千行百业的日常产线。
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com