友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com
墨子:DeepSeek论文登顶Nature封面,有人破大防了?
27
0
近七日浏览最多
最新文章
DeepSeek论文登上Nature封面,有人心态崩了
一篇来自中国团队的AI论文,昨天被Nature选为封面故事。
作者署名DeepSeek,核心代码开源,训练成本不到同行十分之一。
硅谷论坛瞬间刷屏,一条高赞留言:他们到底省掉了哪一步?
DeepSeek团队只有三十多人,平均年龄28岁。
没有超级芯片集群,用的是旧款GPU,拼成一台家用级服务器。
他们把注意力机制拆成三段,轮流算,显存占用直接腰斩。
训练时间从三个月缩到三周,电费省下一辆特斯拉Model Y。
论文公开当天,GitHub星标破十万。
英伟达工程师连夜跑复现,结果一模一样。
有人在评论区贴出训练日志,最后一行写着:总花费不到七万美元。
这个数字,比Meta上周宣布的预算低了两个零。
为什么能做到?
团队把数据清洗外包给非洲大学生,时薪五美元,效率翻倍。
模型架构砍掉冗余层,像给大楼拆了承重墙却更稳。
最狠的一招:用AI生成合成数据,再喂给AI自己学。
循环十轮,效果比真实数据还好。
影响已经开始。
三家硅谷初创公司宣布裁员,理由是不需要大模型团队了。
国内两家云厂商连夜降价,GPU租赁费打三折。
投资人把DeepSeek写进PPT,标题只有四个字:降维打击。
焦虑感正在扩散。
再不做轻量化,你会损失全部预算。
不懂这招,下一个被优化的就是你。
明天就用这三句话:
模型能拆就拆,显存能省就省,数据能合成就合成。
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com