之前webui画图,清华说开发了个算法,把原来要跑十几步的节约到两步出图,那理论上原来10多秒现在不就2秒出图了?结果速度很慢,出图效果也不知所谓,不好用。
这次说能把显卡的显存用内存来跑,内存价格可比显存便宜几十倍,显卡的显存读写速度是2000G,内存读写速度是20G,差距100倍,就靠个软件算法就能把几百G的数据载入提速几十倍是不可能的。
显然会,我已经部署成功了,1bit量化,671B参数
本地满血版DeepSeek部署硬件:
第二个链接是详细的性能表现测评:
这个想法跟我当时吹水时候的优化思路一模一样,不过我只是吹水,他们说真做出来了,respect执行力
现在600G内存也不是一般人会配的,真正有想象力的是用SSD硬盘+directstorage显卡直连,600GB硬盘+一张大显存显卡就能跑起来的600B满血大模型,沿着这套思路但凡能达到10token/s都是对现在所有app的颠覆性的变革。
做应用和infra的好时代来临力
鄂公网安备 42068302000331号
温馨提示:本站所有内容均来自互联网,若有侵权请联系站长处理。联系邮箱:yangtata@vip.qq.com