最近开源的一张4090跑满血DeepSeek-R1的方案会不会大幅降低DeepSeek的部署成本?

  • 北方的郎
  • 2025-02-15
  • 287
  • 共3人发表观点
网友「hyu jj 」发表观点
2025-02-16

之前webui画图,清华说开发了个算法,把原来要跑十几步的节约到两步出图,那理论上原来10多秒现在不就2秒出图了?结果速度很慢,出图效果也不知所谓,不好用。

这次说能把显卡的显存用内存来跑,内存价格可比显存便宜几十倍,显卡的显存读写速度是2000G,内存读写速度是20G,差距100倍,就靠个软件算法就能把几百G的数据载入提速几十倍是不可能的。

网友「天涯印象 」发表观点
2025-02-16

显然会,我已经部署成功了,1bit量化,671B参数

本地满血版DeepSeek部署硬件:

  • i9-14900KF
  • 内存192GB
  • RTX4090 24GB显存显卡
  • 全固态M2硬盘,4TB

第二个链接是详细的性能表现测评:

震惊!本地真的可以部署满血版DeepSeek,除了慢,写代码真的行!参数即正义!实测本地部署DeepSeek-R1大模型:671B量化版竟能用24G显存显卡跑出碾压级性能

网友「赤子泛舟 」发表观点
2025-02-16

这个想法跟我当时吹水时候的优化思路一模一样,不过我只是吹水,他们说真做出来了,respect执行力

现在600G内存也不是一般人会配的,真正有想象力的是用SSD硬盘+directstorage显卡直连,600GB硬盘+一张大显存显卡就能跑起来的600B满血大模型,沿着这套思路但凡能达到10token/s都是对现在所有app的颠覆性的变革。

做应用和infra的好时代来临力

网友评论(0)

暂无网友评论