如何评价Ktransformers 支持单卡4090推理全量deepseek-R1模型？

SeASnAkE
2025-02-14
182
共4人发表观点

网友「Eidosper 」发表观点

2025-02-16

首先，内存涨不涨价跟这个关系不大，内存和螺纹钢有点类似，是大宗商品的逻辑。

这点需求对于国产内存现阶段来说不会有太多的促进，毕竟现阶段本来也是供不应求的状态。

然后，这其实非常考验国产CPU，因为CPU到内存的贷款、CPU总线的效率也很关键，这对大多数国产CPU是个小利空，这点估计只有鲲鹏、倚天还能看。

再考虑到绑定CUDA和nv显卡，那基本上没有国产CPU什么事了。

最后，这非常利空国产显卡，或者说利空英伟达之外所有GPU，利空国产小型推理卡例如摩尔线程s4000。

但对英伟达来说也是利空，从高利润的H100降低为低利润的4090，也是一种利空。

总的来说，这对国产生态整体上提出了更高的要求，过去的演进方式感觉并不能适配未来的发展趋势。

网友「dage1210 」发表观点

2025-02-16

这个问题和宣传文案是典型的要流量不要脸的降智宣传。

单卡4090能支持推理全量deepseek-R1模型？

如果能支持，作者可以和爱因斯坦并肩，梁文峰和他们相比都只是刚入门的小学生。

还“造成内存涨价和英伟达跳水吗”

Deepseek的创新可能影响英伟达，这个问题和宣传能影响英伟达，做什么清秋大梦？

网友「曲舞飞」发表观点

2025-02-16

还不是最佳方案。

最佳方案是苏阿姨赶紧针对deepseek r1出新产品。

300W功耗限制下，塞8核心16线程的CPU和尽可能大的GPU

用统一内存架构，支持尽可能多的通道，上512G的lpddr5x

然后留一个双芯片通讯的高速通道，类似于苹果M1 ultra。

搞两个芯片，是为了降低成本，提高良率。

两个芯片一连

16核心32线程，600W级别的GPU，至少有4090水平可用，1t统一架构的内存，高带宽还低功耗。

单机跑671b的deepseek

玩游戏也行。

网友「ZHANG Mingxing 」发表观点

2025-02-16

正如这 @小笨瓜和 @QIU Chengyu 在 (16 条消息) 如何评价Ktransformers 支持单卡4090推理全量deepseek-R1模型？ - 知乎这个问题的回答中所提到的。KTransformers 目前提供的是优点和局限都很明显的，高度依赖 CPU/DRAM 带宽的方案，没必要过度理解。

其实它最适合的是实验室做实验的场景，因为不本地跑起来没法研究模型内部的状态，也没办法做修改和新方法的探索。正如我们在 Readme 中提到的， KTransformers 这套注入框架设计的初衷不是“做 MoE 异构推理”而是 -- Our vision for KTransformers is to serve as a flexible platform for experimenting with innovative LLM inference optimizations. 所以我们一直强调的其实是它的“注入”框架。

去年我在知乎上介绍的时候也说得是“我们对 ktransformers 的期望是成为一个算子级优化的集成实验平台。很多时候在一个具体的场景下把模型用起来需要同时使用多个不同的算子优化，但现有的情况下自己手工去做集成是比较复杂的。ktransformers 的注入框架提供了一个易用的集成平台，将 marlin 和 llamafile 集成起来在本地跑 deepseek-v2 就是这样的一个例子。”

而恰好由于 DeepSeek-V3/R1 这个 671B 的大小和极度稀疏的 MoE 结构导致高效率运行它需要的技术，资源，和用户并发门槛都超出了绝大多数组织的范围，所以恰逢其会让它衍生出一个新的适用场景，即需要确保数据安全可控的本地化的小并发场景（目前其实只有单并发，但是后面我们会支持小并发）。

这里面技术上的核心我和 @mackler 在另一个问题 (16 条消息) DeepSeek-R1 API定价为什么这么便宜，在目前全量模型部署非常困难的情况下，是否注定亏损？ - 知乎下都有聊到，这里就不再赘述。

历史的背景则是正好我们从去年开始就在做 MLA 的分析（这还是我在知乎上写的第一篇文章，讲道理应该也是 DeepSeek 外部最早的一波 MLA 分析）。所以 DeepSeek V2 的时候就拿 MLA 这种特殊的高计算强度 attn 算子作为一个重要的 show case 来展示 KTransformers 在异构分片上的灵活性。再加上一直以来对 AMX 指令的关注和优化所以正好这个时间点下拿到一个这么大的收益。当然其实最主要的原因还是 DeepSeek R1 太火了。

不管怎么说，既然恰逢其会，我们有信心也有意愿持续的将 KTransformers 演进成上述“本地化中小并发场景下针对稀疏 MoE 模型最具性价比的开源推理引擎”。但因为人手有限我们也会仅仅局限在这样的一个场景下去迭代。目前在易用性，和性能方面也都还有很大的提升空间。

其他的场景，比如 dense model 和全 gpu 场景下的优化这些我们就算做也不会在 KTransformers 下去实现，而是参与 vLLM/SGLang 这样的更适合的社区一起。比如我们同步在推进的 Mooncake 的开源就是这样。

特别是对数据安全没需求，对自己捣鼓折腾也没兴趣的同学，如果只是想用 R1 的话不如去袁老师 @袁进辉那冲个会员或者利用其它现在感觉已经每个云都已经支持了的云上部署方案。只要不是按照 GPU/h 定价而是按照 token 定价的收费模式应该都会比自己捣鼓省心省钱。

网友评论(0)

暂无网友评论

上一篇：为什么我觉得《哪吒之魔童闹海》一般（尤其是剧情）？
下一篇：起点500均订的作者如何提升？