中美AI竞赛跟踪与资本震荡

@superwo

节选

没必要，就是绕开了cuda，就是打破英伟达霸权，就是ds牛皮，说多了别人还给你扣帽子，让他继续固持己见就行

2025-03-06 10:32 来自浙江引用

0

@superwo

节选

本来就是这样，AI只是辅助提升效率的工具，最终是要在生产端体现出来的，现在仅仅是八字有了一撇。宣扬“速胜论”的只是为了挑动情绪，在流量市场或者在A股市场捞一把的那些人。

2025-03-05 11:12 来自广东引用

1

赞同来自: superwo

@山的那段

会，也不会，甚至会成为n卡的负担，因为商业模式变了。n卡在toB业务里会扩大优势；而deepseek帮其它卡厂家开辟的toC业务里，n卡会因为他们太过优秀的性能而无法覆盖到低端，只能主动让出这部分市场份额。打个比方，比如一套H800组成的服务器，可以服务200~500个并发，而AMD可以服务100~200个并发，但是价格只有H800的80%，那暂时不需要那么多并发的小企业肯定会考虑AMD的。芯片这...

再解释一遍吧。在toB的业务场景里，算力越多越好，在数据交换上的花销越少越好，所以DeepSeek的优化对n卡是加强。
但是在toC的业务场景里，算力够用就行，性价比才是最大的考量。需要10块算力卡才能布置满血的DeepSeek，不是对算力的需求，而是对显存的需求。所以10卡的最低配置令人尴尬的点在于它的算力对于某些小型企业来说是过剩的，但是他的价格却降不下来。所以DeepSeek的优化对n卡没有作用，也不会对其它厂家的卡造成影响。

2025-03-05 11:08 来自广东引用

0

穿风

马斯克搞了个grok3，表现上不了桌。

2025-03-05 11:01 来自北京引用

1

superwo - 专长、利他、真诚、持续

赞同来自: zuzu2168

节选

2025-03-05 10:42 来自北京引用

1

赞同来自: chuxingfei

@问心

你这前后矛盾，一句话里也能矛盾的思维，真的能挣钱吗？

这是辩证法吧？deepseek对n卡的优化会加强n卡在toB市场的优势，但是会成为toC市场的劣势，这个很难理解吗？因为这两个市场的需求不一样啊，我后面甚至打了比方。

2025-03-05 10:17 来自广东引用

0

@山的那段

会，也不会，甚至会成为n卡的负担，因为商业模式变了。n卡在toB业务里会扩大优势；而deepseek帮其它卡厂家开辟的toC业务里，n卡会因为他们太过优秀的性能而无法覆盖到低端，只能主动让出这部分市场份额。打个比方，比如一套H800组成的服务器，可以服务200~500个并发，而AMD可以服务100~200个并发，但是价格只有H800的80%，那暂时不需要那么多并发的小企业肯定会考虑AMD的。芯片...

你这前后矛盾，一句话里也能矛盾的思维，真的能挣钱吗？

2025-03-05 09:26 来自广东引用

4

赞同来自: chuxingfei 、superwo 、明园

@问心

deepseek是在n卡上进行了优化部署，并且开源优化方案，这只会进一步提高n卡的护城河。
n卡部署能效率提高，对其他卡，可不是什么好消息。

会，也不会，甚至会成为n卡的负担，因为商业模式变了。n卡在toB业务里会扩大优势；而deepseek帮其它卡厂家开辟的toC业务里，n卡会因为他们太过优秀的性能而无法覆盖到低端，只能主动让出这部分市场份额。打个比方，比如一套H800组成的服务器，可以服务200~500个并发，而AMD可以服务100~200个并发，但是价格只有H800的80%，那暂时不需要那么多并发的小企业肯定会考虑AMD的。芯片这东西，卖得越多，研发成本就摊得越薄，然后它就有进一步的降价空间。我们国产的现阶段报价就能比n卡便宜35%以上，所以可以想象后续的价格战会有多大的降价空间。你也许会问n卡不也能降吗，它还真不能，因为它要考虑到不能让toB的客户有当冤大头的感觉，所以它不能降价，只能让老黄开启祖传的刀法，开一个新的产品来跟其它卡厂商争夺这部分市场。

2025-03-05 08:59 来自广东引用

0

@问心

你的意思是谁都能在底层优化程序执行？你确定其他的卡存在优化空间？其他卡是否存在巨大缺陷直接卡死了性能，谁来了也没招？
不是谁都能复制deepseek的。
但是n卡上已经优化过了，在n卡推广容易还是在其他卡推广容易？

呃，他们就是干这个工作的，芯片是他们自己设计的，驱动是他们写的，生态也是他们搭建的。
你把训练大模型和使用大模型搞混了，只要不碰toB市场，不存在推广这种事情了。

2025-03-05 08:48 来自广东引用

0

@山的那段

首先，上来就给别人扣个"韭菜"的帽子的行为挺low的。论坛上想讨论问题就好好讨论问题。在市场上赚了点钱就高人一等的心态让其他也在这个市场揾食的人看了只会觉得无聊。其次，你的阅读理解能力有点问题，或者你太以自己为中心，听不太进别人在讲什么。中小企业有使用AI提升效率的需求，而且也不渴求并发量。以前不想泄密就只能憋着，现在可以放心大胆的用。DeepSeek的出现帮助中小企业把算力...

韭菜不过是底层群体的通用自嘲，如果戳到了你的痛点，那非常不好意思。
投资就是这样，有分歧才有买卖。相互陈述意见而已，对错没有意义，盈亏才是硬道理。

2025-03-04 20:03 来自浙江引用

0

@superwo

个人觉得Deepseek打破英伟达垄断，指的是在部署模型阶段，目前训练模型阶段英伟达还是垄断的【也可以由此思考是训练模型阶段算力需求大，还是部署模型阶段算力需求大】Deepseek的优化方案对训练模型阶段的算力需求有一定抑制作用，但同样的技术平权带来更多的算力需求。

deepseek是在n卡上进行了优化部署，并且开源优化方案，这只会进一步提高n卡的护城河。
n卡部署能效率提高，对其他卡，可不是什么好消息。

2025-03-04 19:10 来自广东引用

0

@山的那段

不，这个工作不需要DeepSeek去做。在此之前，算力卡+NVLINK+CUDA绑定在一起组成了护城河。他们需要解决算力卡大规模互联的效率问题，自家接口和大客户的模型的适配问题。但是现在，AMD/昇腾这些提供商可以先把大客户放在一边，只要在自家几张卡互联的服务器上把满血DeepSeek部署好就可以卖给那些需要AI辅助提升工作效率却不愿意暴露自家数据的中小型公司了。DeepSeek开源的这些技术，...

你的意思是谁都能在底层优化程序执行？你确定其他的卡存在优化空间？其他卡是否存在巨大缺陷直接卡死了性能，谁来了也没招？
不是谁都能复制deepseek的。
但是n卡上已经优化过了，在n卡推广容易还是在其他卡推广容易？

2025-03-04 19:07 来自广东引用

0

fydydhorse

Deepseek有东西，但是90%+瞎炒的a股科技，都是垃圾，哪儿来回哪去。
对了，寒武纪算领头的

2025-03-04 18:32 来自四川引用

3

赞同来自: chuxingfei 、zuzu2168

@问心

汇编更加底层，各个卡区别更大。deepseek在n卡上花了这么多心思，更加不可能换平台用其他家的卡，不然投入精力全部打水漂了？
实际上开源这些，对n卡来说，如虎添翼，指望deepseek把在n卡上投入的精力，再在华为的卡，或者其他家的卡上复制一遍，那怎么追赶openai？

不，这个工作不需要DeepSeek去做。在此之前，算力卡+NVLINK+CUDA绑定在一起组成了护城河。他们需要解决算力卡大规模互联的效率问题，自家接口和大客户的模型的适配问题。但是现在，AMD/昇腾这些提供商可以先把大客户放在一边，只要在自家几张卡互联的服务器上把满血DeepSeek部署好就可以卖给那些需要AI辅助提升工作效率却不愿意暴露自家数据的中小型公司了。DeepSeek开源的这些技术，对其他厂家理解DeepSeek大模型，怎么优化自己的API接口让DeepSeek跑起来效率更高也是有帮助的。
目前来说，NVDA的卡会卖得更好，因为傻瓜式部署，买来就能用。但是等AMD/昇腾这些也适配好了，价格战可能就来了。

2025-03-04 17:37 来自广东引用

3

赞同来自: chuxingfei 、zuzu2168

@kiencity

韭菜的自我感动，要不得。
1.而现在一台H800服务器就能部署满血版DS
答：人工智能的核心在于算力，算法和数据。算法的改进只能缓解对算力的渴求，目前市面上想要满血版的ds，就要10张A100芯片，且并发量少。更何况在民族主义叙事下，ds已经超越了本该有的价值，甚至过于被神话了。例如潞晨科技官微发文宣布将暂停DeepSeek API服务，为什么？投入与收益完全不成比例。
2.DeepSeek开源的...

首先，上来就给别人扣个"韭菜"的帽子的行为挺low的。论坛上想讨论问题就好好讨论问题。在市场上赚了点钱就高人一等的心态让其他也在这个市场揾食的人看了只会觉得无聊。
其次，你的阅读理解能力有点问题，或者你太以自己为中心，听不太进别人在讲什么。中小企业有使用AI提升效率的需求，而且也不渴求并发量。以前不想泄密就只能憋着，现在可以放心大胆的用。DeepSeek的出现帮助中小企业把算力、算法的问题都解决了，而数据部分恰恰是中小企业想独有，不想暴露的。而且你所谓的满血版DS需要10张A100这个认知也是错误的，对于要解决有无问题的中小企业来说，1万块的E5平台也不是不能用，10几万的AMD服务器或者多台苹果的MAC mini已经有能接受的响应速度。潞晨科技是要向外提供服务进行收费，而且所谓的收入与收益不成比例也被DeepSeek给怼回去了。
我自己是做嵌入式开发的，我很清楚DeepSeek讲的汇编指的是什么。但是你并没有看懂我说的。他使用汇编表明了上层CUDA封装不是，至少不完全是NVDA算力卡的护城河。

2025-03-04 17:23 来自广东引用

0

superwo - 专长、利他、真诚、持续

@问心

汇编更加底层，各个卡区别更大。deepseek在n卡上花了这么多心思，更加不可能换平台用其他家的卡，不然投入精力全部打水漂了？
实际上开源这些，对n卡来说，如虎添翼，指望deepseek把在n卡上投入的精力，再在华为的卡，或者其他家的卡上复制一遍，那怎么追赶openai？

个人觉得Deepseek打破英伟达垄断，指的是在部署模型阶段，目前训练模型阶段英伟达还是垄断的【也可以由此思考是训练模型阶段算力需求大，还是部署模型阶段算力需求大】
Deepseek的优化方案对训练模型阶段的算力需求有一定抑制作用，但同样的技术平权带来更多的算力需求。

2025-03-04 16:09 来自北京引用

0

更名了jxjx - 分级基金好

@kiencity

韭菜的自我感动，要不得。
1.而现在一台H800服务器就能部署满血版DS
答：人工智能的核心在于算力，算法和数据。算法的改进只能缓解对算力的渴求，目前市面上想要满血版的ds，就要10张A100芯片，且并发量少。更何况在民族主义叙事下，ds已经超越了本该有的价值，甚至过于被神话了。例如潞晨科技官微发文宣布将暂停DeepSeek API服务，为什么？投入与收益完全不成比例。
2.DeepSeek开源的...

潞晨科技亏钱关dp什么事，再说了潞晨在AI里能排多少？一家注册资本100万的公司。
2.这个汇编语言不是英伟达还能是谁的？单就语言来说，c/c++,还是汇编更接近底层？越底层的语言性能越好，当然使用起来也是越难，用汇编难度比用c/c++高出几个数量级。

2025-03-04 15:25 来自山东引用

0

Skyzh1

@kiencity

韭菜的自我感动，要不得。
1.而现在一台H800服务器就能部署满血版DS
答：人工智能的核心在于算力，算法和数据。算法的改进只能缓解对算力的渴求，目前市面上想要满血版的ds，就要10张A100芯片，且并发量少。更何况在民族主义叙事下，ds已经超越了本该有的价值，甚至过于被神话了。例如潞晨科技官微发文宣布将暂停DeepSeek API服务，为什么？投入与收益完全不成比例。
2.DeepSeek开源的...

根据公开信息，DeepSeek 在技术实现中确实涉及通过汇编语言优化底层硬件性能，但其使用的汇编语言并非英伟达（NVDA）产品专用的语言，而是针对 英伟达 GPU 架构的低级指令集（如 PTX 或 SASS）进行的优化。以下是综合分析：

1. 技术背景与绕过 CUDA 的逻辑

- CUDA 是英伟达为 GPU 计算设计的并行计算平台和编程模型，通常需依赖其上层封装接口。而 DeepSeek 通过直接操作 GPU 底层指令集（如汇编级别的优化），绕过了 CUDA 的抽象层，从而提升计算效率和成本控制。
- 这种优化方式类似于直接编写针对特定硬件架构的机器码，能够更高效地利用 GPU 资源，减少因 CUDA 中间层带来的性能损耗。

2. 汇编语言的具体类型

- 英伟达 GPU 的底层指令集主要包括 PTX（Parallel Thread Execution） 和 SASS（Shader Assembly）。前者是虚拟指令集，可跨代兼容；后者是硬件直接执行的二进制指令，与具体 GPU 架构（如 Ampere、Hopper）强相关。
- DeepSeek 的技术文档提到其优化涉及“解码内核、通信库、GEMM 库”等底层组件，结合其使用英伟达 A100 GPU 的硬件配置（如网页6所述），推测其汇编优化可能基于 SASS 或 PTX 指令集，而非通用 CPU 汇编语言。

3. 技术争议与英伟达的回应

- 部分媒体称此举可能削弱英伟达 CUDA 生态的护城河，但实际影响仍存争议。例如：
- DeepSeek 的训练仍依赖英伟达 A100 GPU，且其优化技术并未完全脱离英伟达硬件架构。
- 英伟达官方对 DeepSeek 的技术进步表示认可，认为其展示了如何利用“完全符合出口管制的计算资源”实现创新。
- 技术文档（网页8）也澄清，DeepSeek 并未完全绕过 CUDA，而是在 混合精度训练、内核优化 等方面结合了 CUDA 生态与自主优化策略。

4. 实际效果与行业意义

- 通过底层优化，DeepSeek 在训练成本上显著降低（例如 Janus-Pro 模型仅用 256 块 A100 GPU 训练两周），但其性能优势主要集中在特定任务（如多模态生成），通用算力需求仍依赖英伟达硬件。
- 这种技术路径更多是 “软硬件协同优化” 的体现，而非彻底替代 CUDA。长远来看，可能推动英伟达进一步开放底层接口或优化工具链。

结论

DeepSeek 使用的汇编语言是 针对英伟达 GPU 架构的底层指令集（如 SASS/PTX），通过直接操作硬件资源提升效率。这种技术并未脱离英伟达的硬件体系，但展示了算法与硬件协同优化的可能性，对 CUDA 生态的长期影响仍需观察。

2025-03-04 15:24 来自广东引用

0

@山的那段

DeepSeek不需要做到非常优秀(其实它很优秀)，它只要做到够用就行了。在它出现之前，主流声音就是more and more，算力越大越好，大家巴不得堆万卡集群甚至10万卡集群，Altman说过大模型训练一次要数千万美刀。所以我们看到企鹅向NVDA下订单都是几十亿美刀，AI成了事实上的寡头垄断游戏。想超过我，直接不给你最新的芯片；你有新的创意和私密数据但是需要算力做辅助？乖乖用我的API，给我...

汇编更加底层，各个卡区别更大。deepseek在n卡上花了这么多心思，更加不可能换平台用其他家的卡，不然投入精力全部打水漂了？
实际上开源这些，对n卡来说，如虎添翼，指望deepseek把在n卡上投入的精力，再在华为的卡，或者其他家的卡上复制一遍，那怎么追赶openai？

2025-03-04 15:02 来自广东引用

0

@山的那段

DeepSeek不需要做到非常优秀(其实它很优秀)，它只要做到够用就行了。在它出现之前，主流声音就是more and more，算力越大越好，大家巴不得堆万卡集群甚至10万卡集群，Altman说过大模型训练一次要数千万美刀。所以我们看到企鹅向NVDA下订单都是几十亿美刀，AI成了事实上的寡头垄断游戏。
想超过我，直接不给你最新的芯片；你有新的创意和私密数据但是需要算力做辅助？乖乖用我的API，给我...

韭菜的自我感动，要不得。
1.而现在一台H800服务器就能部署满血版DS
答：人工智能的核心在于算力，算法和数据。算法的改进只能缓解对算力的渴求，目前市面上想要满血版的ds，就要10张A100芯片，且并发量少。更何况在民族主义叙事下，ds已经超越了本该有的价值，甚至过于被神话了。例如潞晨科技官微发文宣布将暂停DeepSeek API服务，为什么？投入与收益完全不成比例。
2.DeepSeek开源的技术细节里使用了汇编，绕过了上层CUDA的封装，有人说它不还是依赖NVDA吗？
答：新闻告诉你前半句，没告诉你的后半句是，他用的汇编语言，是英伟达另一种语言罢了。
其他就不一一反驳了，理智才能在投资里活下来

2025-03-04 14:17 来自浙江引用

4

赞同来自: OCGP 、chuxingfei 、superwo

DeepSeek不需要做到非常优秀(其实它很优秀)，它只要做到够用就行了。在它出现之前，主流声音就是more and more，算力越大越好，大家巴不得堆万卡集群甚至10万卡集群，Altman说过大模型训练一次要数千万美刀。所以我们看到企鹅向NVDA下订单都是几十亿美刀，AI成了事实上的寡头垄断游戏。
想超过我，直接不给你最新的芯片；你有新的创意和私密数据但是需要算力做辅助？乖乖用我的API，给我交着钱还用你的数据来喂我的大模型。
所以当DeepSeek出现后，它都不用做任何动作，甚至在短期内它还能促进NVDA卡的销售，但是老美试图垄断的意图就被打破了。AI原本应该是铲子的角色，利用AI辅助设计/生产的才是挖金子的人。可是老美试图让所有挖金子的人都给它们打工，卖铲子的人要拿最大头的利润。而现在一台H800服务器就能部署满血版DS，大多数中小型企业都能负担得起，它们都用得起了，也不用拿自己的私密数据去喂那些寡头的大模型了。
DeepSeek开源的技术细节里使用了汇编，绕过了上层CUDA的封装，有人说它不还是依赖NVDA吗？并不是，能用汇编说明DeepSeek的这群小伙子们是真的理解自己的工作内容，也吃透了自己的算法需要怎么去调度硬件来达到更好的效果。只要假以时日，他们完全有能力移植到别的算力平台上，所以苏妈才笑得那么开心，是的，短期内老黄的卡会卖得更好更多，但是随着其它平台移植成功，大家会有更多的选择，NVDA不再是唯一的那个。
最可乐的是，老美AI行业寡头们被打得有苦难言，而DeepSeek却一脸无辜的说：啊，我们只是在开源社区受益良多，现在轮到我们来回馈社区了。

2025-03-04 11:55修改来自广东引用

1

赞同来自: superwo

@superwo

最近Deepseek开源周真是指着英伟达鼻子开大招

这只是说明，deepseek比英伟达，更清楚，这卡应该怎么用

2025-03-04 11:03 来自广东引用

1

aiplus

赞同来自: superwo

day 1
https://github.com/deepseek-ai/FlashMLA

day 2
https://github.com/deepseek-ai/DeepEP

day 3
https://github.com/deepseek-ai/DeepGEMM

day 4

https://github.com/deepseek-ai/DualPipe
https://github.com/deepseek-ai/eplb
https://github.com/deepseek-ai/profile-data

day 5
https://github.com/deepseek-ai/3FS

DeepSeek开源周成果汇总

美国的OpenAI也就图一乐，真开源还得看DeepSeek

2025-03-04 10:08 来自浙江引用

1

aiplus

@zhangre

楼主：对潞晨科技的做法及尤洋的说法如何评价？

潞晨科技尤洋这人纯纯小丑，他自家的公司搞卖TOKEN的模式亏不起钱了就臆想DeepSeek肯定也亏不起

结果：1、DeepSeek公布了自己的理论利润率，离亏钱还远得很
2、但凡读过梁文峰的两篇访谈都知道DeepSeek就不是冲着卖TOKEN赚钱去的，是为了探索更基础更底层的架构，目前的DeepSeek API收费模式只是为了保本罢了

上周DeepSeek 开源周公布的一系列成果，甚至到了优化GPU底层代码的地步，连CUDA都绕开了，把英伟达本来该干却没干的活都给干了，这是一种纯粹的开源精神

DS开源的这些东西，压根就不是给一般个人用户准备的，用来尽可能榨取出硬件的潜力，属于最上游的部份了

2025-03-04 10:07 来自浙江引用

1

superwo - 专长、利他、真诚、持续

赞同来自: chuxingfei

@双叶bloom

但是部署ds满血版人家配置写了最低配置要英伟达的什么级别的独立显卡..只能说是刷了一下存在感真要对英伟达造成实质上的冲击还是得造出同样性能的芯片.

在这里的什么级别英伟达芯片，显然是将英伟达当作计量单位，谁也无法否认英伟达是最强的，我表述的是英伟达在逐步丧失垄断地位

2025-03-04 08:29 来自北京引用

0

superwo - 专长、利他、真诚、持续

开会期间中美博弈会更加激烈，目前追加10%关税和禁售英伟达新加坡抓人只是开始

2025-03-04 08:20 来自北京引用

2

superwo - 专长、利他、真诚、持续

赞同来自: zuzu2168 、思则有备

@kiencity

你猜为什么他们还买a100不买华为？

华为昇腾良品率低，导致产能也不足

2025-03-03 14:53 来自北京引用

0

zhangre

@superwo

腾讯科技：读懂DeepSeek开源周：一场技术普惠的嘉年华，极限提升大模型效率https://mp.weixin.qq.com/s/FsB5ZFt1jbbNMASZpwNtBQ

楼主：对潞晨科技的做法及尤洋的说法如何评价？

2025-03-03 14:05 来自河北引用

0

双叶bloom

但是部署ds满血版人家配置写了最低配置要英伟达的什么级别的独立显卡..

只能说是刷了一下存在感
真要对英伟达造成实质上的冲击还是得造出同样性能的芯片.

2025-03-03 13:54 来自天津引用

0

@superwo

如果只是本地化部署DS，英伟达已经没有垄断了，华为昇腾完全支持本地化部署DS

你猜为什么他们还买a100不买华为？

2025-03-03 13:38 来自浙江引用

0

superwo - 专长、利他、真诚、持续

腾讯科技：读懂DeepSeek开源周：一场技术普惠的嘉年华，极限提升大模型效率
https://mp.weixin.qq.com/s/FsB5ZFt1jbbNMASZpwNtBQ

2025-03-03 13:07 来自北京引用

0

思则有备

DS算是“整合优化”现有技术的产物，而ai本身尚有明显需要解决的问题。宣传意义大于实际用处，目前而言，这就够了。

2025-03-02 07:04 来自四川引用

0

superwo - 专长、利他、真诚、持续

@zhangre

但具财经社报道目前国内H20需求激增，价格又回到一年以来的高位了。

目前算力肯定是短缺的，但在部署大模型这个领域，国产已经在快速替代了，等国产芯片产能上来一定会快速挤压英伟达，甚至出现过剩

2025-03-01 22:33 来自北京引用

0

zhangre

@superwo

如果只是本地化部署DS，英伟达已经没有垄断了，华为昇腾完全支持本地化部署DS

但具财经社报道目前国内H20需求激增，价格又回到一年以来的高位了。

2025-03-01 21:12 来自河北引用

0

superwo - 专长、利他、真诚、持续

@kiencity

低价的ds给了多少单位本地化部署的需要，催生了多少a100芯片的需求，英伟达笑都笑死了

如果只是本地化部署DS，英伟达已经没有垄断了，华为昇腾完全支持本地化部署DS

2025-03-01 18:13 来自北京引用

4

赞同来自: 阳光下生命、zhangre 、地理科代表

低价的ds给了多少单位本地化部署的需要，催生了多少a100芯片的需求，英伟达笑都笑死了

2025-03-01 16:23 来自浙江引用

0