看到论坛上某些朋友发布的关于deepseek的言论和质疑,对其有很大的误解。我觉得有必要从技术角度来谈谈,本人是985学校计算机专业的博士,专业性还是有保障的。
首先deepseek很开放,不但公开了大模型的参数,而且从去年至今已经发布了相关论文8篇,很多研究机构根据这些论文已经复现了deepseek的算法,满足了论文的可重复性与可验证性要求,所以论文的可靠性也是有保障的。
deepseek最重要的论文有三篇:
一是提出了DeepSeek-LLM,论文名为:以长期主义推动开源语言模型扩展(LLM Scaling Open-Source Language Models with Longtermism)。论文提出了社区驱动的开源治理框架和多任务优化方法,提出了DeepSeek chat并为它将来的长期开源发展提供理论支撑。
二是提出了DeepSeek-V3,论文名字:高效的混合专家模型( A Strong Mixture-of-Experts Language Model),这是去年12月发布的,提出了一种高效的混合专家模型,通过仅激活少量参数,在性能和计算成本之间实现了优化平衡,这是一个划时代的突破。
三是提出了DeepSeek-R1:论文名字:通过强化学习提升大型语言模型的推理能力(Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。这篇由郭达雅博士作为一作的论文在世界范围引发了轰动效应。因为不到一个月,通过这篇论文的工作把deepseek从chatgpt 4.0的水平提升到了chatgpt o1的水平,训练过程消耗了2.8M H800 GPU 小时,总成本约 $5.58M,成本是其它大模型的几十分之一。这篇论文的最大贡献是通过强化学习的方法(提出了GRPO算法),用较低的成本把deepseek有关逻辑方面的数学和代码编写能力提升到了当前世界最高水平。这证明了无须提供人工打标签的监督训练数据,大模型通过纯强化学习也能达到极高智能,一方面这降低了训练成本,另一方面为将来机器人的自我进化提供了理论依据(说到这里我觉得有些不寒而栗....)。
deepseek之所以引起轰动,主要是打破了两点垄断,一是打破了闭源模型的垄断,证明了开源路径才是最有利于技术发展的路径。二是打破了硬件垄断,证明大模型的发展并不是一定要大力出奇迹,通过拼命堆叠硬件资源来解决,而是通过算法优化可以同样快速进化(deepseek通过对transformer模型的KV数据低秩压缩和并行计算来极大降低硬件资源需求)。所以deepseek的胜利,是我们IT行业内难得的基础架构和算法方面的胜利,而不是以前我们经常做到的应用层面的胜利,在中国IT行业发展史上,也是有划时代的意义的。
对于今年的投资机会,我认为在机器人和AI上,今年还会有较好的趋势性机会,因为deepseek的创新不止于此,DeepSeek-R1只是在逻辑推理方面相对V3进步了很多,在其它方面后续必然还会有更多的迭代,会形成持续性的技术发展高潮。本人节前就买入了deepseek相关概念股浪潮集团,航锦科技,浙江东方。相信会有好的回报。
首先deepseek很开放,不但公开了大模型的参数,而且从去年至今已经发布了相关论文8篇,很多研究机构根据这些论文已经复现了deepseek的算法,满足了论文的可重复性与可验证性要求,所以论文的可靠性也是有保障的。
deepseek最重要的论文有三篇:
一是提出了DeepSeek-LLM,论文名为:以长期主义推动开源语言模型扩展(LLM Scaling Open-Source Language Models with Longtermism)。论文提出了社区驱动的开源治理框架和多任务优化方法,提出了DeepSeek chat并为它将来的长期开源发展提供理论支撑。
二是提出了DeepSeek-V3,论文名字:高效的混合专家模型( A Strong Mixture-of-Experts Language Model),这是去年12月发布的,提出了一种高效的混合专家模型,通过仅激活少量参数,在性能和计算成本之间实现了优化平衡,这是一个划时代的突破。
三是提出了DeepSeek-R1:论文名字:通过强化学习提升大型语言模型的推理能力(Incentivizing Reasoning Capability in LLMs via Reinforcement Learning)。这篇由郭达雅博士作为一作的论文在世界范围引发了轰动效应。因为不到一个月,通过这篇论文的工作把deepseek从chatgpt 4.0的水平提升到了chatgpt o1的水平,训练过程消耗了2.8M H800 GPU 小时,总成本约 $5.58M,成本是其它大模型的几十分之一。这篇论文的最大贡献是通过强化学习的方法(提出了GRPO算法),用较低的成本把deepseek有关逻辑方面的数学和代码编写能力提升到了当前世界最高水平。这证明了无须提供人工打标签的监督训练数据,大模型通过纯强化学习也能达到极高智能,一方面这降低了训练成本,另一方面为将来机器人的自我进化提供了理论依据(说到这里我觉得有些不寒而栗....)。
deepseek之所以引起轰动,主要是打破了两点垄断,一是打破了闭源模型的垄断,证明了开源路径才是最有利于技术发展的路径。二是打破了硬件垄断,证明大模型的发展并不是一定要大力出奇迹,通过拼命堆叠硬件资源来解决,而是通过算法优化可以同样快速进化(deepseek通过对transformer模型的KV数据低秩压缩和并行计算来极大降低硬件资源需求)。所以deepseek的胜利,是我们IT行业内难得的基础架构和算法方面的胜利,而不是以前我们经常做到的应用层面的胜利,在中国IT行业发展史上,也是有划时代的意义的。
对于今年的投资机会,我认为在机器人和AI上,今年还会有较好的趋势性机会,因为deepseek的创新不止于此,DeepSeek-R1只是在逻辑推理方面相对V3进步了很多,在其它方面后续必然还会有更多的迭代,会形成持续性的技术发展高潮。本人节前就买入了deepseek相关概念股浪潮集团,航锦科技,浙江东方。相信会有好的回报。