这几天Deepseek成了全球最热门的话题,大家对其创始人梁文锋也很感兴趣。但他是一个极其低调的人,即便在幻方成为国内首个突破千亿管理规模的私募量化基金的时候,金融圈内的人对幻方的实际控制人也了解甚少。
我总结了他近年来几次公开发言,当时看这些文字的时候没有太多感触。现在他取得了如此成就,再来读一遍,发现字里行间闪烁着智慧的光芒(捂脸)
我总结了他近年来几次公开发言,当时看这些文字的时候没有太多感触。现在他取得了如此成就,再来读一遍,发现字里行间闪烁着智慧的光芒(捂脸)
- 为《西蒙斯传》做序
“每当在工作中遇到困难的时候,我会想起西蒙斯的话:“一定有办法对价格建模。”
https://baijiahao.baidu.com/s?id=1690939635451193484&wfr=spider&for=pc - 2019年 《一名程序员眼里中国量化投资的未来》
“人来做投资决策的时候,它是一种艺术,要凭感觉。程序来决策的时候,它是一种科学,它有最优解。”
https://cloud.tencent.com/developer/news/433786 - 2023年5月《疯狂的幻方:一家隐形AI巨头的大模型之路》
“信仰者会之前就在这里,之后也在这里。” “务必要疯狂地怀抱雄心,且还要疯狂地真诚”
https://baijiahao.baidu.com/s?id=1766849870053959366&wfr=spider&for=pc - 2024年7月 《揭秘DeepSeek:一个更极致的中国技术理想主义故事》
“真正的差距不是一年或两年,而是原创和模仿之差”
“我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。”
“其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。”
https://baijiahao.baidu.com/s?id=1805244984030096186&wfr=spider&for=pc - 2015年发布在水木论坛上的招聘故事
回想在2018年,当时关于梁文锋“最全信息”来自2015年12月1日水木社区上转发的一则招聘启事,标题是“幻方科技2016校园招聘——顶尖量化对冲基金公司觅牛人”。正文下面附了一段没有具名的故事。“2008年,L先生带着8万元本金,开始了自己独立的量化交易之路。2015年,经历过7年熊市牛市大轮回的L先生,以每年超过100%的复合收益率迈入了亿元富豪的队伍。这个行业里最先富起来的L先生认为,中国的量化交易将从‘单兵游侠’的时代转向极客汇聚的私募基金时代。他和IT圈的朋友创办了自己的公司,希望能打造一支世界一流的量化私募团队。他们给自己的公司取名‘幻方科技’。‘幻方’取自于中国古代洛书《九宫图》,是一种特殊的矩阵,是科学的结晶与吉祥的象征。L先生的理想是有朝一日能够与世界级的量化交易泰斗——西蒙斯的文艺复兴公司相媲美。”
https://mp.weixin.qq.com/s/tv_eN8-bxH_PkqCFu3P-7g - 2009年在上海实习老板的回忆
““我建议他未来要寻找那些毛利高的项目,这句看似简单的话却深深触动了他。”周朝恩提到,2022至2023年再次碰到,俩人一起吃饭时梁文锋反复强调,记得他离开时候,我跟他创业建议是要做毛利高的业务,他觉得很有价值和意义,一直铭记这句话。”
https://mp.weixin.qq.com/s/L2MrBNt1Cc78bPYVzlx--g

5
赞同来自: 南山少主 、bsdplus 、XJAJX 、Sakura11 、dcshallot更多 »
@jian
全世界的AI 都是基于transformer 架构才取得突破的,deepseek当然也基于此。全世界的AI都是基于transformer架构?你对AI了解多少?transformer只是machine learning (AI)其中一种架构,除它外还有CNN, RNN, GAN, GRU等等等。unsupervised learning (无人工干预强化学习) deep seek之前就有了,这也不是他们减少计算量(培训成本)的主要途径。 开源AI也不少,github这里就列有一个清单github.com/thebigbone/opensourceAI。每个AI模型都有自己的特色, 但DeepSeek引起大家关注的主要原因是减少模型培训成本。
deepseek,接过了openai 的开源路线,是对业界最大贡献。
此外还有一些独特之处。

1
jian - 淡淡的名贵
赞同来自: gaokui16816888
@anonymous00
deepseek,接过了openai 的开源路线,是对业界最大贡献。
此外还有一些独特之处。
这几天打开手机电脑都是关于deepseek的讨论。我看了几遍deepseek发表的关于他们模型的文章(V2: https//arxiv.org/pdf/2405.04434 ; R1:https//arxiv.org/abs/2501.12948)。我理解下来最主要的突破是他们基于transformer 架构对token的attention mechanism在传统multile head att...全世界的AI 都是基于transformer 架构才取得突破的,deepseek当然也基于此。
deepseek,接过了openai 的开源路线,是对业界最大贡献。
此外还有一些独特之处。


1
赞同来自: bsdplus
这几天打开手机电脑都是关于deepseek的讨论。我看了几遍deepseek发表的关于他们模型的文章(V2: https//arxiv.org/pdf/2405.04434 ; R1:https//arxiv.org/abs/2501.12948)。我理解下来最主要的突破是他们基于transformer 架构对token的attention mechanism在传统multile head attention机制下对token的key和value加了一层降维的latent space transform。如果模型够大,这种机制能极大减少计算步骤。这确实是值得庆祝的进展。但他们的突破是基于这几年machine learning/AI界来自各方贡献的进展包括不断改进的transformer架构。另外文章没有详述他们'high quality training data'的来源和data pre-processing, 这可和模型一样重要。总得来说,好样儿的, 但是被吹得有点过头了。

0
认知的不同,美国政府想打压中国,每年花几百亿美元抹黑中国,说中国人,生活在地狱的最底层。
结果中国用免签就解决了,你来中国,吃穿住行得花钱吧,我们国家还能赚钱。就像三体人对人类的看法,是高阶生物对低阶生物的碾压。
结果中国用免签就解决了,你来中国,吃穿住行得花钱吧,我们国家还能赚钱。就像三体人对人类的看法,是高阶生物对低阶生物的碾压。