DeepSeek,一家中国AI初创公司,正加速推出其新AI模型R2,该模型在编码和多语言推理方面表现优异。其创始人梁文峰通过量化对冲基金High-Flyer成为亿万富翁。DeepSeek的成功可能促使全球公司加快AI发展,并引发美国政府的担忧。
DeepSeek的崛起与R2模型的推出
DeepSeek今年1月推出的R1模型因价格低廉且性能超越许多西方竞争对手,导致全球股市市值蒸发超过1兆美元。根据知情人士透露,DeepSeek原计划于5月初推出R2模型,但目前希望能更早发布,并强调新版本将提升代码生成能力,且能支持更多语言,而不仅限于英文。
High-Flyer的背景与DeepSeek的成功
DeepSeek的创办人梁文峰曾是中国量化对冲基金High-Flyer的创办人,因投资成功成为亿万富翁。他性格低调,过去一年未曾接受媒体访问。DeepSeek的运营方式与中国传统科技巨头不同,企业架构扁平,并鼓励自由研究,类似学术实验室,而非典型的盈利企业。公司员工主要为Z世代实习生与应届毕业生,工作环境更具弹性,并未采用中国科技业常见的“996”制度。
计算资源优势与政府监管
DeepSeek能以低成本打造强大AI模型,主要得益于High-Flyer过去十年来对AI研究与运算资源的巨大投入。早在2020年与2021年,High-Flyer便投资12亿人民币建造两座超级运算中心,其中“Fire-Flyer II”集群包含约1万颗辉达A100晶片,用于AI训练。当时中国证券监管机构曾对其大规模晶片采购表示关注,担忧其用途与市场影响。然而,最终未进行干预,这一决定对DeepSeek至关重要。2022年,美国开始限制A100晶片出口中国,但此时Fire-Flyer II已全面运作,使DeepSeek在计算能力上拥有竞争优势。
中国政府的支持与国际关注
中国政府对DeepSeek的态度从最初的审慎监管转变为全力支持。据悉,中国政府已要求DeepSeek保持低调,以避免国际社会关注过多。目前,包括中国13个地方政府与10家国有能源公司在内的机构,均已将DeepSeek的模型应用于其系统。此外,联想、百度与腾讯等科技巨头也已将DeepSeek的AI技术整合至自家产品。不过,与