一、从默默无闻到引领潮流
DeepSeek成立于它背后的量化私募巨头幻方的支持,是国内唯一一家储备了万张A100芯片的公司。这使得它在硬件资源方面具有了显著的优势。2023年5月,DeepSeek发布了其开源模型DeepSeek V2,这一模型的推理成本低得惊人——每百万token仅需1元,相当于主流模型Llama3 70B和GPT-4 Turbo的七分之一。这一创新,使DeepSeek彻底颠覆了市场价格,并引发了一场价格战,迫使字节、腾讯、百度等大厂也纷纷降价。
二、技术创新的核心
DeepSeek不仅是降价,更在于其背后强大的技术实力。公司的创新核心在于其新型的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse结构。这两项技术的引入,显著降低了显存的占用,同时极大地减少了计算量。这意味着,使用DeepSeek的模型,用户可以在更低的成本下,获取与竞争对手相媲美甚至更优的性能。
这些技术创新不仅帮助DeepSeek取得成功,还让其被誉为“来自东方的神秘力量”。在硅谷,DeepSeek V2的论文被评价为“可能是今年最好的一篇”,将其推向了国际视野。
三、开源战略与团队文化
DeepSeek的另一个鲜明特点是其开源战略。公司不仅发布模型和论文,还积极推动技术共享,力求让更多人受益。梁文锋,DeepSeek的创始人,强调开源不仅是一种商业策略,更是一种文化行为,能够为技术人员带来成就感和荣誉感。
在团队文化上,DeepSeek鼓励灵活的管理模式,所有团队成员在资源调用上没有设限,这种自下而上的方式极大地促进了创新。至于人才的选择,DeepSeek关注的也是热情和好奇心,力求以年轻且有潜力的本土人才来推动研究与开发。
四、从DeepSeek-V3到DeepSeek-R1
时隔不到一个月,DeepSeek又一次震动全球AI圈。去年12月,DeepSeek推出的DeepSeek-V3在全球AI领域掀起了巨大的波澜,它以极低的训练成本,实现了与GPT-4o和Claude Sonnet 3.5等顶尖模型相媲美的性能,震惊了业界。此次推出的新模型DeepSeek-R1不仅成本低,更是在技术上有了大幅提升。而且,它还是一个开源模型。这款新模型延续了其高性价比的优势,仅用十分之一的成本就达到了GPT-o1级别的表现。
业内人士甚至喊出了“DeepSeek接班OpenAI”的口号。前Meta AI工作人员、知名AI论文推特作者Elvis指出,DeepSeek-R1的论文堪称瑰宝,因为它探索了提升大语言模型推理能力的多种方法,并发现了更明确的涌现特性。Jim Fan指出,DeepSeek-R1通过硬编码规则计算真实奖励,避免了使用任何RL容易破解的学习奖励模型,这使得模型产生了自我反思与探索行为的涌现。这一切引发了人们对于“纯强化学习”方法和AI涌现能力的深思。
五、面对未来的信心
从DeepSeek的发展轨迹中,我们可以看到它所面临的挑战与机遇。尽管中美在AI技术上存在差距,梁文锋坚定地认为,凭借DeepSeek的创新精神,中国AI一方面不应止步于模仿,而应勇于探索原创技术,主动成为全球创新舞台上的一份子。他表示,未来的AI市场将需要更多专注于基础模型的公司,通过专业分工满足多样化的需求。
DeepSeek的崛起并非偶然,而是深厚技术积累与坚定战略选择的结果。它在AI市场中不仅带来了价格的变革,更推崇了技术创新的理念。DeepSeek展示了在传统商界和快速商业化之间,如何保持技术先行,也启示着更多的行业参与者,要在创新的道路上持续努力,打破固有思维,期待下一个颠覆性的产品或理念再次引领风潮。