DeepSeek出圈
2025-02-06
近日,面壁智能联合创始人兼首席科学家刘知远在谈及DeepSeek近期引发的热潮时指出,“DeepSeek 最近发布R1模型的重要价值在于它能够完美复现OpenAI o1的深度推理能力,并且他通过开源的方式发布了相对详细的介绍,为行业作出了重要贡献。”
刘知远指出,“因为OpenAI o1本身并没有提供关于其实现细节的任何信息,它相当于引爆了一个原子弹,但没有告诉大家秘方,而DeepSeek可能是全球首个能通过纯粹的强化学习技术复现OpenAI o1能力的团队,并且还把这种能力开源了。”
刘知远总结指出,DeepSeek R1的整个训练流程有两个非常重要的亮点或价值:一是通过规则驱动的方法实现了大规模强化学习;二是通过深度推理 SFT 数据与通用 SFT 数据的混合微调,实现了推理能力的跨任务泛化;这使得 DeepSeek R1 能够成功复现OpenAI o1 的推理水平。