春节前后,全球热议的话题莫过于DeepSeek。DeepSeek是一家成立于2023年7月的公司,由幻方量化基金的联合创始人梁文峰创办,专注于大语言模型(LLM)及其相关技术的研发。2025年1月20日,DeepSeek发布了R1模型,并同步开源了模型权重。
春节前后,全球最热门的话题非DeepSeek莫属。DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,由梁文峰创立,专注于大语言模型(LLM)及其相关技术的深度研发。2025年1月20日,DeepSeek正式发布R1模型,并同步开源了模型权重。该模型因其性能接近OpenAI o1正式版,迅速获得用户青睐。1月27日,DeepSeek应用登顶苹果中国地区和美国地区的免费应用下载排行榜,在美国区下载榜上超越了ChatGPT。
DeepSeek在短时间内迅速登上模型下载排行榜和应用下载排行榜榜首。许多用户试用后对其实际效果感到惊喜,并纷纷搭建自己的优化模型部署。这引发了市场对大模型高资本投入模式的质疑,以及对人工智能行业发展路径的思考。
DeepSeek展示了两大技术优势。首先,它颠覆了传统的推理认知技术革命,使AI从被动学习进化到主动思考。其次,强化学习策略降低了无效训练60%,减少了高强度计算需求40%。DeepSeek-R1的推理成本仅为OpenAI o1的3%到5%,实现了性能与成本的双重突破。
这意味着中国正在用更聪明的算法打破大模型发展路径上的瓶颈,就像当年用手工计算出原子弹的公式一样,今天用数学智慧化解了芯片算力的围剿。
DeepSeek引起了全球轰动,展示了中国在AI领域的创新和自信。它不仅推动了大模型的广泛应用,还为中国在AI领域实现历史性跨越提供了契机。DeepSeek的成功标志着大模型真正迎来了大规模商用的技术拐点。
近期,一些研究团队声称通过蒸馏法以极低成本训练出了可以媲美DeepSeek-R1的模型。周鸿解释说,模型蒸馏是一种常见的训练方法,目的是构造资源高效且性能优异的小模型。OpenAI声称DeepSeek偷窃其思维链数据的说法是错误的,因为DeepSeek依靠自己的强化学习,走出了与OpenAI完全不同的技术路线。
DeepSeek-R1不仅开放了所有权重参数,还公开了详尽的技术报告,这相当于把知识分享给了整个AI产业和全人类。开源模型使用和鼓励全球开发者社区共同参与贡献代码和数据,使得大模型生态社区中的Hugging Face平台出现了数百个基于DeepSeek派生的模型。
随着AI深度融入生活,技术的稳定性和韧性变得至关重要。DeepSeek曾遭受大规模DDOS攻击,反映出美国对其崛起的担忧。在这个历史时刻,周鸿呼吁国内同行应支持DeepSeek,360也推出了相应的支持措施,包括提供全方位安全保护和集成DeepSeek模型的纳米AI搜索。
DeepSeek的成功不仅验证了Transformer加强化学习路线的有效性,还通过开源模式打破了头部模型的技术封闭,降低了技术门槛,加速了大模型商业化的进程。