百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

50美元复现DeepSeek R1,李飞飞团队为何也选了阿里Qwen

wptr33 2025-02-11 13:47 30 浏览

春节期间,中国AI的技术变革在全世界掀起浪潮。
继DeepSeek的低成本推理模型震惊硅谷和华尔街之后,昨日,李飞飞等斯坦福大学和华盛顿大学研究人员发布的最新研究成果再次引发业界热议:基于阿里通义千问Qwen2.5-32B-Instruct开源模型为底座,仅使用16块H100 GPU,通过26分钟的监督微调,便打造出了性能卓越比肩OpenAI的O1和DeepSeek的R1等尖端推理模型的s1-32B模型。
这一模型不仅在数学及编码能力上与OpenAI的o1和DeepSeek的R1等顶尖推理模型相当,在竞赛数学问题上的表现更是比o1-preview高出27%。
不过,值得注意的是,虽然媒体报道中强调s1模型只要不到50美元成本,但s1模型的训练并非从零开始,而是基于阿里云通义千问(Qwen)模型进行监督微调。
这意味着,s1模型的神奇“低成本”,是建立在已具备强大能力的通义千问开源基础模型“巨人肩膀”之上完成的。
如此惊人的效果,再次证实了通义千问模型的技术实力。
阿里的开源模型推动AI普惠,引发产业变革
在李飞飞团队之前,AI初创公司DeepSeek也选择了通义千问作为核心技术底座。

DeepSeek官方透露,他们将DeepSeek-R1的强大推理能力成功蒸馏到6个开源模型中,其中4个都基于Qwen系列。特别是基于Qwen-32B蒸馏的模型,已经实现了对标OpenAI o1-mini的卓越性能。这一系列成功案例再次说明了通义千问在开源社区的巨大影响力和良好口碑,逐渐取代Llama成为开源社区最重要的标杆基座模型。
自2023年8月开源以来,阿里云通义千问已相继推出Qwen、Qwen1.5、Qwen2、Qwen2.5等四代模型,涵盖大语言模型、多模态模型、数学模型和代码模型等数十款产品。这些模型在HuggingFace的Open LLM Leaderboard、Chatbot Arena大模型盲测榜单、司南OpenCompass等多个国内外权威评测中屡创佳绩,展现出全球领先的性能水平。


通义千问率先在业界实现了"全尺寸、全模态、多场景"的开源布局。
从1.5B到72B乃至110B的全系列开源,为开发者和企业提供了最大的选择空间。

数据显示,2024年仅Qwen2.5-1.5B-Instruct一款模型就占据全球模型下载量的26.6%,远超第二名Llama-3.1-8B-Instruct-GGUF的6.44%
在视觉理解领域,Qwen-VL及Qwen2-VL两款模型的全球下载量更是突破3200万次。一周前,Qwen2.5-VL的全新升级再次引发开源社区的热烈响应。
目前,通义千问在海内外开源社区的衍生模型数量已突破9万,超越Llama系列,成为世界最大的生成式语言模型族群。这一成就不仅体现了通义千问的技术实力,更凸显了其在推动AI普惠方面的重要贡献。


中国大模型引发全球关注,阿里巴巴推动中国AI资产重估

通过持续开源领先模型,阿里云不仅繁荣了AI开发生态,更吸引越来越多的开发者和企业用上先进的云计算基础设施,从而推动了“云+AI”从技术创新到商业良性循环的完整闭环。
这一成绩展现了阿里云"强大模型+充足算力+完整云平台"的综合实力。
今年1月29日春节期间,阿里云发布的通义千问Qwen2.5-Max超大规模MoE模型,在Chatbot Arena大模型盲测中以1332分位列全球第七,超越DeepSeek-V3、OpenAI o1-mini和Claude-3.5-Sonnet等强劲对手,成为非推理类中国大模型中的佼佼者。

外资机构对这一趋势给予了高度关注。摩根士丹利、高盛、德银认为,DeepSeek和阿里通义打响了中国大模型"AI普惠"的第一枪,这种技术突破与去年北美云计算服务商的发展轨迹高度相似。
根据摩根士丹利此前的研报,低成本高性能模型也将重塑数据中心行业格局:对于中国数据中心而言,短期内,如果大型科技公司采用类似技术路线,可能减少AI训练相关需求。但从长远来看,低成本模型将推动推理需求增长,对一线城市数据中心形成利好。
瑞银在昨日的研报更是以"冰雪消融,春暖花开,又到了追涨中概互联网的季节"这么浪漫的标题,来看多以阿里巴巴为代表的中国AI资产。

随着国内LLM从模型到应用的蓬勃发展,数据中心和基础设施将迎来新一轮增长机遇。计算能力需求的扩大不仅带来规模效应,更将提升整个产业链的定价能力。
DeepSeek昨日因服务器紧张而暂停API充值服务的情况,正是印证了算力和云服务需求的迫切性。
国泰君安在今日的报告中表示,在以DeepSeek为首的低成本推理模型的逐渐普及下,推理成本及价格大幅削减势必会带来应用测的繁荣,这反过来还会拉动成倍数的总算力需求提升。

未来可期

阿里云通过开源战略和持续创新,正在推动全球AI技术深入发展。其"开源引领+云服务"的双轮驱动模式,一方面通过领先的开源模型降低AI应用门槛,推动技术普惠;另一方面借助日益增长的算力需求,带动云服务业务快速发展。
当前,随着AI普惠浪潮兴起,云计算基础设施的重要性愈发凸显。阿里云凭借技术积累和平台优势,正成为连接AI创新与产业升级的关键纽带,也将从这波产业变革中获得更大的发展机遇。
?星标华尔街见闻,好内容不错过?
本文不构成个人投资建议,不代表平台观点,市场有风险,投资需谨慎,请独立判断和决策。

相关推荐

oracle数据导入导出_oracle数据导入导出工具

关于oracle的数据导入导出,这个功能的使用场景,一般是换服务环境,把原先的oracle数据导入到另外一台oracle数据库,或者导出备份使用。只不过oracle的导入导出命令不好记忆,稍稍有点复杂...

继续学习Python中的while true/break语句

上次讲到if语句的用法,大家在微信公众号问了小编很多问题,那么小编在这几种解决一下,1.else和elif是子模块,不能单独使用2.一个if语句中可以包括很多个elif语句,但结尾只能有一个else解...

python continue和break的区别_python中break语句和continue语句的区别

python中循环语句经常会使用continue和break,那么这2者的区别是?continue是跳出本次循环,进行下一次循环;break是跳出整个循环;例如:...

简单学Python——关键字6——break和continue

Python退出循环,有break语句和continue语句两种实现方式。break语句和continue语句的区别:break语句作用是终止循环。continue语句作用是跳出本轮循环,继续下一次循...

2-1,0基础学Python之 break退出循环、 continue继续循环 多重循

用for循环或者while循环时,如果要在循环体内直接退出循环,可以使用break语句。比如计算1至100的整数和,我们用while来实现:sum=0x=1whileTrue...

Python 中 break 和 continue 傻傻分不清

大家好啊,我是大田。今天分享一下break和continue在代码中的执行效果是什么,进一步区分出二者的区别。一、continue例1:当小明3岁时不打印年龄,其余年龄正常循环打印。可以看...

python中的流程控制语句:continue、break 和 return使用方法

Python中,continue、break和return是控制流程的关键语句,用于在循环或函数中提前退出或跳过某些操作。它们的用途和区别如下:1.continue(跳过当前循环的剩余部分,进...

L017:continue和break - 教程文案

continue和break在Python中,continue和break是用于控制循环(如for和while)执行流程的关键字,它们的作用如下:1.continue:跳过当前迭代,...

作为前端开发者,你都经历过怎样的面试?

已经裸辞1个月了,最近开始投简历找工作,遇到各种各样的面试,今天分享一下。其实在职的时候也做过面试官,面试官时,感觉自己问的问题很难区分候选人的能力,最好的办法就是看看候选人的github上的代码仓库...

面试被问 const 是否不可变?这样回答才显功底

作为前端开发者,我在学习ES6特性时,总被const的"善变"搞得一头雾水——为什么用const声明的数组还能push元素?为什么基本类型赋值就会报错?直到翻遍MDN文档、对着内存图反...

2023金九银十必看前端面试题!2w字精品!

导文2023金九银十必看前端面试题!金九银十黄金期来了想要跳槽的小伙伴快来看啊CSS1.请解释CSS的盒模型是什么,并描述其组成部分。答案:CSS的盒模型是用于布局和定位元素的概念。它由内容区域...

前端面试总结_前端面试题整理

记得当时大二的时候,看到实验室的学长学姐忙于各种春招,有些收获了大厂offer,有些还在苦苦面试,其实那时候的心里还蛮忐忑的,不知道自己大三的时候会是什么样的一个水平,所以从19年的寒假放完,大二下学...

由浅入深,66条JavaScript面试知识点(七)

作者:JakeZhang转发链接:https://juejin.im/post/5ef8377f6fb9a07e693a6061目录由浅入深,66条JavaScript面试知识点(一)由浅入深,66...

2024前端面试真题之—VUE篇_前端面试题vue2020及答案

添加图片注释,不超过140字(可选)1.vue的生命周期有哪些及每个生命周期做了什么?beforeCreate是newVue()之后触发的第一个钩子,在当前阶段data、methods、com...

今年最常见的前端面试题,你会做几道?

在面试或招聘前端开发人员时,期望、现实和需求之间总是存在着巨大差距。面试其实是一个交流想法的地方,挑战人们的思考方式,并客观地分析给定的问题。可以通过面试了解人们如何做出决策,了解一个人对技术和解决问...