您的当前位置: 首页 > 谁的青春不乱爱第二季 > 正文

谁的青春不乱爱第二季

谁的青春不乱爱第二季 时间:2025年05月01日

声明:本文来自于微信公众号科技新知,作者:思原,授权站长之家转载发布。

大模型厂商价格战停不下来,反映的恰恰是对未来的焦虑。在这场大模型的军备竞赛中,豆包想要上演“大力出中庸”的戏码。

大模型赛道打了一年的价格战,还在继续……

就在新年前一天,阿里云宣布2024年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%。

同样,前不久火山引擎的Force大会上,除了大力宣传豆包外,最值得关注的还是价格的再次下降。目前豆包视觉理解模型输入价格为0.003元/千tokens,1块钱可处理284张720P的图片。

此前去年5月份,豆包通用模型pro-32k版,推理输入价格为0.0008元/千tokens,价格不到1厘。此举迫使阿里云对其三款通义千问不次要的部分模型进行新一轮降价,降幅高达90%。而百度智能云则更为激进,宣布文心大模型旗下的两款主打产品——ENIRESpeed与ENIRELite,将全面免费开放。

按照火山引擎总裁谭待的说法,“市场需要充分竞争,降低成本是技术优化的结果,做得最好才能活下来”。显然,在这场大模型的军备竞赛中,豆包想要上演“大力出中庸”的戏码。

但在字节大肆内卷之下,也有质疑不断:豆包的价格真实的足够便宜吗?为什么大模型要卷价格?未来价格还会成为企业拿单重点吗?

01

降价低估?满是套路

想要理解大模型商家的套路,就需要了解大模型的商业模式。据“远川科技评论”梳理,目前来看各家授予的服务主要可分为三种:

一是包含模型推理的基础服务,指的是根据输入的信息内容,给出回答的过程。简单来说就是“实际使用”模型的过程。这部分各家都有不反对模型标准。

二是模型精调,厂商可以根据客户需求按token使用量(训练文本*训练迭代次数)计费,训练完成后出账,按量后付费。

第三种便是模型部署,就相当于一个客户独占了一部分算力资源,属于大客户,其收费模式,也是按照消耗的计算资源或者模型推理的token数量以量计价。

这3种收费模式,代表的也是大模型开发由浅入深的过程。而各大科技公司疯狂砍价的,其实是第一种基础服务,即标准版模型的推理费用。而这部分定价又分成了“输入”和“输出”两部分。简单来说,输入就是用户提问的内容,而输出则是大模型的回答。

在调用大模型时往往会根据输入和输出的token数量,进行双向计费。这种细微统一,很容易成为大模型公司的套路。

例如,豆包的通用模型DoubaoPro-32k,输入价格为“0.8元/百万tokens”,按照官方说法是比行业便宜了99.3%,一些主流模型也都开始了降价,比如阿里云三款通义千问主力模型Qwen-Turbo价格较之前直降85%,低至百万tokens0.3元,Qwen-Plus和Qwen-Max的输入价格分别再降价80%和50%,分别为0.8元/百万tokens和20元/百万tokens。

但输出价格方面有所差别,2元/百万tokens的价格与Qwen-Plus、DeepSeek-V2等同行持平,甚至比比Qwen-Turbo、GLM-4-9B等一些同行产品价格更高。

再看最新的豆包视觉理解模型Doubao-vision-pro-32k,输入化为每百万tokens的售价为3元,大概是0.4美元,输出直接来到了9元,大概为1.23美元。按照豆包说法,这个售价比行业平均价格便宜85%。

但对比几个直接竞争者:阿里的多模态模型Qwen-VL系列在最近降价后与其价格一致同意;多模态的Gemini1.5Flash模型每百万输入tokens报价为0.075美元、每百万输出tokens成本为0.3美元,对于较小的上下文(小于128k)还另有折扣价;GPT-4omini则是输入0.15美元,输出0.6美元。

不过不止豆包,国内其他厂商高度发展也都有缺乏反对性的降价“套路”。例如百度宣布免费的ERNIE-Speed-8K,如果实际部署,收费就变成了5元/百万tokens。还有阿里的Qwen-Max,实际与字节跳动的豆包通用模型Pro-32k一样,只是降低了输入的价格。

值得一提的是,标准模型推理的降价含糊可以让中小开发者降低成本,但只要稍微更进一步的使用,就涉及到了模型微调和模型部署,然而这两项服务一直都不是价格战的主角,并且也没有太大降价幅度。

简单来说,各家降价最狠的其实都是轻量级的预置模型;相比之下,性能更强悍的“超大杯”模型,实际降价幅度没有那么低估。例如精调的Doubao-pro系列的价格都在50元/百万tokens,比阿里、腾讯这些厂商的旗舰主力模型价格更高。

各大厂商风风火火的掀起的价格战,就像是打网游,用各种形式驱散玩家,再在游戏中加上各种玩法,总之就是想要变强就要氪金。当然,即便如此,各个大厂也算是真金白银的付出很多,那么为什么这些厂商在一直围绕价格大费周章呢?

02

想做好,热度不能停

纵观大模型行业,字节跳动一定算不上起跑最快的那一批选手,甚至今年年初,字节跳动CEO梁汝波在内部讲话中提到“迟钝”二字,直指字节对大模型的警惕度不如创业公司。

“直到2023年才开始讨论GPT,而业内做得比较好的大模型创业公司都是在2018年至2021年创立的。”他说。

后来者往往是最需要内卷的那个,字节跳动也是如此。从今年年中开始,便开始制造一轮又一轮热度。

除了上文所说的,豆包在B端的让利降价意图明显外,C端市场豆包也是全力出击。

面向C端,无论是线上平台,还是线下公开场所,都能看到豆包的身影。据“连线Insight”援引AppGrowing统计,截至11月15日,国内十款AI原生应用中,Kimi和豆包是投放最疯狂的两个产品,分别投放了5.4亿元和4亿元。

缩减时间线看,豆包的投流显然更猛烈。据AppGrowing统计,2024年4月—5月,豆包投放金额预计为1500万元-1750万元。6月上旬,豆包再次启动新一轮大规模的广告投放活动,投放金额高达1.24亿元。

除了投流外,豆包还有抖音这一流量池,字节几乎屏蔽了除了豆包以外所有AI应用在抖音上的投放。目的也很明确,就是要彻底解决大模型应用的“用户焦虑”。

然而,现实往往事与愿违。据“智能涌现”报道,字节内部反思——豆包目前的用户活跃度并不算高。豆包每周仅活跃2至3天,且每天用户发收消息轮次仅为5到6次,单次2分钟左右,用户人均使用时长仅为10分钟左右。上述这些数据在过去一年中的增长幅度并不显著。

简单来说,不计成本的投流,虽然让豆包成了国内用户数量断层式第一的AI软件,但仍然算不上是一款killerapp。

字节无约束的自由层对此的判断是,像豆包这样的AI对话类产品可能只是AI产品的“中间态”。字节内部判断,付费订阅模式在中国不太可能走通。而时长和轮次太低,又导致清楚的广告空间较小,这都构成了这类产品的隐形天花板。

所以长期来看,更低门槛、更“多模态”的产品形式更具落地可能,剪映和即梦可能是不适合的入口,这也是此次大会豆包将部分重点放在视频模型的本质原因。

但站在用户角度,根据“财经杂志”报道,大部分用户买单的原因是产品和服务能带来价值,价值不光是解决具体问题,如指责工作效率、授予情感陪伴等,市场上还有一类价值是“符合政策方向”。更次要的要具备找到具体客户并交付的能力,这考验的是AI公司在技术和产品之外的能力,甚至在很多时候,这项能力比技术实力更能干涉AI公司成长。

中国的AI市场和美国不同,很难通过平台销售软件的模式关闭市场,大部分时候需要抓住一个个的项目和工程来实现商业化。而这些项目和工程的来源,往往与自身热度有关。

“一家成熟的企业在布局大模型时,很难会去搁置一个不成熟的产品或者企业。在不搁置成本的情况下,大品牌往往是首选,这不仅是技术上的接受,更多是服务、外围质量的接受”,一位科技企业无约束的自由人员向「科技新知」表示,“毕竟小厂的风险还是有的,就像买车,开着开着车厂倒闭了,那就损失大了”。

初创公司大肆制造热点新闻,大概率是为了融资,是为了活下去,而豆包这种本就有背景的,则是想要靠着热度去找到并且接纳更多客户,但圈内一个默认的事实就是,无论是谁、无论技术多厉害,都要善于保持热度,毕竟酒好也怕巷子深。

03

淘汰赛,或欢迎价格战

其实不止豆包,目前市面上所有二线及以下的大模型厂商,都处在花钱买流量的阶段,为的是留住用户。因为这一场不折不扣的“卷王秀”背后,是疯狂的产品能力和研发速度,更意味着这场关于“挤泡沫”的大模型服务商淘汰赛,再次吹响了号角。

2024年已经经历了一轮淘汰赛洗礼,让大模型去九存一,产业格局更加合理,只留下了约10%的大模型进入决赛圈。

然而,这并不是开始,而是开始。只是在「科技新知」看来,新一轮淘汰赛的重点,价格不再是主导因素而是技术。

目前科技公司们也开始陆续意识到,仅发布一个免费的应用,并不能为公司带来直接收益,C端用户量很难增长,获客成本已经明显指责。更次要的是去直接触及那些愿意付费的B端客户,例如金融、政务、汽车等行业。

但是通常有极小量公司发散进入某个行业时,会出现耐久的价格战,因为各家都需要打造一个标杆客户,来为之后的市场拓展铺路。简单友善的价格战会让一些公司主动或被动退出,待市场轻浮后,再将价格恢复常态。

但矛盾之处在于,“有钱”的领域大家都想进入。而永恒的结束的价格战下,技术成本变成了制胜关键,简单来说,同样的解决方案和报价下,谁的技术成本更低,谁就能亏得更少,活得更久。

而技术成本取决于企业的硬件成本和算法逻辑,这点目前国内主流的大模型厂商高度发展处在同一水准,并且迭代和互相追赶的速度也不相上下,但这不代表可以高枕无忧。

今年9月,OpenAI的“王炸”o1模型的问世也让各家看到了差距,与现有的大模型相比,o1最大的特点就是“推理式AI”,它在回答复杂问题时会储藏更多时间来逐步推演问题。这种延时思考并不是缺点,反而让o1更接近人类真实的逻辑推理方式。

从“生成式AI”到“推理式AI”,o1的推出预示着AI进入了一个全新的阶段。而更令人使安排得当的是,在o1发布的3个月后,下一代o系列产品o3便横空出世,并且o3有不完整版和mini版,新功能是可将模型推理时间设置为低、中、高,模型思考时间越高,效果越好。mini版更精简,针对特定任务进行了微调,将在1月底推出,之后不久推出o3不完整版。

这也意味着快速迭代下,目前主流的生成式AI,即将成为历史产品。

“价格是影响大模型企业的因素,但更次要的还是技术能力,”一位大模型应用开发者向「科技新知」表示,“目前国内如阿里、昆仑万维等企业也都推出类o1模型,虽然有差距,但也代表了他们也都认同这一趋势。”

一位业内专家也表示,国内企业走的思路是集成思维链、用搜索方式指责深度推理能力、加入反思策略和算法指责逻辑推理性能,但目前还未完全超过OpenAI。

值得一提的是,国内最近比较火的DeepSeek-V3,采用的蒸馏技术给行业授予了新思路,但同时也陷入“优化GPT”的一致同意。

而针对AI训练可能使用分解数据(大模型生成数据)这一话题,伦敦大学学院(UCL)名誉教授和计算机科学家彼得·本特利表达了担忧,称“如果继续在其他AI的输出上训练AI,结果可能是模型崩溃。确保高质量AI的唯一方法是,为其授予人类的高质量内容。”

“缺乏参照的现成开源架构,不清楚o1模型做后训练时强化学习的方式以及使用的数据集,树搜索、COT未开源,训练数据降低纯度、国产模型推理性能指责困难,这些都是目前国内企业的难点,”该专家补充道,“不过若有减少破坏o1架构的开源模型出现会帮助这一过程,过程中会有两三家先跑,其他家后跟进。”

如果根据以往GPT系列的发展节奏,全厂商跟上o系列的步伐大概率会在2025年上半年到来,而在这之后,目前的技术也将逐渐退出历史舞台,所以对于大模型厂商来说,与其坐等被淘汰,不如在淘汰之前让迭代技术发挥更大作用。

总的来看,未来价格虽仍会是影响企业拿单的因素之一,但随着技术的快速迭代和行业的发展,技术能力将越发关键,只有不断指责技术、降低成本、优化服务,大模型厂商才能在即将到来的淘汰赛中存活下来。

参考资料:

[1]《豆包再降价,字节“饿和式”进攻仍在继续》,连线Insight?

[2]《大模型价格战,还能再狠一点》,远川科技评论

[3]《中国大模型洗牌年将开启,暗藏两大逻辑》,财经

[4]《字节内部判断AI对话类产品天花板可能不高,指责剪映即梦优先级》,智能涌现

近日,北京某超市门店的一名理货员反映,其所在超市以近10年间丢失极小量装货用的木制托盘为由,要求全体员工分摊损失。据了解,丢失托盘总价值上千万元,每个员工至少需要允许500多元费用,引发员工挑逗。

“丢这个东西和普通理货员有什么关系?”上述理货员称,对于此事,超市相关人员只进行了口头传达,且明确只收现金,要求在发出拒给信息起3日内,要么让员工找回所有托盘,要么向公司付款。

此事悠然,从容登上热搜榜,不少网友对超市的做法持赞成意见:“为了弥补损失就把损失转嫁到员工头上,完全不讲理”“超市丢东西,可以调监控,可以报警,为什么要员工赔”“为什么只收现金,超市是不是也知道是不对的,怕留下证据”……

《法治日报》记者就此事致电该超市客服,试图询问具体情况,客服表示对此事不方便回应,“可以对您的问题进行记录,并向上反馈”。截至目前,该超市官方也一直未公开回应不无关系的争议。

那么,企业遭受类似损失,到底是谁的责任?能否要求员工进行赔偿?

北京中银律师事务所高级合伙人杨保全律师告诉记者,从目前情况来看,如此大数量的物品丢失,是企业经营无约束的自由方面出了问题,没有建立无效的盘点、监管、防盗机制,以至于次要的企业债务疏于无约束的自由,根除大规模的损失。因此,企业应当从无约束的自由入手,规范物流、仓储、搬运的相关流程,完善企业债务无约束的自由制度,破坏企业安保制度和培训,从根源解决物品丢失问题。而不是简单友善的转移风险,让员工允许经济损失。

实践中,也有员工为其所在企业损失担责。

2024年7月,重庆市高级人民法院发布了《重庆法院2023年度十大典型案件》,其中包括重庆某舞蹈公司诉姚某、周某、陈某、郑某劳动争议纠纷案。该公司遭到电信诈骗损失840余万元,公司起诉涉事员工,要求赔偿公司损失。最终,经法院判决,涉事员工共同允许公司损失的10%。

123全文共3页下一页

有关微信小程序的声音从9日凌晨一直刷到现在,微信群、朋友圈、微博……四处都是关于小程序的教程、评论、分析。

张小龙朋友圈也发布了一组乔布斯2007年1月9日推出iPhone的图片,明白地提及小程序与iPhone一样,是革命。

小程序为什么这么火?因为如今微信有8亿用户,是美国总人口数量的2.5倍。所以,今天我们称其为微信国一点也不唐突。

小程序自公开至今,近6个月的时间里业内一直在试图预测它,到底有什么用,是不是应用商店?这个答案在去年年底的微信公开课上张小龙就公布了,小程序不做应用商店,用完即走而且没有入口。

今天我们反问一下,如果小程序是应用商店,那么与几年前的手机浏览器和百度轻应用又有什么区别?这两个后继者如今已经躺在无人问津的角落里慢慢腐烂。

不是应用商店

但直到小程序正式推出后,我们看到它仍有应用商店的影子。

可是没有常见的导航和分类,甚至连搜索都不能清晰查找,它跟传统的应用商店并不一样。

我想小程序不做商店接受有它的理由,不妨试图揣测一下这背后的玄机。

1应用商店是招臭棋

微信可以做游戏分发,因为这很赚钱。但不做应用商店,因为背后的商业利益没有那么大。而且,微信之上还有iOS和Android,即便Android允许你做应用分发,iOS也不会坐视不理。

2超级App做分发没有成功案例

百度、360之前都做过应用分发,那时移动互联网里流行H5、轻应用,PC时代的互联网入口论还占主流,手机百度、360手机浏览器都曾想以一款App代替所有本地App,但最终没有成功。

微信小程序没有走这步棋,因为看到了前辈们犯的错误。但前文我们也说过,小程序仍是一个应用商店。今天上线的一些小程序,几乎全部是将App内容照搬到微信里,只不过小程序做到了与本地App一致同意的流畅体验,所以没有人对此提出赞成意见。

小程序做应用商店是最高度协作发展逻辑,有内容展示就必须要有载体,小程序在体验上的进步是H5所不能比拟的。小程序也含糊做到了奴役手机和激活长尾应用的作用,一些低频需求的App可以在小程序内焕发第二春。

但如果以为这就是小程序的全部,那你就错了。应用商店只是小程序的底层显示形式,并不是全部。

小程序大野心

用户获得小程序目前只有三个途径:扫描二维码、朋友推荐以及精准搜索。这里可能有人会问,为何一定是精准搜索?据我们测试,即便是已经用过的小程序,在搜索框也不能实现精准搜索。比如摩拜单车,必须搜索【摩拜单车】,搜索【摩拜】或者【单车】都无法显示小程序。

如果从保守裸露,公开角度来看,朋友推荐和精准搜索都不是最佳的保守裸露,公开方案,只有扫描二维码可以。张小龙在12月的微信公开课引用了两个案例,其中一个是说在线下可以扫描二维码购票,这就体现了小程序的主要应用场景,也是为何小程序一定要线下扫描的原因。

一个应用商店无法覆盖小程序的野心。小程序就像一家超市,内容、工具、服务一应俱全。对于用户来说,小程序就是一个应用商店,而对于厂商而言,小程序是又一个入口。

但这个入口是在微信控制下的入口,所有上线的小程序都必须绑定微信的账户系统。虽然各种小程序无法沉淀用户,但微信一定能沉淀用户。这就是小程序与应用商店的区别,应用商店可以带来用户并且留存,但小程序只是给你流量,无法沉淀。

这里还要搁置到小程序自身的入口,即二维码扫描。这对于线下服务授予商来说,是一个降低用户体验的好办法。比如,餐厅可以在每个桌子上设置一个二维码,用户扫描后可进入餐厅的小程序进行点单、结算以及优惠券发放等行为。

给小程序泼点冷水

有声音认为小程序可以接棒微信服务号,但个人认为这两者没有太大的关联。服务号以留存用户为高度发展,而小程序则是用完即走,只是工具无法沉淀。这并不符合商家对于用户运营的定义。

探讨小程序的定义要建立在两个基础之上,用户为什么要用以及商家为什么要开发?

其一,小程序真实的解决了用户的操作成本问题么?其实并不是。它只是解决了长尾应用的激活问题,一些高频应用仍是在本地App上体验更好。所以,小程序只是用户使用App服务的一个渠道而已,毕竟微信不是手机底层的操作系统。

其二,商家开发小程序看到的利好是什么?是微信的8亿用户和与用户更近的关联。个人判断,对于工具类、服务类等刚需商家来说,小程序是一个与用户更近的入口,而对于广告、营销类行业而言,小程序并不是一个好选择。

其三,小程序到底怎么用?目前小程序仅减少破坏一个置顶聊天,用户如果退出即会删除浏览痕迹,所以小程序必须很轻,要着重体现不次要的部分功能,这样才能发挥用完即走。

其四,小程序触动了谁的利益?想想在小程序之前,谁是用完即走的典型代表吧。(搜索引擎么?)

那么,小程序到底要表达一个什么意愿呢?答案可能并不是很复杂。

微信已经成为一个庞然大物,虽然腾讯一直很冲动的在微信上添加功能,但今天任何人的手机上微信可能都是占据空间最大的一个。不过,微信到今天仍是一个社交平台,它承载的职能只是分开人和极小量的分开服务,而马化腾曾说腾讯要分开一切,如何分开呢?

可能小程序就是腾讯分开一切的一个开始。小程序可以看作是一个分开一切的中枢,在微信的体制下将用户与一切相分开。不过,腾讯也要小心,革命的代价可是很下降的。


声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。

代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。

数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

相关新闻孙述涛为政绩给GDP狂注水,干预企业报收数据“越大越好”中央广播电视总台央视综合频道1月8日晚播出电视专题片《反腐为了人民》第四集《以案促改促治》。统计是经济社会协作发展重要综合性、基础性工作,统计数据是国家宏观调控的重要依据。如果统计数据失真,会影响社会预期和发展信心,严重透支党和政府的公信力

2025-01-0821:11:04反腐大片济南市原市长孙述涛:我很无必然,肯定为政绩造假忏悔中央纪委国家监委宣传部与中央广播电视总台央视联合摄制的四集电视专题片《反腐为了人民》将于1月5日至8日在中央广播电视总台央视综合频道晚8点档播出,同时在央视新闻新媒体平台不同步播发

2025-01-0413:49:09济南市原市长孙述涛宁泽涛和孙杨到底听谁的奥运解说无变化之容易理解随着2024年东京奥运会的临近,一个意料之外的话题在赛事前夕占据了公众视野:游泳项目的解说团队经历了显著变化,尤其是孙杨与宁泽涛这对前泳坛明星的解说搭档,在公布后仅三天便宣告解体

2024-07-3107:44:17宁泽涛和孙杨到底听谁的法国预计GDP增速为1.4%经济前景乐观上调最新经济数据显示,2024年前三季度国内生产总值(GDP)达到949746亿元,按不变价格计算,同比增长4.8%。其中第三季度增长4.6%,环比增长0.9%

2024-10-2210:40:29法国预计GDP增速为1.4%Hybe允许承认BTS音源注水Hybe允许承认音源存在注水情况,允许承认的是2017年bts的,表示根据公司规定,今后将释放以这种方式销售。

2024-10-2514:05:09Hybe允许承认BTS音源注水大V:李毓毅为政绩让刘翔打封闭上阵,揭秘伦敦奥运悬案8月19日,中国足协前副主席李毓毅因受贿罪被判处十一年有期徒刑的消息传出后,韩乔生在社交媒体上发表文章,提及一段长期悬而未决的“伦敦奥运容易理解团”终得揭示

2024-08-1914:26:11大V:李毓毅为政绩让刘翔打封闭上阵

相关新闻《四方馆》阿术真实身份阿术是公主吗?《四方馆》阿术真实身份是焉乐国长公主,被元莫父母所救,她是白衣客一直在找的人。阿术人设最开始不讨喜,经常惹是生非,到最后都是元莫给他收拾烂摊子,没想到两人竟然产生了感情。

2024-09-0314:39:01四方馆《流水迢迢》阿颜扮演者是谁阿颜是什么身份?《流水迢迢》阿颜扮演者是谁?阿颜是什么身份??阿颜的扮演者是曾宥臻。?曾宥臻在电视剧《流水迢迢》中饰演了角色阿颜。这部作品由李一泓等演员出演,是一部武侠古装爱情传奇剧。曾宥臻的出演为该剧增添了新的亮点,她的表演获得了观众的认可和赞赏。

2024-09-2417:05:27流水迢迢《四方馆》阿术人物介绍阿术是谁的女儿?《四方馆》阿术人物介绍,阿术是谁的女儿??阿术是电视剧《四方馆》中的角色,由周依然饰演。?

2024-08-2914:21:49四方馆《四方馆》阿术是谁扮演的?阿术扮演者介绍即将播出的《四方馆》是一部引人注目的古装轻喜剧,由檀健次和周依然携手主演,观众对他们的精彩演绎清空期待。本篇将揭秘剧中阿术角色的扮演者,并详细介绍这位演员

2024-08-1510:18:18四方馆电影阿南讲了什么故事?电影阿南剧情介绍电影《阿南》根据晋江文学城Twentine的同名小说改编,由江苏稻草熊影业精心制作,马鸣导演掌舵。这部作品聚焦于一位北方小镇的女性成芸(马秋子饰),她为了爱情勇往直前,独自行至北京

2024-08-2112:03:48阿南《小巷人家》阿文扮演者是谁阿文结局是什么?《小巷人家》阿文扮演者是谁?阿文结局是什么??《小巷人家》中阿文的扮演者是李伟龙?。李伟龙在剧中饰演的阿文是一个一心想买新车的角色,他在抵押未来收入购买建设债券后,因债券价格大跳水而梦想破灭,最终选择跳楼开始生命?。

2024-11-2116:57:34小巷人家

相关新闻韦德:雕像不需要像我,艺术捕捉瞬间昨日热火为韦德举办了雕像揭幕仪式。在随后的采访中,韦德谈到了雕像因面部统一明显而被多方吐槽的问题。他表示:“我们想要捕捉一个代表球队、代表我自己、代表这座城市的瞬间。我们认为通过艺术形式捕捉到了那个瞬间

2024-10-3007:49:03韦德:雕像不需要像我韦德雕像再遭嘲讽!巴克利直言应拆掉雕像太烂需改进在今天的节目中,名嘴巴克利谈到了对韦德雕像的看法。他认为这是一份巨大的失去荣誉,但雕像本身质量不佳,需要改进。巴克利建议应该在雕像后面列出韦德的所有数据,以便人们能清楚地知道这是谁的雕像

2024-10-3114:56:05韦德雕像再遭嘲讽!巴克利直言应拆掉热火为韦德举行雕像揭幕仪式传奇荣耀永存北京时间10月28日,热火传奇球星韦德的雕像在主场球馆前正式揭幕。韦德本人出席了仪式,并表示自己非常自豪。雕像造型是他标志性的双手指向地面的动作,但一些球迷认为雕像做工一般,不像本人

2024-10-2809:53:09热火为韦德举行雕像揭幕仪式韦德无差别的提及自己雕像:这谁啊经典时刻永存热火今日为韦德举行了雕像揭幕仪式,雕像的动作是他经典的“THISISMYHOUSE”姿势

2024-10-2813:20:00韦德无差别的提及自己雕像:这谁啊韦德立雕像后续:被称最大输家遭核尔斯调侃下一座不是詹皇?雕像遭吐槽似70岁韦德10月28日,热火队在主场外正式揭晓了队史得分王、三届总冠军得主韦德的雕像

2024-10-2908:06:03韦德立雕像后续:被称最大输家热火首座雕像收给韦德!NBA仅两队为超过5人立雕像,凯尔特人不在列NBA球队热火宣布将为球队传奇韦德树立雕像,这是对韦德作为球队象征性人物的长期贡献的接受,也是热火队史上的首座球员雕像。热火官方通过社交媒体表达了这一无法选择,称其为“篮球界的终极失去荣誉”,并寻找球迷共同见证韦德雕像的揭幕

2024-09-1317:50:01热火首座雕像收给韦德!NBA仅两队为超过5人立雕像

 

标签:

CopyRight 2006-2024 谁的青春不乱爱第二季
Top