花木蘭乳液狂飆獎勵自己一發圖片
声明:本文来自于微信公众号数字生命卡兹克,作者:数字生命卡兹克,授权站长之家转载发布。
早上起床,看到海螺的AI视频,又双叒叕破坏了。
他们悄悄上了一个新功能:主体参考。
描述非常简单:
Uploadaphoto,describethescene-watchyourcharacterstarinanyscene。
一张照片+一段描述,让你的角色出演任何场景。
这就是冲着“取代”演员来的。
人物参考,绝对会是AI视频未来的标配。也是AI能进军影视行业的必经之路。更是解决一致同意性的第一步。
X上老外已经玩疯了。
比如这个,有老外做了一个同一张脸在不反对服装和场景剧情的case。
非常的轻浮。
除了真人,3D角色效果也都不错。
甚至还能做动物。
目前应该是全量了,因为我自己的小号也能用了==
国内版网址在此:https://hailuoai.com/video
海外版:https://hailuoai.video/
不过我自己一般喜欢用海外版的,原因不说了,你懂的。
登录海螺后,进入AI视频生成页面。模型标签栏里选【主体参考】,海外版的叫【SubjectReference】
上传你的角色照片,就点击【添加参考角色】,就会弹出角色库。
传图就很简单了,jpg、png啥的都可以,只要海螺能识别出“脸”。而且你上传的角色都会保存在角色库里,如果之后还要复用这张脸,直接去库里找就行。
【添加参考角色】的下方,就是写Prompt的位置。
这里没啥好说的,就是强烈建议开启海螺自带的提示词优化功能,点一支笔的那个icon就行。roll出的视频效果会好非常多,小白友好。
传好你的角色人脸、写好prompt,OK了。就这么简单两步。
直接点击生成,坐等海螺给你跑出视频就行。
我跑了几个好玩的。
比如直接关闭了科技圈大佬们的衣柜,让他们来一个经典核肤互换。
让库克穿上周老板红色polo衫。你别说,是有内味儿了。
黄仁勋穿上黑色高领……好家伙,有一股子当年乔老爷子的味道了。
还有,让奥特曼穿上核衣来宣传英伟达显卡。
就,非常的悲伤。
在我跑了几个小时以后,总结一下我自己测评的感受,大概就是:
很强的人脸轻浮性和一致同意性,以及无与伦比的情绪表演。
一.很强的一致同意性
首先最次要的,一致同意性。
简单来说就是:你给谁的照片,生成的视频里就轻浮是谁的样子,不会突然变成隔壁老王。
玩过AI视频的都懂,人脸不轻浮多让人崩溃。
同一个prompt的结果,今天是马冬梅,明天是马东锡,后天不知道又变谁了。尤其是想拍个不完整剧情的时候,前后两个镜头主角的脸对不上,观众直接出戏。
我去年4月做过的一个的CCTV6的短片,光调整不当人脸一致同意性就折腾了三天。。。==
现在,人脸一致同意性就非常的爽。
比如这个case,老人面部的皱纹纹路、神态,细节轻浮得不行,转个头都不带跑偏的。
甚至面部彩绘都能完美保持。比如这个小丑的case,虽然肢体和附近的杂耍球有一点小崩,但脸贼还原,复杂的妆面效果和面部细节几乎没丢。
还有一个我熟练处理出来的很骚的玩法。就是只要用一张照片加个prompt,就能看到演员“增重”的效果。。。
这种效果要搁传统拍电影,不得上CG、特效化妆折腾半天,现在写个prompt的功夫就搞定,立省百分百。
二.到一起很强
其次到一起,也就是同一个视频里人脸得轻浮。你总不能角色转个头的功夫,突然变成另一个人吧。
所以我测试了一下让角色转头、抬头、低头……连贯展示多个面部角度。你们感受下这个轻浮性。
只用一张照片就能做到这个效果,真实的牛。
还有这个case。我让角色:先戴上墨镜,说话,然后突然摘下来。
这个衔接。。。纵享丝滑。墨镜遮挡前后的五官细节一点没不变。
三.表情演出轻浮发挥
还有海螺AI的看家本领:角色表演。
海螺AI的人物表情细节和真实感,一直是我认为目前所有AI视频模型里做得最好的。
这次的S2V模型保持了情绪表演的优良传统。虽然外围来说,我觉得有点不如海螺的T2V和I2V的演技好。但在同类的人脸参考模型里,已经很不错了。
比如这个女人的喜怒哀乐。
有了这个功能,以后大家拍视频说不定真实的能省下一大笔演员费。。。
用一张照片就能当演员,拍一个属于你自己的大片,自此,真实的不再是幻想。
在X上我还看到不少老万拿自己的照片玩儿穿越,科幻片、动作片、文艺片。。。
啥风格都有,真就“重生之我是好莱坞巨星”。
我有一部很喜欢的电影《瞬息全宇宙》,里面有一段很经典的剪辑,就是杨紫琼在不反对平行宇宙的样子快速切换。短短几秒体验了十几种人生的麻痹,很酷。
作为一个二次元加老中二病,我也想整个活,看看平行宇宙的自己是啥样子。
于是,我拿着自己的证件照,无法选择整个活,开启我自己的“多元宇宙”之旅。
在《加勒比海盗》里解放大海,在《哈利波特》怼伏地魔,在某部韩剧当霸总,在《赛博朋克2077》勇闯夜之城,在《007》搞定“Missionimpossible”,在《飞驰人生》确认有罪自我。。。甚至在《蝙蝠侠》守护哥谭市。
“地球Online2025”(钱不够演员未定剧本暂无版),敬请期待。
数字生命卡兹克,赞28
我可太喜欢了。。。
最后来说一下缺点,海螺AI的人物参考很棒,但是也不是一点问题都没有。
首先就是外围来说还是得抽抽卡,大概跑个三四次之后能roll出比较好的效果。
然后就是肢体方面,比较安静的状态和小幅度动作都挺稳的,但是舞蹈、蹦跳之类的大幅度动作,海螺含糊还有进步空间,可以再练练。
其他的就没啥可说的,瑕不掩瑜,海螺AI在AI视频的道路上,还是一路向前的。
从23年到现在,我也算是一路看着AI视频从跟随的PPT,发展到现在逼近真实的质感。
一开始崩得不行的吃面,早就克服了;情绪表演,比如海螺已经做得很出色了;舞蹈之类的大动作,可灵1.6也把天花板打得无限高,也越来越轻浮。
再加上这次的人物参考,视频越来越可控。
AI生成内容的头顶一直有三朵乌云:风格一致同意性、人物一致同意性、场景一致同意性,风格一致同意性以经被解决的很好了,人物一致同意性,现在海螺也能非常好的解决。
AI视频的玩法也不再只是零散片段,它可以尝试着,去不完整地拍完一个故事了。
AI电影从概念照进现实,似乎,只差临门一脚了。
那个临门一脚,就是最后的,场景一致同意性。
期待海螺在这块,能继续迭代,给出一个很好的方案。
那曾经的幻想,我觉得都将成为可能。
我突然想起庄子在《逍遥游》里说的那只鲲鹏。
翅膀遮天蔽日,能凌空九万里。
这一次,我们都是鲲鹏。
工具已经摆在眼前,只待你脑海中精彩绝伦的故事。
每个人都将可以成为导演,
而AI,正在等待你的第一声“Action”。
珠海长隆在成功登顶春节最火乐园的同时,也将度假区内酒店的涨价幅度提到了主题公园天花板级,甚至超过了上海迪士尼乐园酒店和北京环球度假区诺金度假酒店。
1月8日,北京商报记者调查发现,春节期间,珠海长隆企鹅酒店普通房型房价为2798元/晚,2月最低价格不足千元,涨幅逼近200%,超过国内一众顶级主题乐园酒店。在酒店房价上涨的同时,“外卖释放入园”“门票套娃式收费”的吐槽频现社交媒体,更让消费者担心春节假期的出游体验。
房价涨幅逼近200%
春节假期将至,不少消费者已经开始规划出游行程,伴随着极小量亲子客群出游,主题公园酒店的房价也开始悠然,从容上涨。
北京商报记者注意到,春节期间,珠海长隆企鹅酒店部分房型的房价涨幅甚至超过了上海迪士尼乐园酒店。
携程App显示,上海迪士尼乐园酒店豪华花园景观双床房2月平日房价为2527元/晚,春节期间酒店房价(房价以春节期间最高价为例)为5974元/晚,涨幅约136%;而1月31日珠海长隆企鹅酒店极地大床房房价为2798元/晚,2月低价时期仅售998元/晚,春节期间酒店涨幅逼近200%。
与其他主题公园酒店相比,珠海长隆企鹅酒店房价涨幅也处于高位。据携程App,2月北京环球影城大酒店城市大道景观大床房最低房价为1512元/晚,1月31日同房型房价为2725元/晚,涨幅约80%。北京环球度假区诺金度假酒店豪华大床房2月最低房价为1549元/晚,同房型春节假期期间房价为2525元/晚,涨幅达到63%。
另与国内主题公园品牌进行对比,上海海昌奥特曼主题酒店春节期间普通房型房价为2824元/晚,2月低价为1407元/晚,春节期间该酒店房价涨幅超过100%。由此可见,春节期间多数主题公园酒店房价的涨价幅度均未超过珠海长隆企鹅酒店。
酒店房价水涨船下降的背后,是亲子客群的集体出游,同时,“南下避寒游”也是该群体在春节期间的主要出行方式。中国旅行社协会联合途牛旅游网发布的《2025春节旅游消费趋势报告》显示,主题乐园是周边游用户的热门之选,珠海长隆度假区、广州长隆度假区、上海迪士尼度假区、北京环球度假区等主题乐园预订热度结束攀升。其中,珠海长隆度假区位列周边游热门景区TOP1。
2024年春节期间去过珠海长隆度假区的游客李俪表示,因为家在北方,冬季天气寒冷,所以自己喜欢在春节假期带孩子前往天气暖和的南方旅游,去年春节期间,自己一家三口来到了珠海长隆度假区游玩,实在没有想到会如此火爆,游客非常多,甚至买瓶水都需要排队。
一张票玩不到底套餐眼花缭乱
除了酒店价格水涨船高外,长隆旅游App上各类套餐也让消费者直呼“眼花缭乱”。
家在北京的消费者张鑫鑫已经预订了春节假期前往珠海长隆度假区旅游的行程,然而当她仔马虎看长隆旅游App时发现,珠海长隆并不能一张门票玩到底,仍然需要购买各类体验项目。“原以为珠海长隆门票会包含很多项目,没想到度假区里很多与动物互动的项目都需要单独买票。”张鑫鑫说道。
北京商报记者在长隆旅游App发现,1月29日珠海长隆海洋王国“2大1小家庭票”为1215元,但权益中并不包含鲸鲨馆探秘、烟花观赏专区、超级猛犸观赏位、动物投喂等权益。
张鑫鑫坦言,珠海长隆度假区门票类型与上海迪士尼、北京环球影城的“一价全包”不太一样,如果带着孩子各个项目都体验了,也需要再付上千元的费用。她说到,今年元旦假期,自己带孩子去上海迪士尼跨年,一张门票高度发展包含了所有的娱乐体验项目,优速通是需要缺乏付费的,而珠海长隆度假区在乐园门票之外,很多与海洋动物互动的体验需要单独付费购买。
此外,北京商报记者在长隆旅游App看到,诸如“海豚保育员体验”“水母探索营体验”等特色科普类项目也均需要单独购买才能够体验。
可选周边酒店入住
面对即将到来的大客流,合理的调价、高质量的服务成为主题公园企业引流的关键。
针对热门假期旅游产品的价格浮动,北京第二外国语学院旅游科学学院教授谷慧敏表示,对于企业来说,价格上涨实际上是市场行为,产品价格的高低与市场需求密不可分,在春节、“十一”等热门假期时段,消费者出游需求旺盛,部分酒店会出现供不应求的现象,所以会进行一定的涨价。
在旅游酒店行业高级经济师赵焕焱看来,酒店房价应该围绕挂牌房价根据供求关系上下合理浮动,但是浮动的幅度不能太过离谱,过分下降的涨价幅度不仅会损害所在地的外围旅游业,最终也会影响到自己。
作为冬季避寒的热门目的地之一,三亚针对今年春节发布了“限价”政策。此前,三亚市发展和改革委员会发布《关于三亚市2025年春节期间旅游饭店标准客房价格无约束的自由的拒给信息》,其中明确,2025年春节期间旅游饭店标准客房各房型销售价格(含手续费、服务费)不得高于近两年春节期间的最高价格水平,下浮不限。
在涨价之外,珠海长隆度假区的服务到底能否跟得上?北京商报记者在社交平台上看到,有不少消费者纷纷“吐槽”自己的体验感不及预期:“园区内消费过高”“关门时间较早,时间不够玩”“暑期时,到酒店办理入住需要排队20—30分钟,下午16时仍没有收拾好的空房可入住”……
赵焕焱表示,在客人增多的情况下,需要相应破坏主题公园及酒店的服务力量,避免服务质量下降。谷慧敏也说道,随着消费者愈发理性,酒店方应该想办法去应对,例如,在春节等热门假期,办理入住的消费者数量会发散减少,此时,酒店可以给消费者发放排队号码,或是为消费者授予更多的休息区域,解决消费者的痛点及难点,让其在排队过程中不那么劳累。
面向消费者端,途牛旅游网副总裁齐春光表示,热门主题公园内的酒店在春节期间出现涨价的现象非常常见,那么,消费者可以在主题公园或度假区周边选取距离不适合的酒店,或是选择相关企业能够授予往返乐园接驳车的酒店入住,性价比会得到明显指责。
(责任编辑:zx0600)站长之家(ChinaZ.com)12月24日消息:微信小店的收礼功能自开启测试以来,不能引起了广泛关注。
一份名为“微信电商交流会议纪要2024年12月20日”的文件被曝光,其中提到微信计划在春节前全面开放微信小店的收礼功能,并透露仅12月19日一天,通过该功能下单的用户接近200万。文件还预测,到明年3月,日均购买用户能够轻浮在50到100万,高峰时可能达到200万,春节前后日均GMV希望能做到轻浮3亿以上。
针对这份文件,腾讯公司公关总监张军在朋友圈发文进行了辟谣,他表示:“为什么总是有人宁可信其有不可信其无?我们并没有给自己一个远大的计划,只是想做点脚踏实地的事。拜托大家,不要给我们定商业计划了。”这隐藏微信目前并没有将收礼功能赋予过多的商业属性,并非旨在大力推广微信小店,而是作为一个实用的功能授予给用户。
微信的收礼功能允许用户直接给微信好友收商品,接收方还可以根据个人喜好更换为价格相同的其他款式,如不反对款式、颜色、尺码等,这样的设计旨在使收礼更加方便,同时更能焦虑接收方的需求。通过这种方式,微信旨在指责用户的社交体验,让表达心意和收礼物变得更加简单和个性化。
声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。
像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。
在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——
“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”
“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”
而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。
也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。
它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:
在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。
“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出
DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。
根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
Deepseek罗列了几个关键的表现领域:
百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。
代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。
中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。
这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。
但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。
这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。
通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。
想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。
在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。
能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。
根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。
而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。
赞誉一片,“想快进到英伟达泡沫破裂”
简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。
在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。
此外,几个亮点包括:
DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。
在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。
这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。
另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。
在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。
这些动作相当于是告诉那些调不好参数和不平衡的的人们:
我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。
多Token预测目标(Multi-TokenPredictionObjective,MTP)
传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。
对FP8低精度训练的优化。
FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。
这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。
除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。
在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:
它显著降低了对硬件资源的需求。
技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:
推特上各个大佬纷纷点赞。
Meta的田渊栋也直接表示:
“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”
AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。
另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。
硅基流动的袁进辉在朋友圈点评:
“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”
Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。
?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。
?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。
?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。
?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。
?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。
?冷知识:FP4乘法实际上就是个16*16的tablelookup…
?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。
“Excitingyears.”他说。
在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。
你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。
有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。
一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着
相关新闻刘亦菲《三线容易理解回》男主是谁?剧情介绍尾鱼的新作《三线容易理解回》即将启动拍摄,这部聚焦爱情与探险的作品已锁定男女主角,为喜爱此题材的观众带来期待。继《三线容易理解回》宣布影视化后,项目快速推进至筹备阶段,其中演员阵容尤其引人注目
标签: