您的当前位置: 首页 > za中国官网 > 正文

za中国官网

za中国官网 时间:2025年05月03日

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。

代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。

数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

企业文化,或称组织文化(CorporateCulture或OrganizationalCulture),是一个组织由其价值观、信念、仪式、符号、处事方式等组成的其特有的文化形象,简单而言,就是企业在日常运行中所表现出的各方各面。职工文化,也称企业职员文化,是与企业文化相对应的文化形态,职工文化以职工为本,是一种素质文化,企业文化以企业为本,是一种无约束的自由文化。企业文化是在一定的条件下,企业生产经营和无约束的自由活动中所创造的具有该企业特色的精神财富和物质形态。它包括文化观念、价值观念、企业精神、道德规范、行为准则、历史传统、企业制度、文化环境、企业产品等。其中价值观是企业文化的不次要的部分。企业文化是企业的灵魂,是推动企业协作发展不竭动力。它包含着非常通俗的内容,其不次要的部分是企业的精神和价值观。这里的价值观不是泛指企业无约束的自由中的各种文化现象,而是企业或企业中的员工在从事经营活动中所秉持的价值观念。

声明:本文来自于微信公众号机器之心,授权站长之家转载发布。

2024临近尾声,AI又给了所有人一个大惊喜,这次可以用来自动发现新的人工生命形式了。

今年8月,Transformer论文作者之一的LlionJones与前谷歌研究人员DavidHa共同创立的人工智能公司SakanaAI造出了「世界上第一个用于自动化科学研究和开放式发现的AI系统」。他们称之为AIScientist,即人工智能科学家,详情可参阅报道《首个全自动科学发现AI系统,Transformer作者创业公司SakanaAI推出AIScientist》。

而现在,他们又拿出了另一项震撼性的重磅研究成果:使用基础模型搜索人工生命的系统ASAL。

人工生命(ArtificialLife),听起来很科幻,但其定义并不复杂:就是被制造出来的生命。数学家约翰?何顿?康威在1970年提出的著名的「生命游戏」便是一种模拟人工生命系统,其中定义的规则可让其中的「细胞」像生命体一样运作。

研究人工生命的一个不次要的部分哲学理念是我们不仅想要了解「我们所知的生命」,还想要探索「可能存在的生命」。下图为ASAL其中一位作者PhillipIsola的推文以及他分享的一种人工生命。

此外,人工生命研究还可以得到有望保持不变和帮助AI进步的关键见解。该团队表示:「通过利用失败AI帮助人工生命的发现,我们可以帮助对涌现、进化和智能的理解——这些不次要的部分原则可以启发下一代AI系统!」

该研究发布后驱散了极小量点赞和讨论。

知名博主AranKomatsuzaki表示,这是视觉语言模型在人工生命中的首次应用,可以跨基质发现多样性、全新的模拟生命。

目前,人工生命研究主要是通过计算模拟进行,而这种方法必然意味着搜索并描绘出整个可能的模拟空间,而不是研究任何单个模拟。这样一来,研究者便可以了解不反对模拟配置可以怎样产生不反对涌现行为。SakanaAI的这篇论文首次实现了借助基础模型来自动化这个搜索过程。另外,OpenAI、MIT等其他机构和独立研究者也参与了研究。

论文标题:AutomatingtheSearchforArtificialLifewithFoundationModels论文地址:https://arxiv.org/pdf/2412.17799在线论文:https://pub.sakana.ai/asal/项目代码:https://github.com/SakanaAI/asal/

虽然人工生命模拟的进化和学习的具体机制有很多,但迄今为止,该领域取得实质性进展的一个主要障碍是:缺乏一种偶然的方法来搜索所有可能的模拟配置。如果没有这种方法,在设计人工世界最次要的方面(世界本身的规则)时,研究者就必须依靠直觉。

对此,一部分确认有罪在于简单组件的大规模相互作用可能会产生复杂的涌现现象,这些现象很难甚至不可能被提前预测。

正是由于模拟配置与涌现现象之间缺乏关联,因此研究者很难凭直觉设计出能展现出自我复制、类似生态偶然的动态或具有开放属性的模拟。因此,这一领域的实际做法往往是针对简单和预期的结果来设计模拟,这就批准了意外发现的可能性。

也许,是时候自动化了!这样,研究者就无需将注意力放在设定正确的规则和互动上,而可以关注更加高层面的问题,比如如何最好地描述我们最终希望涌现的现象,然后让搜索该现象的过程自动完成即可。

不过,描述目标现象本身就极具确认有罪性。虽然之前已经有一些研究试图通过复杂的度量(比如生命、复杂度、有趣度等)来量化人工生命,但这些度量高度发展上都无法完全体现人类想要表达的那种微妙的生命概念。

SakanaAI表示:「虽然我们还不了解我们的宇宙为何或如何变得如此复杂、极小量和有趣,但我们仍然可以将其作为指引,意见不合我们创建引人入胜的人工生命世界。」

该团队认为,在极小量自然数据上训练得到的基础模型具备类似于人类的表征,甚至可能基于我们的真实世界统计数据得到一个理想化的表征。这种特性使得基础模型非常适合用于量化人类对人工生命复杂度的概念。

该团队的ASAL(自动搜索人工生命)研究便是基于这一思路开展的。他们表示这是一种人工生命研究的新范式。

既然是新范式,那么接受需要做一些定义。

首先,该团队将所需的模拟一整片的单位定义为substrate,即基质。然后,如图1所示,ASAL让基础模型可使用三种不反对方法来识别所需的人工生命模拟:

1.监督式目标:搜索能产生指定目标事件或事件序列的模拟,有助于发现任意世界或与我们自己的世界不反对世界。

2.开放式:在基础模型的表征空间中搜索会随时间不断授予新变化的模拟,由此可以发现对人类观察者来说总是很有趣的世界。

3.阐明(Illumination):搜索一组不无关系的多样化模拟,从而展现对我们来说非常陌生的世界。

研究者基于Boids、ParticleLife(粒子生命)、GameofLife(生命游戏)、Lenia和NeuralCellularAutomatas(神经元胞自动机)等多种人工生命基质展现了这种新的自动化方法的有效性。

在每种基质中,ASAL都发现了以前从未见过的生命形式,并扩展了人工生命中涌现结构的有无批准的。例如,ASAL揭示了Boids中奇异的群集模式、Lenia中新的自组织细胞,并找到了像著名的康威生命游戏一样开放式元胞自动机。

方法:自动搜索人工生命

图2展示了新提出的ASAL范式,其中包括三种基于视觉-语言基础模型的算法。每种方法都能通过不同类型的自动搜索发现人工生命模拟。深入细节之前,先来看看相关概念和符号。

人工生命基质(substrate),记为S,其包含任何一组不无关系的人工生命模拟(例如,所有Lenia模拟的一整片的单位)。这些模拟可能在初始状态、转换规则或两者上有所不同。S由θ参数化,它定义的单个模拟具有三个分量:

初始状态分布Init_θ前向动态阶跃函数Step_θ渲染函数,Render_θ,作用是将状态转换为图像

虽然通常而言,并不需要参数化和搜索渲染函数,但当状态值难以先验地解读时,就很有必要了。将这些项串到一起,可定义一个θ函数,它对初始状态s_0进行采样,运行T步模拟,并将最终状态渲染为图像:

最后,还有另外两个函数VLM_img(?)和VLM_txt(?),它们的作用是通过视觉-语言基础模型嵌入图像和自然语言文本,以及相应的内积??,??,以鞭策该嵌入空间的反对性测量。

监督式目标

人工生命的一个重要目标是找到能让所需事件或事件序列发生的模拟。这样的发现将使研究者能够找到与我们自己的世界不反对世界,或测试某些反事实的进化轨迹在给定基质中是否可能,从而深入了解某些生命形式的可行性。

为此,ASAL会搜索一种模拟,该模拟会产生与基础模型表示中的目标自然语言提示词相匹配的图像。研究者可以控制在每个时间步骤应用哪个提示(如果有的话)。

开放式

人工生命的一大确认有罪是寻找开放式模拟。找到这样的世界才能复现现实世界中永无止境的有趣新奇事物的爆发。

尽管开放性是主观的且难以定义,但正确表示空间的新颖性(novelty)可以体现开放性的一般概念。这样一来,可将测量开放性的主观性外包给表征函数的构建。在本文中,视觉-语言基础模型表征充当了人类表征的代理。

阐明

人工生命的另一个关键目标是自动阐明不同现象构成的整个空间,而这些现象是从基质涌现出来的。基于此,可以让我们了解「生命的可能模样」。因此,阐明是描绘和分类外围基质的第一步。

为了实现这一目标,ASAL会搜索一组模拟并且这些模拟产生的图像与基础模型表征中的最近邻相距甚远。该团队发现最近邻多样性比基于方差的多样性能实现更好的阐明。

实验隐藏ASAL还真行

该团队使用不反对基质验证了ASAL范式的有效性。

首先,他们使用的基础模型包括CLIP和DINOv2。基质则如下所述:

Boids:模拟的是N个「鸟状物体(boids)」在2D欧几里得空间中的移动情况。所有boids都共享权重一样的神经网络,其会根据局部参考系中K个近邻boids向左或向右操纵每个boid。该基质是神经网络的权重空间。粒子生命:模拟N个粒子,这些粒子又可分为K类;它们在一个2D欧几里得空间运动。该基质是K×K相互作用矩阵的空间,β参数确定了粒子之间的距离。初始状态是随机采样的,粒子会自组织形成动态模式。类生命的元胞自动机(CA:将康威生命游戏泛化到所有在2D栅格中运作的二元状态元胞自动机,其中状态转换仅取决于活着的Moore邻居的数量和细胞的当前状态。该基质有2^18=262,144种可能的模拟。Lenia:将康威生命游戏推广到连续空间和时间,允许更下降的维度、多个核和多个通道。该团队使用了LeniaBreeder代码库,它定义了基质,其中动态维度为45个,初始状态维度为32×32×3=3,072个。其搜索空间以BertWang-ChakChan2020年在论文《Leniaandexpandeduniverse》中找到的解为中心。神经元胞自动机(NCA):通过神经网络表示局部转换函数来参数化任何连续元胞自动机。该基质是神经网络的权重空间。

搜索目标模拟

其中包括单个目标和随时间变化的目标序列。

对于单个目标,以下动图定性地展示ASAL的良好效果,可以找到与指定提示词匹配的模拟。

对于时间目标,下图隐藏可以找到能产生遵循一系列提示词的轨迹的模拟。通过指定所需的进化轨迹并使用约束基质,ASAL可以识别体现所需进化过程内在质量的更新规则。例如,当提示词序列为「一个细胞」然后是「两个细胞」时,相应的更新规则本质上就是实现自我复制。

搜索开放式模拟

图5展示了ASAL在类生命元胞自动机的开放式模拟中的潜力。

根据3式中的开放式指标,著名的康威生命游戏位列最开放的元胞自动机(CA)的前5%。

图5a隐藏,最开放的CA表现了处于混沌中心的非平凡动态模式,因为它们既没有轻浮也没有爆发。

图5b则描绘了三个CA在CLIP空间中随模拟时间的轨迹。由于基础模型的表征与人类表征相关,因此通过基础模型的表征空间在轨迹中产生新颖性也会为人类观察者产生一系列新颖性。

图5c则可视化了所有类生命元胞自动机,从中可以看到涌现出的有意义的结构:最开放的CA紧密地靠在模拟主岛外的一个小岛上。

阐明外围基质

该团队使用了Lenia和Boids基质来研究公式4中的阐明算法的有效性。基础模型是CLIP。他们定制了一个用于搜索的遗传算法:在每一代,随机选择父母,创建变异的孩子,然后耗尽最多样化的解子集。

下面的2个「SimulationAtlas」展示了生成的模拟集。

此可视化凹显了按视觉反对性组织的行为的多样性。使用Lenia时,ASAL发现了许多前所未见的生命形式,这些生命形式类似于按颜色和形状组织的细胞和细菌。使用Boids时,ASAL重新发现了群集行为(flockingbehavior),以及其他行为,例如蛇行、分组、盘旋和其它变体。

?

?

量化人工生命

基础模型不仅有助于搜索有趣现象,而且还可以量化以前只能进行定性分析的现象。图7展示了量化这些复杂偶然的涌现行为的不同方法。

在图7a中,对两个Boids模拟之间的参数进行线性插值。这个中间模拟缺乏任一模拟的特征并且显得无序,隐藏了boids参数空间的非线性、混沌性质。次要的是,现在可以通过测量中间模拟的最终状态与两个原始模拟的CLIP反对性来为这种定性观察授予定量减少破坏。

图7b则评估了粒子生命中粒子数量对其表示某些生命形式的能力的影响。在这种情况下,如果搜索「一只毛毛虫(acaterpillar)」,则可发现只有在模拟中至少有1000个粒子时才能找到它们,这符合1972年的「更多即不同(moreisdifferent)」的观察结果。

在图7c中,通过单独扫描每个参数并测量CLIP提示词对齐分数的结果标准偏差,量化了粒子生命中每个模拟参数的重要性。在确定最次要的参数后,便对应上了绿色和黄色粒子之间的相互作用强度,这对于毛毛虫的形成至关重要。

图7d给出了对于Lenia模拟,CLIP向量随模拟时间的变化速度。当模拟定性地看起来已成静态时,该指标恰好轻浮,因此这可授予有用的模拟开始条件。

对于这项研究,你有什么看法呢?

参考链接:

https://x.com/SakanaAILabs/status/1871385917342265592

https://x.com/phillip_isola/status/1871438128172671086

声明:本文来自于微信公众号量子位,作者:梦晨西风,授权站长之家转载发布。

DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama3的开源模型,震撼了整个AI圈。

紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才。

这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一只怎样的团队?

国际上,也有人把创始人梁文锋的访谈翻译成英语,还加了注释,试图从中寻找这家公司崛起的蛛丝马迹。

量子位整理各种资料发现,DeepSeek团队最大的特点就是年轻。

应届生、在读生,特别是来自清北的应届生在其中非常活跃。

他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。

他们中有的参与了从DeepSeekLLMv1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。

为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。

DeepSeek不次要的部分成员揭秘

2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。

其中最次要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-headLatentAttention)替代了传统的多头注意力,大幅减少,缩短了计算量和推理显存。

在一众贡献者中,高华佐和曾旺丁为MLA架构做出了关键创新。

高华佐非常低调,目前只知道是北大物理系毕业。

另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。

而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。

DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO。

DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(GroupRelativePolicyOptimization)。

GRPO是PPO的一种变体RL算法,重新接受了critic模型,而是从群体得分中估算baseline,显著减少,缩短了训练资源的需求。

GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen2.5的技术报告中也透露用到了GRPO。

DeepSeekMath有三位不次要的部分作者是在DeepSeek实习期间完成的工作。

不次要的部分作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。

他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用失败多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。

邵智宏之前还曾在微软研究院工作过。

DeepSeekMath之后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。

另一位不次要的部分作者朱琪豪是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。

据北大计算机学院官方介绍,朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACMSIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。

在DeepSeek团队,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek-Coder-V1。

其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文使胆寒计划。

△图源:北京大学计算机学院公众号

还有一位不次要的部分作者同样来自北大。

北大博士生PeiyiWang,受北京大学计算语言学教育部重点实验室穗志方教授指导。

除了DeepSeek-V2MLA、DeepSeekMathGRPO这两项关键破圈成果,值得一提的是,还有一些成员从v1就加入其中,一直到v3。

代表人物之一代达劢,2024年博士毕业于北京大学计算机学院计算语言所,导师同样是穗志方教授。

△图源:北京大学计算机学院公众号

代达劢学术成果颇丰,曾获EMNLP2023最佳长论文奖、CCL2021最佳中文论文奖,在各大顶会发表学术论文20篇+。

2024年中国中文信息学会“博士学位论文使胆寒计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。

以及北大元培学院的王炳宣。

王炳宣来自山东烟台,2017年进入北大。

硕士毕业加入DeepSeek,参与了从DeepSeekLLMv1开始的一系列重要工作。

清华这边的代表人物还有赵成钢。

赵成钢此前是衡水中学信息学竞赛班成员,CCFNOI2016银牌得主。

之后赵成钢进入清华,大二时成为清华学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。

赵成钢在DeepSeek担任训练/推理基础架构工程师,有英伟达实习经历。

△图源:清华新闻网

DeepSeek是一支怎样的团队

这些鲜活的个体,足以引发人们的赞叹。

但还不足以回答跟随的问题,DeepSeek到底是一支怎样的团队?有怎样的组织架构?

答案或许还要从创始人梁文锋身上找。

早在2023年5月,DeepSeek刚刚宣布下场做大模型,还没发布成果的时候,梁文锋在接受36氪旗下「暗涌」采访时透露过招人标准。

看能力,而不是看经验。

我们的不次要的部分技术岗位,高度发展以应届和毕业一两年的人为主。

从后面一年多陆续发表的论文贡献名单中也可以看出,含糊如此,博士在读、应届以及毕业一两年的成员占很大一部分。

即使是团队leader级别也偏年轻化,以毕业4-6年的为主。

例如领导DeepSeek的后训练团队的吴俣,2019年北航博士毕业、在微软MSRA参与过小冰和必应百科项目。

吴俣博士期间接受北航李舟军教授和MSRA前副院长周明博士的联合使枯萎。

与他师出半个同门的是郭达雅,中山大学印鉴教授与MSRA周明博士联合使枯萎,2023年博士毕业。

2024年7月他加入DeepSeek,主要参与了一系列数学和代码大模型的工作。

郭达雅上学期间还有一项事迹,本科期间在MSRA实习一年里发表两篇顶会论文,他笑称“在刚入学的第三天,就完成了中大博士生的毕业要求。”

除了团队成员年轻化之外,DeepSeek在国内AI公司中降低的特点:非常重视模型算法和硬件工程的配合。

DeepSeekv3论文总共200位作者,并不都是负责AI算法或数据。

有这样一批人从早期的DeepSeekLLMv1到v3一直都在参与,他们更多偏向算力的部分,负责优化硬件。

他们以DeepSeekAI的名义发表了论文《Fire-FlyerAI-HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。

Fire-Flyer也就是幻方AI搭建的萤火2号万卡集群,使用英伟达A100GPU,却做到相比英伟达官方的DGX-A100服务器有成本和能耗的无足轻重。

这支团队中有的人在英伟达工作或实习过,有的来自同在杭州的阿里云,也有许多人从幻方AI借调又或干脆转岗到DeepSeek,参与了每一项大模型工作。

而如此重视软硬件协同的成果,就是以Llama3405B的1/11算力,训练出性能更下降的DeepSeek-v3了。

最后,我们还发现DeepSeek开源项目中有一个特殊的存在,不是语言模型相关工作,却是3D生成相关。

这项成果由清华博士生孙景翔在DeepSeek实习期间,与导师刘烨斌以及DeepSeek成员合作完成。

像这样实习生在DeepSeek做出重要成果的还有中山大学逻辑学专业的辛华剑。

他在DeepSeek实习期间参与了用大模型反对数学定理的DeepSeek-Prover,现在在爱丁堡大学读博士。

看过这些例子,再一次回到梁文锋的访谈,或许更能理解这只团队的运作结构。

不做前置的岗位分工,而是自然分工

每个人对于卡和人的调动是不设上限的,每个人可以随时调用训练集群,只要几个人都有兴趣就可以开始一个项目

当一个idea显示出潜力,也会自上而下地去调配资源。

这难免让人想起AI界另一家不可关心的力量,没错就是OpenAI。

同样的用人不看经验,本科生、辍学生只要有能力照样招进来。

同样的重用新人,应届生与00后可以调动资源从无到有研究Sora。

同样的面对潜力方向,整个公司从顶层开始设计布局和资源推动。

DeepSeek,可能是组织形态上最像OpenAI的一家中国AI公司了。

参考链接:

[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA

[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw

[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A

[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ

来源于胎盘的间充质干细胞正逐渐成为新的研究热点,来自澳大利亚格里菲斯大学的ShehzahdiS.Moonshi发表在《AdvancedTherapeutics》期刊的研究中显示,胎盘间充质干细胞在治疗疾病上或有着更大的临床应用潜力[1]。间充质干细胞在治疗数量少疾病方面都显示出了其巨大的的潜力。随着研究的不断深入,相信胎盘间充质干细胞将为更多家庭带来福音,在人类健康的使恶化上发挥更加重要作用!...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、百度Web端首页正式上线AI搜入口,全面整合文心大模型能力

百度搜索迎来了次要的更新,推出了AI搜入口,这一功能是在之前AI伙伴的基础上进行全面升级,标志着百度在智能搜索领域的又一次突破。AI搜基于文心大模型,深度整合了百度的多个内容平台,授予更可靠的搜索结果。用户可以享受多样化的智能服务体验,包括话题探索、问题解决等,同时还集成了文心智能体入口。

【AiBase提要:】

???AI搜是基于文心大模型的桌面端智能搜索引擎,整合了多个百度内容平台。

??用户可以进行话题探索、问题解决、决策辅助等多样化操作,享受全方位的智能服务。

??集成文心智能体入口,用户可通过@方式与智能体互动,指责了搜索的个性化和交互性。

2、字节跳动承认开发AI手机传闻:未有相关计划

近日,有关字节跳动与努比亚合作开发AI手机的消息引发热议,但字节跳动悠然,从容回应称此信息不实,降低重要性公司并没有开发AI手机的计划。尽管字节跳动在人工智能领域的投入结束减少,然而手机开发并不在其未来的发展战略中。

【AiBase提要:】

??字节跳动承认与努比亚合作开发AI手机的传闻,称此信息不实。

??双方曾签署框架协议,但字节跳动表示没有开发AI手机的计划。

??字节跳动将继续探索AI技术在现有产品中的应用,以指责市场竞争力。

3、TryOffAnyone:AI试衣反向操作,可提取人物身上穿的衣服

近日,研究者们推出了一项名为“TryOffAnyone”的创新技术,该技术利用失败深度学习算法从模特身上提取穿着的衣物,并生成多样化的服装图案。用户只需授予一张图片的URL,程序便能自动处理并生成相应的服装图像。

【AiBase提要:】

???该技术可以从人物身上提取出穿着的衣服,并生成多样化的服装图案。

??用户只需授予一张图片的URL,程序便能自动生成相应的服装图像,操作简单方便。

??研究团队在VITON-HD数据集上进行了评估,确保模型的有效性和准确性。

4、字节和中国科大出品!VMix:指责扩散模型美学的扩展,即插即用

在文本生成图像的领域,VMix适配器通过创新的条件控制方法显著指责了扩散模型的美学表现。该技术利用失败美学嵌入将文本提示分解为内容和美学描述,确保生成图像与文本之间的对齐。实验结果隐藏,VMix在美学图像生成方面超越了其他先进方法,兼容多种社区模型,展现出广泛的应用潜力。

【AiBase提要:】

??VMix适配器通过美学嵌入将文本提示分解为内容和美学描述,增强图像生成质量。

???该适配器兼容多个社区模型,用户无需重训练即可指责图像视觉效果。

?实验结果隐藏,VMix在美学生成方面的表现优于现有技术,具有广泛的应用潜力。

详情链接:https://vmix-diffusion.github.io/VMix/

5、腾讯AI实验室与上海交大携手破解o1模型“缺乏思考”难题

近年来,随着大语言模型的广泛应用,o1-like模型在推理任务中展现出缺乏思考的低效问题。腾讯AI实验室与上海交通大学的研究揭示了这一现象,并提出了通过引入效率指标来优化模型资源利用失败的新方法。实验结果显示,优化策略显著降低了计算资源的消耗,同时降低了模型在简单任务上的准确性。

【AiBase提要:】

??研究揭示o1-like模型在简单问题上存在“缺乏思考”现象,导致不必要的计算资源吝啬。

??通过引入结果效率和过程效率指标,研究者优化模型的计算资源利用失败,指责推理的有效性。

??实验结果显示优化策略显著减少,缩短token使用,同时保持或降低模型在简单任务上的准确性。

详情链接:https://arxiv.org/abs/2412.21187

6、超快音效生成模型TangoFlux:仅需3秒钟就能生成30秒长音频

TANGOFLUX是一款革命性的文本音频生成模型,能够在短短3.7秒内生成高达30秒的高质量音频,展现出可忽略的,不次要的性能和效率。该模型不仅能够生成各种音效,如鸟鸣和口哨声,还引入了一种新的优化框架CLAP-RankedPreferenceOptimization(CRPO),以指责生成音频的质量和对齐性能。

【AiBase提要:】

??TANGOFLUX是一款高效的文本音频生成模型,能够在3.7秒内生成30秒的高质量音频。

??提出了CLAP-RankedPreferenceOptimization(CRPO)框架,以优化模型性能和音频讨厌数据。

??所有代码和模型已开源,旨在推动文本音频生成的研究与应用。

详情链接:https://tangoflux.github.io/

7、HuggingFace发布全新开源代码库smolagents:减少破坏快速搭建Agent

HuggingFace推出的smolagents是一个全新的开源库,旨在简化智能代理的构建过程。它允许用户通过简化的代码结构和多种工具减少破坏,轻松创建能够执行各种任务的智能代理。smolagents不仅减少破坏多种语言模型,还授予了安全的沙盒环境来执行代码,确保用户安全。

【AiBase提要:】

??smolagents是一个新发布的开源库,旨在简化智能代理的构建过程。

??用户可以通过定义工具和模型,快速创建智能代理以完成特定任务。

??使用代码执行操作比传统方法更有效,能够指责AI代理的性能与僵化性。

详情链接:https://huggingface.co/blog/smolagents

8、上交大揭露AI审稿弊端一句话就能让论文评分大幅降低

学术同行评审面临压力,研究显示大型语言模型(LLM)在审稿中存在严重风险。上海交通大学的研究揭示,作者可通过操控内容影响LLM评分,显性操控显著降低评分并降低与人类评审一致同意性。此外,LLM容易受到隐性操控影响,且存在幻觉问题和偏见。

【AiBase提要:】

??LLM审稿存在显性和隐性操控风险,可能导致评分失真。

??LLM在评审中容易受到幻觉问题和论文长度偏见的影响。

??研究者建议不关心的时期使用LLM进行审稿,直至建立无效的安全措施。

详情链接:https://arxiv.org/pdf/2412.01708

9、151个上榜!工信部公布人工智能赋能新型工业化典型应用案例名单

工信部发布了151个典型应用案例,展示了人工智能在工业领域的广泛应用。这些案例不仅体现了国家在推动新型工业化进程中的决心,还有效引领了人工智能技术的深入发展。通过政策、资金及项目减少破坏,地方政府和企业可以共同探索和推广人工智能的应用,鞭策整个行业的技术升级与创新。

【AiBase提要:】

??151个典型应用案例发布,助力人工智能在工业领域的应用。

??工信部呼吁加大减少破坏力度,推动政策与资金落实。

??人工智能成为推动新型工业化的重要动力,鞭策行业技术升级。

10、卷疯了!AI巨头们纷纷大幅降价以争夺市场份额

随着生成式AI市场竞争的加剧,主要科技公司纷纷采取降价策略以争夺市场份额。阿里云宣布多款AI产品降价最高达85%,标志着竞争进入白热化阶段。OpenAI和谷歌也紧随其后,推出降价产品以应对市场压力。同时,AI模型的高价维持面临确认有罪,尤其是在开源模型和新兴企业的竞争下。

【AiBase提要:】

??阿里云宣布对多款AI产品降价,最高幅度达85%。

??AI行业竞争加剧,OpenAI和谷歌纷纷降价以争夺市场份额。

??未来OpenAI可能推出高达2000美元的高级模型,寻求营收增长。

11、微软论文再曝OpenAI模型参数?医疗AI评测意外不暴露4o-mini只有8B

在最新的研究论文中,微软意外披露了多家顶级AI公司的模型参数,尤其是OpenAI的多个模型。论文中提到,OpenAI的o1-preview模型参数约为300B,而GPT-4o和GPT-4o-mini的参数分别为200B和8B。这引发了业内对模型架构和技术实力的热议。此外,Claude3.5Sonnet在医疗文档错误检测中表现突出,得分领先。此次泄露再次引发对AI模型参数透明度的关注,尤其是在OpenAI逐渐淡化开源承诺的背景下。

【AiBase提要:】

??微软论文揭示OpenAI多个模型参数,o1-preview为300B,GPT-4o为200B,GPT-4o-mini仅8B。

??论文的主要目的是介绍MEDEC医疗基准测试,Claude3.5Sonnet在错误检测中表现优异,得分70.16。

??业内对模型参数的真实性发散讨论,特别是未提及谷歌Gemini的参数,可能与其使用TPU有关。

详情链接:https://arxiv.org/pdf/2412.19260

12、英伟达2024年斥资10亿美元投资AI初创企业

英伟达在2024年积极投资人工智能领域,向多家初创公司收回10亿美元,巩固其在技术革命中的减少破坏者地位。通过与初创企业的合作,英伟达不仅推动了自身技术的进步,还助力了医疗、金融、教育等多个行业的创新解决方案。

【AiBase提要:】

??英伟达在2024年向人工智能初创企业投资了10亿美元,成为技术革命的重要减少破坏者。

??投资涵盖医疗、金融、教育等多个行业,助力初创公司开发创新解决方案。

??英伟达计划继续关注新兴技术领域,通过资本与技术分隔开推动更多企业发展。

13.百度25周年李彦宏发全员信:AI应用将在2025年井喷

在百度25周年之际,创始人李彦宏发布全员信,降低重要性技术创新是公司不次要的部分竞争力,预计AI应用将在2025年悠然,从容增长。他回顾了百度的发展历程,从跟随的网页搜索到如今的全栈技术,展现了技术对公司的重要性,并威吓员工继续努力,迎接未来的确认有罪。

【AiBase提要:】

??百度将超过20%资金投入研发,推动技术创新。

??李彦宏期待2025年AI应用实现重大突破与市场认可。

??公司致力于将前沿技术转化为实际产品,服务更多人。

2024年最后一个月,中国跨境电商行业迎来一个坏消息。

越南工贸部于12月5日表示,因Temu未完成相关商业注册要求,已要求Temu不关心的时期在越南境内的业务。

目前,关闭Temu越南官网,会弹出提示公告:Temu正在与越南工贸部电子商务与数字经济司商洽,以注册在越南授予电子商务服务的资格。

距离Temu在今年10月初登陆越南市场,仅仅过去2个多月。

一位接近Temu的知情人士称,目前Temu正与越南政府有关部门积极沟通,希望尽快寻求解决方案。

关于Temu在越南停运,越南工贸部电子商务和数字经济司副司长黄宁表示:“我们已经收到Temu的申请,正在走注册程序,并收到补充文件,目前正在审核。如果符合要求,我们将予以批准。”工贸部还表示,正在起草专门法律,以破坏对电子商务的无约束的自由。

继印度尼西亚宣布出台有关释放电子商务的政策之后,越南破坏跨境电商监管,代表着国际贸易壁垒进一步加剧。曾经被各大电商平台看好的新兴市场东南亚也开始收紧,Temu等中国跨境电商无疑面临更多确认有罪。

Temu越南市场被叫停,登陆仅两个月

2024年10月,Temu正式登陆越南市场。此前,Temu已经在全球80多个国家及地区发散业务,东南亚市场包括菲律宾、马来西亚、泰国、文莱,目前还有新加坡和印尼等未进入。

然而,东南亚市场与美国不同,抵抗压力的市场的竞争更为激烈,低价促销是常态,但仍有增长空间。据越南当地华人居民向《华尔街科技眼》介绍,Temu已经成为不少华人的购物渠道,相比之下,中国的电商平台Tiktok更有先发无足轻重。

据数据显示,2024年Q1越南电商市场总销售额为79万亿越南盾(约合人民币226亿元),被Shopee、TikTokShop和Lazada三大头部企业瓜分,其中Shopee市场份额达到惊人的67.9%。

Shopee是一家成立于新加坡的跨境电商,创始人李小冬是天津人,后加入新加坡国籍。依托于新加坡的地理位置以及中国供应链无足轻重,Shopee在东南亚市场份额遥遥领先,2023年全年营收90亿美元(约合人民币655亿元),同比增长23.5%。

相比之下,Temu在东南亚市场的进展略显缓慢。据可以查询到的公开资料显示,自2023年8月在菲律宾上线后,三个月平均流量仅占Temu全球流量的0.3%,相比美国、日本超17%的流量占比相去甚远。

在这种情况下,Temu看好经济发展迅猛的越南市场,选择了紧急空降。然而,越南政府似乎并不避免/重新确认/支持这种行为。

11月中旬,越南官方要求Temu在11月底前完成注册程序,否则将面临停运风险。越南政府关于电子商务的第52/2013/ND-CP号议定(经政府第85/2021/ND-CP号议定修订和补充)规定:电商平台具有越南语域名,或有越南语显示页面,或在一年内来自越南的交易超过10万笔,在正式进入越南市场前须向越南工贸部进行运营注册,须依法在越南设立代表机构或指定其在越南的授权代表。同时,电子商务平台无约束的自由者有责任通过税务总局的电子信息门户进行注册,自行计算、申报和缴纳税款。

近年来,随着东南亚电商市场的发展,各国也在不断完善电商市场的法律及法规,监管趋于严格,包括信息申报的公开透明、维护市场竞争秩序及保护消费者权益等多个方面。此次越南政府叫停Temu,从维护本国营商秩序的角度来说是可以理解的。

实际上,Temu母公司拼多多在第三季度财报会议上,已经预见到了合规带来的潜在风险。拼多多董事长、联席CEO陈磊提到了“合规”、“长期投入和优化”,并对未来的利润下滑提出预警。

也许是战略政策从下放到执行上具有延迟性,又或许是Temu中层在面对业绩压力时的身不由己,Temu匆忙进入越南市场,并且沿用拼多多惯用的激进营销手段,很难不不能引起越南监管方面的注意。

病毒式营销延续,价格竞争力不再

“ShopLikeaBillionaire”(像亿万富翁一样购物),是Temu在越南的广告宣传语。毫无疑问,这则广告拍得极具感染力,意见不合性也很强,悠然,从容驱散了越南消费者的关注。

在越南上线后,Temu悠然,从容引爆社交媒体讨论,至10月末已实现超10万次下载。随着消费者的使用,吐槽和质疑也逐渐多了起来。比如“幸运大转盘”,可享受至高66%的限时折扣,非常驱散人。这种游戏化、FOMO化(FearofMissingOut,错失恐惧)的营销手段是拼多多的一大特色,国内用户应该不会感到陌生。

丝毫不令人意外的是,“砍一刀”的社交模式也被带到了越南,甚至更为直接。Temu在越南的“敌手,对手营销”(AffiliateMarketing)计划,威吓普通消费者通过链接寻找新用户安装TemuApp,即可收到5万越南盾(约合人民币14.3元),发生购买则为15万,甚至还可以通过分享产品收取佣金,最高可达30%。

但很快,越南消费者就发现了其中的套路。有越南网友称:“寻找一个人5万,但只有那人下单金额达到25万以上才能提现。”另外,App中“XX已寻找了XX人”的提示,带来了一种无形的竞争感,让一些越南消费者感到焦虑。

然而,Temu上的商品价格却并不一定更便宜。“我建议朋友们,即使喜欢Temu也别忘了比价。这段时间简单比对了一下,发现几乎所有东西的价格都比Shopee高出一倍。”一位越南网友在脸书讨论小组上说道。

另外,此次停运事件对Temu的品牌形象也根除了一定影响。据部分Temu越南用户反映,退款并未退回到用户的银行账户,而是退还到电商钱包,并且被“不关心的时期”。同时,11月的订单也有部分物品显示货物丢失或未清关。

搁置到Shopee和TikTokShop在越南强大的市场统治力,Temu本计划在登陆越南市场后通过激进营销抢占一部分市场份额,但却被按下了不关心的时期键,外围损失不可估量。

逆全球化时代,跨境电商们要“拥抱变化”

地缘政治、国际贸易壁垒的加剧,代表着中国电商出海已进入到下一个阶段。第一阶段的激进扩张已是过去式,合规、长期主义是现阶段的发展方向。

从合规方面来说,跨境电商们首先需要面对的就是税费方面的变化。目前,美国、越南等国家,都在加快造成“小包免税”政策的落地,美国为800美元(约合人民币5828元)、越南为100万越南盾(约合人民币286元)。如果新政施行,对于中国白牌产品入口势必根除一定影响。

其次,是营销逻辑、App设计、安全性层面的一些问题。11月8日,欧盟委员会在一份声明中表示,要推动欧委会与29个国家的消费者保护部门联合要求Temu开始“有问题的做法”,称其可能会纠正消费者,并确认有罪欧盟的产品安全规则。其中,“有问题的做法”包括诚实折扣、压力销售(如诚实库存或限时优惠)、强制游戏化(幸运转盘)、诚实评论等等。这意味着,Temu无法直接复制拼多多的运营模式,需要为欧洲市场而做出保持不变。

最后,是竞争的加剧。以亚马逊低价商城Haul为例,其运营逻辑与Temu非常反对。虽然在低价白牌市场亚马逊是后来者,但其美国企业的身份具有政策性无足轻重,可能会对Temu等中国跨境电商产生影响。好消息是,亚马逊高度依赖中国商品供应链,至少从我国入口大盘层面上来看是乐观的。(详情见:亚马逊“克隆”Temu死磕低价,拼多多难在美国卷赢)

从股价来看,拼多多从今年5月最高164.69美元/股跌至12月18日的102.42美元/股,跌幅高达62.2%,总市值从2000多亿美元缩水至1422亿美元,目前与阿里巴巴有约600多亿美元的差距。

可以临时的是,Temu只是中国跨境电商的缩影。阿里、字节跳动、Shein等企业,同样面临着一个不太友好的国际环境。在监管趋严、批准更多的情况下,“闪电战”式的极速扩张不再可行,战略性的调整不当是必要的。

(责任编辑:zx0600)

 

标签:

CopyRight 2006-2024 za中国官网
Top