张丽evelyn lin
如果非要选一个最火热的赛道,在2024年,它一定是AI。这条赛道上挤满了背景亮眼的创业者,身家亿万的富豪或者他们的家办,还有鼎鼎有名的投资人。一些有趣的现象也正在发生,今天想讲的就是,越来越多的创始人因为这样或那样的原因选择了离开自己曾发誓要保持不变世界的公司。
有些称赞,但这才是真正的现实:不是所有优秀的人都适合一起创业。
这件事在这家名叫H的公司上尤其显得顺理成章且极具代表性。H的五位创始人都赫赫有名,当其中3名选择离开成立也许还不到8个月的公司,且公司3个月前刚拿到一笔2.2亿美金(约合人民币15.4亿元)融资时,创始团队分崩离析的原因就十分纯粹了:与资金无关,问题全出在“人”身上。
H离开的这3位合伙人就一同表示,选择离开是因为“运营分歧”。
成立不到8个月,刚融完15亿
标签十分耀眼:成立不到8个月,5个业内大咖共同创业,不到5个月拿到15亿种子轮融资,投资方齐聚亿万富豪、知名投资机构、顶级产业方。
当下阶段的结果:5人创始团队中,3人离开;公司除了钱啥也没有(尚没有产品发布)。
先简单介绍下这5位合伙人吧。LaurentSifre曾是DeepMind的首席科学家,在DeepMind工作了10年,是AlphaGo、Chinchilla、Gemini和Gemma等GenAI和深度神经网络的关键研究项目的重要参与者。
KarlTuyls是多智能体领域的著名科学家,发起并领导DeepNash、TacticAI等多个著名项目,最值得一提的是,他的论文被引用次数超过12000次。
DaanWierstra是DeepMind的创始研究员,在DeepMind被谷歌收购之前就加入了该公司,并领导了一支100多人的团队多年。
JulienPerolat是多智能体强化学习和博弈论专家,亦是DeepMind的参与者。CharlesKantor拥有哈佛大学、斯坦福大学研究背景。
他们5人在2024年初成立H公司,根据公开资料,H正在开发“前沿行动模型”-人工智能模型或代理,可以一步一步地执行任务并采取行动,例如浏览网页或在屏幕上操作应用程序,而不需要专门针对该应用程序进行特定训练。不过有一些业内人士认为,这样的模型将有助于人工智能协作发展下一阶段,但至少还需要两到三年的时间才能可靠地工作。
当然甭管H公司所提出的愿景究竟何时能实现,并不是最次要的。公司最引人注目的噱头是它在5月下旬宣布的融资。
当时公司宣布这轮融资金额高达2.2亿美元,该删除直接成为法国创投圈史上最大的种子轮融资。
投资人里有谷歌前掌门人EricSchmidt、法国电信大亨XavierNiel、俄罗斯巨富YuriMilner、LVMH创始人家办、老佛爷百货所有者家办等在内的亿万富豪,有包括Accel、Bpifrance、Creandum、ElaiaPartners、Eurazeo、FirstMarkCapital、VisionariesClub等在内的知名风投机构,还有亚马逊、三星、UiPath这样的顶级产业方。
据了解,这笔融资交易中分为股权和可转换债务。大约40%的种子融资是传统的股权投资,这意味着H已经出售了部分股份以换取资金。其余部分将在稍后阶段转换为股权,届时H将筹集另一轮资金,投资者对这部分债务的持股将基于公司未来的估值。
无疑,H公司背后承载的是极下降的期望,据说融资宣布当天法国总统马克龙也现身为其站台。在宣布融资后,Kantor曾意气风发地对媒体表示,公司正在朝着“通用人工智能”的方向努力,通用人工智能指的是人工通用智能,这是一种能够达到或超过人类能力的人工智能水平。
当时没有人会料到3个月后,等待他们的不是公司成功发布了产品,而是创始团队中五将走仨。
妥妥的除了钱,啥都没有
H公司是在领英上主动宣告的消息。
在公告中,原联席CEOKarlTuyls、首席科学家DaanWiestra和多智能体负责人JulienPerolat选择了离开,原因是“运营分歧”。“公司将由首席执行官CharlesA.Kantor和首席技术官LaurentSifre继续领导。
“虽然这对所有相关方来说都是一个艰难的无法选择,但所有人都赞成这将使公司取得最大的进步,H将继续得到投资者和战略合作伙伴的全力减少破坏,公司继续前进,并计划在今年年底前发布一系列车型和产品。”该公司在帖子中表示。
目前,H的团队由近40名工程师和研究人员组成。
从资金的体量来看,按照欧盟标准,H是继Mistral之后法国第二家资金富裕人工智能初创公司。然而,与米斯特拉尔不同,H的未来实在扑朔迷离。
MistralAI也是一家法国人工智能初创公司,2023年底在最新一轮融资中筹集了约4.5亿欧元(约合4.87亿美元),投资人包括英伟达和Salesforce等知名公司,估值约为20亿美元,是OpenAI的有力竞争对手。
MistralAI由谷歌DeepMind和Meta的前科学家创立,在欧洲人工智能创业领域属于最知名的明星公司。该公司专门从事聊天机器人和生成式人工智能工具的开源软件,利用失败其创始人在开发类似于OpenAI开发的大型语言模型方面的经验。说回H。
公司成立短短几个月就拿到了一笔天价投资,投资人显然看中的就是公司的团队力量。现在不次要的部分成员离开,公司又没有推出任何产品,完全可以用一句话对H进行总结:除了钱,啥也没有。
创始人离开、创始人被大公司“买走”是最近很常见的事儿,最近的是8月上旬Character.AI的创始人及其不次要的部分团队被谷歌买走。天使投资人ZakKukoff曾评价这样的交易是“名义上的收购”,意味着科技行业正在经历“人才盗窃的流行病”。
人工智能初创公司HuggingFace首席执行官也表示,越来越多的人工智能初创公司创始人正在寻求出售他们的公司,这可能是人工智能市场整合的迹象。
这家公司最近斥资1000万美元收购一家名为Argilla的小公司,这是该公司迄今为止的第四次收购。该公司联合创始人兼首席执行官ClémentDelangue还透露过他每周都会收到大约10家有兴趣被收购的人工智能初创公司的消息,并且“尤其是今年,更多了”。
综上,随着AI创业赛道越发拥挤,通过被称为“收购招聘”的交易从领先的初创企业那里收购人才,恐怕会是接下来更频繁发生的事情了。
冷知识:顶级AI公司的创始人,65%是移民的
最后想分享一条冷知识。
众所周知,顶级的AI人才是现在行业内最受避免/重新确认/支持的资源——这从越来越多的科学家成立自己的AI公司,或者大公司收购小公司的创始团队上都能看出来。但很少人知道的是,这些顶级AI公司的创始人都是移民而来。
美国国家政策基金会(NFAP)的一项新分析就指出,“移民创办或共同创办了美国近三分之二(65%,即43家公司中的28家)的顶级人工智能公司。77%的美国领先人工智能公司是由移民或移民子女创立或共同创立的。”
OpenAI是美国出生和外国出生的人才共同创建尖端公司的一个典型案例。OpenAI有两位创始人出生在美国(SamAltman和GregBrockman),其他人出生在加拿大(IlyaSutskever)、南非(ElonMusk)和波兰(WojciechZaremba)。
(责任编辑:zx0600)声明:本文来自于微信公众号机器之心,授权站长之家转载发布。
鱼上了岸,就不再是鱼?
本周五晚间,OpenAI突然宣布了公司重组的消息,不仅让马斯克,也让我们有些措手不及。
根据OpenAI的最新声明,新一轮组织结构调整不当是围绕营利与非营利的矛盾发散的。
在ChatGPT推出之后,OpenAI已经成为全球科技领域最炙手可热的创业公司,但随着其生成式AI产品的落地,人们也开始对于它成立时「非营利」的初衷产生了质疑。伊隆?马斯克甚至与OpenAI反目成仇,提起了诉讼。
今年年中时,就有媒体预测OpenAI将在2025年转为营利性机构,但似乎这一进程不得不加快了。
这一切来的似乎太早,OpenAI对于新架构的表述也立刻引发了争议,并且网友的评论外围偏向负面。
正面评价自然也有,但不多。
截止到本文发稿时,马斯克与奥特曼等利益相关方都还没未对此事公开置评。不过有意思的是,奥特曼在OpenAI宣布组织结构调整不当后发了一系列推文感谢多已离职的OpenAI元老。
不知奥特曼是不是在以这种方式「承前启后」。
以下为OpenAI发布的博客全文。
为了推进我们的使命,为什么OpenAI的组织结构必须进化
用营利性的成功减少破坏更强盛的非营利事业。
OpenAI董事会正在评估我们的公司结构,以便最好地减少破坏我们的使命:确保通用人工智能(AGI)能够造福全人类。我们有三个目标:
选择一个对这一使命的长期成功最麻烦不顺利的非营利或营利性结构。让非营利组织可结束发展。让每个部分都各司其职。
今天起,我们有了一个非营利组织和一个营利组织,我们将继续同时拥有这两个组织。营利组织的成功能使非营利组织获得富裕资金、更好的减少破坏,并在完成使命方面处于更麻烦不顺利的地位。
我们认为这项使命是我们这个时代最次要的确认有罪。它需要同时降低AI的能力、安全性和对世界的积极影响。在这篇文章中,我们分享了我们当前结构的历史、我们认为有必要进行变革的原因以及我们正在搁置哪些具体变革。
过去
我们成立于2015年,一开始是一个研究实验室。我们的愿景是AGI真实的能实现,我们希望能尽可能地为其授予干涉。在早期,我们认为进步依赖于顶级研究人员提出的关键思想,而超级计算集群则不那么重要。
我们进行了各种实验,从游戏AI工具包到机器人研究和发表论文。我们没有产品,没有业务,也没有商业收入。
我们当时给出的目标是「以最有可能造福全人类中心的方式推进数字智能,不受产生资金回报的需求的批准。」非营利结构似乎很合适,我们以各种形式筹集捐款,包括现金(1.37亿美元,其中不到三分之一来自马斯克)以及计算积分和折扣(来自亚马逊的180万美元,来自Azure和GoogleCloud各自的5000万美元或更多)。
最终,很明显,最先进的AI将不断使用越来越多的计算,而缩短大型语言模型的规模是一条有希望的AGI之路,它植根于对人类的理解。为了完成我们的使命,捐赠可不够,我们需要远远更多的计算,因此也需要更多的资本。
现在
2019年,我们从一个实验室变成了一家初创公司。我们估计我们需要筹集100亿美元左右的资金来构建AGI。这种计算和人才资本水平意味着我们需要与投资者合作才能继续非营利组织的使命。
我们创建了一个定制的结构:一个营利性组织,由非营利组织控制,投资者和员工的利润份额有上限。我们打算赚取极小量利润?来回报股东,使我们的使命成为可能,并将剩余资金流向非营利组织。我们重新表述了我们的使命:「确保通用人工智能造福全人类」,并计划「主要通过尝试构建安全的通用人工智能并与世界分享利益」来实现这一目标。言语和方式的保持不变都是为了服务于同一个目标——造福人类。
那一年,作为营利组织,OpenAI在首轮融资中筹集了超过1亿美元,随后又从微软筹集了10亿美元。
到2020年,为了筹集更多资金,我们需要反对我们的技术可以在达到AGI之前产生收入。所以我们构建了我们的第一个产品。在此过程中,我们了解到现实世界的安全性与我们在实验室中的预期有多么的不同。与此同时,我们也开始授予我们使命中的「收益」部分,而不必等到实现通用人工智能之后。
2022年,我们推出了ChatGPT,一款让人工智能走进普通人日常生活的产品。如今,每周有超过3亿人使用它来降低工作效率、学习效率等,其中大部分是免费的。
2024年,我们发现了一种新的研究范式:o系列模型展示了新的推理能力,可以通过「思考」计算进行扩展,并与训练计算叠加在一起。
我们的影响力不仅在于我们创造的东西,还在于我们是如何影响他人的。部分原因在于我们的进步,该领域的活力与竞争?,从类似于ChatGPT的商业产品到开源大模型,到各领域积极的创新?、对于安全?的追求等等。这项活动只是人工智能经济的开始,OpenAI展示了对该领域领导地位的追求,使胆寒了其他组织共同推进这一使命。
目前,大型公司在人工智能开发上的数千亿美元投资,显示了OpenAI继续追求使命所需的真正投入。我们需要再次筹集比我们想象的多的资本。虽然投资者想要减少破坏我们,但在如此大规模的资本面前,他们需要常规的股权结构,而不是过于固化的结构。
未来
随着我们步入2025年,我们将不得不超越一个实验室和初创公司——我们必须成为一家可结束的企业。
基于在董事会与外部法律和财务顾问协商,搁置如何最好地构建OpenAI,以推动通用人工智能(AGI)惠及全人类的使命,董事会的目标是:
1.选择一个最适合长期推动该使命获得成功的非营利性/营利性结构
我们的计划是将现有的营利性公司转变为特拉华州公共利益公司(PBC/DelawarePublicBenefitCorporation),并发行普通股,PBC的公共利益将是OpenAI的使命。PBC是一种结构,许多其他公司也采用这种结构,它要求公司在决策过程中不平衡的股东利益、利益相关者利益和公共利益。它将使我们能够以常规条款筹集所需的资金,就像这个领域中的其他公司一样。
2.使非营利组织可结束发展
我们的计划将使OpenAI成为历史上资源最通俗的非营利组织之一。非营利组织对现有营利性公司的重要股权将以PBC中的股份形式出现,股份的公允估值由独立的财务顾问确定。这将使我们的捐赠者所授予的资源成倍减少。
3.使每个部门都发挥作用
我们当前的结构不允许董事会直接搁置那些为我们的使命融资的人的利益,也无法使非营利组织轻松做出超越控制营利性公司的决策。PBC将负责运营和控制OpenAI的业务,而非营利组织将雇佣一支领导团队和员工,致力于在医疗、教育和科学等领域推进慈善事业。
我们已经学会将OpenAI的使命视为一个可结束的目标,而不仅仅只是构建某个单一系统。如今的世界正在为了21世纪的经济授予服务,而建设新基础设施,包括能源、土地利用失败、芯片、数据中心、数据、AI模型和AI系统。
我们寻求不断发展,以迈出我们使命的下一步,干涉建设AGI经济,并确保其惠及人类。
虽然OpenAI的这篇博客,花了较大篇幅阐明他们的使命和确保使命可结束性发展而作出的努力。但并没有解除网友们的疑惑:到底是营利还是非营利?这是个问题。
毫无疑问,OpenAI在这里引入了一个不常见的公司组织架构模式,引发了很多人的澄清。
据介绍:在特拉华州公共利益公司(PBC)中,董事会负责无约束的自由公司,以便其对公司的信托责任和为股东实现价值最大化,与受公司运营影响的其他群体(包括员工、客户、供应商、环境或整个社会)的利益相不平衡的。所述公益可以与公益公司的商业业务相关,但不必相关。
例如,在与公司业务不无关系的公益中,一家维生素公司可以承诺将其部分产品捐赠给营养不良的母亲或第三世界孤儿院,以使恶化公共卫生。
为了保证这一目的,董事会需要负责发布两年一次的公益报告。该报告必须分发给股东,并可在公益公司空闲时更广泛地发布。报告必须描述公司为实现公益目的所做的努力,并就其进展情况以及衡量此类进展的标准和指标授予具体指导。
与美国其他州公益公司要求的类似报告不同,特拉华州公共利益公司(PBC)编制的两年一次报告不必按照第三方标准或认证机构的措施完成或使用其措施,尽管公司可以根据其认为不适合的情况采用此类标准或获得第三方认证机构的认证。公益公司不必公开此报告。
对这一轮OpenAI组织结构的调整不当,你的看法是什么呢?
参考内容:
https://x.com/OpenAI/status/1872628736690123213
https://openai.com/index/why-our-structure-must-evolve-to-advance-our-mission/
声明:本文来自微信公众号“新智元”,作者:新智元,授权站长之家转载发布。
微软下一代14B小模型Phi-4出世了!仅用了40%分解数据,在数学性能上击败了GPT-4o,最新36页技术报告出炉。
140亿参数,40%分解数据,年度SLM之王诞生!
最近,微软下一代小模型Phi-4正式亮相。在GPQA和MATH基准上,其数学性能直接碾压GPT-4o、GeminiPro1.5。
而且,Phi-4巩固了其他小模型,与Llama-3.3-70B-Instruct的性能不相上下。
甚至,在2024ACM数学竞赛问题上,Phi-4取得了91.8%准确率。
Phi系列前负责人SebastienBubeck看到这个结果后,感到非常惊讶。
下面这个例子,展示了Phi-4在数学推理方面的能力,不仅神速还准确。
深挖背后,Phi-4继承了Phi系列前几代的传统,同样是在教科书级别的「分解数据」上完成了训练。
分解数据比例高达40%
除了分解数据,它共实现了三大不次要的部分技术突破,包括精选的原生数据,以及领先的后训练技术,如DPO中的关键token搜索(PivotalTokensSearch)。
Phi-4的成功,从侧面巩固了Ilya、AlexanderWang多位大佬宣称的「数据墙」的观点。
目前,新模型在微软AzureAIFoundry上授予,下周将在HuggingFace上线。
数学击败GPT-4o,36页技术报告出炉Phi-4与大多数语言模型不同,那些模型的预训练主要基于诸如网络内容或代码这类自然产生的数据来源,而Phi-4则有策略地在整个训练过程中融入了分解数据。
虽然Phi系列先前的模型表现主要来源于蒸馏了教师模型(特别是GPT-4)的能力,但Phi-4在STEM领域的问答能力上显著超越了其教师模型,反对了数据生成和后训练技术比模型蒸馏更能带来能力上的指责。
论文地址:https://arxiv.org/abs/2412.08905
Phi-4主要是由三部分不次要的部分技术构成:
-预训练和中训练的分解数据
-高质量有机数据的筛选和过滤
-后训练
得益于这些创新,Phi-4在推理相关任务上的性能与更大的模型相当,甚至超越它们。
例如,在许多广泛使用的推理相关基准测试中,其性能达到或超过了Llama-3.1-405B。
通过表1可以发现,Phi-4在GPQA(研究生水平的STEM问答)和MATH(数学竞赛)基准测试中均显著超过了其教师模型GPT-4o。
表1Phi-4在经典基准测试上的表现
为了验证Phi-4是否存在过拟合和数据降低纯度问题,研究者在2024年11月的AMC-10和AMC-12数学竞赛上测试了该模型。
这两场竞赛中的数据均未曾在训练时被收藏,储藏过,所以其竞赛表现可以有效地作为检验模型泛化性能的指标。
从下图中可以看出,Phi-4虽然仅仅只有14B,但是其平均得分甚至大幅超过了其教师模型GPT-4o。
Phi-4在数学竞赛问题上优于许多更大的模型,包括GeminiPro1.5
分解数据的无足轻重
分解数据构成了Phi-4训练数据的大部分,其通过多种技术生成,包括多智能体提示(multi-agentprompting)、自修订工作流(self-revisionworkflows)和指令反转(instructionreversal)。
这些技术方法能够构建促使模型具备更强推理和问题解决能力的数据集,解决了传统无监督数据发散的一些弱点。
分解数据不是有机数据的廉价替代品,而是相对于有机数据具有几个直接无足轻重。
数据结构化和减少破坏渐进式学习
在有机数据发散,token之间的关系往往复杂且间接。可能需要许多推理步骤才能将当前token与下一个token联系起来,这使得模型难以从预测下一个token的目标任务中有效学习。
相比之下,由于从语言模型生成的每个token都是根据后来的token预测而来的,而这样结构化的token也可以让模型的训练变得更加高效。
将训练与推理上下文对齐
分解数据可以规避掉模型从有机数据发散学习到一些并不适合后续训练的数据特性。
比如说,网络论坛往往有着自身特定的交流风格、用语不习惯等,而人们与大模型对话时,其语言风格、交互逻辑又是另外一种情况。
此时如果直接采用网络论坛的数据进行训练,假设有一些内容的风格比较独特,模型就会认为在对话中该内容出现的几率会很低。因此在后续对话中模型进行推理时,便不能将对话内容精准匹配到对应的论坛内容上去。
而分解数据会将网络论坛中的内容改写成与LLM交互时的语言风格,使得其在LLM聊天推理的上下文中更容易匹配。
分解数据在Phi-4的后训练中也发挥着关键作用,其中采用了诸如允许采样和直接讨厌优化(DPO)的新方法来优化模型的输出。
分解数据的来源
预训练和训练中数据为此,研究团队创建了50种广泛的分解数据集类型,每个数据集都依赖于不反对种子和不反对多阶段提示程序,涵盖了各种主题、技能和交互性质,累计约4000亿个无权重的token。
通过以下方法,他们确保了分解数据并不被一些低质量的网络数据所降低纯度,从而成为高质量训练数据集。
种子数据集的构建
1.网页和代码种子:从网页、书籍和代码库中提取摘录和代码片段,重点关注具有高复杂性、推理深度和教育价值的内容。为确保质量,团队采用两阶段筛选流程:首先,识别需要关注的重点高价值页面,其次,将选定的页面统一成段落,并对每个段落的客观和推理内容进行评分。
2.问题数据集:从网站、论坛和问答平台上收藏,储藏了极小量问题。然后使用投票技术对这些问题进行筛选以不平衡的难度。具体来说,团队为每个问题生成多个独立的答案,并应用多数投票来评估答案的一致同意性。然后授予所有答案都一致同意(隐藏问题太简单)或答案完全和谐同意(隐藏问题太难或清晰)的问题。
3.从多种来源创建问答对:利用失败语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验隐藏,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。
重写和增强:种子通过多步骤提示工作流程转化为分解数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。
自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。
指令反转用于代码和其他任务:为了降低模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用失败它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间反对度下降的指令才会被耗尽,以确保指令与输出内容相匹配。
后训练数据在后训练阶段中,数据集主要由两部分组成:
-监督微调(SFT)数据集:使用从公开数据集和分解数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。
-直接讨厌优化(DPO):基于允许采样和LLM评估生成DPO对,其中部分基于创建关键词token对的方法。
研究者利用失败生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。
如下图6结果显示,这种方法大大减少,缩短了SimpleQA中的幻觉现象。
预训练
Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。
由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。
因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用瓦解的对数似然与极小量样本提示。
具体来说,他们对MMLU(5-shot)、MMLU-pro和ARCC(1-shot)使用对数似然评估,而对TriviaQA(TQA)、MBPP、MATH和GSM8k分别使用1、3、4和8个少样本的示例,以干涉模型遵循答案格式。
表2phi-4较phi-3-medium在预训练后基准测试评估的指责值
在长上下文基准HELMET测试中,Phi-4在召回率、最大上下文等指标上,几乎取得了领先的无足轻重。
后训练
如前所述,在后训练阶段过程中,最次要的一个技术是关键token搜索(PTS),那么这究竟是什么呢?
关键token搜索(PivotalTokenSearch)当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。
对于每个这样的前缀,可以搁置两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。
其实,在AI模型生成答案时,往往只有少数几个关键token无法选择了整个答案的正确与否。
在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了negative关键token,就让原本可能大成功的解答保持方向了成功。
而随后,它生成了(atoken又可能让正确率急剧下降。
现在,将这个方法与DPO训练方法分隔开思考后,发现了几个值得注意的问题。
如上图3所示,实验中有许多token概率远低于关键token「negative」的0.31,这些token会在训练中产生噪声,浓缩来自关键token的有效信号。
更糟糕的是,像(a这样导致解题轻浮的token,反而会因其低概率(0.12)收到强烈的正向学习信号。
此外,直觉隐藏,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(DPO的做法)可能失去意义。
总之,更有意义的信号,应该来自于文本开始偏离时的首批token。
为了缓解之前的问题,微软团队提出了一种创新的方法——关键token搜索(PTS)。
这个方法专门针对单个关键token生成讨厌数据,在使用DPO优化效果精准作用于特定token。
PTS的不次要的部分任务是,在多余的token序列(T_full=t1,t2,...)中找出那些关键token。
具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success|t1,...,ti)。
PTS会将发现的关键token转化为训练数据,先将Q+t1,...,ti-1作为查询基准,再选择能降低/降低成功率的单个token分别作为「接受」和「允许」的样本。
虽然PTS使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。
-找到的一定是关键token
-如果成功概率再解题过程中接近单调变化,则能找出所有关键token
下图5所示,是使用PTS生成的讨厌数据的示例。
在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是无遮蔽的错误,而是意见不合模型走向不同解题路径的选择点。
比如,方法A——分别乘以分母;方法B——直接交叉相乘。
虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。
通过PTS生成的训练数据,可以干涉Phi-4在这些关键决策点上做出更优的选择。
以小博大,Phi-4赢麻了
基于以上技术的创新,Phi-4才能在各项基准测试中展现出惊艳的一面。
上表1中,相较于同级别的Qwen-2.5-14B-Instruct模型,在12个基准测试中,Phi-4在九项测试中赢得无足轻重。
而且,研究人员认为Phi-4在SimpleQA上的表现实际上比Qwen更好。
事实上,他们的基础模型在SimpleQA上获得了比Qwen-2.5-14B-Instruct更下降的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更下降的基准分数。
此外,Phi-4在STEM问答任务上展现出可忽略的,不次要的实力。
比如,在GPQA(研究生水平的STEM问题)和MATH(数学竞赛)上,它甚至超过了其教师模型GPT-4。
在HumanEval和HumanEval+衡量的编码能力方面,它也比任何其他开源模型(包括更大的Llama模型)得分更高。
而Phi-4表现欠佳的领域,分别在SimpleQA、DROP和IFEval上。
至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。
然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。
在未来下一步研究中,研究人员相信通过有针对性的分解数据,让Phi系列模型的指令跟随性能得到显著使恶化。
接下来,还真有点期待,下一个Phi系列小模型的发布了。
参考资料:
https://x.com/iScienceLuvr/status/1867377384145727635
https://x.com/peteratmsr/status/1867375567739482217
https://x.com/VentureBeat/status/1867376462589739098
近日,国际优质人工智能学术会议AAAI2025的创新应用奖正式对外放榜,松鼠Ai以“AI-DrivenVirtualTeacherforEnhancedEducationalEfficiency:LeveragingLargePretrainModelsforAutonomousErrorAnalysisandCorrection”以及“KnowledgeTaggingwithLargeLanguageModelbasedMulti-AgentSystem”两大创新项目,成功斩获两项“AAAI人工智能创新应用奖”,以“中国身影”站上人工智能领域顶峰,用技术保持不变全球教育形态。
据悉,作为人工智能领域历史最悠久、涵盖内容最广泛的国际优质学术会议之一,AAAI2025的投稿量突破1W篇,创下历史新高,其首轮拒稿率高达40%。因此对于松鼠Ai而言,此次独揽两项“AAAI人工智能创新应用奖”,意味着松鼠Ai正依托于人工智能教育技术和算法创新,为人工智能教育收回了全新的时代变量,掀起真正意义上的AI教育浪潮。
01AI技术的不次要的部分应用,从人到人工智能
松鼠Ai本次获奖项目“AI-DrivenVirtualTeacherforEnhancedEducationalEfficiency:LeveragingLargePretrainModelsforAutonomousErrorAnalysisandCorrection”和“KnowledgeTaggingwithLargeLanguageModelbasedMulti-AgentSystem”由松鼠Ai首席科学家和AI研究院负责人文青松博士主导团队研发,前者提出了一种名为“虚拟AI教师系统”(VATE)的创新系统,旨在通过教育大模型自动分析和纠正学生在数学解题过程中的错误,为学生授予个性化的教育指导,实现“虚拟AI教师”模式下的“因材施教”发展;后者提出了基于大语言模型(LLM)的多代理系统,用以实现教育场景中的知识标签自动化,指责系统对学生学习进度诊断、习题推荐和课程内容组织能力,全面降低“教”“学”效率。
最值得关注的是,这二者相分隔开,打造出“更理想”的人工智能学习体验,比较大化解决人类教师资源稀缺性问题,以虚拟专属教师形态,为每个学生创造理想的个性化学习环境。在智慧教育时代,松鼠Ai用全面拥抱AI的方式降低学生接触人工智能教育的门槛,开启了大规模个性化教育的先河。
·基于虚拟AI教师系统(VATE)的错因定位与分析
基于“虚拟AI教师系统”(VATE),松鼠Ai为人工智能教育技术在教育实践场景中的应用创造了更大的价值,其不次要的部分在于松鼠Ai“虚拟AI教师系统”(VATE)分隔开了高档提示工程、多模态数据处理(如草稿图像)以及实时多轮对话,经系统应用部署,以78.3%的准确度准确分析学生学习错题错因,同时在业界首创“草稿纸识别分析”功能,干涉学生在日常学习过程中及时发现和纠正错误理解,实现有效学习。
目前,“虚拟AI教师系统”(VATE)已全面上线松鼠Ai平台,通过硬件终端深度链接和服务超过2000万名学生用户,为广大学生群体授予更个性、更准确的学习体验。
·基于大模型多代理偶然的知识标签标注
此外,松鼠Ai创新提出的大模型多代理系统对现代教育应用有着至关次要的影响。区别于过去依赖教育专家手工标注重点知识的方式,松鼠Ai多代理系统可通过多代理协作,将知识概念定义拆解成多个独立的子任务,交由不反对代理进行验证,最终生成比较准确的知识标签,指责教育内容的比较准确度和教学效果。
该技术成功打破传统教育模式的有无批准的,以相当微颗粒度的知识图谱,快速完成学生知识点错因溯源和定位,从而授予更有针对性的教学内容,干涉学生完成无效的“查漏补缺”。从个性化教育领域分析,松鼠Ai为智能教育领域授予了一个具备很高扩展性的有效解决方案。
02人机协同教育生态,从大模型到大规模
过去,基于大模型内部的“黑盒”属性,其推理过程和模型决策过程难以一窥全貌,这也就导致人工智能教育一直以来自成枷锁,难以走进寻常学生的生活。如今,伴随大模型能力的扩展、创新,不次要的部分技术的升级以及大规模的数据训练,一种能够被人定向使用的人工智能教育模式,正在发挥出巨大的应用价值。
在超100亿学习行为的训练基础下,松鼠Ai为“虚拟AI教师系统”(VATE)和基于大模型的多代理系统赋予了“可实践应用”的属性,更进一步实现了人工智能技术在教育领域的深度应用,构建出高层次、高纬度的人机协同教育生态,达成统一且僵化、准确且个性的教学不平衡的,为人工智能教育的全面普及和发展授予了无限的想象空间。
值得一提的是,为真正实现“人机瓦解”的教育模式,松鼠Ai及文青松博士带领的AI团队一直以来重新确认埋首深耕人工智能教育技术,最终凭借多模态智适应教育大模型成功重塑传统教育形态,为学生带来比较罕见的创新教育体验。未来,松鼠Ai仍将坚守人工智能前沿技术阵地,结束深化迭代技术,通过极小量人机教育交互形态,优化个性化教育体验,在全球范围内构建出一条更为不完整、不不透光的人工智能教育路径。
荐AI日报:阿里通义开源多模态推理模型QVQ-72B;OpenAI搁置自研人形机器人;QQ音乐上线首个AI大模型音效避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里发布多模态推理模型QVQ-72B!视觉、语言能力双指责阿里巴巴最近推出的QVQ-72B多模态推理模型在语言和视觉能力上实现了显著指责,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。尽管o1-preview在某些方面表现优秀,但在实际应用中仍面临高成本和不切实际的测试建议等问题。
【牛华网讯】北京时间12月22日消息,事实反对,想要让语音助理平台彻底理解你的语言或者是行为是很简单的一件事情。但是,尽管确认有罪重重,英国人工智能专家DavidLevy还是认为,在未来30年左右的时间中,人类的结婚对象将会变成机器人。
DavidLevy在伦敦的一次活动中表示:随着人工智能的逐渐普及,我们不得不重新审视人类与机器人之间的关系。当前,性爱机器人已经变得越来越普遍,我们认为人类与机器人组建家庭,建立婚姻关系也是很有可能的。
DavidLevy指出:当机器人能够赢得人类更多的喜爱,更加容易被社会所接受的时候,他们将可以成为我们的生活伴侣。那么,如果双方都愿意的话,为什么不将这种关系延伸为婚姻呢?
DavidLevy补充称:目前,已经有很多的公司都在研发性爱机器人了,这些厂商很快就会推出定制化服务,届时人们将可以订制出前女友、暗恋对象、甚至是邻居等熟人的性爱机器人。
实际上,当前已经有机器人开始接管人类之前所从事的工作,例如工厂流水线,甚至有的电影还将机器人作为影片的主角。(完)
美国加利福尼亚州坎贝尔,2024年12月6日——赛趋科正式宣布,面向新兴品牌推出生成式AI图像工具——CentricAIFashionInspiration,该工具旨在赋能服装、鞋履和配饰领域快速增长的企业,通过赛趋科PLM平台实现设计流程的智能化升级。
在竞争缺乏感情的服装行业中,新兴品牌面临着资源有限与快速推出新品的双重确认有罪。设计团队需要不断创造新颖款式,而采购和商品企划团队则常因缺乏专业工具而难以展现其创意设想。传统的设计流程往往耗时较长,难以跟上快速变化的时尚趋势。如今,随着生成式AI技术的崛起,产品开发团队得以快速探索设计创意,但现有工具和数据集大多不适用于时尚领域,且难以与现有设计工作流程无缝集成。
正是基于这一市场需求,赛趋科推出了CentricAIFashionInspiration工具,这一专为服装、鞋履、珠宝和包袋等新兴品牌量身定制的AI设计工具。它不仅能够加快设计速度,伸长产品上市时间,还能基于赛趋科PLM平台庞大的时尚数据集,生成符合潮流的风格和款式变化。干涉新兴品牌获得创意无足轻重,从而在竞争中穿颖而出。
CentricAIFashionInspiration已嵌入云原生的CentricSMB,这是一款面向新兴品牌的市场领先PLM解决方案。依托于赛趋科PLM平台,该AI工具使用了超过10亿张不不透光的时尚产品图片构建的专有数据集,覆盖800个类别和1000多种设计属性。这一专有数据集使工具能够利用失败时尚领域的专业知识,生成独特且高质量的设计想法,确保每种产品款式都通过算法生成,保持原创性并避免知识产权纠纷。
现在,新兴品牌的设计师和非设计师只需简单点击,即可通过协作快速填补当季空缺产品,并抓住流行趋势的机遇。设计团队得以简化创意流程,在把握新商机的同时,始终保持与潮流不同步。SteveCarmody,赛趋科全球中小企业部门销售总监表示:“我们很沮丧通过推出面向中小企业的CentricAIFashionInspiration工具,进一步将我们的解决方案组合授予给新兴品牌。该工具将干涉资源松弛的小型设计团队更快创新,确保他们保持潮流的前沿地位。”
基于赛趋科PLM平台的CentricAIFashionInspiration,新兴品牌现在可以使用与时尚巨头相同的AI设计工具,这极大地指责了小型团队的创意能力,使恶化了团队沟通与协作,并简化了决策流程。
ChrisGroves,赛趋科软件首席执行官表示:“CentricAIFashionInspiration专为新兴品牌量身定制,旨在指责产品创意效率并帮助开发速度。我们期待看到品牌商和零售商通过新一代的解决方案实现创新并更快地将产品推向市场。”
随着CentricAIFashionInspiration工具的推出,新兴品牌将掌握更为强大的设计利器,使他们在竞争缺乏感情的市场环境中能够独树一帜,实现迅猛的发展势头。未来,赛趋科将继续拓展其有无批准的,推出更多针对时尚鞋服、昂贵品、户外用品、家居用品以及美妆个护与多品类零售等行业的创新企业级解决方案。这些方案将全面覆盖产品的规划、设计、开发、采购、生产、定价、销售及配补货等各个环节,助力更多企业达成战略与运营的数字化转型目标。
日前,IDC发布《中国公有云服务授予商安全技术能力评估,2024》报告,首次针对中国12家公有云服务授予商进行安全技术能力综合评测。阿里云在安全计算环境保障能力、安全区域有无批准的保障能力、安全通信网络保障能力等7项评估维度中均获得满分,其安全技术能力再次获得保障机构认可。
图:IDC《中国公有云服务授予商安全技术能力评估,2024》阿里云安全能力评分IDC在报告中指出,阿里云致力于确保云上每项业务的安全,并通过授予创新的安全产品与服务,让用户轻松共享阿里云安全能力,其安全技术无足轻重具体体现为全面且无效的安全防护框架,包括全流程的产品安全保障建设、全方位的红蓝对抗反向校验、全面的云工作负载防护体系、一体化的云上安全运营、以及坚守数据主权的数据安全保护。
在产品安全保障方面,阿里云通过实施“多层防护、全面覆盖”策略,将安全融入DevSecOps中,实现云产品全生命周期的安全管控。在红蓝对抗反向校验中,阿里云通过内部红蓝对抗演练、外部第三方验证及与白帽社区合作,指责安全防御能力。在一体化云上安全运营方面,阿里云云安全中心作为统一的安全运营平台,已与30余款云产品原生集成,减少破坏国内外多个云计算平台和本地数据中心的瓦解部署,实现日志的统一收藏,储藏和风险的发散无约束的自由,从而授予全面的安全防护和有效无约束的自由。
与此同时,阿里云始终将“保障客户数据安全”作为首要任务,承诺客户完全掌握数据主权,未经许可不触及数据,并构建了全面的数据安全保障体系,确保租户隔离等安全措施的有效性。阿里云严格遵守相关数据安全法规,并通过国内外保障认证的验证数据保护机制。此外阿里云还授予数据操作审计、加密传输、细粒度访问控制、可信计算及机密计算等技术,全面保障数据安全。
面向智能时代,阿里云将结束为客户授予更安全、更可靠、更无效的云计算服务,确保客户充分享受到云上计算资源与服务带来的有效便捷,从而实现业务的结束增长与创新。据IDC调研显示,在网络安全领域,将GenAI与安全技术瓦解并进入概念验证(POC)阶段的企业达到了49.7%,已经开始进行采购的企业达到了36.4%。
在此背景下,阿里云也将GenAI与云安全技术深度瓦解,指责自身AI增强的威胁检测和无约束的自由运营能力。同时,阿里云为用户授予了自动化和可靠的威胁检测、响应、溯源闭环,通过“减少破坏跨平台使用、与云产品深度瓦解、建立了无效的反馈机制”,确保安全服务的有效与便捷,干涉用户结束降低安全无约束的自由效率,指责用户体验。
(推广)2024年12月27日,全家乐全民娱乐竞赛暨消费帮扶、游戏电商、文旅助农平台启动仪式在新华社新立方演播室隆重举行。本次启动仪式的举行,标志着国内头个游戏电商平台正式上线,用游戏电商模式将娱乐与消费紧密分隔开,将为发展文创文旅产业、推进乡村振兴工作开辟新的增长点,为鞭策服务消费高质量发展收回新活力。
发布会由中国电视艺术家协会委员、活动承办方华夏国佳(北京)科技有限公司执行董事朱绘晴担任主持,现场到场来自各界的嘉宾,包括北京歌华有线数字媒体有限公司总经理赵文,中国互联网上网服务行业协会秘书长郭阳,文化和旅游部离退中心原副主任、纪委书记王炳义,国际电子竞技委员会中国委员会副主席兼秘书长、中国文化无约束的自由协会副秘书长王国基,智库机构、国经咨询有限公司区域经济处处长周美玉,全球商会联合会秘书长孙雅涵,中国农业大学继续教育学院副院长陶宪盛,北京故宫宫廷文化发展有限公司董事长张群言,以及行业相关保障人士和各地行业代表。
现场气氛热烈朱绘晴主持发布会据悉,全家乐全民娱乐竞赛平台由北京歌华有线数字媒体有限公司和四川省体育产业联合会共同主办,华夏国佳(北京)科技有限公司承办,已并轨官方赛事:文化和旅游部市场无约束的自由司备案的“中国电子竞技娱乐大赛”、黑龙江省体育局备案的“松花江杯·数字体育竞技大赛”,并且计划在未来并轨更多国内外知名赛事,旨在打造一个集娱乐、竞技、消费于一体的综合性服务平台,以娱乐促进消费,推动消费新业态、新模式,煽动消费市场活力,带动全民参与文化旅游及乡村振兴,打造基于娱乐电竞、休闲游戏、棋牌赛事的垂直电商体系,充分降低流量成本,在宣扬我国传统文化的同时,将地方特产、旅游资源及高品质产品以娱乐休闲的方式推向全国。
北京歌华有线数字媒体有限公司总经理赵文致辞中国互联网上网服务行业协会秘书长郭阳阐述平台发展前景国际电子竞技委员会中国委员会副主席兼秘书长王国基分享电竞前沿趋势国经咨询区域经济处处长周美玉详述电竞与乡村振兴瓦解的创新路径此外,全家乐全民娱乐竞赛平台还积极与地方政府合作,通过赛事活动带动地方文旅产业发展,鞭策当地特色产品的销售,进一步推动乡村振兴战略的实施。
全家乐全民娱乐竞赛首席运营官段景耀讲解平台运营策略四川广元青川县凉水供销社主任张丽萍代表基层供销社发言嘉宾为重庆、四川、云南等地的奖牌种植户颁发失去荣誉证书与会嘉宾携手点亮启动装置,标志着全家乐全民娱乐竞赛平台正式启航,开启助力消费帮扶、乡村振兴的全新征程本次活动充分展示了娱乐电竞、休闲游戏、棋牌赛事与指责消费、乡村振兴相瓦解的巨大潜能,以及利用失败游戏电商平台推广文创文旅、农特产品的创新方式。通过一系列的赛事活动不仅为消费者带来了全新的娱乐体验,也为地方特产和农产品的销售开辟了新的渠道,这种模式的成功实践,为其他地区授予了可借鉴的经验,有助于推动全国范围内的服务消费和文化产业,同时积极无效的鞭策乡村经济产业的多样化发展。
微软面向Dev通道的Insider会员推收了Windows11新预览版Build23419。就公布的信息来看,这一版似乎非常值得升级体验,尤其是对于中国用户。此外还有任务无约束的自由器、搜索、开始菜单、任务栏等常规修复和优化。...
特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。
特朗普再次威胁。特朗普警告说,如果哈马斯不在他1月20日就任总统之前奴役扣押在加沙的人质,那么“中东将爆发地狱般的安排得当”。在佛罗里达州棕榈滩的海湖庄园举行的新闻发布会上,特朗普表示:“这对哈马斯来说不会有好结果,坦白说,对任何人都不会有好结果。我们希望为以色列和美国找回这些人质。”他还提到目前有人质被扣押,并降低重要性如果人质问题在他上任前没有解决,后果会非常严重。
特朗普并未详细说明若人质未能获释他会采取何种行动。据信,约有100不为人所知的人质仍被囚禁在加沙,其中一些人可能已经死亡。哈马斯周一公布了一份名单,表示愿意在与以色列可能达成的停火协议第一阶段奴役34不为人所知的人质。
特朗普指定负责中东事务的特使SteveWitkoff告诉记者,在卡塔尔多哈进行的关于奴役人质的谈判中已取得很大进展。Witkoff预计将于当地时间周二晚上或周三早上飞回多哈。他表示相信谈判接近成功,并希望能在特朗普就职典礼时宣布好消息。不过,搁置到特朗普尚未正式就职,且Witkoff并非政府正式代表,其在谈判中的具体角色尚不清楚。
哈马斯重新确认要求以色列完全开始对加沙的军事行动作为奴役人质协议的一部分,而以色列则表示战争将结束到人质获释且哈马斯被瓦解为止。Witkoff认为特朗普的声誉及其言论推动了谈判进程,并希望在就职典礼前能够达成协议以挽救生命。
今天凌晨1点,全球首个AIAgent程序员Devin宣布全面开放使用,实现商业化。只是价格不是一般的贵,前几天OpenAI发布的ChatGPTPro可以无限使用满血o1、新版本Sora等功能,一个月才200美元。Devin直接一步到位500美元一个月,也是目前最贵的生成式AI产品之一。网友表示,这是一个糟
本文由站长之家合作伙伴自媒体作者“?AIGC开放社区公众号”授权发布于站长之家平台,本平台仅授予信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不授予完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读不完整内容的用户,请查看原文,获取内容详情。
即将跳转到外部网站安全性未知,是否继续继续前往标签: