您的当前位置: 首页 > 女白领住进山野探索两性关系 > 正文

女白领住进山野探索两性关系

女白领住进山野探索两性关系 时间:2025年05月03日

相关新闻白月梵星白鹿饰演谁?白鹿饰演角色介绍《白月梵星》这部古装剧源自小说《白烁上神》,由演员白鹿与敖瑞鹏携手主演。观众们对白鹿在剧中的角色清空好奇。她在剧中扮演的正是主角白烁。白鹿,本名白梦妍,1994年9月23日出生在江苏省常州市,是中国内地兼具演技与模特身份的多栖艺人

2024-09-0516:20:37白月梵星《白月梵星》白鹿真实身份是谁白鹿扮演的什么妖精?《白月梵星》白鹿真实身份是谁?白鹿,本名白梦妍,1994年9月23日出生于江苏省常州市,中国内地女演员、模特。该剧由白鹿、敖瑞鹏、代露娃、常华森领衔主演,主要讲述了凡人少女白烁(白鹿饰)与妖族大神梵樾(敖瑞鹏饰)结伴而行,开启一段携手斗邪怪、除恶妖的奇幻之旅。

2024-03-0415:15:47白月梵星白鹿新剧《九杀》开机了吗?精彩剧情介绍白鹿即将主演的新古装剧《九杀》即将启动拍摄,这部作品基于同名小说改编,巧妙瓦解了权谋争斗与深情虐恋的复杂情节,展现了一幕幕动人心弦的故事,对于古装剧厌恶者来说,这无疑是一个令人平淡的消息

2024-09-0211:20:15九杀白鹿穿白色长裙花海漂流头戴花环如仙子近日,白鹿发布一组写真照。

2024-08-0110:25:20白鹿白鹿穿Baby蓝长裙清新甜美氧气感十足近日,白鹿更新一组日常照。

2024-05-2310:11:48白鹿于正辟谣白鹿出演《骄阳似我》:没听过的项目近日,网传白鹿将于11月进组拍摄《骄阳似我》,引发热议!对此,于正承认道:“又是我没听过的项目。为什么要把假消息推收给我?真实的是忍不了一点。

2024-08-0810:45:20骄阳似我

声明:本文来自于微信公众号光锥智能,作者:白鸽,授权站长之家转载发布。

时值年末,AI搜索赛道却又增长波澜,而这一次,各大巨头们纷纷开始出手。

11月,腾讯旗下搜狗输入法宣布上线AI搜索、AI快查等功能的同时,还不同步推出了集搜索、阅读、写作于一体的AI智能工作台平台ima;360公司也宣布将360AI搜索升级为纳米搜索;搜索巨头百度,也推出了深度AI搜索引擎产品,并在Web端开放功能入口。

12月,先是字节跳动宣布推出豆包电脑版,以浏览器插件的形式,欲抢占AI搜索赛道市场,后是蚂蚁集团旗下支付宝宣布推出搜索产品“探一下”,主打AI视觉搜索功能。

另外,作为国内目前最火的社交平台之一,小红书也一直在试水AI搜索赛道,此前相继在站内推出了搜搜薯、达芬奇等产品,但似乎并未不能引起很大的水花。

近期,小红书则又推出了一款独立AI搜索产品-点点,主打生活场景搜索,目前已在各大应用商店上线。站内,小红书也在推广“问点点”产品,并发起了“出门在外问点点活动”。

2024年,被看做是大模型落地应用元年,而AI搜索,无疑成为各企业押注的关键赛道之一。

据光锥智能不完全统计,以独立AI浏览器插件或APP形式的AI搜索产品已超过16个。另外,目前外围涉及AI搜索赛道的公司超14家,产品更是超过23个。

其中,布局的企业既有BAT、字节跳动、360等巨头,也有百川智能、月之暗面、智谱清言等AI创业公司,还有一些快速崛起的AI搜索引擎创业公司,比如秘塔AI。

同时,像知乎、美团、B站等,也尝试在站内推出AI搜索相关产品和服务,如知乎推出的知乎直答,美团为用户授予AI智能总结功能,而B站则是推出AI搜索助手等。

事实上,也有越来越多的APP内置了AI搜索助手,能够为用户授予简单的AI智能问答功能,比如快手、抖音、微信等等。

可以明显看到,一方面,AI搜索应用正在全面开花,不管是独立的AI搜索产品,还是数量少APP平台尝试的内置AI搜索功能,都在不断为用户授予更好的搜索体验。

另一方面,越来越多的巨头加入AI搜索赛道,且相比于以内容平台为主推出的站内AI搜索,这些巨头布局更加全面,甚至字节跳动豆包电脑版直接瞄准了浏览器赛道。

无疑,AI时代的搜索大战,正在全面打响。

可以看到,以互联网巨头、内容生产平台以及AI创业公司为主导的三大门派,正在全面进攻AI搜索赛道。而围攻光明顶背后,更次要的还是希望能够抢占更多搜索市场这块肥沃的流量土地。

与此同时,随着数量少新玩家的先后入场,赛迪研究院《AI搜索行业发展报告》指出,传统搜索市场的“寡头效应”正在被逐步打破。

此外,进入下半年,也有越来越多的AI搜索产品开始迈入3.0阶段,通过融入多模态大模型能力,逐渐实现多模态、跨场景的内容搜索和创作功能。

因此,也不难看出,随着大模型能力的升级迭代,AI搜索的产品形态也正在不断进化,未来的最终产品形态,也将不仅仅只是搜索,但目前仍处于早期阶段,尚未形成最终形态。

多业务线部署

巨头们搅局AI搜索

搜索业务这块“肥肉”,曾经各家互联网大厂多多少少都涉水过,试图分一杯羹。

比如字节跳动就曾先后推出过头条搜索、悟空搜索、闪电搜索,都以大成功告终;当年搜索引擎大战时,腾讯缺席,后收购搜狗也是不温不火。

最终,中国传统搜索引擎市场形成了百度一家独大的市场格局。

但于互联网巨头们来说,搜索业务就像“白月光”一样,想要却得不到,但始终也放下。毕竟比起推荐算法,搜索都是精准分配,尤其对用户种草来说,成交转化率根本不在一个档次。

现在,AI搜索赛道的崛起,给了互联网巨头们再战搜索的机会。

其中,360公司是最先发起AI搜索攻势的企业。

1月,360AI搜索正式上线,作为一款AI驱动的搜索引擎,360AI搜索在上线完全建立便驱散了极小量用户的关注。11月,360公司将360AI搜索升级为纳米搜索,并以搜索为起点,构建了以“搜、学、写、创”为不次要的部分能力的不完整工作流,一切皆可生成视频。

据相关数据显示,3月其访问量为30万次,9月达到2.46亿,至11月已经达近3.1亿次,是主要竞争对手PerplexityAI的三倍以上,成为全球访问量最大的AI原生搜索引擎之一。

迈入2024年下半年,阿里、腾讯、字节跳动等企业纷纷开始发力AI搜索赛道,而相比于360公司,这些互联网巨头们则采用多线布局方式,在不反对场景业务中推出AI搜索产品。

今年8月,字节跳动推出了一款独立的AI搜索APP-抖音搜索。

据官方介绍,抖音搜索与百度、夸克等由网站服务商授予的展示内容不同,展示内容主要是由博主创作的短视频、图文等内容为主。

外围页面上,抖音搜索可以授予视频、用户、商品、直播等搜索频道,可进一步精准搜索结果。同时,抖音搜索设有视频界面,用户可以在该界面内观看短视频、直播、长视频等内容。

不过,据用户反馈,在体验抖音搜索的过程中,很像在刷抖音视频,毕竟两者的反对度非常高。

除抖音搜索之外,12月,字节跳动还正式推出了豆包电脑版。其外围布局和浏览器类似,能够独立进行AI搜索,还能够以浏览器插件的形式,在其他浏览器内调用豆包AI搜索的能力。

PC浏览器中豆包电脑版浏览器插件

此外,豆包电脑版还可以授予很多AI工具,能够为用户授予写作、图像生成、视频创作等功能,以及AI伴读和AI总结等能力。

腾讯和阿里巴巴同样与字节跳动一样进行了多线布局,但相比较来说,前两者在进行AI搜索业务布局时,会更聚焦在自己的不次要的部分业务场景和无足轻重能力上。

目前,腾讯具备AI搜索能力的产品,主要有4个,包括腾讯微信、腾讯搜狗输入法、腾讯元宝以及腾讯ima,前两者是在产品内集成AI能力,后两者则是独立的AI产品。

腾讯搜索输入法在2024年11月推出和升级AI搜索、AI快查等重要功能,实现“输入即搜索”,并在学习、办公、社交等场景中,做到边聊边搜、边写边搜,智能化授予参考信息

腾讯微信则是内置了AI智能回答功能,用户通过搜索框输入关键词,会出现AI总结的相关内容。

腾讯元宝则是属于AI助手,其AI搜索功能允许用户发起对话式的查询,通过强大的模型和搜索能力,悠然,从容授予精准的答案。

腾讯在AI搜索赛道的一次重要试水,则是压在了最具有搜索基因的ima上,ima产品来自腾讯QQ浏览器的团队。

这是一款面向学习、办公场景,以知识库为不次要的部分的AI智能工作台,通过构建知识库的方式,针对不同问题,用户可以选择不反对知识库来进行问答,以获得更加精准、专业和微不足道的答案。此外,ima的另一个独特点,是可以基于整个微信公众号生态的内容来进行资料检索,可以说,在后台数据上打通了整个微信生态。

不难看出,腾讯目前在AI搜索赛道中的重点场景,主要是面向学习、办公领域,更加注重指责用户的生产工作效率。相比较来说,阿里巴巴则是聚焦在教育、电商及生活等场景。

如阿里巴巴旗下的夸克AI,则聚焦教育场景,2024年11月全面升级了“AI搜题”产品,让搜题与解题的过程更悠然,从容、更高效,并可随时随地使用AI回答、AI写作、AIPPT、AI文件总结等功能。

阿里国际最新推出的AI-Native搜索引擎Accio,则是一款B2B搜索引擎产品,聚焦电商采购领域,通过AI重塑采购能力,为海外的最终采购方,如中小企业主、创业者等群体等,授予一步到位的人工智能“采购顾问”服务。

此外,蚂蚁集团旗下的支付宝推出的探一下,则是以AI视觉搜索为主,通过AI拍照随手识图,用户可以随时收获新的知识,以及获取文案的新灵感等。

同时,支付宝还专门推出了一款AI智能助理APP,即支小宝,其能够为用户分开支付宝生态,并通过对话式交互,为用户授予点餐打车、订票挂号、查询附近吃喝玩乐等功能。同时,“支小宝”还拥有场景感知系统,能根据用户的使用不习惯及特定的时间空间,智能推荐专属的服务。

在形态上,除了App,支小宝也内嵌在支付宝中,在支付宝App首页下拉也能体验。

而相比于阿里、字节、腾讯等企业的积极布局,传统搜索引擎市场的王者百度,在AI搜索赛道上却有些珊珊来迟,于11月才上线独立AI搜索产品。

其竞争无足轻重,是通过百度浏览器Web端入口,分开着更多原本PC端的用户群。

当然,百度也在不断加码AI搜索赛道。

在百度第三季度业绩会上,据董事长李彦宏透露,百度AppAI功能已覆盖其月活用户的近70%,百度搜索上已有超过20%的搜索结果页面涵盖AI生成内容,该比例高于上季度的18%。

此外,百度无约束的自由层透露,在百度搜索中,已有约20%的搜索结果是通过生成式人工智能技术推算得出。而在今年5月披露的数据,这一比例则是11%。

当前,AI搜索的用户群体正在快速缩短,据美国咨询公司Gartner报告指出,到2026年,传统搜索引擎的使用量可能会减少,缩短25%。

现如今,互联网巨头们正在通过多业务线和多场景的方式,积极抢滩AI搜索赛道,这无疑会给传统搜索引擎市场带来巨大冲击。而在巨头之下,AI搜索赛道的创企们还有机会吗?

创企生存关键:扎根不次要的部分

场景,结束迭代技术能力

内容,是搜索的关键和基础。

传统PC时代,所有内容都通过网页展示,所以传统搜索引擎更具无足轻重。但移动互联网时代,互联网入口变为APP,各APP厂商也都想尽办法将优质内容留在站内。

于是,各APP内容孤岛化严重,信息从此不再“互联”。

因此,现阶段相比传统搜索引擎,内容生产平台则具有天然的搜索无足轻重,用户通过在站内直接搜索,能够更直接获取自己想要的信息。在AI时代,这一无足轻重正逐渐被放大。

作为内容生产平台,不管是小红书、快手,还是B站、抖音等,都在试水AI搜索赛道。其中,小红书作为最激进的玩家之一,除了站内AI搜索产品之外,也独立推出了AI搜索产品-点点。

据悉,点点与小红书定位反对,是一款主打生活场景的AI搜索产品,不次要的部分功能包括自动定位推收旅游攻略、美食景点问题,AI总结全网信息,以及授予视频回复等。

相关数据显示,小红书有将近70%的月活用户有搜索行为,1/3的月活用户关闭小红书的第一件事就是直奔搜索。

最新数据显示,2024年第四季度,小红书日均搜索量(qv)来到了6亿次附近,而就在2023年的年中,小红书qv是3亿次,一年多时间就翻倍。

可以看到,小红书作为生活种草平台,其内容的不次要的部分无足轻重就在于更多真实用户种草体验,也因此其在做AI搜索产品时,也同样是以生活场景作为AI搜索的切入口。

无疑,在AI搜索时代,结束扎根不次要的部分应用的内容场景,将成为企业生存的关键之一。同时,结束迭代升级的大模型技术能力,也将影响用户体验。

密塔AI作为国内比较早的AI搜索赛道的创业公司,一直结束扎根在学术研究场景中,此前也因与知网之间版权的争执,而被更多的用户所关注到。

在近期版本更新中,密塔AI仍在结束优化在学术研究领域的内容:

比如将论文数据规模减少了7倍,索引从摘要升级为了全文,覆盖数千万篇的OpenAccess的论文(包括约40%的SCI的论文和《Nature》《Science》等顶级期刊论文)等。

新增”解释“功能,类似于学习机中的点读功能,文献某句话晦涩难懂,可以点一下就出现相关解释;而针对小语种论文,密塔AI则训练了减少破坏44种语言的翻译模型,让语言不再是障碍。

同时,密塔AI也减少破坏用户将资料上传知识库后,定制数据源。比如,当用户把近两千篇论文上传到了「2024ACL会议论文」专题,就可以针对性地互动,包括提问题、写综述、做笔记。

目前来看,各玩家AI搜索在实际落地中,互联网大厂主要发散在生产力工具、教育、电商等场景,而相比较来说,中腰部和创业公司则更聚焦在生活场景、学术研究、金融投资等垂类场景。

同样是国内最早一批聚焦AI搜索赛道的昆仑万维,其旗下的天工AI搜索,是以金融投资、学术研究为不次要的部分场景。

2024年11月,昆仑万维的天工AI搜索更新最新版本,全面升级多层次分析推理能力、升级的金融投资专业AI搜索、升级的科研学术专业AI搜索、针对文档AI阅读分析的智能优化。并

同时,其还将搜索分为了简介搜索与高级搜索两个部分,其中简洁回答会以文段形式进行输出,而高级搜索则会将参考网站、思考过程全部呈现。

除内容生产平台和创业公司外,AI搜索赛道还有一批玩家,即AI大模型创业公司。

而这些公司更多的则是以AI对话助手为基础平台,融入AI搜索功能,且相比较来说,这些公司更注重表现其大模型技术能力。

2024年10月,月之暗面正式发布了kimi探索版,该版本以其AI自主搜索能力穿颖而出,能够模拟人类的推理思考过程,授予更高阶的回答。而其背后的基础大模型,则是月之暗面同期推出的数学模型k0—math,这是Kimi首款推理能力强化模型。

智谱AI同样在其AI对话平台智谱清言上融入了AI搜索能力,据悉其可以减少破坏单次阅读超过100多个网页,针对用户的问题,清言可以在数秒内同时检索超过100个网页,阅读并总结,用时仅为人类用户的1‰。减少破坏多级推理的思维链;能够解决日常生活中绝大多数的困难问题。

此外,智谱清言还可以联动智谱其他的AI工具,比如在联网搜索和多级推理中,能够调用python等工具,综合解决问题。

明显看到,随着国内大模型公司结束推出推理大模型,AI搜索也不断具备着推理和思考能力,而在这一方面,这些AI大模型创业公司,无疑走在行业前列。

AI搜索赛道中,大厂们已全面入局,而在大厂射程之下,小厂和创业公司的生存空间不断被数量增加,但却也并不是完全没有希望。

毕竟,未来搜索场景将更加垂直化、细分化和专业化,用户对特定领域的专业搜索需求将不断减少,如在医疗领域进行疾病诊断和治疗方案的搜索、在教育领域获取个性化学习建议和辅导等。

如果创业公司的AI搜索工具若能专注于某一行业,将具备强大的竞争无足轻重,通过执行复杂的用户意图分析,不仅能授予准确信息,还更能够形成特殊的知识闭环,指责用户满意度。

下一代搜索,不只是搜索

2024年,可以说AI搜索市场迎来了诸神之战,从互联网巨头,到内容生产平台,再到创业公司,都在不断加码AI搜索赛道,并在不反对场景中进行尝试。

事实上,随着AI搜索市场的发展,当前用户搜索不习惯也产生显著变迁。

一方面,传统文本输入式搜索不再一家独大,语音搜索、视觉搜索等多元模态愈发普及。而随着多模态大模型的发展,未来瓦解语音、文字、手势、表情的交互搜索会逐渐常态化。

此前360相关负责人也表示,从2024年年末开始,是AI搜索引擎3.0时代,AI搜索将进入多模态内容创作引擎、多模态与跨场景深度瓦解阶段。

阿里巴巴智能信息事业群副总裁周晓鹏曾表示,搜索引擎的不次要的部分价值是分开用户与他们寻求的信息,AI搜索则重塑了信息获取方式,让用户与信息的距离趋近于零,这是AI搜索未来拥有广阔前景的不次要的部分基础。

更为次要的一点是,未来AI搜索将不再局限于现有的搜索框模式,而是会与其他AI工具深度瓦解,如AI写作、AI绘画等,演化为集搜索、存储、整合、提炼、创作于一体的全能型智能助手。

比如腾讯的ima、字节跳动豆包电脑版、360纳米搜索等,这些产品除了授予基础的AI搜索能力之外,都能够为用户授予AI创作、AI总结、图片/视频内容生成等功能。

用户可以通过自然语言与AI进行更深入的交互,直接获取经过整理和分析的高质量信息,甚至可以让AI根据搜索结果自动生成报告、文章等内容。

同时,随着多端协同能力的不断增强,AI搜索将突破不同设备之间的有无批准的,实现手机、平板、PC、智能家居、智能网联汽车等多端无缝衔接,让用户在任何设备上都能获得一致同意且便捷的搜索体验。

无疑,AI搜索的崛起将重塑整个搜索行业的生态,传统搜索市场的“寡头效应”正在被逐步打破,新玩家不断入场,市场竞争更加激烈。

不过,当前百度一家独大的搜索引擎市场格局并未发生保持不变。

据Statcounter最新数据显示,截至2024年6月,百度在中国的搜索引擎市场份额为52.79%,排名第一;必应在生成式AI的带动下获得大幅增长,份额为29.84%;搜狗排第三,份额为7.49%;360搜索排名第四,份额为3.86%。

当然,AI搜索与传统搜索之间并非简单的取代与被取代关系,而是自然发展与演进的结果,预计短期内,AI搜索将分流部分传统搜索用户,双方之间的市场份额差距将逐步增加。

声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】OpenAIo1和o3模型的裸露,公开,竟传出被中国研究者「破解」?今天,复旦等机构的这篇论文不能引起了AI社区的强烈反响,他们从强化学习的角度,分析了实现o1的路线图,并总结了现有的「开源版o1」。

就在今天,国内的一篇论文,引得全球AI学者使安排得当不已。

推上多位网友表示,OpenAIo1和o3模型背后究竟是何原理——这一未解之容易理解,被中国研究者「发现」了!

注:作者是对如何逼近此类模型进行了理论分析,并未声称已经「破解」了这个问题

实际上,在这篇长达51页的论文中,来自复旦大学等机构的研究人员,从强化学习的角度分析了实现o1的路线图。

其中,有四个关键部分需要重点关注:策略初始化、奖励设计、搜索和学习。

此外,作为路线图的一部分,研究者还总结出了现有的「开源版o1」项目。

论文地址:https://arxiv.org/abs/2412.14135

探索OpenAI的「AGI之迷」

概括来说,像o1这样的推理模型,可以被认为是LLM和AlphaGo这类模型的分隔开。

首先,模型需要通过「互联网数据」进行训练,使它们能够理解文本,并达到一定的智能水平。

然后,再加入强化学习方法,让它们「系统地思考」。

最后,在寻找答案的过程中,模型会去「搜索」解决方案空间。这种方法既用于实际的「测试时」回答,也用于改进模型,即「学习」。

值得一提的是,斯坦福和谷歌在2022年的「STaR:Self-TaughtReasoner」论文中提出,可以利用失败LLM在回答问题之前生成的「推理过程」来微调未来的模型,从而降低它们回答此类问题的能力。

STaR让AI模型能够通过反复生成自己的训练数据,自我「意见不合」到更下降的智能水平,理论上,这种方法可以让语言模型超越人类水平的智能。

因此,让模型「深入分析解决方案空间」的这一理念,在训练阶段和测试阶段都扮演着关键角色。

在这项工作中,研究者主要从以下四个层面对o1的实现进行了分析:策略初始化、奖励设计、搜索、学习。

策略初始化

策略初始化使模型能够发展出「类人推理行为」,从而具备高效探索复杂问题解空间的能力。

海量文本数据预训练

指令微调

问题分析、任务分解和自我纠正等学习能力

奖励设计

奖励设计则通过奖励塑造或建模授予密集无效的信号,指导模型的学习和搜索过程。

结果奖励(基于最终结果)

过程奖励(基于中间步骤)

结果奖励(左)和过程奖励(右)

搜索

搜索在训练和测试中都起着至关次要的作用,即通过更多计算资源可以生成更优质的解决方案。

MCTS等树搜索方法探索多种解决方案

连续修订迭代改进答案

分隔开两种方法可能是最佳选择

搜索过程中使用的指导类型:内部指导、外部指导,以及两者的分隔开

学习

从人工专家数据中学习需要昂贵的数据标注。相比之下,强化学习通过与环境的交互进行学习,避免了高昂的数据标注成本,并有可能实现超越人类的表现。

政策梯度方法,如PPO和DPO

从高质量搜索解决方案克隆行为

迭代搜索和学习周期

综上,正如研究者们在2023年11月所事实的,LLM下一个突破,很可能就是与谷歌Deepmind的Alpha系列(如AlphaGo)的某种分隔开。

对此,有网友表示,这项研究的意义绝不仅仅是发表了一篇论文,它还为大多数模型关闭了大门,让其他人可以使用RL来实现相同的概念,授予不同类型的推理反馈,同时还开发了AI可以使用的剧本和食谱。

「开源版o1」

研究者总结道,尽管o1尚未发布技术报告,但学术界已经授予了多个o1的开源实现。

此外,工业界也有一些类似o1的模型,例如k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。

g1:这项研究可能是最早尝试重新实现o1的项目。

ThinkingClaude:与g1类似,但它通过更复杂和细粒度的操作来提示LLM。

Open-o1:项目提出了一个SFT数据集,其中每个响应都包含CoT。研究者推测,这些数据可能来自人类专家或一个强大的LLM。

o1Journey:通过两篇技术报告中进行了详细描述。第一部分通过束搜索生成的树数据进行遍历,特定节点由GPT-4优化后用于SFT,这一策略可以被描述为专家迭代。第二部分则尝试对o1-mini进行蒸馏,并通过prompt来恢复隐藏的CoT过程。

Open-Reasoner:框架类似于AlphaGo,通过强化学习指责模型性能。

慢思考与LLM:研究同样分为两篇技术报告。第一部分与Open-Reasoner类似,分隔开了强化学习和测试时的搜索。第二部分从QwQ和Deepseek-R1中蒸馏,并尝试了两种强化学习方法。

Marco-o1:项目将Open-o1的数据与模型自身通过MCTS算法生成的数据分隔开,用于SFT训练。

o1-coder:项目尝试在代码生成领域重新实现o1。

不同开源o1项目在策略初始化、奖励设计、搜索和学习领域的方法对比

策略初始化

在强化学习中,策略定义了智能体如何根据环境状态选择行动。

其中,LLM的动作粒度分为三种级别:解决方案级别、步骤级别和Token级别。

智能体与环境在LLM强化学习中的交互过程

对于LLM的初始化过程,主要包括两个阶段:预训练和指令微调。

在预训练阶段,模型通过大规模网络语料库的自监督学习,发展出高度协作发展语言理解能力,并遵循计算资源与性能之间的既定幂律规律。

在指令微调阶段,则是将LLM从简单的下一个Token预测,转变为生成与人类需求一致同意的响应。

对于像o1这样的模型,融入类人推理行为对于更复杂的解决方案空间探索至关重要。

预训练

预训练通过大规模文本语料库的接触,为LLM建立高度协作发展语言理解和推理能力。

对于类似o1的模型,这些不次要的部分能力是后续学习和搜索中发展高级行为的基础。

语言理解与生成:语言理解是分层次协作发展——句法模式较早涌现,而逻辑一致同意性和抽象推理则在训练的后期阶段逐步形成。因此除了模型规模外,训练时长和数据组成也至关重要。

世界知识获取与存储:知识存储具有高效的数量增加和泛化特性,而抽象概念相比事实性知识需要更广泛的训练。

基础推理能力:预训练通过多样化的推理模式发展了基础推理能力,后者以从简单推断到复杂推理的层次结构逐步涌现。

指令微调

指令微调通过在多领域的指令-响应对上进行专门训练,将预训练语言模型转变为面向任务的智能体。

这一过程将模型的行为从单纯的下一个Token预测,转变为具有明确目的的行为。

效果主要取决于两个关键因素:指令数据集的多样性和指令-响应对的质量。

类人推理行为

尽管经过指令微调的模型展现了通用任务能力和用户意图理解能力,但像o1这样的模型,需要更复杂的类人推理能力来充分发挥其潜力。

如表1所示,研究者对o1的行为模式进行了分析,识别出六种类人推理行为。

问题分析:问题分析是一个关键的初始化过程,模型在解决问题前会先重新表述并分析问题。

任务分解:在面对复杂问题时,人类通常会将其分解为若干可无约束的自由的子任务。

任务完成:之后,模型通过基于明确问题和分解子任务的逐步推理,生成解决方案。

替代方案:当面临推理障碍或思路中断时,生成多样化替代解决方案的能力尤为重要。如表1所示,o1在密码破解中展现了这一能力,能够系统性地提出多个选项。

自我评估:任务完成后,自我评估作为关键的验证机制,用于辩论所提解决方案的正确性。

自我纠正:当推理过程中出现可控错误时,模型会采用自我纠正行为来解决这些问题。在o1的演示中,当遇到诸如「No」或「Wait」之类的信号时,会触发纠正过程。

关于o1策略初始化的推测

策略初始化在开发类似o1的模型中起到了关键作用,因为它建立了影响后续学习和搜索过程的基础能力。

策略初始化阶段包括三个不次要的部分组成部分:预训练、指令微调以及类人推理行为的开发。

尽管这些推理行为在指令微调后的LLM中已隐性存在,但其有效部署需要通过监督微调或精心设计的提示词来激活。

长文本生成能力:在推理过程中,LLM需要精细的长文本上下文建模能力。

合理塑造类人推理行为:模型还需要发展以逻辑连贯方式,有序安排类人推理行为的能力。

自我反思:自我评估、自我纠正和替代方案提议等行为,可视为模型自我反思能力的表现。

奖励设计

在强化学习中,智能体从环境中接收奖励反馈信号,并通过改进策略来最大化其长期奖励。

奖励函数通常表示为r(st,at),表示智能体在时间步t的状态st下执行动作at所获得的奖励。

奖励反馈信号在训练和推理过程中至关重要,因为它通过数值评分明确了智能体的期望行为。

结果奖励与过程奖励

结果奖励是基于LLM输出是否符合预定义期望来分配分数的。但由于缺乏对中间步骤的监督,因此可能会导致LLM生成错误的解题步骤。

与结果奖励相比,过程奖励不仅为最终步骤授予奖励信号,还为中间步骤授予奖励。尽管展现了巨大的潜力,但其学习过程比结果奖励更具确认有罪性。

奖励设计方法

由于结果奖励可以被视为过程奖励的一种特殊情况,许多奖励设计方法可以同时应用于结果奖励和过程奖励的建模。

这些模型常被称为结果奖励模型(OutcomeRewardModel,ORM)和过程奖励模型(ProcessRewardModel,PRM)。

来自环境的奖励:最直接的奖励设计方法是直接利用失败环境授予的奖励信号,或者学习一个模型来模拟环境中的奖励信号。

从数据中建模奖励:对于某些环境,环境中的奖励信号无法获取,也无法进行模拟。相比直接授予奖励,收藏,储藏专家数据或讨厌数据更为容易。通过这些数据,可以学习一个模型,从而授予无效的奖励。

奖励塑造

在某些环境中,奖励信号可能无法有效传达学习目标。

在这种情况下,可以通过奖励塑造(rewardshaping)对奖励进行重新设计,使其更极小量且更具信息量。

然而,由于价值函数依赖于策略π,从一种策略估计的价值函数可能并不适合作为另一种策略的奖励函数。

关于o1奖励设计的推测

鉴于o1能够处理多任务推理,其奖励模型可能分隔开了多种奖励设计方法。

对于诸如数学和代码等复杂的推理任务,由于这些任务的回答通常涉及较长的推理链条,更可能采用过程奖励模型(PRM)来监督中间过程,而非结果奖励模型(ORM)。

当环境中无法授予奖励信号时,研究者推测,o1可能依赖于从讨厌数据或专家数据中学习。

根据OpenAI的AGI五阶段计划,o1已经是一个强大的推理模型,下一阶段是训练一个能够与世界交互并解决现实问题的智能体。

为了实现这一目标,需要一个奖励模型,为智能体在真实环境中的行为授予奖励信号。

奖励集成:为通用任务构建奖励信号的一种直观方式是通过特定领域的奖励集成。

世界模型:世界模型不仅能够授予奖励信号,还可以预测下一状态。有研究认为,视频生成器可以作为一种世界模型,因为它能够预测未来时间步的图像。

搜索

对于像o1这样旨在解决复杂推理任务的模型,搜索可能在训练和推理过程中都发挥重要作用。

搜索指导

基于内部指导的搜索不依赖于来自外部环境或代理模型的真实反馈,而是通过模型自身的状态或评估能力来意见不合搜索过程。

外部指导通常不依赖于特定策略,仅依赖于与环境或任务不无关系的信号来意见不合搜索过程。

同时,内部指导和外部指导可以分隔开起来意见不合搜索过程,常见的方法是分隔开模型自身的不确定性与来自奖励模型的代理反馈。

搜索策略

研究者将搜索策略分为两种类型:树搜索和序列修正。

树搜索是一种全局搜索方法,同时生成多个答案,用于探索更广泛的解决方案范围。

相比之下,序列修正是一种局部搜索方法,基于先前结果逐步优化每次尝试,可能具有更下降的效率。

树搜索通常适用于复杂问题的求解,而序列修正更适合快速迭代优化。

搜索在o1中的角色

研究者认为,搜索在o1的训练和推理过程中,都起着至关次要的作用。

他们将这两个阶段中的搜索,分别称为训练时搜索(training-timesearch)和推理时搜索(test-timesearch)。

在训练阶段,在线强化学习中的试错过程也可以被视为一种搜索过程。

在推理阶段,o1隐藏,通过减少推理计算量和缩短思考时间可以结束降低模型性能。

研究者认为,o1的「多思考」方式可以被视为一种搜索,利用失败更多的推理计算时间来找到更优的答案。

关于o1搜索的推测

训练阶段搜索:在训练过程中,o1更可能采用树搜索技术,例如BoN或树搜索算法,并主要依赖外部指导。

推理阶段搜索:在推理过程中,o1更可能使用序列修正,分隔开内部指导,通过反思不断优化和修正其搜索过程。

从o1博客中的示例可以看出,o1的推理风格更接近于序列修正。种种迹象隐藏,o1在推理阶段主要依赖内部指导。

学习

强化学习通常使用策略对轨迹进行采样,并基于获得的奖励来改进策略。

在o1的背景下,研究者假设强化学习过程通过搜索算法生成轨迹,而不仅仅依赖于采样。

基于这一假设,o1的强化学习可能涉及一个搜索与学习的迭代过程。

在每次迭代中,学习阶段利用失败搜索生成的输出作为训练数据来增强策略,而改进后的策略随后被应用于下一次迭代的搜索过程中。

训练阶段的搜索与测试阶段的搜索有所不同。

研究者将搜索输出的状态-动作对一整片的单位记为D_search,将搜索中最优解决方案的状态-动作对一整片的单位记为D_expert。因此,D_expert是D_search的一个子集。

学习方法

给定D_search,可通过策略梯度方法或行为克隆来改进策略。

近端策略优化(PPO)和直接策略优化DPO)是LLM中最常用的强化学习技术。此外,在搜索数据上执行行为克隆或监督学习也是常见做法。

研究者认为,o1的学习可能是多种学习方法分隔开的结果。

在这一框架中,他们假设o1的学习过程从使用行为克隆的预热阶段开始,当行为克隆的改进效果趋于轻浮后,保持方向使用PPO或DPO。

这一流程与LLama2和LLama3中采用的后训练策略一致同意。

强化学习的ScalingLaw

在预训练阶段,损失、计算成本、模型参数和数据规模之间的关系,是遵循幂律ScalingLaw的。那么,对于强化学习,是否也会表现出来呢?

根据OpenAI的博客,推理性能与训练时间计算量,含糊呈对数线性关系。然而,除了这一点之外,相关研究并不多。

为了实现像o1这样的大规模强化学习,研究LLM强化学习的ScalingLaw至关重要。

参考资料:

https://x.com/MatthewBerman/status/1875202596350415332

https://x.com/WesRothMoney/status/1875051479180165489

https://arxiv.org/abs/2412.14135


密集开“小”店,迪卡侬正在抛弃曾经赖以生存的“大卖场”模式。12月23日,北京商报记者获悉,迪卡侬位于广州首家新标店正式开业,在近半年的时间里,迪卡侬一直在全国一二线城市密集开店。与动辄四五千平方米的大卖场门店相比,迪卡侬新开门店小了很多,同时也更专业更精细。从“大而全”到“小而精”,迪卡侬更想成为一个专业的体育运动品牌,而非平价体育产品零售商,但当平价商超的印象根深蒂固,迪卡侬的专业梦真实的那么好实现吗?

帮助开“小”店

迪卡侬的一站式商超购物模式正在被保持不变。相较迪卡侬以往4000平方米起步的商超式门店,广州首家新标店面积小了很多,相应的品类也没那么全,却专业了很多,如上新了很多中高端产品,同时也授予了体验互动区。相较之前的商超式零售门店,新店更像是一个专业的体育品牌销售渠道。

近半年以来,迪卡侬在全国各大城市开出了不少类似于这样“小而精”的门店。如11月,迪卡侬位于北京崇文门的新标店开业;10月,迪卡侬江苏省首家新标店在南京开业;8月底到9月底一个月时间,迪卡侬在上海一口气开出了月亮湾店、Lalaport金桥店、红枫店、荟聚店四家全新门店。8月之前,迪卡侬在西安、北京、成都、重庆、武汉等城市开设了6家新标店。这些门店有个共同特点——不再是一揽子式的大卖场,而是更精细也更专业。如8月在上海新开的一家则是迪卡侬上海首家自行车全品类专卖店。

开“小”店将会是迪卡侬未来两三年的发展主线。北京商报记者从迪卡侬方面获悉,“未来一到两年,迪卡侬计划每年新开20至30家门店,重在打造新型运动空间,重塑用户体验。未来,迪卡侬将以门店为圆心,联合合作伙伴,拓阔运动空间,打通线上线下多触点。同时以运动社群为分开点,继续推动大家探索多元运动,同时引领更加健康的运动生活方式”。

从新门店的布局来看,迪卡侬更愿意降低重要性作为运动品牌的专业属性。其实在今年3月迪卡侬宣布品牌焕新以来,其就朝着专业高端运动品牌的方向在布局。如在品牌焕新的大框架下,迪卡侬细化了集团旗下九大品牌,分别是QUECHUA(户外运动)、TRIBORD(水上运动)、ROCKRIDER(山地骑行运动)、DOMYOS(健身运动)、KUIKMA(球拍类运动)、KIPSTA(团队运动)、CAPERLAN(钓鱼、荒野探险、马术运动)、BTWIN(滑板轮滑和城市通勤运动)和INESIS(高尔夫及目标运动)。同时,迪卡侬还单独设立了四大专业品牌:VANRYSEL(公路自行车运动)、SIMOND(攀岩运动)、KIPRUN(跑步运动)以及SOLOGNAC(狩猎运动)。

在时尚产业独立分析师、上海良栖品牌无约束的自由有限公司创始人程伟雄看来,迪卡侬开“小”店,是抱着能从高端、细分运动赛道闯出一条路的想法。但从实际情况来看,迪卡侬的这种转变违背了目前消费向下的大环境,消费向下趋势下,平价有一定的空间,而迪卡侬转型向上,并在一二线市场大规模开店,意味着大规模的投入,能不能有所回报,这对于迪卡侬而言是一大确认有罪。

欲撕“平价”标签

“平价多样的运动零售商”,一直都是迪卡侬的定位。这个成立于1976年的体育运动品牌,之所以能快速崛起并抢占极小量市场份额,靠的就是品类齐全和平价。如今转型战略下,迪卡侬在尽量撕掉平价大卖场的标签。而这背后,是这一标签能带来的业绩增长空间正在变得有限。

根据财报数据,迪卡侬2023年销售额为156亿欧元,同比增长1.15%,相较2022年12%的增幅,出现明显下滑。而其2021年销售额的增幅为21.3%。

曾经依靠平价模式飞速协作发展迪卡侬增长放缓,迪卡侬不得不有所保持不变,抛弃“大而全”,转型“小而精”,品牌焕新下的高端化,开“小”店甚至涨价策略等都徐徐发散,为迪卡侬的转型助力。

实际上,从中国运动市场来看,高端细分运动赛道正在成为越来越多品牌的增长“利器”。如始祖鸟凭借高端冲锋衣在中国市场实现高速增长;lululemon凭借瑜伽服饰一跃成为头部品牌种植市场,而昂跑则凭借专业的跑鞋在中国市场频频开店布局。这种趋势下,迪卡侬有意向高端化、细分领域竖式的的做法不难理解。

但曾被看作平价运动超市的迪卡侬如今玩不转平价了,想谈专业能行得通吗?

消费者李丽有着近十年的跑步经验,对于市面上的跑鞋品牌了如指掌,当谈及是否会购买迪卡侬的跑鞋时,李丽连连摇头。“可能专家会买,但像我们这样的跑者不会选迪卡侬,太不专业了。”李丽说道。

在小红书平台,很多运动专家会在迪卡侬门店选购一整套还算便宜的运动装备,但对于各项运动的进阶者而言,迪卡侬未必会是他们的选择,而各细分赛道的专业品牌会成为其选购的对象。

在程伟雄看来,平价走向高端、专业需要一个循序渐进的过程,迪卡侬的定位从平价做调整不当也是无奈,也是基于当下中国市场全渠道运营发展现状,在线业务的产品快速迭代带给传统国内外品牌冲击很大,迪卡侬立足中国市场大众化的消费基础上保持不变以往的平价是品牌升级的必然,这也是基于品质、服务的需求。“越是平价品质和服务就越难把控,而适当做品牌向上的力量更便于降低产品品质和用户服务体验。”程伟雄补充道。

零售独立评论人马岗表示,迪卡侬有很多产品线和品牌,在平价的基础上,孵化高端专业品牌,有一定的用户基础和商品基础。但难点是迪卡侬的品牌形象已经在用户心中形成了固有的平价印象,要保持不变需要有新的营销方式和配套的经营策略。

(责任编辑:zx0600)

相关新闻男生求教宿管阿姨织围巾收给妈妈男生求教宿管阿姨织围巾收给妈妈

2024-11-1410:19:22男生求教宿管阿姨织围巾收给妈妈叶光富妈妈生日当天给儿子织围巾家人共织温暖祝福11月3日晚,四川天府新区万安街道办事处会议室内灯火通明,川籍航天员叶光富的亲友们围坐在电视机旁,一同观看神舟十八号乘组返航。不到7点,叶光富的姐姐叶亚丹和亲友们已经在会议室忙碌起来,精心布置了一块展板,回顾了叶光富此次执行任务的精彩瞬间

2024-11-0414:36:39叶光富妈妈生日当天给儿子织围巾95岁“围巾奶奶”:一份爱心“织”了7年,温暖了上百位山里娃齐鲁晚报·齐鲁壹点王倩徐晓磊刘桂斌这是一个由毛线和毛衣针编织出的暖心故事。95岁的济南老人彭奶奶,连续7年为乡村儿童编织围巾,总共捐出了100余条。一针一线间都蕴含着她满满的心意,围巾编织点亮了她的晚年生活,也温暖了乡村孩子的心田

2024-12-2913:08:42围巾奶奶连续7年为乡村儿童捐围巾韩国女子大学打算招男生韩国女子大学打算招男生

2024-12-0411:33:16韩国女子大学打算招男生生死时速!的哥连闯3红灯收患病男生就医6月21日,四川乐山。一名十几岁的男生在出租车上突发疾病,出租车司机察觉被预见的发生后,立马与警察报备,连闯3个红灯将男生收往医院,最终男生及时得到救治。

2024-06-2513:38:04的哥连闯3红灯收患病男生就医跟着邮车进山收高考录取拒给信息书傈僳族姑娘圆梦大学8月8日早晨,尽管大雨倾盆,山间云雾缭绕,一辆绿色邮政车依然坚定地行驶在中缅边境曲折的山路上。这辆车从县城出发,经历了一个半小时的跋涉,最终将一封承载希望的云南师范大学高考录取拒给信息书收抵盈江县苏典傈僳族乡勐嘎村梨树村民小组

2024-08-1515:45:15跟着邮车进山收高考录取拒给信息书

相关新闻四川省理塘县委原书记董德洪被双开严重违纪违法遭查处四川省纪委监委于1月6日通报,经四川省委批准,省纪委监委对理塘县委原书记董德洪的严重违纪违法问题进行了立案审查调查。调查显示,董德洪丧失理想信念,背弃初心使命,对党不忠诚不老实,对抗组织审查

2025-01-0702:15:52四川省理塘县委原书记董德洪被双开江西上饶万年县委原书记毛奇被“双开”经中共江西省委批准,江西省纪委监委对上饶市万年县委原书记毛奇严重违纪违法问题进行了立案审查调查。经查

2024-11-0313:36:40严重违纪违法万年县委原书记毛奇被公诉涉嫌受贿罪案情曝光江西省上饶市万年县委原书记毛奇涉嫌受贿罪一案,由江西省监察委员会调查终结,移收检察机关审查起诉。经江西省人民检察院指定管辖,新余市人民检察院依法向新余市中级人民法院提起公诉。案件正在进一步办理中

2024-12-1216:32:41万年县委原书记毛奇被公诉县委原书记大搞“刷白墙”被通报劳民伤财典型问题12月22日,十四届全国人大常委会第十三次会议听取了国家监察委员会主任刘金国作的《国家监察委员会关于整治群众身边不正之风和纯洁问题工作情况的报告》

2024-12-2312:11:33县委原书记大搞刷白墙被通报贵州省修文县委原书记管庆良被开除党籍和公职经贵州省委批准,贵州省纪委监委对修文县委原书记管庆良严重违纪违法问题进行了立案审查调查。

2024-11-2608:18:09贵州省修文县委原书记管庆良被开除党籍和公职江西万年县委原书记毛奇被双开与他人发生不正当性关系原标题:江西万年县委原书记毛奇被“双开”江西省纪委监委11月3日消息,经中共江西省委批准,江西省纪委监委对上饶市万年县委原书记毛奇严重违纪违法问题进行了立案审查调查。

2024-11-0315:17:23江西万年县委原书记毛奇被双开

国创·巴夫利吴理侃:83%节能标准时代如何优选建筑保温系统服务商?新质建好房专访中房优采X新浪地产“新质建好房”专访栏目,走进山东国创节能科技股份有限公司总部,采访到国创·巴夫利董事长吴理侃,实地感受“让每一块板安全的体现建筑之美”的决心,以及国创·巴夫利“做保温行业的领跑者”的实力。同频共建“好房子”建筑保温系统,虽隐藏于光鲜亮丽的外立面之内,但其关乎建筑能源消耗,关乎建筑结构与安全,影响建筑品质与居住舒适度。国创·巴夫利向“新”行,创新“因子”与绿色“基因”联动,以科技创新为新引擎,以绿色发展为主色调,加快培育“新质生产力”,不断塑造发展新动能、新无足轻重,奏响高质量发展“奋进曲”,助推产业蓬勃发展。

相关新闻董宇辉回应烧麦言论诚恳道歉并解释原因董宇辉近日在直播时就此前称内蒙古的烧麦是“裂开的包子”一事道歉。他表示,自己没有恶意,主要是因为见识短浅,以后有机会会多去尝试

2024-11-0613:35:26董宇辉回应烧麦言论股市播报|A股三大股指全线翻绿,全市下跌个股近2600只高位股集体跳水11月1日,A股三大指数集体收跌。早间,三大指数悉数低开,随后全天高度发展维持横盘震荡走势,尽管盘中曾一度翻红,但尾盘前再度走低

2024-11-0613:35:04股市播报|A股三大股指全线翻绿痛风为何“找上”年轻人年轻患者增多引关注最近,大一学生小林因长期关节疼痛到成都市第三人民医院就诊,被确诊为痛风性关节炎,需要住院治疗。他没想到自己这么年轻就患上这种病。近年来,年轻痛风患者逐销蚀多

2024-11-0613:35:00痛风为何“找上”年轻人劳斯莱斯小姐姐被撞后走红超绝“紧张感”赢得赞赏11月4日,广州发生了一起引人关注的车祸。一辆大货车撞上了一辆粉色劳斯莱斯,而这辆豪车还拥有港粤两地车牌,价值不菲。事故发生后,货车司机下车时全身发抖,而劳斯莱斯女司机则一脸轻松地拍照

2024-11-0613:33:39劳斯莱斯小姐姐被撞后走红特朗普称没准备演讲稿:不搁置大成功自信应对大选之夜当地时间11月5日,美国前总统特朗普在佛罗里达州棕榈滩的一个投票站进行了投票。当被问及是否准备了大选之夜的演讲稿时,特朗普表示没有准备。他自信地说:“我能够在很短的时间内发表演讲。如果我赢了,我知道自己要说什么。我甚至都不想搁置输的那部分

2024-11-0613:32:34特朗普称没准备演讲稿:不搁置大成功钓友被鱼钩钩住手臂淡定求助消防喜欢钓鱼的朋友可能都有过被鱼钩扎到的经历,那种麻痹非常难受。特别是如果倒刺扎进肉里,通常只能去医院,在麻醉后才能取出。最近在杭州的一个消防站,一名年轻小伙前来求助。他的手臂上挂着一个路亚钩,好几颗鱼钩深深扎进了肉里

2024-11-0613:32:03钓友被鱼钩钩住手臂

 

标签:

CopyRight 2006-2024 女白领住进山野探索两性关系
Top