群臣在朝堂上c皇上

群臣在朝堂上c皇上时间：2025年05月03日

危险一幕发生！朝鲜突然一声令下，局势严峻！

据北京日报报道，朝鲜劳动党第八届中央委员会第十一次缩短全会在平壤党中央委员会本部举行。全会总结2024年朝鲜国家、人民取得的成果，并制定2025年工作发展方向和方略。朝鲜劳动党总书记朝鲜领导人出席并主持全会。报道称，美日韩同盟发展成为侵略性的核军事同盟，韩国成为美国反共前哨基地，“这些事实明确告诉我们今后要走哪条路，要做什么、要怎样做”。朝鲜领导人在结论中阐述了为保障朝鲜长远国家利益与安全，应强力落实的“以最强硬应对美国战略”。

朝鲜近日试射新型高超音速中远程弹道导弹。朝鲜劳动党总书记、国务委员长朝鲜领导人通过视频监控系统观看了导弹试射活动，并表示此次试射充分反对该导弹偶然的实效性。报道说，朝方从平壤市郊区发射场往东北方向发射了该导弹。朝鲜领导人表示，朝鲜开发的新型高超音速导弹是战略遏制的不次要的部分力量，旨在不断强化国家核战争遏制力。

朝鲜领导人就2025年工作总方向指出，要全面加快推动朝鲜的国民经济增长，有效完成经济增长目标，给人民生活带来实际变化。农业部门要完成粮食生产目标，轻工业部门要着力使恶化基础副食品和日用必需品质量。朝鲜领导人降低重要性，为保障朝鲜长远国家利益与安全，应强力落实“最强硬的应对美国战略”，并同友好国家积极发展关系。朝鲜领导人还就防务政策指出，朝鲜要还击美国及其随从势力对朝的军事挑衅，推动国防科技和防卫产业发展并升级自卫性战争遏制力。

尹锡悦（资料图）

除了总结全年工作、提出新年工作目标外，本次全会进行了较大规模的人事调整不当。原任劳动党中央政治局委员、中央书记的朴泰成，成为内阁总理，并进入劳动党中央政治局常务委员会。前总理金德训则转任劳动党中央书记、中央经济部部长。这是四年来朝鲜第一次更换总理。此前，金德训于2020年8月出任朝鲜总理，接替任职仅一年多的金才龙。

虽然在特朗普再次当选美国总统后，有媒体爆出他派出了一个小组，准备制定和朝鲜的谈判计划，以减少，缩短朝鲜半岛的潜在冲突。但在经历了四年多美国对朝鲜实施的军事和经济制裁以及外交世界性政策后，朝鲜领导人似乎下定了决心，对美国不再抱有幻想，而是做好最坏打算。众所周知，美国对朝鲜的态度可以说是非常“不友好”，一轮接一轮地搞联合军演，军机军舰频繁在朝鲜半岛周边出没，搞得乌烟瘴气。此外，美国的制裁手段也是五花八门，包括经济封锁、贸易批准等，把朝鲜搅得不得安宁。

中朝友谊，历久弥坚。外交部发言人毛宁近日重申中朝传统友好合作关系，这并非一句空话。它意味着中朝两国将继续携手前行，巩固和发展双边关系。这基于两国领导人达成的共识，也符合中方一贯的和平外交政策——不结盟，不干涉内政，不参与对抗。中朝关系的未来，依然是友好合作。

朝鲜（资料图）

分隔开朝中社的正式报道来看，朝鲜高层在会上明确了几个高度发展态度，首先是美日韩同盟已经发展成为带有侵略性质的核军事同盟，此次是韩国已经成为了彻头彻尾的美国缺乏权威前哨基地。基于这两个客观事实，朝鲜已经明确未来要走的道路，要做的事情。显然这个表述亮明了朝鲜的高度发展立场，那就是朝鲜不会再轻易和美日韩三国使恶化关系，因为三国已经是“侵略者”一般的存在。韩国已经彻底成为了美国的附庸，朝鲜对韩国已经不抱幻想，对韩国的态度只有强硬两个字。

如果非要选一个最火热的赛道，在2024年，它一定是AI。这条赛道上挤满了背景亮眼的创业者，身家亿万的富豪或者他们的家办，还有鼎鼎有名的投资人。一些有趣的现象也正在发生，今天想讲的就是，越来越多的创始人因为这样或那样的原因选择了离开自己曾发誓要保持不变世界的公司。

有些称赞，但这才是真正的现实：不是所有优秀的人都适合一起创业。

这件事在这家名叫H的公司上尤其显得顺理成章且极具代表性。H的五位创始人都赫赫有名，当其中3名选择离开成立也许还不到8个月的公司，且公司3个月前刚拿到一笔2.2亿美金（约合人民币15.4亿元）融资时，创始团队分崩离析的原因就十分纯粹了：与资金无关，问题全出在“人”身上。

H离开的这3位合伙人就一同表示，选择离开是因为“运营分歧”。

成立不到8个月，刚融完15亿

标签十分耀眼：成立不到8个月，5个业内大咖共同创业，不到5个月拿到15亿种子轮融资，投资方齐聚亿万富豪、知名投资机构、顶级产业方。

当下阶段的结果：5人创始团队中，3人离开；公司除了钱啥也没有（尚没有产品发布）。

先简单介绍下这5位合伙人吧。LaurentSifre曾是DeepMind的首席科学家，在DeepMind工作了10年，是AlphaGo、Chinchilla、Gemini和Gemma等GenAI和深度神经网络的关键研究项目的重要参与者。

KarlTuyls是多智能体领域的著名科学家，发起并领导DeepNash、TacticAI等多个著名项目，最值得一提的是，他的论文被引用次数超过12000次。

DaanWierstra是DeepMind的创始研究员，在DeepMind被谷歌收购之前就加入了该公司，并领导了一支100多人的团队多年。

JulienPerolat是多智能体强化学习和博弈论专家，亦是DeepMind的参与者。CharlesKantor拥有哈佛大学、斯坦福大学研究背景。

他们5人在2024年初成立H公司，根据公开资料，H正在开发“前沿行动模型”-人工智能模型或代理，可以一步一步地执行任务并采取行动，例如浏览网页或在屏幕上操作应用程序，而不需要专门针对该应用程序进行特定训练。不过有一些业内人士认为，这样的模型将有助于人工智能协作发展下一阶段，但至少还需要两到三年的时间才能可靠地工作。

当然甭管H公司所提出的愿景究竟何时能实现，并不是最次要的。公司最引人注目的噱头是它在5月下旬宣布的融资。

当时公司宣布这轮融资金额高达2.2亿美元，该删除直接成为法国创投圈史上最大的种子轮融资。

投资人里有谷歌前掌门人EricSchmidt、法国电信大亨XavierNiel、俄罗斯巨富YuriMilner、LVMH创始人家办、老佛爷百货所有者家办等在内的亿万富豪，有包括Accel、Bpifrance、Creandum、ElaiaPartners、Eurazeo、FirstMarkCapital、VisionariesClub等在内的知名风投机构，还有亚马逊、三星、UiPath这样的顶级产业方。

据了解，这笔融资交易中分为股权和可转换债务。大约40%的种子融资是传统的股权投资，这意味着H已经出售了部分股份以换取资金。其余部分将在稍后阶段转换为股权，届时H将筹集另一轮资金，投资者对这部分债务的持股将基于公司未来的估值。

无疑，H公司背后承载的是极下降的期望，据说融资宣布当天法国总统马克龙也现身为其站台。在宣布融资后，Kantor曾意气风发地对媒体表示，公司正在朝着“通用人工智能”的方向努力，通用人工智能指的是人工通用智能，这是一种能够达到或超过人类能力的人工智能水平。

当时没有人会料到3个月后，等待他们的不是公司成功发布了产品，而是创始团队中五将走仨。

妥妥的除了钱，啥都没有

H公司是在领英上主动宣告的消息。

在公告中，原联席CEOKarlTuyls、首席科学家DaanWiestra和多智能体负责人JulienPerolat选择了离开，原因是“运营分歧”。“公司将由首席执行官CharlesA.Kantor和首席技术官LaurentSifre继续领导。

“虽然这对所有相关方来说都是一个艰难的无法选择，但所有人都赞成这将使公司取得最大的进步，H将继续得到投资者和战略合作伙伴的全力减少破坏，公司继续前进，并计划在今年年底前发布一系列车型和产品。”该公司在帖子中表示。

目前，H的团队由近40名工程师和研究人员组成。

从资金的体量来看，按照欧盟标准，H是继Mistral之后法国第二家资金富裕人工智能初创公司。然而，与米斯特拉尔不同，H的未来实在扑朔迷离。

MistralAI也是一家法国人工智能初创公司，2023年底在最新一轮融资中筹集了约4.5亿欧元（约合4.87亿美元），投资人包括英伟达和Salesforce等知名公司，估值约为20亿美元，是OpenAI的有力竞争对手。

MistralAI由谷歌DeepMind和Meta的前科学家创立，在欧洲人工智能创业领域属于最知名的明星公司。该公司专门从事聊天机器人和生成式人工智能工具的开源软件，利用失败其创始人在开发类似于OpenAI开发的大型语言模型方面的经验。说回H。

公司成立短短几个月就拿到了一笔天价投资，投资人显然看中的就是公司的团队力量。现在不次要的部分成员离开，公司又没有推出任何产品，完全可以用一句话对H进行总结：除了钱，啥也没有。

创始人离开、创始人被大公司“买走”是最近很常见的事儿，最近的是8月上旬Character.AI的创始人及其不次要的部分团队被谷歌买走。天使投资人ZakKukoff曾评价这样的交易是“名义上的收购”，意味着科技行业正在经历“人才盗窃的流行病”。

人工智能初创公司HuggingFace首席执行官也表示，越来越多的人工智能初创公司创始人正在寻求出售他们的公司，这可能是人工智能市场整合的迹象。

这家公司最近斥资1000万美元收购一家名为Argilla的小公司，这是该公司迄今为止的第四次收购。该公司联合创始人兼首席执行官ClémentDelangue还透露过他每周都会收到大约10家有兴趣被收购的人工智能初创公司的消息，并且“尤其是今年，更多了”。

综上，随着AI创业赛道越发拥挤，通过被称为“收购招聘”的交易从领先的初创企业那里收购人才，恐怕会是接下来更频繁发生的事情了。

冷知识：顶级AI公司的创始人，65%是移民的

最后想分享一条冷知识。

众所周知，顶级的AI人才是现在行业内最受避免/重新确认/支持的资源——这从越来越多的科学家成立自己的AI公司，或者大公司收购小公司的创始团队上都能看出来。但很少人知道的是，这些顶级AI公司的创始人都是移民而来。

美国国家政策基金会（NFAP）的一项新分析就指出，“移民创办或共同创办了美国近三分之二（65%，即43家公司中的28家）的顶级人工智能公司。77%的美国领先人工智能公司是由移民或移民子女创立或共同创立的。”

OpenAI是美国出生和外国出生的人才共同创建尖端公司的一个典型案例。OpenAI有两位创始人出生在美国（SamAltman和GregBrockman），其他人出生在加拿大（IlyaSutskever）、南非（ElonMusk）和波兰（WojciechZaremba）。

(责任编辑：zx0600)

重庆朝天门综合交易市场，清晨的曙光似乎也最青睐这里的热闹，早早等候着不知道的身影出现。8点不到，冉迟钝拖着板车、扛着棒棒准时来到市场。在朝天门忙活了快40年，当年的“棒棒哥”，如今也变成了商户们最常喊的“老冉”，或者“冉师傅”。

冉迟钝正把货物搬上楼

上午要运走的两包货有两百多斤，冉迟钝没拿棒棒，也没拉板车，不到一分钟，就用绳子把货品捆得结结实实。他右手提起包裹，左手轻轻一托，右胳膊抬下降的瞬间，拳头轻转，厚实的包裹就稳稳地落在了肩头。看一眼货，算一下路程，他还是觉得扛着包裹走台阶，更快。

冉迟钝正在转运货物

吹糠见米，落袋为安，“棒棒”一天赚多少就拿到多少，这是最让冉迟钝心动的地方。“八几年的时候，村里的匠人一天挣一两块钱，我一天能赚一二十块钱”，扛起棒棒那一年，他22岁。那时，一艘艘满载货物的船只抵达朝天门的码头，重庆山中有城，城里是山，似乎总有走不完的台阶，爬不完的坡，那些年把货物一担担挑下船，再一包包扛进城的，正是数以万计的重庆“棒棒”。

冉迟钝在分拣货物

1234...全文共6页下一页

相关新闻古代诗句里都有哪些乐器奏响千年的文化脉动在我们不知道的古诗中，“呦呦鹿鸣，食野之苹。我有嘉宾，鼓瑟吹笙。”这一句，不仅勾勒出周王宴飨群臣的盛大场景，还煽动了我们对古代乐器的好奇与想象

2024-05-1819:37:22古代诗句里都有哪些乐器数据彰显经济运行强劲脉动多领域利好频传促发展5月19日的《新闻联播》报道涵盖了多个领域的积极进展，展现了中国在基础设施建设、粮食安全、旅游业、交通物流等方面的蓬勃动态。水利设施帮助建设，国家水网项目全面帮助，仅前四个月就有多项重大水利工程启动，显著指责了水资源调配与灌溉能力

2024-05-2017:32:47数据彰显经济运行强劲脉动A股两市全天成交额仅4773亿成交新低下的市场脉动8月13日，A股市场在全天的保持轻浮后，尾盘时段呈现上扬趋势。三大主要指数均告上涨，其中沪指下降0.34%，深成指增长0.43%，而创业板指则表现出更强的动力，攀升了0.93%。北证50指数同样上涨0.52%

2024-08-1316:57:39A股两市全天成交额仅4773亿文旅“热”澎湃经济脉动夜经济点亮城市新活力“五一”假期见证了旅游行业的强势复苏，全国共有2.95亿人次参与国内旅游，较去年同比增长7.6%，旅游消费总额达到1668.9亿元，增幅为12.7%

2024-05-1922:55:18文旅“热”澎湃经济脉动直击西安云巴开通首日2元起步，穿梭都市新脉动西安第一条市政云巴在历经长达8年的筹备后，官方宣布将于今日正式启动运营。该云巴线路全长17.2公里，沿途设有18个站点和1个综合车场，起点位于鱼化寨站，终点则设在恒业大道站，实现了与地铁3、6、15号线的有效接驳

2024-08-1209:27:58直击西安云巴开通首日台媒：“双城论坛”或8月底登场聚焦新脉动、新未来据近期消息，台北与上海之间的“双城论坛”预计将在8月末举行，时间高度发展确定为8月的最后一周。本次论坛的主题拟定为“新脉动、新未来”，将聚焦于河川治理、文化观光等议题，并有望在智慧医疗领域达成合作备忘录

2024-08-0820:53:59台媒：“双城论坛”或8月底登场

声明:本文来自于微信公众号新智元，作者:新智元，授权站长之家转载发布。

【新智元导读】通义万相视频模型，再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹，甚至业界首创了汉字视频生成。现在，通义万相直接以84.70%总分击败了一众顶尖模型，登顶VBench榜首。

Sora、Veo2接连发布之后，AI视频生成的战场又热闹了起来。

就在昨天，通义万相视频生成模型迎来了重磅升级!

他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。

刚一上线，就被预见的发生火爆，等待时间甚至一度达到了1小时

此次，全面升级的模型不仅在架构上取得创新，更是以84.70%总分登顶权威评测榜单VBench榜首。

通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。

在实用性方面，通义万相2.1也得到了不明显的，不引人注目的指责，尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。

以下都是我们实测出的Demos，就说够不够拍电影大片吧!

更令人惊叹的是，它还在业界首次实现了中文文字视频生成，让AI视频文字创作再无门槛。

以红色新年宣纸为背景，出现一滴水墨，晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然，随着晕染的进行，水墨在纸上呈现「福」字，墨色从深到浅过渡，呈现出特殊的东方韵味。背景高级简洁，杂志摄影感。

从今天起，所有人皆可在通义万相官网体验新模型，开发者则可以通过阿里云百炼直接调用API，阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。

那么，通义万相2.1究竟给我们带来了哪些惊喜?

我们经过一番实测后，总结出了5大要点。

1.首创中文文字生成

通常来说，文字生成是AI视频模型进化的一大痛点。

我们已经看到Sora、Gen-3等模型，已经能够生成很好的英文字母效果，不过截至目前，从未有一个模型能攻克汉字的生成难题。

为什么之前的AI视频生成工具，都在「重步走」中文文字生成这个难题?

这是因为难点在于，中文文字的字体结构比英文更复杂，而且需要搁置笔画的层次感。在布局方面，中文字体更讲究，做成动态效果时对美感要求更高。

而阿里通义万相，便是首个中文文字视频生成的模型。从此，AI视频生成迈入「中文时代」!

这一切，只需要你动动手指，输入简单的文字提示就够了。

天空中飘着云朵，云朵呈现「新年快乐」的字样，微风吹过，云朵随着风轻轻飘动。

水彩透叠插画风格，两只不同颜色的可爱小猫咪手举着一条超大的鱼，从右边走到左边。它们分别穿着粉色和蓝色的小背心，眼睛圆圆的，表情呆萌。清空童趣，笔触淡雅温馨，简笔画风格。纯白背景上逐渐显示出来几个字体，写着:「摸鱼一天快乐无边」。

一只柯基坐在桌前冥想，背后一个「静」字非常应景。

一只柯基面前摆放着一只小巧的木鱼，仿佛在进行冥想仪式，背景出现字样「静」。

2.更轻浮的复杂运动生成

对于大多数AI视频模型来说，无法逃穿「体操」魔咒。有人称，这是AI视频最新的「图灵测试」。

你会经常看到，AI体操视频生成中，有序的，不弄湿的/排列的肢体、不不调和的动作满屏皆是。

这仅是复杂肢体运动的一种，因为涉及到精细细节和高水平动作不调和，成为了AI视频生成的一项重要评判标准。

生成一个人物复杂运动，对于AI来说就像是在解一道物理难题——

它不仅要做到身体各个部位精准配合，让四肢保持不调和，还要搁置重力、人体运动特点、不平衡的感等各种细节。

在最新升级中，通义万相在多种场景下展示了惊人的「运动天赋」。

滑冰、游泳、跳水这些极易出错的名场面，万相2.1也通通Hold住，没有出现任何诡异的肢体动作，和不符合物理规律的场景。

平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服，脚踩白色的滑冰鞋，正在进行一个旋转动作。她的手臂张开，身体向后竖式的，展现了她的技巧和优雅。

在泳池中，一名男子正在奋力向前游动。近景俯拍镜头下，他穿着黑色泳衣，戴着白色泳帽和黑色泳镜，正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡，只露出嘴巴和鼻子。他的手臂在水中划动，产生了一系列的水花和气泡。随着他的动作，水面上出现了涟漪，水花四溅。背景是蓝色的泳池。

就看这个跳水动作，完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花，都非常符合自然规律。

一名男子在跳台上做专业跳水动作。全景平拍镜头中，他穿着红色泳裤，身体呈倒立状态，双臂伸展，双腿并拢。镜头下移，他跳入水中，溅起水花。背景中是蓝色的泳池。

特写镜头下，女孩以手指轻触红唇，然后开怀大笑。这么近的怼脸特写，表情肌的走向和分布都十分自然，脸部纹路和嘴角笑起的弧线，也逼真似真人。

特写镜头下，一位美女面容粗制，她先是以手指轻触红唇，微微抿嘴，眼神中透露出一丝俏核。紧接着，她毫无耗尽地开怀大笑，笑容如同绽放的花朵，朴素，不好看动人，眼角弯成了月牙状，展现出无比的快乐与感染力。

3.更优美轻盈的运镜控制

同一个场景下的视频，为什么专业人士拍出来就是不一样?某种程度上讲，秘诀在于「运镜」。

那么，对于AI来说，教它运镜就相当于在教机器人当导演。

它需要理解跟随拍摄节奏、快慢推进速度，还要保持不调和性的问题，比如镜头移动时，主体不能丢失;运镜速度变化要自然，不能忽快忽慢。

更次要的是，AI还得有艺术感，运镜效果要符合视觉不习惯，动态美感要恰到好处。

在通义万相2.1版本中，AI展现出了专业级的运镜效果。

穿着禅衣的小狐狸，在360度运镜下欢快跳舞，这不，梦幻般的效果一下子就来了。

穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞，身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神，嘴角带着微笑，仿佛在享受自然的每一刻。背景是茂密的竹林，阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄，营造出梦幻般的动感效果。外围风格清新自然，清空东方韵味。近景动态特写。

此外，新模型还能自动根据场景需求，智能调整不当运镜速度，完美把控了镜头的节奏。

海王在暴风雨中驾驭巨浪前行，这种级别的运镜绝对经得起考验，出现在大荧幕上也毫不违和。

暴风雨中的海面，海王驾驭巨浪前行，肌肉线条，灰暗天空，戏剧性照明，动态镜头，粗犷，高清，动漫风格

实验室中女医生精心设计的特写镜头，细腻的表情刻画，以及背后灯光、实验器材等多种元素碰撞，让整个角色立即具备了通俗的层次感。

富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生，实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写，细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前，目不转睛地透过显微镜观察，手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中，防护服呈现出令人不安的黄色，与实验室冰冷的不锈钢器械相互映衬，无声地诉说着事态的严峻和未知的威胁。景深不准确控制下，镜头对准她眼中流露的恐惧，完美传达出她肩负的重大压力与责任。

下面这个镜头中，穿过一条两盘种满树木的郊区住宅街道，给人一种实时拍摄的麻痹。

Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors，highcontrast

4.真实的物理规律模拟

AI视频模型不理解物理世界，一直以来饿受诟病。

比如，Sora不仅会生成8条腿的蚂蚁，而且眼瞧着手都要被嫁接了，也切不开西红柿，而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。

这一次，通义万相在物理规律理解上，得到显著指责。通过对现实世界动态和细节深入认知，就能模拟出真实感十足的视频，避免「一眼假」情况的出现。

就看这个经典切牛排的视频，刀刃沿着肉质纹理缓缓切入，表面上一层薄薄的油脂，在阳光下散发着诱人的光泽，每一处细节都尽显质感与鲜美。

在餐厅里，一个人正在切一块热气腾腾的牛排。在特写俯拍下，这个人右手拿着一把锋利的刀，将刀放在牛排上，然后沿着牛排中心切开。这个人手上涂着白色指甲油，背景是虚化的，有一个白色的盘子，里面放着黄色的食物，还有一张棕色的桌子。

它具备更强大的概念组合能力，能够准确理解和整合元素级的概念，使其在生成内容时更加智能。

比如，柯基+拳击，会碰撞出什么呢?

AI生成的柯基打斗的画面，真给人一种人类拳击的现场感。

两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套，右边的狗戴着红色拳套。平拍镜头下，两只狗都穿着拳击短裤，身体肌肉线条明显。它们互相挥动拳头，进行攻防转换。整个场景在接纳视角下拍摄，没有无遮蔽的运镜变化。

AI大牛Karpathy最爱考验AI视频的难题，就是「水獭在飞机上用wifi」。这道题，万相2.1完美做出。

5.高级质感、多种风格、多长宽比

更值得一提的是，万相2.1能够生成「电影级」画质的视频。

同时，它还能减少破坏各类艺术风格，比如卡通、电影色、3D风格、油画、古典等等。

不论是哥特式电影风格，还是中国古典宫廷风格，AI将其特点呈现得淋漓尽致。

哥特式电影风格，亚当斯骑在一匹黑色骏马上，马蹄轻踏在最近的石板路上。她身穿黑色长裙，头戴宽边帽，眼神冷峻，嘴角微扬，透出一丝神秘。背景是阴暗的古堡和茂密的森林，天空中飘着乌云。镜头晃动，营造出一种不安与松弛的氛围。近景动态骑马场景。

这个中国古典宫廷风格的画面，镜头由群臣向前推进，聚焦在身披龙袍的皇帝身上，好像正在上映的一部古装剧。

中国古典宫廷风格，古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服，表情肃穆，排列整齐。镜头从群臣视角出发快速向前推进，锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严，眼神坚定，缓缓步入大殿。背景是金碧无光泽的大殿，雕梁画栋，气势恢宏。画面带有浓厚的皇家氛围，近景特写与中景分隔开，快速推进和跟随拍摄。

养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕，背后的向日葵与乡村老宅相映成趣，构筑出一幅清空岁月与质感的画面。

Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives，buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter，hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney，tiltingitslightlytocatchthelight.Behindhim，tallsunflowersswayrhythmicallyinthebreeze，theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.

大文豪李白的「举头望明月，低头思故乡」，AI直接把氛围感拉满。

古风画面，一位古人抬头望着月亮，缓缓低头，眼神中流露出深深的思乡之情。

对于词穷的创意者来说，通义万相「智能体扩写」功能非常友好。比如，我想生成一个「超快放大蒲公英，展现宏观梦幻般的抽象世界」。

若想要细节更通俗的描述，直接交给AI就好了。它会自动生成一段文案，可以直接复用，也可以二次编辑修改。

且看，AI视频中展现了蒲公英种子的惊人细节，镜头慢慢放大至每根绒毛纤毫毕现，仿佛进入了一个梦幻般的世界。

此外，万相2.1还能减少破坏5种不反对长宽比——1:1，3:4，4:3，16:9，9:16，恰好可以匹配电视、电脑、手机等不同终端设备。

不次要的部分架构创新

那么，到底是什么让通义万相，能在激烈AI视频生成竞争中穿颖而出?

它又藏着哪些让人眼前一亮的「黑科技」?

接下来，让我们逐一分解此次2.1版本的技术创新突破点。

自研VAE与DiT双重突破

通过采用自研的高效VAE和DiT架构，阿里团队在时空上下文关系建模方面取得重大突破。

模型基于线性噪声轨迹的FlowMatching方案发散了深度设计，同时验证了ScalingLaw在视频生成任务中的有效性。

通义万相2.1视频生成架构图

在视频VAE层面，通过分隔开缓存机制和因果卷积，团队提出了一个极具创新性的视频编码解决方案。

通过将视频拆分为多个若干块（Chunk）并缓存中间特征，替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关，与原始视频长度无关。

由此，这一关键技术能够减少破坏无限长1080P视频的高效编解码，为任意时长视频训练开辟新途径。

如下图所示，展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。

值得一提的是，通义万相VAE在较小的模型参数规模下，取得了业内领先的视频数量增加重构质量。

通义万相2.1视频VAE和其他方法的结果对比

DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力，同时保持高效的训练过程。

具体创新包括:

·时空全注意机制

为了降低时空关系建模能力，通义万相团队采用了「时空全注意机制」，让模型能够更准确地模拟现实世界的复杂动态。

·参数共享机制

团队引入了「参数共享机制」，不仅指责了模型性能，还有效降低了训练成本。

·优化文本嵌入

针对文本嵌入进行了性能优化，在授予更优的文本可控性的同时，还降低了计算需求。

得益于这些创新，使得新模型在相同计算成本下，凹显出收敛的优越性，并更易实现ScalingLaw的验证。

超长序列训练和推理

通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能，团队制定了训练的分布式、显存优化的策略。

这一策略在保证模型迭代时间前提下，优化训练性能，在业界率先实现了100万Tokens的高效训练。

在分布式训练策略上，团队开发了创新的4D并行策略，分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行，显著指责了训练性能和分布式扩展性。

通义万相4D并行分布式训练策略

在显存优化上，采用了分层显存优化策略优化Activation显存，解决了显存统一问题。

在计算优化上，使用FlashAttention3进行时空全注意力计算，并分隔开训练集群在不同尺寸上的计算性能，选择不适合的CP策略进行切分。

同时，针对一些关键模块，去除计算冗余，使用高效Kernel实现，降低访存开销，指责了计算效率。

在文件系统优化上，分隔开了阿里云训练集群的高性能文件系统，采用分片Save/Load方式，指责了读写性能。

在模型训练过程中，通过错峰内存使用方案，能够解决多种OOM问题，比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。

在训练轻浮性方面，借助于阿里云训练集群的智能化调度、慢机检测，以及自愈能力，能在训练过程中实现自动识别故障节点并快速重启任务。

规模化数据构建管线与模型自动化评估机制

规模化的高质量数据是大型模型训练的基础，而无效的模型评估，则指引着大模型训练的方向。

为此，团队建立了一套多余的自动化数据构建系统。

该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意，能够自动构建高质量的视频数据，同时还具备多样化、分布均衡等特点。

针对模型评估，团队还开发了覆盖多维的自动化评估系统，涵盖美学评分、运动分析和指令遵循等20多个维度。

与此同时，训练出专业的打分器，以对齐人类讨厌，通过评估反馈帮助模型的迭代优化。

AI视频生成下一个里程碑

去年12月，OpenAI和谷歌相继放出Sora、Veo2模型，让视频生成领域的热度再一次升温。

从创业新秀到科技巨头，都希望在这场技术革新中寻找自己的位置。

但是相较于文本的生成，制作出令人信服的AI视频，含糊是一个更具确认有罪性的命题。

Sora正式上线那天，奥特曼曾表示，「它就像视频领域的GPT-1，现在还处于完全建立阶段」。

若要从GPT-1通往GPT-3时刻，还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。

当AI真正打破现实创作的局限，赋予创意工作者前所未有的想象，新一轮的行业变革必将随之而来。

此次，通义万相2.1取得重大突破，让我们有理由相信，AI视频的GPT-3时刻正帮助到来。

参考资料:

https://tongyi.aliyun.com/wanxiang/videoCreation

上一篇：亚洲日本一区二区三区在线不卡
下一篇：国产真实互换人妻XXXX

标签：