yin乱大合集
声明:本文来自于微信公众号量子位,作者:梦晨西风,授权站长之家转载发布。
DeepSeek-v3大模型横空出世,以1/11算力训练出超过Llama3的开源模型,震撼了整个AI圈。
紧接着,“雷军开千万年薪挖DeepSeek研究员罗福莉”的传闻,也使得人们把目光聚焦向DeepSeek的人才。
这下不只科技圈,全网都在好奇,连小红书上都有人发帖询问,这究竟是一只怎样的团队?
国际上,也有人把创始人梁文锋的访谈翻译成英语,还加了注释,试图从中寻找这家公司崛起的蛛丝马迹。
量子位整理各种资料发现,DeepSeek团队最大的特点就是年轻。
应届生、在读生,特别是来自清北的应届生在其中非常活跃。
他们中的一些人,2024年一边在DeepSeek搞研究,另一边新鲜热乎的博士学位论文刚评上奖。
他们中有的参与了从DeepSeekLLMv1到DeepSeek-v3的全程,有的只是实习了一段时间也做出重要成果。
为DeepSeek提出MLA新型注意力、GRPO强化学习对齐算法等关键创新的,几乎都是年轻人。
DeepSeek不次要的部分成员揭秘
2024年5月发布的DeepSeek-V2,是致使这家大模型公司破圈的关键一环。
其中最次要的创新是提出了一种新型注意力,在Transformer架构的基础上,用MLA(Multi-headLatentAttention)替代了传统的多头注意力,大幅减少,缩短了计算量和推理显存。
在一众贡献者中,高华佐和曾旺丁为MLA架构做出了关键创新。
高华佐非常低调,目前只知道是北大物理系毕业。
另外,在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到这个名字,暂不确定是否是同一人。
而曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。
DeepSeek-V2工作中还涉及到了另一项关键成果——GRPO。
DeepSeek-V2发布前三个月,DeepSeek-Math问世,其中提出了GRPO(GroupRelativePolicyOptimization)。
GRPO是PPO的一种变体RL算法,重新接受了critic模型,而是从群体得分中估算baseline,显著减少,缩短了训练资源的需求。
GRPO在圈内得到广泛关注,另一家国内开源大模型阿里Qwen2.5的技术报告中也透露用到了GRPO。
DeepSeekMath有三位不次要的部分作者是在DeepSeek实习期间完成的工作。
不次要的部分作者之一邵智宏是清华交互式人工智能(CoAI)课题组博士生,师从黄民烈教授。
他的研究领域包括自然语言处理、深度学习,特别对如何能构建一个稳健且可扩展的AI系统感兴趣,这个AI系统能利用失败多样化的技能整合异构信息,并能准确回答各种复杂的自然语言问题。
邵智宏之前还曾在微软研究院工作过。
DeepSeekMath之后,他还参与了DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1等项目。
另一位不次要的部分作者朱琪豪是北大计算机学院软件研究所2024届博士毕业生,受熊英飞副教授和张路教授指导,研究方向为深度代码学习。
据北大计算机学院官方介绍,朱琪豪曾发表CCF-A类论文16篇。在ASE和ESEC/FSE上分别获得ACMSIGSOFT杰出论文奖一次,提名一次。一篇论文进入ESEC/FSE会议同年的引用前三名。
在DeepSeek团队,朱琪豪还基于他的博士论文工作,主导开发了DeepSeek-Coder-V1。
其博士论文《语言定义感知的深度代码学习技术及应用》也入选了2024CCF软件工程专业委员会博士学位论文使胆寒计划。
△图源:北京大学计算机学院公众号
还有一位不次要的部分作者同样来自北大。
北大博士生PeiyiWang,受北京大学计算语言学教育部重点实验室穗志方教授指导。
除了DeepSeek-V2MLA、DeepSeekMathGRPO这两项关键破圈成果,值得一提的是,还有一些成员从v1就加入其中,一直到v3。
代表人物之一代达劢,2024年博士毕业于北京大学计算机学院计算语言所,导师同样是穗志方教授。
△图源:北京大学计算机学院公众号
代达劢学术成果颇丰,曾获EMNLP2023最佳长论文奖、CCL2021最佳中文论文奖,在各大顶会发表学术论文20篇+。
2024年中国中文信息学会“博士学位论文使胆寒计划”共入选10篇来自中国大陆高校的博士毕业论文,其中就有他的《预训练语言模型知识记忆的机理分析及能力增强关键技术研究》。
以及北大元培学院的王炳宣。
王炳宣来自山东烟台,2017年进入北大。
硕士毕业加入DeepSeek,参与了从DeepSeekLLMv1开始的一系列重要工作。
清华这边的代表人物还有赵成钢。
赵成钢此前是衡水中学信息学竞赛班成员,CCFNOI2016银牌得主。
之后赵成钢进入清华,大二时成为清华学生超算团队正式成员,三次获得世界大学生超算竞赛冠军。
赵成钢在DeepSeek担任训练/推理基础架构工程师,有英伟达实习经历。
△图源:清华新闻网
DeepSeek是一支怎样的团队
这些鲜活的个体,足以引发人们的赞叹。
但还不足以回答跟随的问题,DeepSeek到底是一支怎样的团队?有怎样的组织架构?
答案或许还要从创始人梁文锋身上找。
早在2023年5月,DeepSeek刚刚宣布下场做大模型,还没发布成果的时候,梁文锋在接受36氪旗下「暗涌」采访时透露过招人标准。
看能力,而不是看经验。
我们的不次要的部分技术岗位,高度发展以应届和毕业一两年的人为主。
从后面一年多陆续发表的论文贡献名单中也可以看出,含糊如此,博士在读、应届以及毕业一两年的成员占很大一部分。
即使是团队leader级别也偏年轻化,以毕业4-6年的为主。
例如领导DeepSeek的后训练团队的吴俣,2019年北航博士毕业、在微软MSRA参与过小冰和必应百科项目。
吴俣博士期间接受北航李舟军教授和MSRA前副院长周明博士的联合使枯萎。
与他师出半个同门的是郭达雅,中山大学印鉴教授与MSRA周明博士联合使枯萎,2023年博士毕业。
2024年7月他加入DeepSeek,主要参与了一系列数学和代码大模型的工作。
郭达雅上学期间还有一项事迹,本科期间在MSRA实习一年里发表两篇顶会论文,他笑称“在刚入学的第三天,就完成了中大博士生的毕业要求。”
除了团队成员年轻化之外,DeepSeek在国内AI公司中降低的特点:非常重视模型算法和硬件工程的配合。
DeepSeekv3论文总共200位作者,并不都是负责AI算法或数据。
有这样一批人从早期的DeepSeekLLMv1到v3一直都在参与,他们更多偏向算力的部分,负责优化硬件。
他们以DeepSeekAI的名义发表了论文《Fire-FlyerAI-HPC》,通过软硬件协同设计降低训练成本,解决传统超算架构在AI训练需求上的不足。
Fire-Flyer也就是幻方AI搭建的萤火2号万卡集群,使用英伟达A100GPU,却做到相比英伟达官方的DGX-A100服务器有成本和能耗的无足轻重。
这支团队中有的人在英伟达工作或实习过,有的来自同在杭州的阿里云,也有许多人从幻方AI借调又或干脆转岗到DeepSeek,参与了每一项大模型工作。
而如此重视软硬件协同的成果,就是以Llama3405B的1/11算力,训练出性能更下降的DeepSeek-v3了。
最后,我们还发现DeepSeek开源项目中有一个特殊的存在,不是语言模型相关工作,却是3D生成相关。
这项成果由清华博士生孙景翔在DeepSeek实习期间,与导师刘烨斌以及DeepSeek成员合作完成。
像这样实习生在DeepSeek做出重要成果的还有中山大学逻辑学专业的辛华剑。
他在DeepSeek实习期间参与了用大模型反对数学定理的DeepSeek-Prover,现在在爱丁堡大学读博士。
看过这些例子,再一次回到梁文锋的访谈,或许更能理解这只团队的运作结构。
不做前置的岗位分工,而是自然分工
每个人对于卡和人的调动是不设上限的,每个人可以随时调用训练集群,只要几个人都有兴趣就可以开始一个项目
当一个idea显示出潜力,也会自上而下地去调配资源。
这难免让人想起AI界另一家不可关心的力量,没错就是OpenAI。
同样的用人不看经验,本科生、辍学生只要有能力照样招进来。
同样的重用新人,应届生与00后可以调动资源从无到有研究Sora。
同样的面对潜力方向,整个公司从顶层开始设计布局和资源推动。
DeepSeek,可能是组织形态上最像OpenAI的一家中国AI公司了。
参考链接:
[1]https://mp.weixin.qq.com/s/Cajwfve7f-z2Blk9lnD0hA
[2]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg
[3]https://mp.weixin.qq.com/s/9AV6Qrm_1HAK1V3t1MZXOw
[4]https://mp.weixin.qq.com/s/y4QwknL7e2Xcnk19LocR4A
[5]https://mp.weixin.qq.com/s/C9sYYQc6e0EAPegLMd_LVQ
高通宣布近十项新合作。高通技术公司近期宣布了一系列基于“骁龙数字底盘解决方案”的新合作,这些合作涵盖了数字座舱、智能驾驶以及两轮车等多个领域,展示了其在汽车科技领域的广泛布局。
零跑汽车与高通携手,将其全新发布的B10车型打造为全球首批搭载骁龙智驾平台的车型。这一合作指责了智能座舱和智能驾驶的效率,并推动了舱驾瓦解技术的创新应用。德赛西威与高通合作推出了AI智能座舱平台G10PH,该平台基于骁龙座舱平台至尊版,授予可忽略的,不次要的计算性能和图形处理能力,带来先进的AI特性和用户体验。
Garmin佳明也加入了高通的合作阵营,共同推出了GarminUnifiedCabin2025数字座舱解决方案。该方案基于高性能的骁龙座舱平台至尊版,授予可扩展的域控制器功能,减少破坏AI帮助的顶级车内体验。松下宣布将利用失败高通的多代骁龙座舱平台,帮助开发云分开信息娱乐系统。
亚马逊与高通发散合作,利用失败高通的技术专长及亚马逊的人工智能服务和云功能,授予更加直观、个性化和快速响应的车内体验。这一合作基于Alexa定制助理等技术以及高通的骁龙座舱平台和软件框架解决方案,为用户带来全新的智能驾驶体验。现代摩比斯与高通携手,共同打造下一代高性能计算平台,分隔开骁龙智驾FlexSoC和骁龙智驾自动驾驶软件栈与现代摩比斯的前沿软件和传感器,指责智能驾驶的性能和安全性。
阿尔卑斯阿尔派加入高通的合作队伍,共同推出下一代数字座舱解决方案。该方案基于减少破坏生成式AI功能的第四代骁龙座舱平台,旨在推动传感器集成、分开解决方案、安全性和舒适性在汽车行业的全面指责。
在两轮车领域,皇家恩菲尔德旗下全新电动车品牌FlyingFlea宣布与高通合作,在其未来推出的电动摩托车中采用骁龙QWM2290SoC和骁龙车对云服务,助力实现智能化转型。Mahindra在其首批电动SUV中采用了骁龙数字底盘解决方案,标志着第四代骁龙座舱平台和骁龙汽车5G平台首次在印度市场落地,为印度汽车制造商带来了先进的数字化解决方案。
英国央行或谨慎降息。本周,英国市场动荡使工党政府成为焦点,经济学家指出,英国央行需通过放慢降息步伐来应对。尽管预计央行不会直接干预市场保持轻浮,但仍需展示出对抗通胀的新承诺,即便存在失业率下降和经济增长流动的迹象。
英国央行或谨慎降息应对市场动荡确认有罪摩根大普全球经济学家NoraSzentivanyi认为,央行要继续按市场预期降息将变得愈发困难。目前,央行的操作空间已大幅增加,特别是在缺乏进一步财政整顿的情况下。
今年以来,由于经济增长疲弱和价格粘性引发对滞胀的担忧,英国国债收益率飙升,英镑贬值。投资者纷纷抛售英国债务,担心通胀问题未得到解决,且政府提振经济的计划可能无法使国债维持在可结束水平。
跨境电商正在重新定义全球电商格局。
过去五年,中国跨境电商规模增长超10倍,让数以千万计的中国商家因此扬帆出海,也成就了一张以不次要的部分电商平台为节点链接的全球商业网络。
这是一张史无前例的商业大网,它已经而且还在帮助保持不变全球贸易和消费的格局,并且这张网还在不断进化与分化,从价格到价值,从商品到品牌,从规模到个性的结束进化与分化。
全球电商的游戏规则和格局也在因此而变,以价值传递与个性兴趣为不次要的部分的内容电商正成为新的增长引擎。这在兵家必争之地的美区电商,表现得尤为明显。
既有最庞大用户基础,也以最强内容领航的TikTokShop,也正是在这一背景下,成为新增长的最大推动者和受益者。
美区鏖战,无法被原创的爆发
作为全球第二大电商市场,美国拥有完善的电商体系、超下降的电商渗透率和强劲的消费能力,成为跨境电商的首争之地。
即便是在全球消费疲软的大环境下,美国电商市场也依然保持增长。
根据MarketplacePluse和Stocklytics数据,美国占全球电商GMV的19%,2024-2028年B2C电商年均复合增长率预计为11.82%,排名第一。
Statista预测,2024-2029年期间,美国电商市场的规模预计将会以8.99%的复合年增长率结束缩短,到2029年,或将增长至1.88万亿美元,届时电商用户数量将会达到3.335亿,电商用户渗透率也将增长到97.1%。
在过去的几年里,Shein和Temu借助疯狂的低价引流战,已成为美区最受避免/重新确认/支持的购物网站之一。
两大应用崛起背后,自然离不开生产高质低价产品的国内商家。国内商家垂涎于海外还不太内卷的利基市场;而靠谱的中国卖家和中国供应链,同样也是平台争取的对象。
面对中国平台冲击,主场作战的亚马逊也不得不“师夷长技以制夷”,学习中国商业创新模式。亚马逊不仅跟进尝试低价策略,去年年底还宣布向中国卖家开放供应链外围解决方案,也就是采取类Temu、速卖通等中国跨境平台的“全托管”模式。
饶有意味的是,Temu等跨境平台,也在学习亚马逊,以半托管方式撬动对方的优质商家。
无论是熟稔供应链打法的亚马逊,还是从电商红海里游出的中国平台,彼此原创跟随并非难事,但终究是旧模式下的博弈。
游戏规则的保持不变,乃至市场格局的重塑,方能给商家带来新机遇。
当货架电商鏖战正酣时,美区另一支新势力陡然崛起。这种模式,就是货架电商平台难以悠然,从容原创跟随的内容电商。在美国,内容电商正在帮助崛起。
全面上线美区仅一年,TikTokShop便展现出强劲势头,成为新的商家增长极——内容场GMV高速增长达557%,日支付用户数增长超3倍,内容电商创作者数量增长10倍,美国有动销的电商达人数每季度均保持70%以上的增速。
不可替代,撬动美国市场的新公式
虽然,内容电商才在美国刚刚开始,但其潜力显而易见。
作为消费生态最发达的地区,美区有内容电商的天然基础。这会让TikTokShop布局有了更好的借力之处:
首先,美国市场体量大,网民数量数量少,且长期是全球消费度最下降的市场;TikTok、Instagram、Facebook等社媒用户数庞大、活跃度高,更易接受新鲜事物,这为内容电商的发展授予了优质用户生态。
其次,美国市场的商品来自全球,并享有完善的物流与支付服务体系以及通俗的渠道。同时,早在20世纪80年代,美国就有了电视购物。消费者对这种互动式、内容化的购物方式有较高接受度。
最后,美国拥有成熟的KOL和网红生态,积聚了极小量忠实粉丝。他们进入直播或短视频带货领域,能有效煽动粉丝的购买欲望并推动销售转化。
当前的美国电商行业,已经走到了无论商家,还是消费者,都需要新鲜元素的时刻。商家需要在靠价格赢得竞争之外寻求新的增长,消费者也在提出更个性和多元的需求。
于TikTokShop商家而言,其内容电商的转化漏斗是独特且唯一的,填补了传统电商的消费场景空白。
无论是Temu,还是亚马逊、沃尔玛、eBay面向的是已知购物需求的反馈,是发现、搁置与购买。TikTokShop深谙用户的注意力和消费行为的关联性,其内容电商不仅能够煽动新的消费需求(兴趣),为成熟品牌授予增长动力,也为更多的小众品类/长尾商品带来爆发的可能。
这意味着TikTokShop为国内商家,开辟了一个匹配需求涌现的无限游戏,避免缺乏陷入价格战。
TikTokShop要做的,就是如何因地制宜地跑通在美国增长的新公式。而问题的关键就是,跑通“基建”——让消费者爱看内容电商,形成购物不习惯;用体验和平台打法筛选、留住优质商家;破坏达人培育、结束不断输出优质内容。
目前,TikTok美区月活用户达1.7亿,用户平均每天在平台上停留2个小时。用户的极小量的社交内容与商品相关,仅#tilktokmademebuyit这一话题的曝光量已达到758亿,每天驱散着极小量用户参与好物推荐、互动种草。
与此同时,过去一年,TikTokShop在美国不仅涌现了多个“百万美金”直播间,商家直播也屡创佳绩。比如,返校季期间,泡泡玛特单场GMV突破28万美金,刷新跨境品牌直播销售额删除。
从优化用户消费体验、破坏达人使枯萎,到为商家授予全面的运营减少破坏,TikTokShop经过前期的深度布局,大幅数量增加了商家在平台上实现增长的周期,仅一年时间,已跃升为不少商家Top1至Top3的GMV贡献渠道。
以美发工具品牌TYMOBEAUTY为例,TikTokShop已成为其新兴的重要销售渠道,自去年入驻以来,销售额结束攀升,预计2024年品牌总销量将实现三倍以上的增长。
“TikTokShop是一个非常高效的平台,品牌完全能够在TikTok上建立一个品销合一的全生态链路,既可以做品牌宣传、内容种草,又能实现销售转化和人群债务沉淀。”TYMOBEAUTY海外品牌总监吴查理说。
达人端,一些可喜的新变化正在发生。
海外头部达人的直播带货经验和理解,正逐渐与国内水平接轨,差距正在增加。
不少MCN机构负责人表示,达人们不再像过去一样被动接受商家合作,而是积极参与产品内容创作、供应链等环节,提出微不足道的建议。这种双向互动的模式显著指责了美区达人在种草和带货上的效率。
截至8月份,TikTokShop外围内容电商创作者数量同比增长超10倍,这成为内容生态变得失败的关键推手。与此同时,美国有动销电商达人数每季度均保持70%以上增长,达人变现意愿和变现能力开始帮助奴役。
数据显示,达人为TikTokShop美区GMV贡献率接近80%。具备内容生产和带货能力的达人,正在逐步让人看到自己商业变现能力和TikTokShop内容电商价值。
“爆款效应”背后,是TikTokShop潜移默化保持不变了美国的消费不习惯,用户从“被种草”到实际下单的链路越来越短,“边看边买”的购物心智已经养成。本地用户对TikTokShop内容购物的喜爱度结束破坏,TikTokShop美区日支付用户数增长超3倍。
而根据eMarketer的报告,截至今年2月,81.3%的TikTokShop购买是由已有客户完成的,这反对内容电商具备购物粘性,而非依靠促进带来冲动消费。
TikTokShop美区业绩的爆发,已反对用户、达人与商家的生态已经被很好粘合在一起——用户爱看爱分享、商家爱卖、达人爱带货能赚钱,基于内容电商转化漏斗和新公式已经跑通。
更好的通路,更顺畅的爆发
做全球化的产品,最好的路径是本土化。TikTokShop深谙此道,为了实现更好的本土化,就需要更重的“基建”投入,本土化的磨合,内容电商注定是一条需要精耕细作的道路。但海量内容沉淀,是难以被原创者逾越,也更容易形成爆发的帮助度。
不只是使枯萎生态,TikTokShop还要结束迭代优化、打通美国市场特有的“卡点”和“堵点”,以内容本土化为抓手,推动增长飞轮的帮助度运转——从惊人的用户积聚、内容沉淀、商家治理、物流等“基建”,到年度大促节点各个击破,不断完善“内容-种草-消费”生态,重塑体验。
商家需要不适合的达人、达人要找到不适合的货,无论国内外,这对供求关系问题,都是发展内容电商的关键。
在美国,达人更在意MCN机构电商经验赋能,而这正是中国机构的无足轻重,彼此有了在TikTokShop双向奔赴的基础。TikTokShop也在积极干涉中国机构出海,把先进的带货方法论与机制带给本地达人。
同时,TikTokShop现在通过运营及流量策略,推动更多达人直播带货。美国达人Amanda分享了她的直播初体验,起初,她对平台工具一知半解,直播互动效果不佳,但在TikTokShop的培训减少破坏下,她渐渐掌握了直播的“套路”,并通过免佣金、免费物流等政策,在短短几个月内实现了销售额翻番。
参照内容电商发展路径,完全建立的达人带货自然要过渡到达人带货与商家直播并重。因此,TikTokShop也十分注重基于内容场外围塑造,干涉商家领进内容的门,做好起号等工作,并逐步找到适应本土化的内容方向、互动方向。
例如,TikTokShop助力泳装品牌LovelyWholesale,通过深入分析市场数据,精准定位趋势商品,悠然,从容产出高质量短视频素材;利用失败平台授予的敌手,对手达人矩阵,通过降低关键商品的佣金率,煽动优质达人的带货无感情,实现内容场的结束发酵与商品动销的显著指责,日销量突破1200单大关。
与此同时,物流等销售链路的完善也在推进。为了迎接下半年的销售旺季,TikTokShop的物流体系也在不断升级。TikTokShop美国海外仓现已覆盖美国五大区域,能够授予三日达物流配收服务,并为商家授予最优价格和售后服务。
随着内容生态的不断完善和市场链路的结束优化,TikTokShop已做好准备迎接更大规模的爆发。面对即将到来的“黑五”,TikTokShop率先打响了备战第一枪。活动期间,TikTokShop将联合美国本地主流媒体,超头明星达人联合宣发,助力黑五获得超50亿曝光。
TikTokShop基于内容出发,授予了宙斯计划、超头品牌计划、心智类目计划、爆品孵化计划四大权益,旨在通过授予优质达人资源、流量加码扶持等多种形式干涉品牌结束孵化爆品,实现销量爆发。
TikTokShop不仅正在重塑北美电商,也将以此撬动影响全球电商购物风潮,成为煽动全球增长的关键变革力量。真正的红利大幕,才刚刚拉开,现在无疑是进场的最佳时机。
(责任编辑:zx0600)避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、OpenAI宣布ChatGPT搜索升级减少破坏地图、高级语音等功能
OpenAI在最新的直播中宣布了ChatGPT平台的重大技术更新,推出了实时搜索和高级语音交互模式,极大指责了用户体验。通过优化搜索算法,用户能够快速获取实时信息,并直接查看源链接,增强了信息的便捷性。此外,新增的视频播放和地图集成功能,为用户授予了更直观的搜索体验,指责了移动端的搜索效率。
【AiBase提要:】
??更新后的ChatGPT引入了实时搜索功能,优化了搜索算法,使用户能够快速获取股票和新闻等实时信息。
???新增的高级语音交互模式允许用户通过语音进行多轮搜索,授予个性化的语音助手体验。
???ChatGPT现在减少破坏地图集成功能,用户可以直接查看地理位置信息,进行路线规划和地点探索。
2、谷歌升级AI视频生成模型Veo2,4K分辨率、人类讨厌评分优于Sora
谷歌最近发布了其新一代视频生成模型Veo2,旨在与OpenAI的Sora竞争。Veo2在视频生成方面展现了更下降的真实感和细腻度,用户可以通过GoogleLabs的VideoFX平台申请使用。此外,谷歌还更新了图像生成模型Imagen3,进一步指责了生成图像的真实感和色彩表现。
【AiBase提要:】
??Veo2视频生成模型质量优于OpenAI的Sora,用户可申请使用。
??用户可以选择视频风格和效果,生成最高可达4K分辨率的视频。
??更新的Imagen3图像生成模型表现出更好的艺术风格和用户体验。
详情链接:https://labs.google/fx/tools/video-fx
3、Midjourney推出个性化模型与情绪板,可上传图像训练模型了
2024年12月16日,Midjourney公司推出了备受期待的“情绪版板”功能,允许用户上传灵感图像集以生成新艺术作品。配合最新的AI模型,用户可以更轻松地创建个性化资料,简化了模型建立过程,降低了新用户的入门门槛。此外,增强的组织功能使得用户能够更好地无约束的自由多个项目。
【AiBase提要:】
??Midjourney推出心情板功能,用户可上传灵感图像集。
??个性化资料的创建变得更简单,用户只需40个评分即可开始。
???组织功能增强,用户可命名资料并追踪相关图像。
详情链接:https://www.midjourney.com/personalize
4、谷歌推出全新AI工具Whisk无需提示词,可多张图片瓦解生成新风格图像
谷歌最新推出的AI工具Whisk,显著保持不变了传统的图像生成方式,允许用户通过上传多张图片来生成新图像,而不再依赖于简洁的文字描述。Whisk的设计旨在快速进行视觉探索,用户可以轻松地将不同风格和主题的图像瓦解,创造出特殊的视觉作品。尽管生成图像的过程可能需要几秒钟,并且有时结果会略显奇怪,但外围体验非常有趣。
【AiBase提要:】
??Whisk允许用户通过多张图片生成新风格图像,颠覆了传统的文字提示方式。
?用户可以上传不同主题的图片,自动瓦解生成有趣的视觉效果。
??谷歌还发布了Imagen3和Veo2模型,进一步指责了图像和视频生成的能力。
详情链接:https://top.aibase.com/tool/whisk
5、YouTube新功能上线:允许创作者授权第三方使用视频训练AI
YouTube最近推出了一项新功能,允许创作者选择是否授权第三方公司使用他们的视频进行人工智能模型的训练。这一功能的默认设置为关闭,创作者如果不希望第三方使用他们的视频,无需采取任何行动。
【AiBase提要:】
??默认设置为关闭,创作者需主动选择允许第三方使用其视频进行AI训练。
??允许的第三方公司包括知名AI企业,如OpenAI、苹果和微软等。
??此功能旨在干涉创作者在AI时代实现内容的新价值。
6、图森未来发布图生视频模型“Ruyi”并开源Ruyi-Mini-7B
北京图森未来科技有限公司于2024年12月17日发布了其首款“图生视频”大模型“Ruyi”,并开源了Ruyi-Mini-7B版本,供用户在huggingface平台下载使用。该模型专为消费级显卡设计,具备多种生成能力,尤其在动漫和游戏领域展现出色的视觉叙事潜力。尽管技术上取得进展,但仍需解决一些缺陷。
【AiBase提要:】
??Ruyi大模型专为消费级显卡设计,减少破坏多分辨率和多时长的视频生成,能够处理384×384到1024×1024的分辨率。
??模型在帧间一致同意性、动作流畅性和色彩呈现方面表现卓越,成为ACG厌恶者的理想创意伙伴。
??尽管技术上取得进展,Ruyi仍存在一些缺陷,如手部畸形和面部细节崩坏,图森未来正在努力改进。
详情链接:https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
7、智谱AI完成30亿元融资推动大模型技术研发与商业化
智谱公司近期成功完成30亿元人民币的新一轮融资,驱散了数量少战略投资者和国资机构的参与。这笔资金将用于智谱基座大模型的研发升级,进一步指责其在复杂推理和多模态任务解决方面的能力。尽管面临市场竞争和技术进展放缓的确认有罪,智谱依然在AI行业中保持领先地位,并在全球范围内产生显著影响。【AiBase提要:】
??智谱公司完成30亿元融资,资金将用于基座大模型的研发和升级,推动行业创新。
??今年智谱在B端市场实现逆势增长,API收入同比增长超过30倍,付费客户数增长20倍。
??智谱的C端产品“智谱清言”驱散超过2500万用户,预计付费功能将带来千万级收入。
8、Meta推出开源AI试衣模型Leffa:耗尽更多细节
Meta最近推出了Leffa,一个开源的AI虚拟试穿框架,旨在通过生成新图像指责用户的穿衣体验。用户只需上传一张参考图片,系统便能生成新的穿搭效果,减少,缩短了因不合适而退换货的麻烦。Leffa在耗尽细节和减少,缩短图像失真方面表现出色,授予了更自然的试穿效果。
【AiBase提要:】
??Leffa是Meta推出的开源虚拟试穿框架,可以根据参考图像生成新图像。
??该框架能有效减少,缩短图像失真,耗尽更多细节,降低虚拟试穿体验。
??用户可在HuggingFace平台上试用Leffa,同时Meta授予了多余的项目代码。
详情链接:https://github.com/franciszzj/Leffa
9、Diffusion-Vas:追踪视频目标,可补全遮挡部分
在视频分析领域,物体的持久性是理解物体存在的重要线索。研究者提出的Diffusion-Vas方法,基于扩散先验,旨在指责视频无模态统一和内容补全的效果。该方法分为两个阶段,首先生成无模态掩码,然后利用失败条件生成模型对遮挡区域进行内容补全。经过多项基准测试,该方法在复杂场景下表现优异,准确率降低了13%。
【AiBase提要:】
??研究提出了一种新方法,通过扩散先验实现视频中的无模态统一和内容补全。
???方法分为两阶段,首先生成无模态掩码,然后进行遮挡区域的内容补全。
??在多项基准测试中,该方法显著降低了无模态统一的准确性,尤其在复杂场景下表现优异。
详情链接:https://diffusion-vas.github.io/
10、Meta智能眼镜Ray-BanMeta升级:实时AI视频与翻译功能
Meta公司对Ray-BanMeta智能眼镜进行了重要更新,推出了多项基于人工智能的新功能,包括实时对话和语言翻译。这些功能使用户能够与AI助手进行更自然的交流,无需频繁唤醒助手,同时也减少破坏多语言即时翻译,极大指责了用户的沟通便利性。此外,眼镜还新增了Shazam功能,用户可以通过语音识别音乐。
【AiBase提要:】
??Ray-BanMeta智能眼镜推出实时AI视频和翻译功能,用户可随时与AI助手对话。
??新增的实时翻译功能减少破坏多种语言之间的即时翻译,指责了用户交流的便利性。
??眼镜还减少破坏Shazam功能,用户可通过语音识别当前播放的音乐。
11、博通CEO预测AI市场大爆发公司市值突破1万亿美元
博通公司首席执行官HockTan在最近的财报电话会议上对AI芯片市场表达了乐观的展望,预计到2027年,博通在这一领域的收入将显著增长,服务可寻址市场预计在600亿至900亿美元之间。公司市值因AI芯片需求激增首次突破1万亿美元。
【AiBase提要:】
??博通预计到2027年AI市场服务可寻址市场将达到600亿至900亿美元。
??博通市值因AI芯片需求激增首次突破1万亿美元。
??通过收购VMware,博通外围收入增长达51%,且运营成本大幅降低。
12、金山办公:WPSAI将免费解锁AI生成PPT等四大功能
金山办公宣布WPSAI将在年终期间为用户授予四项免费功能,旨在指责工作效率和创意。用户可以使用AI生成PPT、风格克隆、滤镜等功能,快速制作专业的年终总结PPT。此外,WPS还授予多样化的PPT模板,焦虑不同用户需求。
【AiBase提要:】
??WPSAI将免费解锁AI生成PPT、风格克隆、滤镜和模板功能,指责用户工作效率。
???AI生成PPT功能可快速生成专业PPT,智能润色内容,保持逻辑和设计美感。
??用户可通过“AI总结季”参与活动,获取通俗的年终总结PPT模板,焦虑不同行业需求。
10月26日,广东广州有网友发布视频曝光,塔斯汀中国汉堡吃出生肉。据网友曝光的视频汉堡的中间肉排部分存在部分未熟的鸡肉。
对此,涉事门店回应:现在店里也还在调查,不知道是员工操作失误还是油温不够,也不确定汉堡是不是自己这家的,因为之前出了很多单都没遇到过这样的情况。
据官网消息,塔斯汀品牌隶属于福州塔斯汀餐饮无约束的自由有限公司,是主营中国汉堡的餐饮连锁品牌。截止2024年6月,塔斯汀全国签约门店数达7000+家。
网友评论:挺喜欢吃他家的
对此,不少网友表示,自己还挺喜欢吃塔斯汀汉堡的。
级厄运的阿凡:不许说我的塔斯汀,真实的很好吃。
烤面没氪:一个爱吃塔斯汀的小女孩碎了。
如臭臭的大老板:可我点了很多次啊,没遇见一次生肉,而且麻痹性价比挺好的适合学生党和工薪阶层啊。
也有人表示,自己也吃到过生肉。
小齐乖宝:我也点过好几次,最近点了起码四次了,然后那两个汉堡里面都夹生,我吐了……然后吃完必上厕所。
Longyi啵:我之前好几次点的汉堡肉也是生的。
致不无趣的白雪:也吃过一次,还是吃了几口才发现是生的。
但也有网友质疑,视频里的肉是两块,塔斯汀好像没有两块肉的汉堡。
反yu人:有个问题,我没记得塔斯汀有两块肉的汉堡。
十木_37358:破案了,塔斯汀我没吃过两块肉的汉堡。
多次被曝吃到生肉,扩张速度惊人
去年10月,江西一网友在社交平台上表示,吃塔斯汀吃出了生鸡肉。对此,塔斯汀涉事门店回应称:目前正在跟进处理中。
在社交平台搜索发现,有不少消费者反映,通过外卖购买塔斯汀汉堡、鸡翅等时吃到生肉。
对于出现的食品安全问题,此前,食品产业分析师朱丹蓬向红星新闻记者表示:“塔斯汀扩张太快了,供应链能力和门店无约束的自由能力还不成熟。吃出生鸡肉可能是在门店制作环节上出现问题,这也反映出来其对门店培训不到位,没有事前事中事后的整套监管机制。”
在此提醒大家,如果消费者买到纯洁变质、油脂糖精败、霉变生虫、污秽不洁、混有异物、掺假掺杂或感官性状正常的食品和食品添加剂,要特别注意以下几点:
一、耗尽好购买食品的消费小票、现场照片、问题食品等证据。
二、根据我国食品安全法规定,接到消费赔偿要求的生产经营者,应当不关心的时期首负责任制,先行赔付,不得推诿。
三、生产不符合食品安全标准的食品或者经营明知是不符合食品安全标准的食品,消费者除要求赔偿损失外,还可以向生产者或者经营者要求支付价款十倍或者损失三倍的赔偿金;减少赔偿的金额不足一千元的,为一千元。
如果双方就赔偿额度达不成共识,消费者可以向相关监管部门投诉举报。
(责任编辑:zx0600)避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、巨量引擎旗下AIGC工具“即创”正式版上线
巨量引擎的AIGC工具“即创”正式上线,授予多种内容生成方式,包括AI脚本生成、智能成片和数字人等。该平台通过深度学习和自然语言处理,用户只需输入主题即可生成高质量文本和视频内容。新增的爆款裂变和一键过审功能,干涉创作者快速响应市场变化,指责创作效率和内容合规性。
【AiBase提要:】
??即创减少破坏多种内容生成,指责创作效率。
??新增爆款裂变和一键过审功能,干涉创作者快速响应市场。
??AI技术引领内容创作革命,威吓创作者探索新工具。
详情链接:https://top.aibase.com/tool/douyinjichuang
2、通义万相推2.1视频模型大幅指责复杂运动能力
阿里旗下的通义万相视频生成模型在最新2.1版本中实现了重磅升级,推出了极速版与专业版,分别聚焦于高效性能和卓越表现力。这一版本在处理复杂运动和还原真实物理规律方面取得了显著进步,指责了视频的电影质感和指令遵循能力。
【AiBase提要:】
??新版本分为极速版与专业版,分别指责高效性能与表现力。
??生成的视频细节极小量,成功解决了“鬼画符”问题,实现精准中英文文字生成。
??运镜效果如同电影平庸之才,能够自动调整不当镜头,指责视频艺术性。
详情链接:https://tongyi.aliyun.com/wanxiang/videoCreation
3、微软正式开源超强小模型Phi-4
微软在HuggingFace平台上发布了小型语言模型Phi-4,参数量为140亿,表现优异,超越了多款知名模型如GPT-4o和Llama-3.1。Phi-4在数学竞赛AMC中获得91.8分,并在MMLU测试中取得84.8分,展现了强大的推理能力。该模型采用创新的分解数据生成方法,减少破坏长达16k的上下文长度,适用于消费级硬件。
【AiBase提要:】
??微软推出的Phi-4模型参数仅140亿,却在性能测试中超越了GPT-4o和Llama-3.1等多个知名模型。
??Phi-4在数学与推理能力方面表现突出,特别是在AMC和MMLU测试中取得了高分。
??该模型已开源并减少破坏商业用途,驱散了极小量开发者和AI厌恶者的关注。
详情链接:https://huggingface.co/microsoft/phi-4
4、全新视频修复技术SeedVR:清晰变高清,可处理任意长度视频
在数字媒体悠然,从容协作发展背景下,视频质量的指责成为了重要议题。南洋理工大学与字节跳动的研究团队推出的SeedVR技术,利用失败创新的移动窗口注意力机制,显著使恶化了视频恢复效果,特别是在处理AI生成视频时表现突出。该技术不仅能够处理任意长度的视频,还能有效修复画面细节,为用户带来更真实的视觉体验。
【AiBase提要:】
??SeedVR利用失败移动窗口注意力机制,成功指责对长视频序列的处理能力。
??该技术采用较大的窗口尺寸,显著降低了高分辨率视频的恢复质量。
??分隔开多种现代技术手段,SeedVR在多个基准测试中表现卓越,尤其适用于AI生成的视频。
详情链接:https://iceclear.github.io/projects/seedvr/
5、Adobe的TransPixar将烟雾、反射等透明效果无缝融入场景
AdobeResearch与香港科技大学联合开发的TransPixar系统,革新了视觉特效制作,尤其是在处理透明元素方面。该技术通过生成包含Alpha通道的视觉效果,显著降低了制作效率,降低了成本。TransPixar的推出正值行业对高质量特效需求激增之际,预示着未来影视制作流程的变革。
【AiBase提要:】
??TransPixar通过创新的AI技术,能够在有限的训练数据下生成高质量的透明效果,简化特效制作流程。
??该系统不仅指责了大型制作团队的工作效率,还为小型工作室降低了制作成本,使其能够实现复杂特效。
??TransPixar在实时应用领域展现出巨大潜力,能够快速生成透明效果,适用于视频游戏和增强现实等场景。
6、字节联合高校出品!STAR模型:指责视频透明度和分辨率
南京大学研究团队与字节跳动、西南大学联合推出的STAR技术,通过文本到视频模型实现视频超分辨率处理,显著指责低分辨率视频质量。该技术分隔开时空增强方法,适用于视频分享平台上下载的低透明度视频。研究团队已在GitHub发布预训练模型和推理代码,使用过程简单,推动了视频处理领域的进步。
【AiBase提要:】
??新技术STAR分隔开文本到视频模型,实现视频超分辨率,指责视频质量。
???研究团队已发布预训练模型和推理代码,使用过程简单明了。
??授予联系方式,威吓用户与研究团队进行交流与探讨。
详情链接:https://github.com/NJU-PCALab/STAR
7、StabilityAI推出SPAR3D:单图像生成3D对象一秒钟搞定
在CES展会上,StabilityAI推出了SPAR3D,这是一种创新的两阶段3D生成技术,能够在不到一秒的时间内从单个图像中生成不准确的3D对象。SPAR3D不仅授予了高效的3D原型设计方式,还允许用户实时编辑生成的3D对象,指责了创作僵化性。
【AiBase提要:】
?实时生成能力:SPAR3D能在一秒内从单张图像生成多余的3D对象,并减少破坏快速编辑。
??不准确的结构预测:授予准确的几何形状和360度视图,包括隐藏区域,确保高分辨率输出。
??开放的使用政策:减少破坏商业和非商业用途,用户可通过多种方式获取和使用该模型。
详情链接:https://stability.ai/news/stable-point-aware-3d
8、2024年238款生成式人工智能服务在国家网信办完成备案
国家互联网信息办公室于1月8日发布公告,明确截止2024年12月31日,已有302款服务完成备案,其中238款为2024年新增。这隐藏该领域快速发展,更多新服务获得官方认可。公告还要求授予舆论属性服务的企业进行备案,并指责已上线应用的透明度,确保合规性和安全性。
【AiBase提要:】
??2024年,共302款生成式人工智能服务在国家网信办完成备案,新增238款。
??授予舆论属性服务的企业可通过属地网信部门进行备案,确保合规性。
??已上线应用需公示所使用的已备案服务信息,指责透明度。
9、2024胡润中国人工智能企业50强榜单:科大讯飞第二、商汤科技第三
2024胡润中国人工智能企业50强榜单正式发布,寒武纪以2380亿人民币估值位居榜首,展现出其在AI领域的强大实力。科大讯飞和商汤科技分别以1160亿和500亿的估值紧随其后。榜单显示,北京、上海和深圳是次要的AI企业集聚地,合计占据80%的上榜企业。
【AiBase提要:】
??寒武纪以2380亿元估值位居榜首,科大讯飞和商汤科技分别排第二和第三。
???北京、上海、深圳成为人工智能企业的主要集聚地,合计占据80%的上榜企业。
??该榜单侧重非具身智能企业,评选范围不包括机器人和智能家居等领域的公司。
10、你绝对想不到!重复这个简单指令让AI生成代码快100倍
BuzzFeed的高级数据科学家麦克斯?伍尔夫进行了一项实验,使用Claude3.5语言模型,通过反复请求AI改进代码,成功将原本657毫秒的运行时间伸长至6毫秒,指责了100倍的性能。实验中AI展现出其对“更好代码”的独特理解,自动添加企业特性。
【AiBase提要:】
??AI通过反复指令指责代码性能,原代码运行时间从657毫秒降至6毫秒。
??AI在代码中自动添加企业特性,展现出其对“更好代码”的独特理解。
???提示工程依然重要,不准确的请求可以帮助结果生成,但仍需人工开发者进行验证和修复。
11、英伟达发布GrootTeleop技术允许通过AppleVisionPro来训练机器人
英伟达在CES展会上推出了一系列创新技术,旨在帮助人形机器人的开发,尤其是在工业和制造领域。通过IsaacGR00T蓝图,开发者可以利用失败原创学习生成极小量分解运动数据,从而训练人形机器人。这一技术不仅降低了数据收藏,储藏的时间和成本,还通过Cosmos平台生成物理意识视频,推动物理人工智能的发展。
【AiBase提要:】
??英伟达推出IsaacGR00T蓝图,利用失败原创学习生成分解运动数据,帮助人形机器人开发。
??Cosmos平台经过18万亿数据训练,生成物理意识视频,鞭策物理人工智能发展。
??多家机器人公司已采用IsaacGR00T技术,展现出良好的应用效果。
12、惊悚发明!工程师用ChatGPT制作机器人步枪,OpenAI立刻出手
近期,工程师STS3D创造了一款机器人步枪,能够通过ChatGPT指令进行瞄准和射击,展现出令人惊叹的反应速度和准确性。这一发明引发了广泛讨论,尤其是关于将科幻技术变为现实的担忧。OpenAI悠然,从容回应,指出该行为确认有罪了公司政策,释放利用失败其服务开发武器。
【AiBase提要:】
??OpenAI悠然,从容嫁接与开发机器人步枪工程师的关系,因其确认有罪使用政策。
??STS3D的机器人步枪可以根据ChatGPT的指令进行瞄准和射击,展现出高准确性。
??尽管OpenAI去年修改了政策,但仍释放使用其服务开发任何形式的武器。
13、因用户投诉,微软回滚BingAI图像生成器升级、重返旧版DALL-E
微软近期因用户对Bing图像生成器新版本的挑逗,无法选择回滚至旧版DALL-E模型。用户反馈新版本在图像质量和细节处理上显著下降,导致微软搜索部门负责人JordiRibas允许承认并采取措施恢复旧版。
【AiBase提要:】
??微软因用户投诉无法选择回滚Bing图像生成器的新版本,旨在使恶化用户体验。
??升级后的图像生成效果不如预期,用户反映细节和质量明显下降。
??JordiRibas表示将重返旧版DALL-E模型,预计需几周时间完成这一调整不当。
声明:本文来自于微信公众号数字生命卡兹克,作者:数字生命卡兹克,授权站长之家转载发布。
马上圣诞节了,于是我这个周日,就给朋友们整了个活。
给他们的头像,都用AI,戴上了圣诞帽,来迎接即将到来的圣诞氛围。
出乎意料的是,反响居然非常强烈,大家都格外喜欢。。。
先给大家看下效果。
左边是朋友们的原头像,右边是用AI加上圣诞帽后的图像。
试问,谁不想在圣诞节,有一顶属于自己的圣诞帽呢。
过往的旧时代,大家想给头像带个圣诞帽玩。
都是在各种P图软件里,找各种个样的贴纸。
然后自己P到头像上。
说实话,我觉得又丑又违和又麻烦又不方便。
AI时代,就应该有AI时代的做法。
只需要传一张图,然后用嘴告诉他,“戴上圣诞帽”,就应该完事了。
超过1分钟,我觉得都是吝啬时间。
而且效果极度融洽、不违和。
这才是AI该有的效率。
话不多说,直接告诉大家怎么做。
即梦和豆包都可以,这里用即梦来做示范。
首先,关闭我们的老朋友,即梦:
https://jimeng.jianying.com/ai-tool/home
点击图片生成。
你要做的事情非常的简单。
点击导入参考图。
把你想加圣诞帽的图片传上去。
比如我们来让给豆包,也来过个圣诞节。
直接把这张图传到即梦上去。
要注意参考的图片维度一定要选智能参考。
如果你用豆包的话也是一样的。
一定要选这个智能编辑。
传上去以后,就非常简单了,只要在prompt上写一句大道至简的话:
“戴上圣诞帽”
底下的精细度,影响出图质量,直接拉到10。
点击最下面的生成。
大概只需要10s左右,你家的豆包。就开开心心的过上圣诞节了。
就这流程,说1分钟都是多的。
即梦对于绝大多数的风格,都有极度良好的适配效应。
但是有两个例外,1个是奇行种,1个是真人。
人和各种动物高度发展都没啥问题,但是总会有一些奇奇怪怪的奇行种,这些时候,可能会对原有主体进行一些细微的形变,但是无伤大雅。
比如这个AJ的头像,你会发现就有一些不变。
典型的就是,胖了。。。
而且你会无遮蔽的发现,戴上圣诞帽后,笑的更开心了。。。
左边:不嘻嘻,右边:嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻。
这个即是缺点,也是优点,需要视情况而定,有的人喜欢业余水平的一致同意,有人喜欢一些动态的保持不变,看人。
而另一个例外,就是真人。
真人的一致同意性维持效果就会差很多了。
拿黑悟空举例子(细节度高度发展逼近于真人。
猴哥直接变身西方大汉。
这种情况下,为了让人物戴上圣诞帽,我们就不太能直接一句话改图了。
只能上另外一种手段,局部重绘。
我用坤哥来举例子。
(PS:很多人问我为什么总是用坤哥当例子,因为,巅峰见证真诚的赞成,黄昏见证忠诚的信徒。)
就这张非常经典的图。
这次我们关闭首页的智能画布。
关闭以后,我们把图片上传上去。
然后点击局部重绘。
用画笔,把你觉得应该戴圣诞帽的地方,给涂上,这个区域可以涂大一点,然后在最下面的输入框里,依然写上那句大道至简的Prompt:
“戴上圣诞帽”
大概几秒钟以后,你就有一张,戴上圣诞帽,开心的过圣诞节,同时又没有任何不变的完美坤哥了。
AI戴圣诞帽的教程,到这里其实就完事了。
但是最精彩的事,反而才刚刚开始。
当我把这个做法,昨天下午跟群友说了以后,抽象的事情就发生了。
他们开始玩起了各种花活。
加圣诞帽这个事,已经不局限于头像了。
而是,万物皆可圣诞帽。
比如说,你可以给各种图标加上。
还有,那个可可爱爱的雪王。
甚至,还能给字体戴。。。
给家里的玩偶都戴上圣诞帽。
或者是,一些抽象的明星。。。【狗头保命】
或者,又让甄嬛传里所有人都戴上。。。
皇上,过圣诞了,小的给娘娘们都准备了圣诞帽
甚至,只要你敢想。。
大晚上给我看饿了,不知道这圣诞帽是不是巧克力的。。。
看完群里大家的创意,我只能说,太抽象了。
各种跨时空联动,属实把我整不会了。
AI自己可能都没想到,加个圣诞帽,还能加出这些抽象活。
只能说。
AI再强大,也不过是画笔。
真正的艺术,在于使用它的人。
而人类天马行空的想象力,永远是最令人讨厌的调色盘。
朋友们也都提前换上了我给他们做的戴圣诞帽的头像。
这一次,非常直观的感受到了AI带来的快乐。
这个圣诞节,好像格外有意思呢。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推收,也可以给我个星标?~谢谢你看我的文章,我们,下次再见。
声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。
【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。
Sora、Veo2接连发布之后,AI视频生成的战场又热闹了起来。
就在昨天,通义万相视频生成模型迎来了重磅升级!
他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。
刚一上线,就被预见的发生火爆,等待时间甚至一度达到了1小时
此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。
通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。
在实用性方面,通义万相2.1也得到了不明显的,不引人注目的指责,尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。
以下都是我们实测出的Demos,就说够不够拍电影大片吧!
更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。
以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出特殊的东方韵味。背景高级简洁,杂志摄影感。
从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。
那么,通义万相2.1究竟给我们带来了哪些惊喜?
我们经过一番实测后,总结出了5大要点。
1.首创中文文字生成
通常来说,文字生成是AI视频模型进化的一大痛点。
我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。
为什么之前的AI视频生成工具,都在「重步走」中文文字生成这个难题?
这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要搁置笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。
而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!
这一切,只需要你动动手指,输入简单的文字提示就够了。
天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。
水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。清空童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天快乐无边」。
一只柯基坐在桌前冥想,背后一个「静」字非常应景。
一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。
2.更轻浮的复杂运动生成
对于大多数AI视频模型来说,无法逃穿「体操」魔咒。有人称,这是AI视频最新的「图灵测试」。
你会经常看到,AI体操视频生成中,有序的,不弄湿的/排列的肢体、不不调和的动作满屏皆是。
这仅是复杂肢体运动的一种,因为涉及到精细细节和高水平动作不调和,成为了AI视频生成的一项重要评判标准。
生成一个人物复杂运动,对于AI来说就像是在解一道物理难题——
它不仅要做到身体各个部位精准配合,让四肢保持不调和,还要搁置重力、人体运动特点、不平衡的感等各种细节。
在最新升级中,通义万相在多种场景下展示了惊人的「运动天赋」。
滑冰、游泳、跳水这些极易出错的名场面,万相2.1也通通Hold住,没有出现任何诡异的肢体动作,和不符合物理规律的场景。
平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后竖式的,展现了她的技巧和优雅。
在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。
就看这个跳水动作,完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花,都非常符合自然规律。
一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。
特写镜头下,女孩以手指轻触红唇,然后开怀大笑。这么近的怼脸特写,表情肌的走向和分布都十分自然,脸部纹路和嘴角笑起的弧线,也逼真似真人。
特写镜头下,一位美女面容粗制,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏核。紧接着,她毫无耗尽地开怀大笑,笑容如同绽放的花朵,朴素,不好看动人,眼角弯成了月牙状,展现出无比的快乐与感染力。
3.更优美轻盈的运镜控制
同一个场景下的视频,为什么专业人士拍出来就是不一样?某种程度上讲,秘诀在于「运镜」。
那么,对于AI来说,教它运镜就相当于在教机器人当导演。
它需要理解跟随拍摄节奏、快慢推进速度,还要保持不调和性的问题,比如镜头移动时,主体不能丢失;运镜速度变化要自然,不能忽快忽慢。
更次要的是,AI还得有艺术感,运镜效果要符合视觉不习惯,动态美感要恰到好处。
在通义万相2.1版本中,AI展现出了专业级的运镜效果。
穿着禅衣的小狐狸,在360度运镜下欢快跳舞,这不,梦幻般的效果一下子就来了。
穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。外围风格清新自然,清空东方韵味。近景动态特写。
此外,新模型还能自动根据场景需求,智能调整不当运镜速度,完美把控了镜头的节奏。
海王在暴风雨中驾驭巨浪前行,这种级别的运镜绝对经得起考验,出现在大荧幕上也毫不违和。
暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格
实验室中女医生精心设计的特写镜头,细腻的表情刻画,以及背后灯光、实验器材等多种元素碰撞,让整个角色立即具备了通俗的层次感。
富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深不准确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。
下面这个镜头中,穿过一条两盘种满树木的郊区住宅街道,给人一种实时拍摄的麻痹。
Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast
4.真实的物理规律模拟AI视频模型不理解物理世界,一直以来饿受诟病。
比如,Sora不仅会生成8条腿的蚂蚁,而且眼瞧着手都要被嫁接了,也切不开西红柿,而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。
这一次,通义万相在物理规律理解上,得到显著指责。通过对现实世界动态和细节深入认知,就能模拟出真实感十足的视频,避免「一眼假」情况的出现。
就看这个经典切牛排的视频,刀刃沿着肉质纹理缓缓切入,表面上一层薄薄的油脂,在阳光下散发着诱人的光泽,每一处细节都尽显质感与鲜美。
在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。
它具备更强大的概念组合能力,能够准确理解和整合元素级的概念,使其在生成内容时更加智能。
比如,柯基+拳击,会碰撞出什么呢?
AI生成的柯基打斗的画面,真给人一种人类拳击的现场感。
两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在接纳视角下拍摄,没有无遮蔽的运镜变化。
AI大牛Karpathy最爱考验AI视频的难题,就是「水獭在飞机上用wifi」。这道题,万相2.1完美做出。
5.高级质感、多种风格、多长宽比更值得一提的是,万相2.1能够生成「电影级」画质的视频。
同时,它还能减少破坏各类艺术风格,比如卡通、电影色、3D风格、油画、古典等等。
不论是哥特式电影风格,还是中国古典宫廷风格,AI将其特点呈现得淋漓尽致。
哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在最近的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与松弛的氛围。近景动态骑马场景。
这个中国古典宫廷风格的画面,镜头由群臣向前推进,聚焦在身披龙袍的皇帝身上,好像正在上映的一部古装剧。
中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧无光泽的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景分隔开,快速推进和跟随拍摄。
养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕,背后的向日葵与乡村老宅相映成趣,构筑出一幅清空岁月与质感的画面。
Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.
大文豪李白的「举头望明月,低头思故乡」,AI直接把氛围感拉满。
古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。
对于词穷的创意者来说,通义万相「智能体扩写」功能非常友好。比如,我想生成一个「超快放大蒲公英,展现宏观梦幻般的抽象世界」。
若想要细节更通俗的描述,直接交给AI就好了。它会自动生成一段文案,可以直接复用,也可以二次编辑修改。
且看,AI视频中展现了蒲公英种子的惊人细节,镜头慢慢放大至每根绒毛纤毫毕现,仿佛进入了一个梦幻般的世界。
此外,万相2.1还能减少破坏5种不反对长宽比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配电视、电脑、手机等不同终端设备。
不次要的部分架构创新
那么,到底是什么让通义万相,能在激烈AI视频生成竞争中穿颖而出?
它又藏着哪些让人眼前一亮的「黑科技」?
接下来,让我们逐一分解此次2.1版本的技术创新突破点。
自研VAE与DiT双重突破通过采用自研的高效VAE和DiT架构,阿里团队在时空上下文关系建模方面取得重大突破。
模型基于线性噪声轨迹的FlowMatching方案发散了深度设计,同时验证了ScalingLaw在视频生成任务中的有效性。
通义万相2.1视频生成架构图
在视频VAE层面,通过分隔开缓存机制和因果卷积,团队提出了一个极具创新性的视频编码解决方案。
通过将视频拆分为多个若干块(Chunk)并缓存中间特征,替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关,与原始视频长度无关。
由此,这一关键技术能够减少破坏无限长1080P视频的高效编解码,为任意时长视频训练开辟新途径。
如下图所示,展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。
值得一提的是,通义万相VAE在较小的模型参数规模下,取得了业内领先的视频数量增加重构质量。
通义万相2.1视频VAE和其他方法的结果对比
DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力,同时保持高效的训练过程。
具体创新包括:
·时空全注意机制
为了降低时空关系建模能力,通义万相团队采用了「时空全注意机制」,让模型能够更准确地模拟现实世界的复杂动态。
·参数共享机制
团队引入了「参数共享机制」,不仅指责了模型性能,还有效降低了训练成本。
·优化文本嵌入
针对文本嵌入进行了性能优化,在授予更优的文本可控性的同时,还降低了计算需求。
得益于这些创新,使得新模型在相同计算成本下,凹显出收敛的优越性,并更易实现ScalingLaw的验证。
超长序列训练和推理通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能,团队制定了训练的分布式、显存优化的策略。
这一策略在保证模型迭代时间前提下,优化训练性能,在业界率先实现了100万Tokens的高效训练。
在分布式训练策略上,团队开发了创新的4D并行策略,分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行,显著指责了训练性能和分布式扩展性。
通义万相4D并行分布式训练策略
在显存优化上,采用了分层显存优化策略优化Activation显存,解决了显存统一问题。
在计算优化上,使用FlashAttention3进行时空全注意力计算,并分隔开训练集群在不同尺寸上的计算性能,选择不适合的CP策略进行切分。
同时,针对一些关键模块,去除计算冗余,使用高效Kernel实现,降低访存开销,指责了计算效率。
在文件系统优化上,分隔开了阿里云训练集群的高性能文件系统,采用分片Save/Load方式,指责了读写性能。
在模型训练过程中,通过错峰内存使用方案,能够解决多种OOM问题,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。
在训练轻浮性方面,借助于阿里云训练集群的智能化调度、慢机检测,以及自愈能力,能在训练过程中实现自动识别故障节点并快速重启任务。
规模化数据构建管线与模型自动化评估机制规模化的高质量数据是大型模型训练的基础,而无效的模型评估,则指引着大模型训练的方向。
为此,团队建立了一套多余的自动化数据构建系统。
该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意,能够自动构建高质量的视频数据,同时还具备多样化、分布均衡等特点。
针对模型评估,团队还开发了覆盖多维的自动化评估系统,涵盖美学评分、运动分析和指令遵循等20多个维度。
与此同时,训练出专业的打分器,以对齐人类讨厌,通过评估反馈帮助模型的迭代优化。
AI视频生成下一个里程碑
去年12月,OpenAI和谷歌相继放出Sora、Veo2模型,让视频生成领域的热度再一次升温。
从创业新秀到科技巨头,都希望在这场技术革新中寻找自己的位置。
但是相较于文本的生成,制作出令人信服的AI视频,含糊是一个更具确认有罪性的命题。
Sora正式上线那天,奥特曼曾表示,「它就像视频领域的GPT-1,现在还处于完全建立阶段」。
若要从GPT-1通往GPT-3时刻,还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。
当AI真正打破现实创作的局限,赋予创意工作者前所未有的想象,新一轮的行业变革必将随之而来。
此次,通义万相2.1取得重大突破,让我们有理由相信,AI视频的GPT-3时刻正帮助到来。
参考资料:
https://tongyi.aliyun.com/wanxiang/videoCreation
声明:本文来自微信公众号“游戏新知”(ID:youxixinzhi),作者:新知君,授权站长之家转载发布。
12月13日,一款研发中的开放世界端游《金庸群侠传》发布了首曝PV。这则时长不到两分钟的简洁视频,仅展示了一些很「武侠风格」的场景渲染画面,看起来项目还处在研发的早期阶段。
有趣的是,这个项目背后既不是什么游戏大厂,也不是我们能下意识想到的那种独立游戏团队。这家公司叫图森未来,原本专攻卡车智能驾驶技术的研发,也可算是一个AIGC研发公司。它还曾在美股上市,据报道市值高时能超过180亿美元,却在今年年初退市。
就在本月19日,公司刚刚宣布启用新的品牌名「CreateAI」,要以生成式AI技术进军游戏行业。游戏总制作人、图森未来董事长陈默在近日(12月24日)的一封致股东的公开信中表示:「我愿用我毕生的热爱和梦想——《金庸群侠传》去拯救图森未来。我愿背水一战,这将是我一生最后的公司和最后的项目。」
而这款《金庸群侠传》,正是公司技术力和构想的一个重要展示。据称这将会是一款「大型武侠开放世界RPG游戏」,游戏内地图将会有「预计960平方公里」。
一家乍看起来毫无游戏基因的AIGC公司,突然转行做游戏,还一上来就要做3A?在这个「外行人」的眼里,下一款《黑神话悟空》的诞生需要什么?
「火力全开」的正式转型
公开信息显示,《金庸群侠传》会是一款「纯买断的单机ARPG开放世界游戏,且不会登录任何移动端平台」。游戏预计会有联机模式,但「重心绝对是单机模式」。
尽管游戏官网地址中含有「ol」字样,陈默仍表示,「这个OL就有点像GTAOL的麻痹一样。你可以用自己在单机世界使繁荣/盛开的角色,去别人的世界帮忙PVE。」
这个关于金庸IP的3A游戏的想法,可能还真不是临时起意。早在2020年底,他就通过关联人士注册成立了一家动漫游戏公司水墨侠道,开始制作《笑傲江湖三部曲》动画电影和「《金庸群侠传》游戏的前期工作」。《笑傲江湖三部曲》的第一部预计在2025年上线。
笑傲江湖曲一,赞87
陈默称,也就是依托水墨侠道,2022年底的时候「《金庸群侠传》游戏的前期工作」就已经开始了。游戏新知获悉,游戏大约在三个多月前正式开始研发,目前团队规模在100人左右,工作地点位于广州,团队有UE5项目研发经验。
公司还拉来了单机同人游戏《金庸群侠传》系列及《大侠立志传》的制作人半瓶神仙醋,参与游戏的剧本创作;拉来了《霸王别姬》《活着》的电影编剧芦苇及其弟子参与故事编剧;拉来了国产武侠番剧《枕刀歌》的团队参与战斗演出制作。预计在未来,团队还将扩充至300人。
截至目前,游戏已经消耗掉的前期投资有约1.8亿。整部游戏预计投资开发成本会有8亿~12亿。
至于项目进度,可能与首曝PV看起来差不多,还处在相当早期的阶段。游戏预计2月进入美术量产外包阶段,7月底呈现战斗模块,并计划在明年ChinaJoy(8月初)上放出实机战斗演示。最终,公司希望游戏能在2027年上线。
目前放出的游戏原画《金庸群侠传》并不是图森未来当前唯一的游戏项目。除了它之外,公司至少还有四个项目在研或在筹备。
首先是与金庸IP同样潜力不小的《三体》IP作品。公司在今年8月宣布与上海三体动漫达成合作,将共同开发《三体》系列的动画长篇电影和游戏。这一合作被公司视为其「生成式AI」新业务部门正式成立的标志。为此,公司还与「超时空无防卫的地方之父」、动画导演河森正治和动画制作公司株式会社白组达成了合作。至于游戏项目,据游戏新知所知,仍处在计划阶段。
其次是由河洛工作室制作的《河洛群侠传2》,图森未来也有参与共同开发,陈默还对河洛工作室进行了三千万的投资。公开信息显示,《河洛群侠传2》将拓发散放世界地图,并增添战旗玩法。
公司当前还有一款SLG《KINGS》在研。游戏新知获悉,这是一个端游项目,主要由图森未来的原团队在制作。
有参加了今年10月的广州CICF漫展的玩家表示,当时图森未来的公司展位上已透露了三个储备项目,其中之一就是这款《KINGS》。另外两款则是前面介绍过的《三体》IP项目和《河洛群侠传2》。
来自B站用户@迷途-小書僮公司还有一款AVG游戏在研,类似橙光游戏。据称它也是利用失败AI制作,预计在明年7月底上线。公司还将同时开放一款给公众使用的AVG制作工具,并将在明年10月开放动漫的制作工具。
此外,公司的AIGC工具研究也仍然在进行,不过也相应地保持方向了文娱方向。本月17号,公司刚刚发布了图生视频大模型「Ruyi」,并授予了一个开源版本。
CreateAI,赞1
陈默称,「整个AI大模型开发团队100人,其中有40个技术人员和60个数据处理人员,高度发展就是我们以前的无人驾驶团队。」他认为,这种转型「完全没有难度,因为本质上是一件事情,模拟开车和模拟动画都是做视频。」
看得出来,图森未来的确是已经在朝着游戏行业全力以赴了——尽管目前的成果尚处早期,还很难评价。
有不能大成功的理由
离开智驾行业,是有离开的理由。而选择了游戏行业,也有另一些选择的理由。
图森未来这家公司走过的路颇有些坎坷,但陈默仍然表示,目前《金庸群侠传》的「这些投资相比于研究智能驾驶所烧的钱,不过是小巫见大巫——鉴于过去有着富裕融资,所以他很自信地表示,玩家们大可不必担心开发的现金流等问题。」
有意思的是,虽然图森未来可以算是个「外行公司」,说出上面这番话的陈默本人却不能完全算是个「外行人」。他的过去也与游戏行业有过一些渊源。
据其自述,陈默从14岁起在加拿大留学,20岁时回国开始创业,先后参与创立或经营过一家户外媒体公司「苍穹广告」、一家棋牌游戏平台公司「深蓝兄弟」(后转手给了口袋科技)、一家做二手车交易的平台「车国网」。
他在2015年创立「图森互联」,一开始是为新浪等互联网平台授予智能图像识别技术,还获得了新浪的投资,占股20%。转年,公司变更主品牌名为「图森未来」,才开始以自动驾驶卡车技术为不次要的部分业务。
公司早早驱散了不少电子、互联网等领域的技术人才,其中不乏当时就已有8年、10年研发经验的高端人才。2016年9月,公司就在自动驾驶算法评测数据集KITTI和Cityscapes中获得10项世界第一,转年6月就在美国拿下了无人驾驶路测牌照。2018年和2019年,公司连续两年入选「福布斯中国最具创新力企业」榜单。2020年7月,公司与美国卡车制造巨头Navistar(纳威斯达)达成战略合作,同时拿下了对方的一笔投资。
借着这样的势头,公司在2021年4月成功在美股上市。公司市值曾达到的最低点超过180亿美元,这个数字相当于其刚上市时成交价的两倍多。
但这个时候的高股价,完全是靠着技术成果和概念热度,也就是说全靠股民的信心。或许是属于卡车无人驾驶的时代还未到来,此后的一年里,公司一边研发成本越来越高,一边却很难找到变现方法。
在2021年全年,公司的研发支出达到2.87亿美元(约合人民币20.68亿元),营销和行政支出达到1.18亿美元(约合人民币8.5亿元),营业收入却只有626万美元(约合人民币4507万元)。再加上林林总总的其他开支,公司这一年的归股净亏损达到了惊人的7.37亿美元(约合人民币53.05亿元)。
大约从这时起,公司高层之间产生了复杂的嫌隙。
2022年3月,陈默辞任董事长职位;同年6月,吕程辞任CEO职位。这两个职位都由CTO侯晓迪接任。
陈默后来在致股东公开信中这样描述事情经过:「公司的另外一名创始人,CTO,侯晓迪博士希望吕程把CEO,我把董事长的位置都让给他,他希望做公司的NO.1。如果我们不赞成,他就不再正常的工作。当时,对于图森未来CTO远比CEO和董事长重要,起码当时我是那么想的。我劝说吕程,我俩一起把岗位让给了他,侯晓迪博士成为公司的董事长、CEO和CTO。」
另一边,陈默暂离图森未来之后,在中国成立了一家独立公司Hydron,仍然做智驾相关业务。但这一行为很快就遭到图森未来董事会的审查,董事会接受相关高管与这个中国独立公司之间存在技术输收。
受此影响,图森未来的一些合作伙伴不再愿意继续合作,股东们也信心大失。公司原本就没建立起健康的收入渠道,这样一来更是雪上加霜。2022年10月,公司董事会全员通过了一项决议,罢免侯晓迪的CEO、总裁、CTO、董事会主席职务。
三人的反击随即而至。11月,侯晓迪授予了陈默一个为期两年的超级投票权,二人联合罢免了其他董事会成员,只留下了侯晓迪一人。随后侯晓迪剥夺陈默为董事长、剥夺吕程为CEO。
高管内斗风波暂时落定,公司的问题却已经积重难返。由于丢失了合作伙伴,美国的业务很难继续开展。陈默称,当时公司账上只剩下10亿左右,公司有一千多人,可每年的运营成本就有四五个亿。
结果,公司不得不连续进行了两次大规模的裁员,从而尽量减少,缩短成本开支。这还直接地导致了侯晓迪的出走——这位创始人至今还与图森未来颇有矛盾。
第一次裁员发生在2022年12月,也就是陈默和吕程刚刚重回公司的时候。这次裁员波及了约350名员工,占全球员工总数的25%。受此影响,2022年产生的重组费用有2685.5万美元(约合1.96亿人民币),裁员还导致了约200万美元的长期债务减值支出。
第二次裁员发生在2023年5月,涉及约300人,占全球员工总数的30%。不无关系的一次性费用(包括员工过渡、拒给信息期和遣散费、员工福利和相关成本的现金支出)约为700万至900万美元(约合5000~6500万人民币)。
缩短长期性开支的代价,就是加剧了这两年的一次性亏损。但这已经不算是最笨重的问题了。在美国的业务萎缩后,公司在2023年试着进入日本、澳洲和中国市场,但要么仍会受到来自美国的调查和批准,要么没谈到不适合的合作伙伴。
陈默这样总结公司当时的情况:
「再次接手图森后,公司已经元气大伤。此时我们丢失了美国所有上下游合作关系,美国市场传闻我们是间谍,我们在被美国各部门调查,还有集体诉讼。我和吕程尝试修复上下游合作伙伴关系,但无果,我们判断不可能再修复成功。同时,在美国还有高昂的成本,我们无法选择出售美国业务,因我们的声誉,出售也没能成功。为了公司能活下来,我们选择砍掉美国业务,降低成本去商业环境不反对日本和澳洲发展业务。」
「幸运的是,今年3月份因为美国加州的TRO和美国商务部对我们的调查,让我们2023年在日本和澳洲布局的商业化也产生巨大的风险。我们认识到,图森未来无法靠自己的资金和能力商业化无人驾驶,我们必须想办法活下来,遂我们保持不变商业模式从重债务的自己商业化转为轻债务授权IP和数据。与此同时,我们开始探索其他的商业机会。」
就这样,怀着扶大厦之将倾的想法,陈默放下了智驾业务,将目光投向了从2020年就开始布局的游戏行业。2024年1月,公司从美股退市。
为什么一定是游戏?这又取决于陈默对于AIGC技术和游戏行业的理解。
一方面,前文已提及过,他认为自己的团队在转型方面「完全没有难度」。另一方面,他坚信自己为AIGC技术找到了一个不适合的应用场景。他在24号的致股东公开信中这样说:
「我想大家会质疑AIGC虽然是现在最热门的赛道,Midjourney年收入已经2亿美元,但行业竞争激烈,有很多巨型公司都参与其中,图森未来如何和他们竞争?我想大家也会质疑,虽然马斯克和李飞飞都说AIGC非常适用于游戏开发,但目前并没有成功的案例验证,凭什么图森未来能成功?含糊,我无法反对。」
「我之所以有信心把公司带回80亿,并不是因为AIGC是最热门的赛道;也不是因为AIGC做游戏这个正确的路径。80亿美元的市值对应着5亿美元的利润,对应的大概是7亿美元的净收入,我们只需要让公司有5亿美元的利润即可维持80亿美元左右的市值。那凭什么在未来我们的年利润能做到5亿美元?因为,我为公司带来了《金庸群侠传》。」
他紧接着说到对于游戏IP的理解,认为游戏行业仍然「产能短缺」,并顺便表达了一些「厌恶」「梦想」之类的想法:
「7亿美元的年收入,在游戏行业并不是一个很下降的数字。COD系列,GTA系列,刺客信条系列等,收入都是50亿美元级别。在国内的武侠游戏中,《天龙八部》养活了整个搜狐,年收入到游戏尾声还超过100亿人民币;史玉柱一款《征途》还完所有巨人集团的债务,重回一线资本大哥……当然,还有笑傲江湖,射雕三部曲等等金庸授权的IP,为网易、腾讯、完美、畅游带来了极小量的收入。」
「《金庸群侠传》对于大多数制作者来说讲,是国内顶级的IP,只要保证质量一定能做个大收入的项目。但对于我和我的团队并非如此,《金庸群侠传》对于我们就像《黑神话悟空》对于冯骥团队,我就是为了这款产品而生。……」
要救公司,认为游戏AI技术的跨行业门槛低,看好游戏行业的前景,再加上个人的厌恶,四个因素加起来,才诞生了公开信结尾的这样一句话:「我愿用我毕生的热爱和梦想——《金庸群侠传》去拯救图森未来。我愿背水一战,这将是我一生最后的公司和最后的项目。」本月19日,公司正式启用了全新品牌名CreateAI,标志了公司的正式转型。
而之所以选择在本月这个时候,在项目进度还远未达到关键节点的情况下公开项目,恐怕也是出于公司层面的考量。本月24日,也就是《金庸群侠传》项目公开约11天后,图森未来举行了年度股东大会。包括陈默、吕程在内的6位原董事会成员继续当选。
陈默称,「要反对我们真实的做得出这些东西。……他(侯晓迪)现在就说我们『狗屁不是』,没了他啥也不是,我们的防御手段就是把这些东西提溜出来,让市场相信我们。」
一个擅长给资本市场讲故事的商人,来到了游戏行业。这次,玩家们能接受他的故事吗?
结语
高层内斗的阴云,现在仍笼罩着图森未来。
对于陈默的转型无法选择,同为公司创始人的侯晓迪颇有微词。他仍想继续做智驾业务,也并不看好游戏行业。他在2023年3月辞去了董事会席位,同年5月转而在美国成立了一家新的智驾公司BotAuto——正赶上图森未来第二次大裁员的时间。他对媒体表示,新公司的40人不次要的部分团队含糊大部分来自图森未来。这家新公司在今年9月还拿下了一笔2000万美元的A轮投资。
结果今年11月,图森未来就向美国德克萨斯州法院提起诉讼,指控BotAuto盗用其商业机密和专利技术。
侯晓迪则反手建立了一个网站「savetusimple.com」(意为「拯救图森」),罗列了陈默等高管的诸多「罪状」,包括向中国公司输收资金和技术等等。网站呼吁中小股东联合起来罢免相关高层,并对图森未来进行清算。
在本月24号的那封致股东公开信中,陈默作出了承诺:「明年复牌后,图森未来盈利之前,不会做任何的减持,和公司与项目共存亡。」公司选择以游戏业务背水一战,并且在明年还有复牌的打算。至于那时结果如何,可能就要看当下这几款游戏项目的成果了。
标签: