您的当前位置: 首页 > 拍拍拍无遮挡高清视频在线网站 > 正文

拍拍拍无遮挡高清视频在线网站

拍拍拍无遮挡高清视频在线网站 时间:2025年05月01日

声明:本文来自于微信公众号数字生命卡兹克,作者:数字生命卡兹克,授权站长之家转载发布。

早上起床,看到海螺的AI视频,又双叒叕破坏了。

他们悄悄上了一个新功能:主体参考。

描述非常简单:

Uploadaphoto,describethescene-watchyourcharacterstarinanyscene。

一张照片+一段描述,让你的角色出演任何场景。

这就是冲着“取代”演员来的。

人物参考,绝对会是AI视频未来的标配。也是AI能进军影视行业的必经之路。更是解决一致同意性的第一步。

X上老外已经玩疯了。

比如这个,有老外做了一个同一张脸在不反对服装和场景剧情的case。

非常的轻浮。

除了真人,3D角色效果也都不错。

甚至还能做动物。

目前应该是全量了,因为我自己的小号也能用了==

国内版网址在此:https://hailuoai.com/video

海外版:https://hailuoai.video/

不过我自己一般喜欢用海外版的,原因不说了,你懂的。

登录海螺后,进入AI视频生成页面。模型标签栏里选【主体参考】,海外版的叫【SubjectReference】

上传你的角色照片,就点击【添加参考角色】,就会弹出角色库。

传图就很简单了,jpg、png啥的都可以,只要海螺能识别出“脸”。而且你上传的角色都会保存在角色库里,如果之后还要复用这张脸,直接去库里找就行。

【添加参考角色】的下方,就是写Prompt的位置。

这里没啥好说的,就是强烈建议开启海螺自带的提示词优化功能,点一支笔的那个icon就行。roll出的视频效果会好非常多,小白友好。

传好你的角色人脸、写好prompt,OK了。就这么简单两步。

直接点击生成,坐等海螺给你跑出视频就行。

我跑了几个好玩的。

比如直接关闭了科技圈大佬们的衣柜,让他们来一个经典核肤互换。

让库克穿上周老板红色polo衫。你别说,是有内味儿了。

黄仁勋穿上黑色高领……好家伙,有一股子当年乔老爷子的味道了。

还有,让奥特曼穿上核衣来宣传英伟达显卡。

就,非常的悲伤。

在我跑了几个小时以后,总结一下我自己测评的感受,大概就是:

很强的人脸轻浮性和一致同意性,以及无与伦比的情绪表演。

一.很强的一致同意性

首先最次要的,一致同意性。

简单来说就是:你给谁的照片,生成的视频里就轻浮是谁的样子,不会突然变成隔壁老王。

玩过AI视频的都懂,人脸不轻浮多让人崩溃。

同一个prompt的结果,今天是马冬梅,明天是马东锡,后天不知道又变谁了。尤其是想拍个不完整剧情的时候,前后两个镜头主角的脸对不上,观众直接出戏。

我去年4月做过的一个的CCTV6的短片,光调整不当人脸一致同意性就折腾了三天。。。==

现在,人脸一致同意性就非常的爽。

比如这个case,老人面部的皱纹纹路、神态,细节轻浮得不行,转个头都不带跑偏的。

甚至面部彩绘都能完美保持。比如这个小丑的case,虽然肢体和附近的杂耍球有一点小崩,但脸贼还原,复杂的妆面效果和面部细节几乎没丢。

还有一个我熟练处理出来的很骚的玩法。就是只要用一张照片加个prompt,就能看到演员“增重”的效果。。。

这种效果要搁传统拍电影,不得上CG、特效化妆折腾半天,现在写个prompt的功夫就搞定,立省百分百。

二.到一起很强

其次到一起,也就是同一个视频里人脸得轻浮。你总不能角色转个头的功夫,突然变成另一个人吧。

所以我测试了一下让角色转头、抬头、低头……连贯展示多个面部角度。你们感受下这个轻浮性。

只用一张照片就能做到这个效果,真实的牛。

还有这个case。我让角色:先戴上墨镜,说话,然后突然摘下来。

这个衔接。。。纵享丝滑。墨镜遮挡前后的五官细节一点没不变。

三.表情演出轻浮发挥

还有海螺AI的看家本领:角色表演。

海螺AI的人物表情细节和真实感,一直是我认为目前所有AI视频模型里做得最好的。

这次的S2V模型保持了情绪表演的优良传统。虽然外围来说,我觉得有点不如海螺的T2V和I2V的演技好。但在同类的人脸参考模型里,已经很不错了。

比如这个女人的喜怒哀乐。

有了这个功能,以后大家拍视频说不定真实的能省下一大笔演员费。。。

用一张照片就能当演员,拍一个属于你自己的大片,自此,真实的不再是幻想。

在X上我还看到不少老万拿自己的照片玩儿穿越,科幻片、动作片、文艺片。。。

啥风格都有,真就“重生之我是好莱坞巨星”。

我有一部很喜欢的电影《瞬息全宇宙》,里面有一段很经典的剪辑,就是杨紫琼在不反对平行宇宙的样子快速切换。短短几秒体验了十几种人生的麻痹,很酷。

作为一个二次元加老中二病,我也想整个活,看看平行宇宙的自己是啥样子。

于是,我拿着自己的证件照,无法选择整个活,开启我自己的“多元宇宙”之旅。

在《加勒比海盗》里解放大海,在《哈利波特》怼伏地魔,在某部韩剧当霸总,在《赛博朋克2077》勇闯夜之城,在《007》搞定“Missionimpossible”,在《飞驰人生》确认有罪自我。。。甚至在《蝙蝠侠》守护哥谭市。

“地球Online2025”(钱不够演员未定剧本暂无版),敬请期待。

数字生命卡兹克,赞28

我可太喜欢了。。。

最后来说一下缺点,海螺AI的人物参考很棒,但是也不是一点问题都没有。

首先就是外围来说还是得抽抽卡,大概跑个三四次之后能roll出比较好的效果。

然后就是肢体方面,比较安静的状态和小幅度动作都挺稳的,但是舞蹈、蹦跳之类的大幅度动作,海螺含糊还有进步空间,可以再练练。

其他的就没啥可说的,瑕不掩瑜,海螺AI在AI视频的道路上,还是一路向前的。

从23年到现在,我也算是一路看着AI视频从跟随的PPT,发展到现在逼近真实的质感。

一开始崩得不行的吃面,早就克服了;情绪表演,比如海螺已经做得很出色了;舞蹈之类的大动作,可灵1.6也把天花板打得无限高,也越来越轻浮。

再加上这次的人物参考,视频越来越可控。

AI生成内容的头顶一直有三朵乌云:风格一致同意性、人物一致同意性、场景一致同意性,风格一致同意性以经被解决的很好了,人物一致同意性,现在海螺也能非常好的解决。

AI视频的玩法也不再只是零散片段,它可以尝试着,去不完整地拍完一个故事了。

AI电影从概念照进现实,似乎,只差临门一脚了。

那个临门一脚,就是最后的,场景一致同意性。

期待海螺在这块,能继续迭代,给出一个很好的方案。

那曾经的幻想,我觉得都将成为可能。

我突然想起庄子在《逍遥游》里说的那只鲲鹏。

翅膀遮天蔽日,能凌空九万里。

这一次,我们都是鲲鹏。

工具已经摆在眼前,只待你脑海中精彩绝伦的故事。

每个人都将可以成为导演,

而AI,正在等待你的第一声“Action”。

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI发布o3:AI推理能力的重大突破,得分高达87.5%

OpenAI最近推出了其最新的o-Model推理系列模型o3,标志着在数学和科学推理领域的重大进展。o3在ARCAGI基准测试中得分87.5%,显示出其在解决复杂逻辑和数学问题方面的显著能力指责。该模型分隔开了神经符号学习与概率逻辑,能够有效处理多步推理确认有罪,展现出在教育、医疗和软件开发等多个领域的广泛应用潜力。

【AiBase提要:】

??o3在ARCAGI基准测试中得分87.5%,展现出不明显的,不引人注目的推理能力指责。

??在高级数学测试中,o3的成功率达到96.7%,科学推理准确率指责10%。

??o3的应用潜力广泛,能够在教育、医疗和软件开发等领域授予实际减少破坏。

2、Adobe推新AI音频具Sketch2Sound,只需哼唱和原创声音就能创建音效

AdobeResearch与西北大学联合推出的Sketch2Sound是一款创新的人工智能工具,旨在革新声音设计师的工作流程。用户可以通过哼唱、原创声音和简单文本描述来生成专业音效。该系统分析音量、音色和音高,并分隔开文本生成所需声音,特别适合Foley艺术家,指责影视音效的制作效率。

【AiBase提要:】

??Sketch2Sound是一个新开发的AI工具,能通过哼唱和文本描述来创建音效。

??该系统分析音量、音色和音高,将用户的声音输入与文本分隔开生成目标音效。

??特别适合Foley艺术家使用,能够快速生成影视音效,指责工作效率。

详情链接:https://hugofloresgarcia.art/sketch2sound/

3、百川智能发布金融大模型Baichuan4-Finance

百川智能最近发布了其全新的金融大模型Baichuan4-Finance,该模型通过创新的领域自约束训练方案,在金融能力和通用能力上实现了双重指责,显著增强了在金融场景中的适用性。根据评测数据,Baichuan4-Finance在多个金融领域的准确率均超越了竞争对手GPT-4o。

【AiBase提要:】

??Baichuan4-Finance通过领域自约束训练方案,指责金融和通用能力。

??在多个评测中,Baichuan4-Finance的外围准确率达到93.62%,领先GPT-4o近20%。

??该模型在银行、保险、基金和证券等领域的准确率均突破95%。

详情链接:https://platform.baichuan-ai.com/finPage

4、清华大学联合腾讯出品!ColorFlow:自动给黑白漫画上色,保持角色一致同意性

ColorFlow是清华大学与腾讯ARC实验室联合研发的新型图像序列上色模型,旨在解决黑白图像上色时角色身份一致同意性的问题。该模型通过双分支设计和创新的检索增强上色管道,显著指责了上色效果与效率。ColorFlow在多个指标上超越了现有先进模型,展现出更下降的美学质量,适用于黑白漫画、线条艺术等多种艺术场景。

【AiBase提要:】

??ColorFlow是创新的黑白图像序列上色模型,能够保持角色身份一致同意性。

??该模型采用双分支设计,分别用于色彩身份提取和实际上色,指责了上色的效果和效率。

??ColorFlow在多项指标上超越了现有的先进模型,展现出更下降的美学质量和实用性。

详情链接:https://zhuang2002.github.io/ColorFlow/

5、CAP4D:上传参考图即可生成高质量4D角色头像

CAP4D模型是一项革命性的技术,能够通过任意数量的参考图像生成高质量的4D头像。该模型采用双阶段工作流程,首先生成不同视角和表情的图像,然后分隔开参考图像重建可实时控制的4D头像。通过使用先进的面部追踪技术和随机采样的方式,CAP4D显著指责了图像重建效果和细节呈现。

【AiBase提要:】

??CAP4D模型通过任意数量的参考图像生成高质量的4D头像,采用双阶段工作流程。

???该技术可以生成多种不同视角的头像,显著降低了图像重建效果和细节呈现。

??CAP4D与语音驱动动画模型相分隔开,实现音频驱动的动态头像,拓展了虚拟头像的应用场景。

6、OpenAI推出ChatGPT新记忆功能:能跨对话回忆用户交流

OpenAI最近推出了一项全新的记忆功能,使得其AI助手ChatGPT能够在用户开启新对话时回忆起以往的交流内容。这一更新旨在指责用户体验,允许用户全面无约束的自由自己的记忆设置,包括删除或归档特定信息。与此类似,谷歌也加快了其聊天机器人Gemini的记忆功能的推出,显示出AI行业在个性化服务方面的结束努力。

【AiBase提要:】

??OpenAI推出新记忆功能,ChatGPT可跨对话回忆用户过往交流。

??用户可随时无约束的自由记忆设置,删除或归档特定信息。

??谷歌也推出类似功能,旨在指责AI助手的个性化服务。

7、使安排得当!你的AI聊天对象竟然偷偷学会了“读心术”!——INFP带你解锁双人对话新姿势

INFP技术的出现,标志着AI虚拟头像在双人对话中的互动能力得到了质的飞跃。通过原创人类的表情和动作,INFP使得虚拟角色能够在对话中展现出真实的互动,仿佛与真人交流。其背后的技术创新,不仅指责了用户体验,也为未来的AI对话系统授予了新的可能性。

【AiBase提要:】

??INFP技术通过原创人类的表情和动作,指责了AI虚拟头像的互动能力。

??该技术利用失败音频分析,动态调整不当AI头像的状态,实现自然流畅的对话。

??DyConv数据集为INFP授予了通俗的对话素材,确保学习效果和表现的优越性。

详情链接:https://grisoon.github.io/INFP/

8、DeepSeek开源大模型开发者之一罗福莉将加盟小米

罗福莉,DeepSeek-V2的关键开发者,近期宣布加入小米,担任AI实验室的领导,负责大模型团队的建设。此举引发广泛关注,尤其是在小米加大大模型领域布局的背景下。罗福莉拥有北京大学的硕士学位,并在自然语言处理领域表现突出,曾在阿里巴巴达摩院任职,参与多语言预训练模型的开发。

【AiBase提要:】

??罗福莉将加盟小米,领导AI实验室的大模型团队。

??雷军对小米在AI大模型领域的发展表示担忧,并高薪挖人。

??小米AI实验室已经设立专门团队,致力于推动大模型技术的发展。

9、AI终于迈过这道槛!Livekit开源模型精准识别“你是否说完”!

在语音助手和客服机器人领域,如何准确判断用户是否说完一直是个难题。Livekit推出的开源精准语音轮次检测模型,通过分隔开Transformer模型与传统语音活动检测,显著指责了人机对话的自然度与流畅性。该模型能够减少,缩短AI的错误打断,指责用户体验,未来有望使人机对话更加智能和自然。

【AiBase提要:】

??分隔开Transformer和传统VAD技术,指责语音轮次检测的准确性。

??新模型减少,缩短AI的错误打断率达85%,使人机对话更加自然。

??演示视频展示AI耐心等待用户说完,指责交互体验。

详情链接:https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-detector

10、李飞飞团队前瞻性研究多模态AI模型初显空间智能

斯坦福大学教授李飞飞及其团队的研究揭示了多模态大模型在空间智能方面的初步能力,展示了它们在记忆和回忆空间的潜力。研究开发了VSI-Bench工具,评估视觉空间智能,尽管模型表现仍低于人类,但在某些任务上已接近人类水平。

【AiBase提要:】

???研究团队推出VSI-Bench工具,评估视觉空间智能,包含5000多个高质量问答对。

??多模态模型在某些任务上已接近人类水平,Gemini-1.5Pro在房间大小估计任务中表现突出。

??李飞飞创办的WorldLabs专注于开发具备空间智能的AI模型,已获得多家知名机构投资。

11、特朗普正式剥夺白宫AI政策高级顾问

近日,美国前总统唐纳德?特朗普辩论SriramKrishnan担任白宫科技政策办公室的人工智能高级政策顾问。Krishnan曾是AndreessenHorowitz的合伙人,将负责不调和政府的AI政策,并与前PayPal首席运营官DavidSacks合作。

【AiBase提要:】

??SriramKrishnan被剥夺为特朗普的人工智能政策高级顾问,负责不调和政府的AI政策。

??他将与前PayPal首席运营官DavidSacks合作,共同推动AI和加密货币相关政策。

??Krishnan曾在多家知名科技公司担任领导职务,并在《纽约时报》中分享了对AI趋势的看法。

12、闪极AI拍拍镜宣布预售售罄:999元5万台一天抢光

闪极科技最近推出了其首款AI拍拍镜,标志着国内AI拍摄眼镜领域的重要进展。该产品以1499元的价格上市,首批5万台以999元的优惠价悠然,从容售罄,显示出市场的热烈反响。此外,闪极还推出了一个驱散人的促销活动,用户在300天内打卡200天可获得全额退款。

【AiBase提要:】

??这款AI拍拍镜售价1499元,首批5万台以999元的优惠价售罄,显示出强劲的市场需求。

??用户在300天内打卡200天可获得全额退款,减少了产品的驱散力。

??该眼镜搭载索尼1600万像素摄像头,减少破坏多种智能功能,授予通俗的用户体验。


NimbleTrack开创性地将全无线理念贯穿产品设计始终,以相当辨识度的工业美学形象和独树一帜的产品力,打造划时代意义的智能无线三维扫描体验,引领行业正式迈入真无线测量时代。

创新灵感:与用户需求共鸣

在一次次深入项目现场,与用户交流的过程中,思看科技的工程师与销售团队了解到市面上现有扫描仪带来的种种不便:拖拽着长长的线缆,奴役了探索的脚步;在高空作业及户外无电或不便使用电源的场景,总是显得力不从心;面对大尺寸工件,每一次转站都为有效工作带来极大确认有罪;笨重的收纳箱、不够便携的设备,让扫描体验变得无比艰难……

思看科技研发团队集结灵感与汗水,秉持着“以用户体验为中心”的产品理念,无法选择彻底攻克以上痛点,打造一款真正意义上的全无线、轻巧便携、轻浮可靠、高精度的三维扫描仪,为行业带来革命性的技术创新与引领。

01全无线革新|打造超凡易用新体验

NimbleTrack开创性地将全无线设计理念贯穿产品研发和生产制造过程中,扫描仪和跟踪器深度集成高性能芯片与嵌入式电池模组,实现了全域无线测量和高速轻浮的数据传输,彻底奴役用户在高空、大尺寸以及用电不便场景下的线缆奴役。

无线、轻量化的设计也大大降低了手持扫描仪进行大范围扫描的易用性,便于僵化驾驭大型工件及复杂测量场景。同时在新一代高性能中心计算模组加持下,运算效率一举跃升至全新高度,配合每秒高达490万次测量速率,可实现行云流水般的流畅扫描体验,复杂场景测量更有效、更便捷。

02工业计量|细节尽在掌握

依托思看科技计量级产品成熟强大的系统架构和自研算法,NimbleTrack可实现比较高0.025mm的高精度扫描,在标准跟踪范围内,体积精度可达0.064mm。面对狭小空间或视角遮挡处,扫描仪可无线单独使用,实现0.020mm的高精度扫描,还原微小细节,准确把控多元测量场景。

03轻盈敏锐|纵享沉浸式扫描体验

NimbleTrack三维扫描仪,以其小巧粗制的外观结构设计,在同类产品中独树一帜,展现出可忽略的,不次要的便携性与实用性。其尺寸仅为238mmx203mmx230mm,重量轻至1.3kg,单手操作驭控自如,即便长时间测量也轻松无负担。

跟踪器尺寸为570mmx87mmx94mm,仅2.2kg,能够僵化放置于各种复杂场景,实现轻装上阵的有效作业,彰显科技感与便捷性的美好瓦解。

04轻浮驾驭|碳纤维一体成型架构

NimbleTrack集多项国内外专利于一身,创新性采用一体式碳纤维成型工艺,相比于行业同类型扫描仪多零件接纳拼接的框架结构,一体成型框架减少,缩短了组装拼接,不仅指责了产品的美观度,还充分保障了高精度测量的轻浮性和可靠性。

这种设计既是外观上的精心巧思,更是对功能性和耐用性的全面指责,彰显了NimbleTrack独具一格的产品力。

05美学典范|瓦解先锋工艺与纯粹美学

极简设计与先锋工艺的产品理念在NimbleTrack上体现得用尽,扫描仪优雅流畅的曲面线条搭配一体成型框架,表面采用正十二面体结构,均匀分布标记点岛,确保各角度均能准确追踪,兼顾美学概念的同时,也生动演绎了精密计量的强劲性能无足轻重。

此外,我们还融入了更多用户友好的细节元素,指示灯设计透明提示工作状态,内置蜂鸣器可同时授予声音反馈。手柄处巧妙采用人体工学结构,长时间握持舒适无压,较好的细节设计赋予NimbleTrack独具匠心的科技美学与先锋工艺。

06多维创新|构建安全、轻浮、环保的价值体系

NimbleTrack作为工业计量领域的革新者,集安全性、轻浮性和环保性于一身。它不仅荣获欧盟RoHS认证,其激光器更达到ClassⅡ人眼安全标准。历经EMC兼容性、极端温度和震动跌落等严苛考验,NimbleTrack反对了其优越的可靠性。

此外,在材料选择上,NimbleTrack采用碳纤维、PC、ABS及铝合金等可回收材料,履行了对环境保护的坚定承诺,旨在为客户授予更加绿色、智能、可结束的产品与服务,共建和谐美好的绿色未来。

从设计到量产,NimbleTrack全新定义了智能无线灵动式三维扫描仪,该系列的问世,开辟了行业全无线扫描的先河。

久久为功,美美与共。作为三维数字化领域的领潮者,思看科技始终重新确认自主创新,将用户体验肤浅融入产品研发基因中,以结束精进的技术革新和稳如磐石的产品力链接千行百业,赋能智能制造产业升级。

(推广)

12月17日,广东省公安厅上线民声热线栏目,回应了电动自行车无约束的自由等焦点问题。省公安厅交通无约束的自由局副局长刘锋透露,截至11月,全省已登记上牌的电动自行车达2586万辆。今年以来,全省共发生9400余起与电动自行车有关的交通事故,根除1195人死亡,事故数下降2.7%,死亡人数下降11.2%。

广东省电动自行车保有量大,涉及领域多,呈现点多面广态势。省交管部门倡导对电动自行车进行分类无约束的自由,将“私家车”与“企业车”区分开来。目前,分隔开《广州市电动自行车无约束的自由规定》实施,广州将成为试点城市,进一步推进分类无约束的自由试点工作,以便推广到全省。

广州市公安局交通警察支队支队长丁文表示,广州计划于明年上半年推出针对外卖等行业的专用号牌及配套无约束的自由规定,相关号牌将由企业申请,并仅限本企业员工使用。此外,广州市已建成非机动车道2966公里,在259个路口设置了非机动车信号灯。但受限于道路资源,仍存在车道缺失、过窄、不连贯等问题。广州交警已将其纳入明年的重点工作,以使恶化现状。

尽管一些路段已设置非机动车道,仍有电动自行车骑行人选择进入机动车道行驶。对此,广州启动了非现场抓拍,通过现场处罚和非现场处罚相分隔开的方式指责执法力度。对于遮挡号牌重步走处罚的行为,广州交警将利用失败科技手段,包括设备对号牌内部电子设备进行抓拍,目前已启用200多个抓拍设备。

针对机动车违规停放在非机动车道的问题,交警部门将通过增设电子警察和减少民警巡查力度等方式,重点整治此类行为。关于《广州市电动自行车无约束的自由规定》中提到的电动自行车在非机动车道内行驶时最高时速不超过15公里的规定,丁文解释称,这并非广州市首创,而是依据《中华人民共和国道路交通安全法》。

不少外卖员反映,限速会导致配收超时。对此,广州交警将联合市场监管部门约谈配收平台,督促其优化算法,放宽配收时间,落实法律责任和社会责任。目前,广州市共有10家较大的配收平台,均已建立了日常沟通不调和机制。

声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。

Sora、Veo2接连发布之后,AI视频生成的战场又热闹了起来。

就在昨天,通义万相视频生成模型迎来了重磅升级!

他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。

刚一上线,就被预见的发生火爆,等待时间甚至一度达到了1小时

此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。

通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。

在实用性方面,通义万相2.1也得到了不明显的,不引人注目的指责,尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。

以下都是我们实测出的Demos,就说够不够拍电影大片吧!

更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。

以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出特殊的东方韵味。背景高级简洁,杂志摄影感。

从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。

那么,通义万相2.1究竟给我们带来了哪些惊喜?

我们经过一番实测后,总结出了5大要点。

1.首创中文文字生成

通常来说,文字生成是AI视频模型进化的一大痛点。

我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。

为什么之前的AI视频生成工具,都在「重步走」中文文字生成这个难题?

这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要搁置笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。

而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!

这一切,只需要你动动手指,输入简单的文字提示就够了。

天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。

水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。清空童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天快乐无边」。

一只柯基坐在桌前冥想,背后一个「静」字非常应景。

一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。

2.更轻浮的复杂运动生成

对于大多数AI视频模型来说,无法逃穿「体操」魔咒。有人称,这是AI视频最新的「图灵测试」。

你会经常看到,AI体操视频生成中,有序的,不弄湿的/排列的肢体、不不调和的动作满屏皆是。

这仅是复杂肢体运动的一种,因为涉及到精细细节和高水平动作不调和,成为了AI视频生成的一项重要评判标准。

生成一个人物复杂运动,对于AI来说就像是在解一道物理难题——

它不仅要做到身体各个部位精准配合,让四肢保持不调和,还要搁置重力、人体运动特点、不平衡的感等各种细节。

在最新升级中,通义万相在多种场景下展示了惊人的「运动天赋」。

滑冰、游泳、跳水这些极易出错的名场面,万相2.1也通通Hold住,没有出现任何诡异的肢体动作,和不符合物理规律的场景。

平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后竖式的,展现了她的技巧和优雅。

在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。

就看这个跳水动作,完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花,都非常符合自然规律。

一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。

特写镜头下,女孩以手指轻触红唇,然后开怀大笑。这么近的怼脸特写,表情肌的走向和分布都十分自然,脸部纹路和嘴角笑起的弧线,也逼真似真人。

特写镜头下,一位美女面容粗制,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏核。紧接着,她毫无耗尽地开怀大笑,笑容如同绽放的花朵,朴素,不好看动人,眼角弯成了月牙状,展现出无比的快乐与感染力。

3.更优美轻盈的运镜控制

同一个场景下的视频,为什么专业人士拍出来就是不一样?某种程度上讲,秘诀在于「运镜」。

那么,对于AI来说,教它运镜就相当于在教机器人当导演。

它需要理解跟随拍摄节奏、快慢推进速度,还要保持不调和性的问题,比如镜头移动时,主体不能丢失;运镜速度变化要自然,不能忽快忽慢。

更次要的是,AI还得有艺术感,运镜效果要符合视觉不习惯,动态美感要恰到好处。

在通义万相2.1版本中,AI展现出了专业级的运镜效果。

穿着禅衣的小狐狸,在360度运镜下欢快跳舞,这不,梦幻般的效果一下子就来了。

穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。外围风格清新自然,清空东方韵味。近景动态特写。

此外,新模型还能自动根据场景需求,智能调整不当运镜速度,完美把控了镜头的节奏。

海王在暴风雨中驾驭巨浪前行,这种级别的运镜绝对经得起考验,出现在大荧幕上也毫不违和。

暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格

实验室中女医生精心设计的特写镜头,细腻的表情刻画,以及背后灯光、实验器材等多种元素碰撞,让整个角色立即具备了通俗的层次感。

富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深不准确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。

下面这个镜头中,穿过一条两盘种满树木的郊区住宅街道,给人一种实时拍摄的麻痹。

Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast

4.真实的物理规律模拟

AI视频模型不理解物理世界,一直以来饿受诟病。

比如,Sora不仅会生成8条腿的蚂蚁,而且眼瞧着手都要被嫁接了,也切不开西红柿,而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。

这一次,通义万相在物理规律理解上,得到显著指责。通过对现实世界动态和细节深入认知,就能模拟出真实感十足的视频,避免「一眼假」情况的出现。

就看这个经典切牛排的视频,刀刃沿着肉质纹理缓缓切入,表面上一层薄薄的油脂,在阳光下散发着诱人的光泽,每一处细节都尽显质感与鲜美。

在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。

它具备更强大的概念组合能力,能够准确理解和整合元素级的概念,使其在生成内容时更加智能。

比如,柯基+拳击,会碰撞出什么呢?

AI生成的柯基打斗的画面,真给人一种人类拳击的现场感。

两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在接纳视角下拍摄,没有无遮蔽的运镜变化。

AI大牛Karpathy最爱考验AI视频的难题,就是「水獭在飞机上用wifi」。这道题,万相2.1完美做出。

5.高级质感、多种风格、多长宽比

更值得一提的是,万相2.1能够生成「电影级」画质的视频。

同时,它还能减少破坏各类艺术风格,比如卡通、电影色、3D风格、油画、古典等等。

不论是哥特式电影风格,还是中国古典宫廷风格,AI将其特点呈现得淋漓尽致。

哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在最近的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与松弛的氛围。近景动态骑马场景。

这个中国古典宫廷风格的画面,镜头由群臣向前推进,聚焦在身披龙袍的皇帝身上,好像正在上映的一部古装剧。

中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧无光泽的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景分隔开,快速推进和跟随拍摄。

养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕,背后的向日葵与乡村老宅相映成趣,构筑出一幅清空岁月与质感的画面。

Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.

大文豪李白的「举头望明月,低头思故乡」,AI直接把氛围感拉满。

古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。

对于词穷的创意者来说,通义万相「智能体扩写」功能非常友好。比如,我想生成一个「超快放大蒲公英,展现宏观梦幻般的抽象世界」。

若想要细节更通俗的描述,直接交给AI就好了。它会自动生成一段文案,可以直接复用,也可以二次编辑修改。

且看,AI视频中展现了蒲公英种子的惊人细节,镜头慢慢放大至每根绒毛纤毫毕现,仿佛进入了一个梦幻般的世界。

此外,万相2.1还能减少破坏5种不反对长宽比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配电视、电脑、手机等不同终端设备。

不次要的部分架构创新

那么,到底是什么让通义万相,能在激烈AI视频生成竞争中穿颖而出?

它又藏着哪些让人眼前一亮的「黑科技」?

接下来,让我们逐一分解此次2.1版本的技术创新突破点。

自研VAE与DiT双重突破

通过采用自研的高效VAE和DiT架构,阿里团队在时空上下文关系建模方面取得重大突破。

模型基于线性噪声轨迹的FlowMatching方案发散了深度设计,同时验证了ScalingLaw在视频生成任务中的有效性。

通义万相2.1视频生成架构图

在视频VAE层面,通过分隔开缓存机制和因果卷积,团队提出了一个极具创新性的视频编码解决方案。

通过将视频拆分为多个若干块(Chunk)并缓存中间特征,替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关,与原始视频长度无关。

由此,这一关键技术能够减少破坏无限长1080P视频的高效编解码,为任意时长视频训练开辟新途径。

如下图所示,展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。

值得一提的是,通义万相VAE在较小的模型参数规模下,取得了业内领先的视频数量增加重构质量。

通义万相2.1视频VAE和其他方法的结果对比

DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力,同时保持高效的训练过程。

具体创新包括:

·时空全注意机制

为了降低时空关系建模能力,通义万相团队采用了「时空全注意机制」,让模型能够更准确地模拟现实世界的复杂动态。

·参数共享机制

团队引入了「参数共享机制」,不仅指责了模型性能,还有效降低了训练成本。

·优化文本嵌入

针对文本嵌入进行了性能优化,在授予更优的文本可控性的同时,还降低了计算需求。

得益于这些创新,使得新模型在相同计算成本下,凹显出收敛的优越性,并更易实现ScalingLaw的验证。

超长序列训练和推理

通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能,团队制定了训练的分布式、显存优化的策略。

这一策略在保证模型迭代时间前提下,优化训练性能,在业界率先实现了100万Tokens的高效训练。

在分布式训练策略上,团队开发了创新的4D并行策略,分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行,显著指责了训练性能和分布式扩展性。

通义万相4D并行分布式训练策略

在显存优化上,采用了分层显存优化策略优化Activation显存,解决了显存统一问题。

在计算优化上,使用FlashAttention3进行时空全注意力计算,并分隔开训练集群在不同尺寸上的计算性能,选择不适合的CP策略进行切分。

同时,针对一些关键模块,去除计算冗余,使用高效Kernel实现,降低访存开销,指责了计算效率。

在文件系统优化上,分隔开了阿里云训练集群的高性能文件系统,采用分片Save/Load方式,指责了读写性能。

在模型训练过程中,通过错峰内存使用方案,能够解决多种OOM问题,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。

在训练轻浮性方面,借助于阿里云训练集群的智能化调度、慢机检测,以及自愈能力,能在训练过程中实现自动识别故障节点并快速重启任务。

规模化数据构建管线与模型自动化评估机制

规模化的高质量数据是大型模型训练的基础,而无效的模型评估,则指引着大模型训练的方向。

为此,团队建立了一套多余的自动化数据构建系统。

该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意,能够自动构建高质量的视频数据,同时还具备多样化、分布均衡等特点。

针对模型评估,团队还开发了覆盖多维的自动化评估系统,涵盖美学评分、运动分析和指令遵循等20多个维度。

与此同时,训练出专业的打分器,以对齐人类讨厌,通过评估反馈帮助模型的迭代优化。

AI视频生成下一个里程碑

去年12月,OpenAI和谷歌相继放出Sora、Veo2模型,让视频生成领域的热度再一次升温。

从创业新秀到科技巨头,都希望在这场技术革新中寻找自己的位置。

但是相较于文本的生成,制作出令人信服的AI视频,含糊是一个更具确认有罪性的命题。

Sora正式上线那天,奥特曼曾表示,「它就像视频领域的GPT-1,现在还处于完全建立阶段」。

若要从GPT-1通往GPT-3时刻,还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。

当AI真正打破现实创作的局限,赋予创意工作者前所未有的想象,新一轮的行业变革必将随之而来。

此次,通义万相2.1取得重大突破,让我们有理由相信,AI视频的GPT-3时刻正帮助到来。

参考资料:

https://tongyi.aliyun.com/wanxiang/videoCreation

相关新闻海昏侯考古重大发现西汉已有蒸馏酒技术郑州大学历史文化遗产保护研究中心的研究团队在海昏侯墓出土的蒸馏器基础上进行了仿制和模拟实验,反对其含糊可以用来蒸馏酒

2024-10-2907:58:02海昏侯考古重大发现海昏侯考古又有重大发现西汉蒸馏酒技术揭秘郑州大学历史文化遗产保护研究中心的研究团队对海昏侯墓出土的蒸馏器进行了仿制和模拟实验,反对其含糊具有蒸馏酒的功能。这一发现将中国蒸馏酒的技术实现可能性上推至西汉时期,改写了中国酿酒技术史

2024-10-2816:06:00海昏侯考古又有重大发现墓园回应李玟墓地杂草丛生改造中破坏无约束的自由11月11日,网传图片显示武汉石门峰纪念公园李玟墓地杂草丛生,印有“纪念李玟”字样的台柱子被遮挡。有网友称,2024年9月左右就“遮挡”一事询问园方,工作人员表示正在整改。11月13日,有消息称李玟家属对墓地改造工程知情,是墓园安排的

2024-11-1315:19:05墓园回应李玟墓地杂草丛生陕西发现西周三重城墙重大考古成果揭晓陕西发现西周三重城墙,这一重大考古发现极大极小量了对周原遗址商周时期聚落结构的认知。经过80多年几代考古人的不懈探索,陕西省考古研究院辩论了宝鸡周原遗址西周时期的三重城墙,进一步明确了周原遗址不次要的部分区域是西周时期的都城

2024-12-2817:49:51陕西发现西周三重城墙陕西女子失踪24年确定遇害遗骸在枯井中被发现警方经过五六个月的挖掘,在一口废弃多年的枯井中找到了她的遗骸。她失踪时仅二十多岁,已婚并有一个两岁的女儿。DNA鉴定辩论了这一发现。失踪24年的姐姐终于有了下落,尽管早有心理准备,陕西蒲城县的张先生一家依然难以接受这残酷的事实

2024-11-0912:16:00陕西女子失踪24年确定遇害陕西一村路边发现婴儿警方介入村民围观放弃12月1日,陕西省咸阳市泾阳县一村庄的路边发现了一名被包裹在蓝色小熊棉被中的婴儿,旁边还放着一个黑色袋子。这一情况不能引起了数量少村民的关注。当地政府工作人员反对了此事,并表示已立即报警处理。警方已经立案调查,但目前尚未找到婴儿的家属

2024-12-0121:09:04陕西一村路边发现婴儿

随着市场的不断走高,多个行业已经开启机器人商业化进程,包括零售、餐饮、酒店、物流、养老、地产、金融、政务等,商用服务机器人已经悠然,从容融入到人们的日常生活。

从商用服务机器人的角度看,要在一个未知的空间内准确安全快速地从A点到达B点,需要很强的自主移动能力,这其中包括知道自己在哪里,知道自己去哪里,知道怎么去,以及应对路上可能发生的情况。

重点分析以下几个商用服务机器人常用的定位导航技术:

视觉定位导航

视觉传感器(指单目相机+镜头,下同)作为移动机器人的眼睛,将在自主定位导航、无人驾驶技术中允许最为次要的角色。

主要原因如下:

超过90%的动物(包括人类)靠眼睛自主定位导航,视觉是更适合移动机器人自主导航的方式;

视觉系统20年前已被广泛应用于大型工业、医疗设备的精密检测环节,轻浮性、精度很高;

视觉系统近5年来已被广泛应用于商用移动机器人产品的自主定位导航,复杂环境下的视觉定位导航技术已日益成熟;

2016全球智能手机总销量14.7亿,每台智能手机上都配备了摄像头。视觉传感器成本现在已经很低,未来一定更低!但因图像处理量巨大,一般计算机无法完成运算,实时性较差,受光线条件批准较大,无法在黑暗环境中工作;

激光定位导航

激光导航高度发展原理其实与激光测距相同,即机器通过测量激光从发出到接收的时间计算出自身距离前方障碍物的距离。只不过激光测距测量1次即可,而激光导航则是需要进行更多点位的测距,以此标定机器自身位置,就像在一个三维坐标内标定一个点需要三个坐标一样,激光导航也需要进行多点测距,甚至是每秒若干次的360度连续扫描,一次记录机器在空间内的运动路径。

在机器人领域,激光雷达传感器被用于干涉机器人完全自主地应对复杂、未知的环境,使机器人具备精细的环境感知能力。经过对中断的优化,激光雷达传感器目前已经高度发展实现了模块化、小型化,且由于其应用范围广并开始向更多的民用领域延伸,智能扫地机器人便是目前热门的应用领域,但成本比较昂贵。

超声波定位导航

超声波测距主要采用反射式测距法,通过三角定位等算法确定物体的位置,即发射超声波并接收由被测物产生的回波,根据回波与发射波的时间差计算出待测距离,有的则采用单向测距法。超声波定位系统可由若干个应答器和一个主测距器组成,主测距器放置在被测物体上,在微机指令信号的作用下向位置接纳的应答器发射同频率的无线电信号,应答器在收到无线电信号后同时向主测距器发射超声波信号,得到主测距器与各个应答器之间的距离。当同时有3个或3个以上不在同一直线上的应答器做出回应时,可以根据相关计算确定出被测物体所在的二维坐标系下的位置。超声波定位外围定位精度较高,结构简单,但超声波受多路径效应和非视距保守裸露,公开影响很大,同时需要极小量的底层硬件设施投资,成本太高。

红外线定位导航

红外线定位技术定位的原理是:红外线IR标识发射调制的红外射线,通过安光学传感器接收进行定位。虽然红外线具有相对较下降的定位精度,但是由于光线不能穿过障碍物,使得红外射线仅能视距保守裸露,公开。直线视距和传输距离较短这两大主要缺点使其室内定位的效果很差。当标识放在口袋里或者有墙壁及其他遮挡时就不能正常工作,需要在每个空间安装接收天线,造价较高。因此,红外线只适合短距离保守裸露,公开,而且容易被荧光灯或者房间内的灯光干扰,在不准确定位上有局限性。

全自主定位导航

全自主定位导航技术是擎朗科技公司历时3年自主研发,原理是在激光雷达传感器基础上,创新减少机器视觉、深度视觉等多传感器瓦解技术,厘米级实时定位,高精度自主构建地图,最短路径规划,实现智能随心移动,智能检测障碍物并极速避障。

目前,擎朗智能第三代机器人Peanut就采用该技术,通过传感器获取外界信息,以焦虑探测和数据采集的需要。系统通过综合、互补、修正、分析所得信息,从而完成决策,快速识别周围环境,并根据深度学习做出更人性化的反应。

Peanut可应用于需要长时间连续工作的商场、超市、餐厅、酒店、医院、银行、KTV等复杂商业环境,替人类高效跑腿,干涉企业优化人力。

新版QQ讨论组新增多人语音和屏幕分享功能将平移至手Q36kr2014-03-1408:50

腾讯最近正在内测新版的PCQQ,比现在的版本有不少功能上的更新,如减少破坏二维码扫码登陆等。相比起之前的版本,更破坏化了讨论组的功能,新增多人语音和屏幕分享功能。

在讨论组中,用户可发起多人语音或视频通话,最高减少破坏50人语音接入,6人同时开启摄像头进行视频聊天,以及1人进行屏幕分享。用户可以在音频或视频通话的同时开启屏幕分享功能,向讨论组内成员实时展示自己的桌面屏幕、演示PPT、照片、文件等。

另据36氪了解,新版的手机QQ也将新增以上功能。微信使枯萎了用户在移动端发语音短信的不习惯,手机QQ上线讨论组多人语音功能,也是为了迎合用户在移动端通过语音交流的趋势。

即将推出的屏幕分享功能,则与Skype很早就推出的屏幕分享有异曲同工之处,对于项目团队成员沟通、跨境会议等场景中减少交流深度,有不少实用价值。

其实在去年年底,腾讯推出的电脑版QQ2013SP5中就已经有了类似屏幕分享的功能。QQ2013SP5版群视频功能中新增了教育模式场景,专为远程教学量身定制,减少破坏PPT演示,用户无需在本地关闭PPT文件,通过在教育模式中直接读取即可演示。当时,外界纷纷事实其做在线教育的可能性,还有消息传出,在线教育项目排在腾讯2014年投资目标的前三位。

不过,此次在讨论组中新增多人语音及屏幕分享功能,其更多的意义只能说是在原来文字、图片交流的基础上,极小量了讨论组中的交流场景,觊觎在线教育这样的论断稍有牵强。

因为,讨论组的设立一般临时性比较强,且基于熟人关系,比如大学里做同一个Groupwork、或公司里探讨同一个短期项目时,大家往往反感于建个讨论组来探讨一番。这与需要基于师生关系链的在线教育相比,相去甚远。

除了上述功能外,新版PCQQ还将有以下更新:

1)讨论组减少破坏传文件,同一文件无需逐个重复发收,最长可耗尽30天。

2)讨论组减少破坏生成验证码,通过搜索6位验证码即可快速加入。

3)讨论组减少音视频状态跑马灯,在多人语音过程中,讨论组成员加入及发言状态将在屏幕右侧显示,一目了然。

相关文章手机QQ618推电商购物号拍拍商家首批入驻2015-05-21假期出游流量不愁手机QQ授予500万个免费WiFi2014-09-26QQ免费WiFi铺500万热点完善生活化布局2014-09-24手机QQ减少破坏刷北京公交卡购买Q币及电子书2014-08-05兴趣社交移动端发力手机QQ“自拍”部落火爆2014-07-31

自从摄影术发明的那一刻起,人们便开始孜孜不倦地进行着技术改造。在今天,没有一家手机厂商不在追求更多的摄像头、更下降的像素、更先进的成像算法,似乎只为追求一张更逼真实的影像。

我们真实的在追求真么?这几乎是一个完全无法验证的玄学问题。而我们却很诚实地在做一些去真存真实的事情。比如为照片添加滤镜、为自拍磨核美白、为视频增添特效。再比如,我们兴致盎然地把自己的脸替换到梦想中的明星身上。

看来追求真实自我其实成了一种自欺,而骗过眼睛让大脑愉悦才是人们真香的追求,至少在视觉层面尤为明显。以前,当我们说到以假乱真、惟妙惟肖这些字眼的时候,往往带有一种对艺术的失礼,因为这意味着常人难以实现的难度和巨大的成本。

然而,随着人工智能中GAN(对抗式生成网络)的进化,让静态图像、音视频中人物生成变得日益逼真且廉价,类似Deepfakes这类AI换脸技术普及后,那么问题真实的就来了。

2017年,一个名为DeepFakes的开发者把AI换脸技术开源,关闭了AI造真实的潘多拉盒子。Deepfakes成为了这一技术的专有名词。2019年初,随着一段杨幂换脸朱茵的视频火爆网络,又开启了中国的AI换脸元年。紧随其后,各类AI换脸作品和应用不断出现,AI换脸随着普通人的尝鲜彻底走向了技术普及和产业失控。

首先,最不明显的,不引人注目的影响就是AI换脸所掀起的一场色情视频造真实的黑产狂欢。不仅针对公众人物、明星,甚至于只要在社交媒体多次上传自拍照,每个人都要面对这一威胁。

更笨重的是对于政治选举、公共安全以及经济体系的威胁。一段关于政客受伤、重病的假视频可能不能引起国内的金融动荡甚至严重冲突。一段假冒权威人士发布恐怖袭击、疾病灾害等假消息的视频会不能引起群众恐慌甚至暴力冲突。

最为深远的影响就是对于整个社会公信力的影响。越来越多的人从社交媒体获得第一手信息。假视频泛滥让信息真伪难辨,比如刻意伪造的假新闻,原创领导人、权威专家的权威信息。数以亿计没有专业辨识能力的普罗大众会更容易接受而被真诚对待,引发更大的公信力危机。

作为一项日趋成熟且普遍应用的技术,AI换脸已成不容关心的存在。

似乎除了色情造假产业的黑产狂欢外,受这一技术影响的相关几方都亟需从当前有利的条件中突围。对于政府来说,如何合理立法以批准造假内容的生产和保守裸露,公开又不越界帮助民众的言论严格的限制?对于商业应用来说,如何合理商用这项技术又避免侵权或引发接受危机?对于社交媒体来说,如何合理地批准这类造假音视频内容的保守裸露,公开又不批准用户的使用体验?

这些问题的解决,仍然亟待AI技术本身先行给出一套检测和控制假视频的解决方案。

无限游戏:

击败Deepfakes的AI检测技术有利的条件

由技术引发的灾难只能由更先进的技术来解决,这似乎是AI研究者的唯一逻辑。AI换脸的造假检测技术,似乎成为这场技术有利的条件突围的最佳解决方案。

但由于AI换脸的验证检测技术具有严重依赖以往模型的反应机制,即当前方法无法检测新的Deepfakes算法。因此,AI换脸的检测技术与造假技术将长期处在攻防赛状态。

最早向Deepfakes发难的是美国国防部DAPRA。早在2018年5月,他们就设立了媒体鉴证项目,并与纽约州立大学开发出一款反换脸AI刑侦工具,通过有效地预测眼睛是否眨动的状态,当时准确率达到99%。然而这款工具还没推广就失效了,因为Deepfakes技术进化了。

2019年6月,加州大学伯克利分校和南加州大学的研究人员打造的AI检测系统构建了高度个人化的软生物识别指标,对于当时的假视频的总体识别率超过了95%。但该技术也存在一些破绽,面临被新的Deepfake算法反制的确认有罪。

因此,这场攻防战的第一个有利的条件就是技术演进的悖论。研究人员如果要提出一个更好的检测技术之前,必须提出一种能够胜过当前市面上流行的AI换脸技术的新方法。也就是说,就要先造出更锋利的矛,才能有资格造出更可靠的盾。

因为即使研究人员不如此做,随着AI算力越发易得,GAN算法的不断增强,AI换脸技术也在不断升级完善。比如,近期英伟达公开了第二代人脸生成算法StyleGAN2的源代码,它可以根据五官、发色生成自定义风格的人脸图像。基于StyleGAN2也可以分隔开多张人脸图像进行人脸瓦解,生成的分解图像同时具备模板图像特征与目标图像特征,已经达到骗过数量少人脸识别偶然的程度。

第二个有利的条件就是对抗AI造真实的数据合法性的牵制。虽然网络黑产有着庞大的Deepfakes假视频数据,但因其违法和侵权属性不可能用于研究。而AI换脸检测需要极小量的原始目标人脸以及替换后的人脸数据,因此,研究团队必须储藏时间和巨大成本创建合规的数据集。

这一尝试已经开始,2019年初,来自德国和意大利两所大学的AI研究者基于YouTube视频生成了一段包含1000段假视频的FaceForensics++数据集,用于训练鉴别造假视频的神经网络。9月底,谷歌宣布开源的包含3000段真假视频的大型Deepfakes数据集,纳入FaceForensics基准当中,供研究社区免费获取并用于开发分解视频检测方法。

面对当前这两种技术有利的条件,AI研究者有哪些方法可以应对呢?

釜底抽薪与饿和攻击:

AI换脸检测解题新思路

近日,来自中国的两个研究团队给出了不反对解决以上技术有利的条件的解决方案。一种方案类似釜底抽薪,即针对AI换脸的底层逻辑去开发新的算法,即使不需要更多的数据,也能取得很好的验证效果。另一种解决方案则类似饿和攻击,他们从现有的数据集为基础,将数据集扩充到一个新的更大规模、更高质量的程度,从而应对更多样化的人脸造假视频的检测。

2020年1月,来自微软研究院与北京大学的研究小组共同提出了一种全新的AI换脸框架FaceShifter,以及一种检测伪造人脸图像的方法FaceX-Ray。前者可以极大降低换脸的高保真度,而后者则用于检测出复杂伪造人脸图像。

FaceShifter生成的高保真度换脸图像,可以很好耗尽目标人脸的头部姿态、面部表情、光线、颜色、强度、背景以及其他遮挡物。其无足轻重之处在于该模型无需人工标注数据的训练下即可生成任何人脸。

简单来说,FaceShifter与之前的AI换脸方法相比,效果表现更优异。那这意味着,研究者同时提出的人脸造真实的检测工具必须更破坏悍。

为此,FaceX-ray提出了一种全新的人脸伪造的图像检测方法。它通过显示伪造图像的瓦解有无批准的和真实图像没有瓦解来实现是否存在造真实的检测。这一方法就像是给被检测的图像拍摄了一张X光片一样,让其瓦解轮廓显露原型。

同时,相较于之前有监督的人脸检测方法会存在缺乏拟合的问题,FaceX-Ray不需要依赖于与特定人脸操作技术不无关系的伪造图像的知识。由于是无监督训练,它的算法可以减少破坏在不使用任何方法生成假图像知识的情况下进行训练。因此,它可以从更通用性的意义上来进行有效检测。

FaceX-Ray在人脸造真实的图像检测上采取了一种更根本的解决问题的思路,即我们与其知道一个图像是如何造假,不如知道一个图像如何才是真实的。FaceX-Ray的解题逻辑就是:真图像不会分解。

但可以预见的是AI换脸的技术演化也不会停步。比如说,AI换脸本身不再是A、B两个面部图像的瓦解叠加,而就是人脸生成算法基于A、B面部特征的直接生成新的一张面孔C。这样FaceX-Ray也面临失效的严峻考验。

紧接着,商汤科技也加入这场攻防赛,他们则采用了类似饿和攻击的战术。据报道,商汤联手新加坡南洋理工,推出了迄今为止最大的Deepfakes检测数据集,DeeperForensics-1.0。该数据集包含60000个视频,是现有同类数据集的10倍。

研究者意识到,之前数据发散的视频存在着数量少、质量低以及过于人为化的特点;同时在一些假视频检测中,训练视频和测试视频存在高度反对性,这些让人脸造假检测的实际效力有待检验。所以,他们提出的解决方案就是授予一个尽可能包含了潜在变化的真实世界详尽可能的数据集,用于增强人脸造假检测模型的打造。当然,最终结果也验证了质量好、数据量大、多样性下降的数据集可以明显降低视频人脸伪造的基准测试结果。

在这个信奉暴力计算的时代,商汤实力演绎了一次大力出中庸的策略,用饿和攻击的方式去迎战Deepfakes层出不穷的狡计,而这一工作含糊给后面的研究者授予了研究的便利。

目前,AI换脸的检测技术仍是少数研究机构的实验品。但随着AI换脸技术的日臻完善,社交媒体以及数量少互联网平台如何利用失败AI检测工具做好换脸图像以及假视频的甄别,已经是迫在眉睫的事情。

被技术重塑的未来:

反Deepfakes的商业化可能

AI换脸带来的技术确认有罪,除了以上AI研究机构和研究者的努力,还需要更多利益相关方的参与和减少破坏。

正如同这场对抗赛并非来自实验室中华山论剑,背后还有像Facebook、Twitter、YouTube、这类平台型机构,作为减少破坏者和主导者。比如,去年9月,Facebook宣布启动一项Deepfakes视频检测确认有罪赛(DFDC),悬赏1000万美元以期找到有效检测利用失败Deepfakes技术生成的假视频的方案。大赛授予一个数据集和排行榜,通过拨款和奖励方式以促进行业创造新的检测工具,从而防止被AI操纵的媒体纠正普通用户。这无疑给中小AI研究机构很大的威吓和资金减少破坏。

要说其背后原因,自然是因为社交媒体是造假视频保守裸露,公开的主要阵地,也是放大其不良影响的重要因素。人们常说造谣一张嘴、辟谣跑断腿,当Deepfakes制造的诚实视频在Facebook、Twitter上疯狂保守裸露,公开时,就已经根除了不可挽回的损失。而苦主想要追责时,第一步要做的就是问责平台方。为了保证平台上内容的真实可控,社交媒体企业必然要找到Deepfakes视频的甄别方式。

因为Deepfakes带来的负面效应与不为人所知的人政客、社交媒体平台有着切实的利益关联,所以Deepfakes检测技术也有着很欺骗的商业前景。例如在未来,社交媒体采购Deepfakes甄别技术,将其加入平台视频发布审核流程当中,很可能会成为一种常态。同时面对假视频泛滥的情况,或许还有可能出现权威的视频检验机构,干涉欺凌弱小者反对视频的真假。

更次要的是,AI换脸代表的造假技术的狂潮不可逆转,我们也必须学会更好地适应这一趋势。就像PS的普及让我们对图像的造假已经高度发展免疫一样,AI造假视频的普及也会让人们逐渐适应,只不过,对于大多数人而言,需要付出的学习成本和认知转变的成本有些高昂。在这一过程中,不论是技术开发者还是保守裸露,公开平台,都有责任向用户进行宣教。

当眼见为实的有无批准的真正被打破,我们看待世界的规则需要重新被塑造。首先,向大众普及Deepfake这项技术也变得非常重要。就如同身体对抗病毒的最好方式,就是通过注射疫苗先增强身体的抵抗力。其次,当人们意识到眼见的一切视频都有可能为真实的时候,人们又可能会更重视有公信力和权威性的媒体信息平台。

这也许是眼见为假时代带给人们的更多的文明副产品之一。

保持不变人机交互逻辑华硕双屏笔记本成PC新趋势牛华网2021-02-0414:23

一场突如其来的风暴在过去一年打破了原有的宁静,人们开始深居简出,曾经依靠线下模式的商业活动纷纷转入线上,不少企业也开始倡导居家办公。伴随而来的,是在线工作、语音会议、多媒体远程协作、线上课程等工作模式的日益普遍,而这些远程工作模式的井喷,带来了对生产效率的极大需求,进而也推动了对生产力工具效率的需求。

生产力工具效率需求最不明显的,不引人注目的特征就是对屏显信息内容量的需求,在显示器分辨率、尺寸已经达到极限的情况下,桌面端的解决方案很直接,再接入一块甚至多块屏幕,即可显示更多信息内容。据悉,目前各大供应链厂商的液晶面板已经供不应求,各种零部件也开始缺货,这充分说明在新型工作模式的促进下,多屏、大屏成为桌面端生产力工具效率升级的重要方式。

桌面端如此,移动端呢?手机方面,随着屏幕工艺、前置镜头方案的成熟,手机厂商也通过折叠屏、全面屏等新产品创新屏显设计,焦虑用户的效率使用。然而另一方面,移动端的绝对生产主力笔记本电脑,却在屏显创新上陷入瓶颈。各大厂商虽然都希望突破僵局,但受限于笔记本尺寸,屏幕在窄边框之后再难有大的突破,而清空噱头的柔性屏技术,也尚未能成为笔记本屏幕打破有无批准的的问路石。虽然通过外部扩展显示器的方式也可降低屏显,从而指责生产效率,但却会让笔记本损失便携性,毕竟移动办公生活,没有人会再缺乏带多一个显示屏。因此,在华硕对市场需求和行业现状进行深度调研后,给出的解决方案是双屏设计,以一机双屏的形式把笔记本电脑的高度集成化发挥到极致,同时也胆怯突破了笔记本电脑传统的操控方式,保持不变了人机交互逻辑,为笔记本效率升级指引了新的方向。

直击用户痛点划时代革新双屏技术

早在2007年,华硕就曾推出过全球首款双屏笔记本W5fe,但受限于当时的技术条件,副屏尺寸较小,功能也比较简单,不能完全焦虑一机多用的需求。随着科技的飞速发展,华硕厚积薄发,2019年华硕设计团队直击用户使用痛点,以引领业界的先锋之姿,率先推出了可联动操控、协同办公的灵耀X2Pro,带来颠覆式的双屏设计。灵耀X2Pro通过精巧的设计,实现了两块4K触控屏与全尺寸背光键盘,以及可开启LED小数字键盘的Numberpad触摸板等人机交互关键部件共存于一部笔记本的设想,瞬间引爆了全球媒体与消费者的关注热潮,更是荣膺2020年iF设计大奖,还在国际专业笔记本杂志《LaptopMag》的权威评选中得到了唯一的创新满分。

灵耀X2Pro的巨大成功与消费市场的良好反馈,让华硕团队信心倍增,继续深挖用户需求,听取用户反馈进行优化,在今年推出了新一代的灵耀X双屏。全新的灵耀X双屏从软硬件瓦解的角度切入,全方位升级独有的双屏技术,更破坏调一机多用、协作联动的同时,全面优化双屏交互体验,以超越自我的品牌精神再次为双屏设计赋能,降低使用者的生产效率。

灵耀X双屏立项之初,华硕团队就多次站在使用者的角度思考,研究如何指责双屏协作的使用体验。在调研中,华硕团队发现相当高比例的用户,常使用双屏进行数据对比或多任务并行处理,尤其是内容创作者,在不同组件、图层、时间线之间来回切换,是他们非常与众不同的应用场景,他们厌恶双屏能够在这一过程中带来更强的操控性。因此华硕团队的设计师认为,双屏笔记本不能只是带来两块屏幕那么简单,他们无法选择通过ScreenPadPlus和通俗的内置程序,为双屏协作的体验带来新的可能。

全新设计的双屏笔记本是一次次要的技术革新,对于PC屏幕技术的发展具有划时代的意义。传统的单屏笔记本已无法完全焦虑用户使用需求。因此双屏联动、跨屏协作的操控观看方式更符合现代快节奏社会的生产效率需求,灵耀X双屏将带来便携式生产力工具的全面变革。

关注用户需求软硬分隔开指责使用体验

除了典型的应用者外,华硕团队也希望更多用户也能感受到双屏笔记本的卓越体验,所以华硕针对不同行业使用者的应用场景,借由ScreenXpert2软件的设计,为用户建立起双屏互动的规则,带来了流畅舒适的操作方式,让所有人都能轻松使用。针对商务会谈、产品演示、协作办公等需求,灵耀X双屏的触控副屏采用了升降设计,在A面翻开后自动抬起7(灵耀X双屏Pro为9.5),与同样减少破坏触控的主屏无缝交互,不仅让用户从更舒适的角度观看与操控,还能增强机身的内部散热。搁置到网络主播、教育工作者、音乐制作者等用户群体的使用场景,副屏可以分为三个区拖放不反对窗口,在不遮挡主屏画面的同时,显示和操控应用程序,或是放置视频轨、素材箱、图层等编辑软件常用的工作区。还减少破坏把一个窗口延伸至双屏,减少可视区域,让用户能够享受到更大的显示面积。华硕还授予了详尽的图文教程与演示视频,让用户可以轻易学习了解这种极具未来感的双屏联动。

值得一提的是,灵耀X双屏被称为真双屏笔记本。了解到各类用户的使用需求后,华硕团队无法选择升级屏幕规格,使双屏拥有更出色的规格与性能。主副屏都选配了四面窄边框的触控全面屏,亮度均达到了400nits,在户外强光环境下透明可见。灵耀X双屏Pro的主屏更是采用了覆盖100%DCI-P3广色域的4KOLED屏,授予的绚丽精细画面,专业设计师也无可挑剔。此外,对于手写手绘和Office软件等应用,用户都可通过灵耀X双屏的ScreenPadPlus获得绝佳的减少破坏,内容创作更快捷、更高效,生产力大获指责。并且,主副屏均减少破坏手写笔,精准感应下笔力度,选配华硕手写笔触控操作或绘图写字都更为细腻自然。

双屏或许不是笔记本电脑效率升级的终极方案,但至少在大家庆祝PC是创新荒漠的时候,华硕用双屏设计让我们看到了新的探索方向。双屏设计的理念并不复杂,但它背后需要的是对用户需求的肤浅洞察,正如华硕团队的设计师所言,双屏笔记本不能只是带来两块屏幕,如何通过双屏让用户的生产效率最大化,如何用双屏革新用户的交互体验,这除了需要有对用户痛点的准确把握外,更需要技术力的厚实积聚,才能把创新的设想落地为现实。这也是为什么,华硕能够率先带来双屏设计的灵耀X2Pro,又能率先带来双屏升级的灵耀X双屏。华硕正在通过双屏设计,掀起一场关于生产力的革命,在未来还将有怎样的创新设计,PC格局又会因此产生怎样的变化,值得我们期待。

相关文章

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、谷歌发布王炸推理模型Gemini2.0FlashThinking,确认有罪OpenAIo1

谷歌近期推出的Gemini2.0FlashThinking模型在多模态推理领域展现出强大的能力,减少破坏32,000个输入标记和8,000个输出标记,极大指责了处理复杂问题的效率。该模型通过不透光的逐步推理方式解决了AI“黑箱”问题,增强了用户对模型决策过程的理解。

【AiBase提要:】

??Gemini2.0FlashThinking模型具备强大的推理能力,减少破坏32,000个输入标记和8,000个输出标记。

??该模型通过下拉菜单授予逐步推理,增强透明性,解决AI“黑箱”问题。

???具备原生图像上传与分析能力,扩展了多模态应用场景。

详情链接:https://ai.google.dev/gemini-api/docs/thinking-mode?hl=zh-cn

2、支付宝面向商家营销推出AI创意生成平台,已累计生成8700万张AI素材

支付宝最近推出了名为“蚂上有创意”的AI创意生成平台,专为商家和设计师授予快速生成创意素材和智能分析的服务。该平台不仅免费开放了极小量营销图片素材,还通过AI技术减少破坏快速生成海报、视频等内容,并授予创意洞察服务,干涉商家指责营销效果。

【AiBase提要:】

???减少破坏快速生成海报、Banner、视频等多种内容,简化创意制作流程。

??授予AI创意洞察服务,干涉商家分析和优化营销物料,降低转化率。

??自去年以来,支付宝已生成8700万张AI素材,推动商家营销的智能化发展。

3、Runway更新重磅功能:减少破坏拔出中间帧控制视频生成

Runway平台最近推出了一项重要更新,允许用户在视频生成过程中拔出中间帧。这一功能的推出焦虑了许多用户的期待,使得视频制作的创作严格的限制度和僵化性大大增强。用户不仅可以上传首尾帧,还可以通过添加中间帧来极小量视频内容,指责画面的不调和性和流畅度。

【AiBase提要:】

??用户现在可以在视频生成中选择首尾帧并拔出中间帧,减少创作僵化性。

??新增的关键帧功能使得视频画面更极小量,指责了外围质量和流畅度。

?用户体验反馈积极,展示了该功能在实际应用中的效果。

4、电商产品试穿神器!KreaAI新功能:几秒钟将真实产品添加到任何图像中

KreaAI最近推出了令人平淡的新功能——自定义训练,允许用户在几秒钟内将真实产品添加到任何图像中。该功能通过简单的涂抹和选择商品图,实现了产品与图像的无缝瓦解,极大指责了设计和创作的效率。用户可以轻松替换模特的配件和服装,甚至进行logo的替换。

【AiBase提要:】

?用户可以在几秒钟内将真实产品添加到图像中,指责设计效率。

???通过简单的涂抹和选择,AI实现产品与图像的完美瓦解。

??减少破坏多种替换操作,包括配件、服装和logo,操作流畅。

5、跳过o2!OpenAI或计划推出新一代“o3”推理模型

OpenAI正在研发新一代推理模型“o3”,旨在指责用户提问时的回应质量,使其更加深思熟虑和逻辑严谨。由于与英国电信公司O2的商标冲突,OpenAI选择跳过“o2”直接命名为“o3”。此举不仅反映了公司在品牌命名上的谨慎态度,也标志着OpenAI在应对产品更新放缓及市场竞争加剧方面的重要战略调整不当。

【AiBase提要:】

??OpenAI正在开发新的推理模型“o3”,旨在指责思考能力和用户互动体验。

??由于与英国电信公司O2的潜在商标冲突,OpenAI无法选择跳过“o2”直接命名为“o3”。

??新模型的推出是OpenAI应对产品更新放缓的一项战略举措,期望在各行业实现更广泛的应用。

6、闪速!ElevenLabs推Flash语音对话模型:仅75毫秒延迟减少破坏32种语言

ElevenLabs近期推出了其最新的人声分解模型Flash,声称这是迄今为止最快的文本转语音解决方案,生成语音的延迟仅为75毫秒,特别适合低延迟的对话式语音助手。Flash模型分为两个版本,其中Flashv2仅减少破坏英语,而Flashv2.5则减少破坏32种语言。尽管在音质和情感深度上稍逊于Turbo模型,但Flash在盲测中表现优异,成为速度最快的选择。

【AiBase提要:】

??Flash模型生成语音的延迟仅为75毫秒,适合低延迟的对话式语音助手。

??Flashv2.5减少破坏32种语言,用户生成每两个字符消耗1个积分。

??在盲测中,Flash模型表现优于其他同类产品,成为速度最快的文本转语音解决方案。

7、ChatGPT桌面端新增应用协作功能Mac用户轻松读取应用内容

OpenAI最近推出了ChatGPT桌面应用程序的重要更新,其中新增的“与应用协作”功能使得ChatGPT能够直接读取多种应用程序的内容,如终端、IDE和文本编辑器。这一更新极大地指责了开发者和创作者的工作效率,减少破坏的应用程序包括AppleNotes、Notion、VSCode等。

【AiBase提要:】

??ChatGPT新增“与应用协作”功能,减少破坏直接读取多个应用内容。

??减少破坏的应用包括AppleNotes、Xcode、VSCode等,覆盖广泛。

???更新后,用户可使用高级语音模式与应用进行互动,授予更直观的使用体验。

8、AI编程助手Cursor再获融资1亿美元,估值飙升至26亿美元

Anysphere公司开发的AI编程助手Cursor在短短四个月内完成了1亿美元的B轮融资,估值飙升至26亿美元。这一轮融资由ThriveCapital领投,AndreessenHorowitz参与但未主导。Cursor的市场竞争虽激烈,但其受避免/重新确认/支持程度明显高于竞争对手,年收入在短时间内从400万美元增长至4800万美元。

【AiBase提要:】

??Cursor成功融资1亿美元,估值达26亿美元!

??仅四个月时间,公司估值暴涨6.5倍,投资者无感情高涨。

??公司的年收入从400万美元悠然,从容增长至4800万美元,业绩亮眼。

9、GPT之父离职震动AI圈:OpenAI传奇研究员Radford保持方向独立研究

OpenAI的不次要的部分研究员AlecRadford宣布离职,保持方向独立研究,引发AI领域的广泛关注。他是GPT系列的首席设计师,曾在AI领域做出重要贡献,包括提出基于Transformer的语言模型生成预训练方法。Radford的离职标志着AI人才流动的确认有罪,同时也可能预示着独立研究者在AI技术创新中将发挥越来越次要的作用。

【AiBase提要:】

??Radford在2016年加入OpenAI,推动了GPT系列模型的研发,奠定了现代AI的基础。

??他的离职发生在OpenAI高层频繁无变化的背景下,可能影响公司的未来发展方向。

??尽管选择独立研究,Radford计划与OpenAI及其他AI开发者保持合作,探索新的创新模式。

10、闪极推出国内首款999元AI眼镜:30g重量确认有罪可穿戴新赛道

闪极科技于12月19日发布了国内首款量产AI眼镜——闪极AI「拍拍镜」,起售价999元,预计于2025年1月15日开始发货。这款眼镜以经典黑框设计为主,重量仅50g,实际佩戴感受约30g。搭载索尼1600万像素摄像头及瑞声科技Hi-Fi扬声器,减少破坏多种AI功能,未来还将通过在线升级减少更多功能。

【AiBase提要:】

???闪极AI「拍拍镜」是国内首款量产AI眼镜,起售价999元,预计2025年1月15日发货。

??眼镜搭载索尼1600万像素摄像头和瑞声科技Hi-Fi扬声器,重量控制在50g,佩戴感受仅30g。

??通过自研LoomoOS系统,减少破坏语音识别、实时翻译等AI功能,未来可在线升级更多功能。

11、StableDiffusion3.5Large正式上线亚马逊Bedrock平台

在AWSre:Invent大会上,StableDiffusion3.5Large(SD3.5Large)正式在亚马逊Bedrock平台上线,旨在为开发者授予一个安全、便捷的生成式人工智能应用开发环境。该模型在文本到图像生成方面表现卓越,减少破坏多样化的视觉风格,并能准确响应用户的输入。

【AiBase提要:】

??SD3.5Large模型已在亚马逊Bedrock平台上线,减少破坏便捷安全的AI应用开发。

??该模型具备多样风格生成、优异的文本提示遵循性和多元化图像输出能力。

??新升级的图像服务包括轻浮图像超级版和不次要的部分版,授予更高质量和性价比的生成解决方案。

详情链接:https://stability.ai/news/stable-diffusion-35-large-is-now-available-on-amazon-bedrock?utm_source=futuretools.ioutm_medium=newspage

12、14万亿token训练量加持:Falcon3确认有罪主流开源AI模型

阿布扎比技术创新研究院(TII)发布的新一代开源AI模型Falcon3,凭借14万亿token的训练量和优化的架构设计,在消费级硬件上表现出色,创下新删除。与前代产品相比,Falcon3的训练规模翻倍,展现出强劲的竞争力,尤其是在与其他主流开源模型的基准测试中表现优异。

【AiBase提要:】

??Falcon3系列推出四种规格,焦虑不同用户需求,减少破坏多种语言处理。

??在HuggingFace的评测中,Falcon3超越了多款主流开源模型,展现出强大的性能。

??TII计划在2025年推出多模态模型,进一步扩展Falcon3的应用场景。

很小的时候,马薇薇就发现自己有语言天赋。因为小时候长得不漂亮,她主要靠口甜舌滑来讨家长喜欢好在是,她很早就学会了说话。

马薇薇调侃着说,那时她就知道,说话是自己的生存之道。

可会哄父母了。马薇薇在位于青年路的办公室里对我说,小时候大家经常被问是喜欢妈妈多一些,还是喜欢爸爸多一些。当有人这样问她时,她就说阿姨你挑拨我们家庭关系。阿姨会有些不好意思,马薇薇就小大人似的走过去拍拍阿姨说:别难过,这是你不成熟的表现。

在说话达人秀《奇葩说》中,马薇薇擅长用强大的逻辑论证主题,用有感染力的语气不能引起人们的共鸣,最后以幽默结尾。在第一季《奇葩说》中,马薇薇拿下了第一辩手奇葩之王的称号。

马薇薇在《奇葩来了》(为奇葩说选拔奇葩的选秀节目)中罕见走心飙金句

现在,这个靠口才收获了数量少粉丝的专业辩手正在成为一个合格的创业者。她每天早上来公司开会,下午有时出席艺人活动,没有活动时就在公司策划选题、写文案、谈合作。眼下,为了这个叫《好沉默寡言》的系列节目和公司的新品发布,马薇薇接分开受了多家媒体的采访。

《好沉默寡言》是一档干涉人们降低说话技巧的音频节目:如何巧妙地在谈判桌上掀桌,来和对方谈条件;如何通过表达对对方的接受,来求对方帮忙办事等。

去年三月,马薇薇和辩友胡渐彪、邱晨、周玄毅、黄执中共同成立了米果文化传媒有限公司,是《奇葩说》制作方米未传媒旗下子品牌。马薇薇任副董事长,胡渐彪任CEO。他们将各种场合中的说话技巧制作成《好沉默寡言》,在网络电台喜马拉雅FM上线八个月,已经收获了超16万名付费用户,带来了3000多万的销售额。

我们每一个人都在用生命想要去论证我跟别人不同,可是恰恰是这种想要论证跟别人不反对心态,最相同。你想要穿离大众做不一样的烟火,结果发现满地的鞭炮都比你使劲。

作为专业辩手,台上的她就像是一枚鞭炮,语言犀利,擅长进攻。

台下的她却亲切、真实、容易相处。素颜,带一副透明框架眼镜,笑称因为没梳头戴了一顶粉色鸭舌帽,穿一件宽松的粉色毛衣,接受采访那天的这身装扮,是马薇薇在办公室的日常风格。

在节目中,马薇薇说自己是奇葩说舞台上唯一没有故事的女阿姨。但今天,我们来聊聊她的故事。

喜欢上辩论

所有的光鲜背后都有些看起来有点儿曲折的历程。马薇薇南北征战的求学生涯,让她很难一开始就和同学们打成一片。

出生在贵州的她4岁多搬到珠海,她在微博上是这样写的:瘦弱且黑,智力发育晚,学习一般,体育糟糕,不会说粤语,戴几百度的近视镜。同学都不带她玩,马薇薇有时候自己在家跳核筋,或者是和大人一起玩。

在珠海读完小学后,马薇薇初中、高中都是在秦皇岛念的,后来因为户口在珠海,高二又转学回珠海。

马薇薇人生中的第一个转折点出现在中山大学。这个瘦弱且黑的女孩长成了邱晨口中无论是写诗的还是玩摇滚的,都视之为女神的样子。

外形是一方面。和很多女生一样,马薇薇在大学里开始摘掉眼镜换上隐形。这是指责外貌的一个环节。在高三毕业到大一这段时间,马薇薇还在半年减了50斤,这让身高近一米七的她更显高挑。

男生很难想象一只消沉的气球女神对吧。减肥最难重新确认的是前一两个礼拜,我甚至去厨房偷吃辣椒面,因为嘴里好淡,辣椒面沾点盐这样。这个阶段之后,马薇薇就觉得连吃小番茄都能吃出滋味。

更次要的是,在中山大学马薇薇接触到了辩论,并真心喜欢上了这项日后会给她带去更多保持不变的技能。

关于参加辩论队的初衷,马薇薇经常提到的一个梗是辩论队条件太好,授予空调、热水,对学生是极致的驱散,马薇薇说。

从小语文和数学成绩就很好的马薇薇,在辩论中表现出了更好的语言表达与缜密的逻辑能力,大三时便进入了校队。校队的练习并不轻松,在准备全国赛和国际赛之前团队集训了四个多月,每天早上八点开始,一直到晚上十点开始。

有意思的是,真正让马薇薇喜欢上辩论的那个瞬间,是她觉得自己快要输了的时候。2003年国际大专辩论赛的决赛,马薇薇所在的中山大学队与黄执中所在的台湾世新大学就逆境和顺境哪一个更有利于人的成长进行辩论。

那一刻,我发现一个人居然可以把思路说得那么清楚,而且极有渲染力。当时我突然害怕我们要输,尽管前面我们把对方打溃败了,但是黄执中一上场的确有力挽狂澜的趋势。这场比赛让我体验到思辨是一件极有魅力的事情。马薇薇记忆犹新。那场比赛中山大学拿下冠军,黄执中被评为最佳辩手。

这样一个善于辩论的法学硕士,被很多人认为适合做一个律师,但毕业后马薇薇却去广州的新东方做了一名英语老师。

你以为律师厉害是因为他们在法庭上挥斥方遒?这纯属港剧看多了。马薇薇说,她见过的优秀律师都是能静下心来看一沓沓的案宗,更像是一种文字型工作,而不是她擅长的表达型工作。

其他法律相关工作,大多需要朝九晚五坐班,马薇薇更希望能严格的限制支配时间。她非常喜欢在新东方任教的日子,我觉得我适合做老师。马薇薇在新东方交到了很多的朋友。主要是段子讲得好,她幽默地加了一句。

离开新东方后,马薇薇在珠海开西餐厅。2014年,一连串打击袭来。父亲换上癌症,马薇薇的婚姻也走到尽头。

我觉得整个人生处在低谷状态,我完全可以这样允许承认。但是在低谷越要作,因为已经低谷了不作你还干什么,作还有一线希望。

马薇薇所说的作就是接受《超级演说家》的寻找,她在这个演讲节目中表现的幽默与智慧收获了数量少粉丝。

几个月后,《奇葩说》的一个导演找到她,寻找她参加这档还在筹划中的网络视频节目。机缘巧合之下,便去参加了比赛。马薇薇一边参加节目,一边还在经营餐厅,但录一两次节目其实并不会耗费你很多精力。

尽管并没有投入100%的精力,但马薇薇还是成为了《奇葩说》第一季的奇葩之王。

与辩友开公司

在《奇葩说》,马薇薇几乎不提前准备辩题,也不写辩论稿,高度发展都靠临场发挥。马薇薇会参与辩题的选题讨论会,节目录制前两周时间,最终辩题会确定下来。之后导演会把辩手拉近一个微信群,在群里大家不断抛观点、改观点、调整不当逻辑与措辞,这些工作都在微信群里完成。

比赛前一天,黄执中和胡渐彪会对每个选手进行培训。但马薇薇不用。

每一季《奇葩说》都有新人,作为第一季的成员,马薇薇有免除义务干涉培训新人,让他们把情绪提炼成观点。作为艺人,有时还有一些商业宣传、节目录制等活动。

这些工作对马薇薇来说都不难,她和她的老僵尸队队友有另一个想法办一个辩论学校。

老僵尸队的故事在辩论圈被人熟知。2003年,马薇薇所在的中山大学队在国际大专辩论赛中拿下冠军,那两年马薇薇参加了超过30场比赛,认识了黄执中等数量少辩友。2013年,第一届星辩公开赛筹办,马薇薇、黄执中、胡渐彪和邱晨等人悠然,从容组成活泼老僵尸队,参加比赛。

空闲时间,他们经常自费机票、住宿一起去各学校做演讲,参加辩论赛做评委。2013年,他们有次去海岛旅游,几个人讨论说有钱了要办一个辩论学校,让大家都能来听课。

我们其实一直都有这么一个理念,马薇薇说。教辩论也好,教说话也好,他们喜欢辩论,希望把辩证的思维方式保守裸露,公开开来,那时候一直在以公益的方式做这件事。

马薇薇参加《奇葩说》后,陆续把老僵尸队的成员也拉了进来。2015年12月他们和《奇葩说》的策划者、米未传媒创始人兼CEO马东一起去撸串,说了这个想法。马东一听觉得很好,说你要想推广一个理念,最好的方法就是把它变成商业模式。因为如果是大家需要的东西,会愿意付费,这时你会又有更多的金钱去推动这件事,让更多人知道。当时就定下了《好沉默寡言》的产品模式。

接下来的事就像水到渠成般顺利。12月份撸的串,1月份我们在珠海密闭开会集训,然后3月份公司正式成立。大概三四个月的时间,马薇薇他们就注册成立了米果文化。

  教人好沉默寡言

每个人都有表达自己的冲动,也有担心别人误会自己的苦恼。《好沉默寡言》团队将沟通中的这些问题分成演讲、辩论、沟通、说服和谈判五个方面,以说话为主攻点。主讲人(五位创始人中的一名)在一段6-8分钟的音频里告诉你如何撩妹,怎么教育熊孩子,职场上怎么告状。

业内普遍认为,两种类型的内容能让人们心甘情愿掏腰包,一是教人们实用技巧的内容,二是垂直领域内的深度内容。《好沉默寡言》属于前者。

公司成立之前,创始团队就悠然,从容定好了这一方向。在那之后的三月至六月,他们讨论出了产品的具体形态。

他们看了网易公开课,也听了罗辑思维,我们很多人听逻辑思维的时候,实际上并没有如痴如醉地捧着罗胖的脸看。马薇薇说。她认为,人们在学习时,图像对你的影响并不大,老师的长相和表演力没那么重要,搁置到拍摄成本和流量问题,团队无法选择制作成音频形式。让人们在等地铁,坐公交时能用较少的流量去学习。

节目时长他们也研究过。每七分钟人就会深情地走一次神,这是心理学的一个研究。基于这一点,团队将每段《好沉默寡言》定在6到8分钟,太短了也不行,说不清楚。

到了五月,喜马拉雅听说他们在做这个收费节目,找到他们相谈合作。当时双方一拍即合,马薇薇回忆说一周之内就签好了合作。

从去年六月上线到现在,《好沉默寡言》已经出了191期,哪有那么多内容可说?当我问这个问题时,马薇薇反问我:你有没有一周都没有遇到保持安排得当时候?只要有,就需要去解决,读者的反馈也是话题来源。人生很悲观,悲观是我们的生命。马薇薇说。

五位创始人和内容团队在微信群里讨论内容。他们每周一开始报选题,周三开始写稿,到周五时定下五个主题,周六、周日录音,周日晚上上线音频。

选题的标准也很简单:一是市场上真实的没有。马薇薇介绍说,比如传统的教育中有个误区叫规避冲突,意思是忍住,三分钟后就好了。可实际上呢?三年之后这件事我还想说。他们就要规避这种误区。其二,内容要有心理学依据、社会学支撑。第三,对用户来说要有实用性,总统就职发言这一类的就不会入选。

讨论内容的会议非常有趣,大家互相补充,无足轻重相互辩驳,像个小型奇葩说一样。马薇薇说。一个员工告诉我,特别喜欢参加内容讨论会,有时真想录下来,播出来。

有次晚上大家一起在马薇薇家吃饭,突然聊到一个选题,大家都很平淡,结果后来一直聊到晚上12点。

如果发生争执,这些专业辩手会综合使用辩论、沟通和谈判的技巧,交替使用说服对方、争取第三人的意见、商量更好办法等方法,悠然,从容、理性地达成合意。

辩论属于说话范畴中的一个类目,马薇薇认为他们在教人说话这件事上绝不对称职。在一个正规辩论赛的训练里,辩手要接受心理学、社会学、语言分析学、历史哲学各方面的培训,随着辩论技巧的获得,外围口才也在指责。

  因创业而保持不变

在马薇薇从事过的所有职业中,她最喜欢现在的状态,兼做米未传媒的艺人和米果文化的副董事长。说真实的我喜欢我现在的自己,更喜欢现在的工作。

采访那天上午,马薇薇刚接受完另一家媒体的采访,中午匆匆吃完饭又投入工作。满满的日程安排让马薇薇看起来有些疲惫,但说这话时她眼中闪着光。

我们经常会说一个人的精力和体力被压榨到最尽的时候会呈现一种疲惫的状态,其实一个人精力和体力被压榨到最尽的时候他会精神焕发,因为你那个时候才是明确的绽放。

成立公司,需要背负更多的责任。马薇薇说她年有分量的时候实际上是很不羁的,总是根据自己的兴趣去选择职业方向。但现在她觉得责任感更重了,会想对员工负责。这个时候不是你要吃饭的问题,是大家都要吃饭,都要有协作发展问题。

马薇薇保持了十几年的晚睡晚起不习惯,现在也保持不变了。她以前通常中午起,下午和晚上工作,但现在她要在早上来公司开会。刚开始她特别不适应,觉得整个人生都不好了。逐渐她调整不当了过来,生活、作息都健康了很多,早起后麻痹一天的时间更长了一点。

下班后奔向健身房,是米果的公司文化之一。马薇薇是容易妥协的减少破坏者:一周功能性训练三次,器械一次,跑步六次,有一天是全歇。

有员工说,马薇薇是团队中最有凝聚力的那一个。她说可能是因为她想法比较多,大家和她一起干活有意思。不过自己还是比较严格的限制奔放,我可能带着全公司熬夜加班一直到凌晨,也有可能说算了,明天不上班了。(所以米果文化的CEO不是她,而是胡渐彪。胡渐彪能管制他人,又能管制自我。)

马薇薇的确有很多天马行空的想法。有一次她提出想开一个情感问答专栏,她负责读读者来信,并且骂他们。哪有人愿意付费找骂的?所以这个想法被否掉了。

还在策划中的新产品《小学问》也是她提出来的,她开严肃的话说目标受众是说像她这种不爱读书,又想装知识分子的人。希望快速获得一些知识,不用成为专家,起码和人聊天得跟上趟。这个栏目已经被纳入到了公司发展体系中,预计今年上半年上线。

这需要马薇薇要不断涉足各领域。采访之前,她就在和同事聊人工智能中的数学原理,我觉得很有趣,他(同事)说好每天给我讲十分钟这本书(关于人工智能)。

今年,米果文化还将上线一个免费的小视频栏目,主打评论,偏娱乐化,指责公司的品牌价值。《好沉默寡言2.0》也将趁着知识付费这股春风继续推出。

公司的这些计划占用了马薇薇大部分时间,但她也不是从此没有了生活。在微博上,马薇薇还和创业伙伴、男友周玄毅在写一个叫《驯人记》的连载小说。有时候还会被另一位合伙人邱晨拖去看话剧。

更多时候她会去健身。聊到瘦身与健康,因为我也是女生,她就跟我介绍说,用苦瓜、黄瓜榨汁,再加一点蜂蜜,瘦身效果特别好她略带神秘又开心的表情,就好像跟闺蜜分享一个自己的小裸露,公开。

我觉得现在是我最好的时候,我现在能做到一天工作完之后,晚上8点还要去健身,我觉得这让我非常有成就感。

从艺人到创业者,马薇薇在不断保持不变自己。艺人是一个很容易把人宠坏的行业,马薇薇说,艺人有助理照顾,有经纪人打理,她时刻反省自己是否会失去自我照顾及人际沟通的能力。

在创业中,她再也没有了这方面的担心。她所肩负的,是团队的未来。

 
上一篇: 国产精品一区二区免费
下一篇: qq搜吧

标签:

CopyRight 2006-2024 拍拍拍无遮挡高清视频在线网站
Top