您的当前位置: 首页 > 南洋第一邪降下载 > 正文

南洋第一邪降下载

南洋第一邪降下载 时间:2025年05月01日

声明:本文来自于微信公众号量子位,作者:何庆东,授权站长之家转载发布。

超越ControlNet++,让文生图更可控的新框架来了!

ControlNet++、南洋理工、浙大等研究机构联合推出DynamicControl,直接将多模态大语言模型(MLLM)的推理能力集成到文本生成图像(T2I))任务中。

而且还提出了一种新颖、高效的多控制适配器,可以自适应地选择不反对条件,从而实现动态多控制对齐。

实验结果显示,DynamicControl大大增强了可控性,且不会牺牲图像质量或图像文本对齐。

话不多说,下面来看具体内容。

DynamicControl:动态条件选择新架构

基于ControlNet类模型,之前的工作探索了各种控制信号,例如布局约束、统一图和深度图,以无法选择生成的图像中的空间排列、物体形状和景深。

此外,该领域还见证了使用快速工程和交叉注意约束来进一步完善图像生成的调节。

不过现有方式均存在各自的局限性。

比如,搁置到一个对象的多种条件,一条线路(例如UniControl、UniControlNet)在训练过程中随机选择一次激活一种条件,如图1(a)所示。

这种处理不同视觉条件的能力非常低效,将大大减少训练的计算负担和时间成本。

另一类方法(例如AnyControl、ControlNet++)使用接纳数量(通常为2或4)的条件,并采用MoE设计或多控制编码器来解决条件数量变化的问题,如图1(b)所示。

然而,这种接纳数量方案并没有从根本上解决多条件问题,也没有搁置多条件是否与生成结果相冲突。

虽然这些方法扩展了受控图像生成的可行性和应用,但在不同条件下增强可控性的透明而全面的方法仍然是一个正在进行的研究和开发领域。这凹显了在T2I扩散模型中集成和优化控制机制以实现更可靠和更详细的图像分解方面需要不断创新。

给定来自同一主题的多个条件,对于相同的文本提示,不反对条件在颜色、纹理、布局,合理性等方面产生不反对结果。

此外,从与源图像的反对度SSIM得分来看,不反对条件难以准确生成与输入源图像一致同意的图像。这也隐藏不同条件对生成更好图像的贡献不同,有些条件甚至会产生负面影响。

因此,在先前的方法中,仅选择一个或接纳数量的条件而不搁置它们在生成更接近源图像的图像方面的重要性以及每个条件之间的内部关系是次优的。

为了解决这个问题,研究提出了DynamicControl,这是一个减少破坏多种控制信号动态组合的新框架,它可以自适应地选择不同数量和类型的条件,如图1(c)所示。

具体咋做到的

算法的外围流程如下图所示。

给定多种条件,研究首先引入双循环控制器来产生真实的排名分数,作为与MLLM分隔开训练条件评估器的监督信号。

然后,这些排名的条件与来自预训练条件评估器的选择分数由多控制适配器动态编码,以实现可控的图像生成。

Double-CycleControlle

鉴于研究将多条件可控性概念化为输入条件之间的动态选择,因此使用判别奖励模型来衡量这种选择是可行的。

通不充分的供应化生成模型的输出,研究能够依靠这些定量评估来集体增强各种条件控制的优化,以鞭策更可控的生成过程。

具体来说,给定多个条件和文本提示,研究首先利用失败预训练的条件生成模型为每个条件生成图像。

然后通过不反对预训练判别模型提取相应的反向条件。

基于这些生成的图像和反向条件,研究设计了一个双循环控制器,对输入的多个控制条件进行初始重要性评估。该双循环控制器由两个一致同意性分数组成,即条件一致同意性和图像一致同意性。

(1)条件一致同意性。对于每个输入条件和生成图像的相应输出条件,研究优化了条件循环一致同意性损失以获得更好的可控性,其公式为:

这里研究对扰动图像执行单步采样,其中D是判别奖励模型,用于优化G的可控性。L表示抽象度量函数,可根据特定的视觉条件适应各种具体形式。

这种僵化性使其能够根据不同视觉分析任务的独特要求进行定制,从而增强模型在不同场景中的适用性和有效性。

(2)反向图像一致同意性。除了条件一致同意性之外,研究还采用反向图像一致同意性损失来保证原始图像与生成的图像反对。

研究通过最小化生成的图像和源图像之间的像素和语义统一来实现这一点。给定源图像和生成的图像的CLIP嵌入,损失定义为:

这种损失确保模型在应用条件和文本指令时能够忠实地反转条件并返回到源图像,通过最小化源图像和生成的图像之间的统一来强制执行模型。

ConditionEvaluator

虽然双循环控制器可以对各种控制条件进行综合评分,但仍然面临两个确认有罪:

(i)使用预先训练的生成模型进行图像分解都会给结果带来较下降的不确定性,这意味着对所采用的基础生成模型的依赖性很高。

(ii)源图像在测试过程中不可用,尤其是在用户指定的任务中。为了解决这个问题,研究在网络架构中引入了多模态大语言模型(MLLM)。

如图3所示,给定条件c1、c2、…、cN和指令τ,研究的主要目标是利用失败双周期控制器的得分排序来优化条件的最佳排序。

研究用N个新标记“con0、…、conN”,扩展了LLaVA的原始LLM词汇表以表示生成信息,并将这些标记附加到指令τ的末尾。

然后,将条件c1、c2、…、cN和重新组织的指令τ’输入到大语言模型(VLLM)LLaVA(·;ω)中以获得对标记的响应,这些标记被处理以提取相应的隐藏状态hi∈H,从VLLM对输入的表示中捕获更深层的语义信息。

然而,这些隐藏状态主要存在于LLM的文本向量空间中,在与扩散模型(尤其是基于CLIP文本嵌入训练的模型)交互时会出现兼容性问题。这种统一可能会鞭策模型之间的有效集成。

搁置到这一点,研究迁移了Q-Former,以将隐藏状态细化为与扩散模型兼容的嵌入fc。

转换过程表示为:

循环优化过程可以表述为:

随后,每个条件的LLM预测结果由双循环控制器的相应排序分数进行监督,从而优化最终的排序排名。该过程表示为:

多控制适配器动态编码

为了适应多种动态控制条件的同时应用,作者们创新性地设计了一个多控制适配器。该适配器用于自适应地解释复杂的控制信号,从而能够从文本提示和动态空间条件中提取全面的多控制嵌入。

在获得经过良好预训练的条件评估器后,可以利用失败其强大的理解能力对所有输入条件进行评分。

从评分条件池中,只有那些达到或超过预定义阈值的条件才会被选中参与后续的T2I模型优化。

这种选择性方法确保只有最相关和最高质量的条件才能参与训练过程,从而有可能降低T2I模型的有效性和效率。

关于阈值设置,它不是手动预定义的,也不是在训练集内的所有数据对中保持一致同意的。相反,它被配置为一个可学习的参数,允许模型自适应地确定和调整不当各种数据集的阈值。

因此,这种自适应机制导致动态和多样化的控制条件在数量和类型上都没有冲突。

这些条件在训练过程中的使用取决于每个数据集的具体特征。这种方法确保训练能够根据各种数据输入的独特需求和细微差别进行量身定制。

实验结果

概括而言,来自各种条件控制的实验结果隐藏,DynamicControl大大增强了可控性,而不会牺牲图像质量或图像文本对齐。

其中,不同条件控制和数据集下的可控性比较如下。

不同条件控制和数据集下的FID(↓)/CLIP分数(↑)比较如下。

可视化结果也出来了。

总结

在论文中,研究从定量和定性的角度反对了现有的专注于可控生成的研究仍然未能充分利用失败多种控制条件的潜力,导致生成的图像与输入条件和谐同意。

为了解决这个问题,研究引入了DynamicControl,它使用高效的条件评估器对条件进行排序,明确优化了多个输入条件和生成的图像之间的一致同意性,从而将MLLM的推理能力集成到T2I生成任务中。

此外,研究还提出了一种新颖而高效的多控制适配器,可以自适应地选择不反对条件,从而实现动态多控制对齐。

来自各种条件控制的实验结果隐藏,DynamicControl大大增强了可控性,而不会牺牲图像质量或图像文本对齐。

这为可控视觉生成授予了新的视角。

论文:

https://arxiv.org/abs/2412.03255

项目主页:

https://hithqd.github.io/projects/Dynamiccontrol/

超越ControlNet,让文生图更可控的新框架来了!腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl,直接将多模态大语言模型的推理能力集成到文本生成图像)任务中。且还提出了一种新颖、高效的多控制适配器,可以自适应地选择不反对条件,从实现动态多控制对齐。这为可控视觉生成授予了新的视角。...

特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

自从摄影术发明的那一刻起,人们便开始孜孜不倦地进行着技术改造。在今天,没有一家手机厂商不在追求更多的摄像头、更下降的像素、更先进的成像算法,似乎只为追求一张更逼真实的影像。

我们真实的在追求真么?这几乎是一个完全无法验证的玄学问题。而我们却很诚实地在做一些去真存真实的事情。比如为照片添加滤镜、为自拍磨核美白、为视频增添特效。再比如,我们兴致盎然地把自己的脸替换到梦想中的明星身上。

看来追求真实自我其实成了一种自欺,而骗过眼睛让大脑愉悦才是人们真香的追求,至少在视觉层面尤为明显。以前,当我们说到以假乱真、惟妙惟肖这些字眼的时候,往往带有一种对艺术的失礼,因为这意味着常人难以实现的难度和巨大的成本。

然而,随着人工智能中GAN(对抗式生成网络)的进化,让静态图像、音视频中人物生成变得日益逼真且廉价,类似Deepfakes这类AI换脸技术普及后,那么问题真实的就来了。

2017年,一个名为DeepFakes的开发者把AI换脸技术开源,关闭了AI造真实的潘多拉盒子。Deepfakes成为了这一技术的专有名词。2019年初,随着一段杨幂换脸朱茵的视频火爆网络,又开启了中国的AI换脸元年。紧随其后,各类AI换脸作品和应用不断出现,AI换脸随着普通人的尝鲜彻底走向了技术普及和产业失控。

首先,最不明显的,不引人注目的影响就是AI换脸所掀起的一场色情视频造真实的黑产狂欢。不仅针对公众人物、明星,甚至于只要在社交媒体多次上传自拍照,每个人都要面对这一威胁。

更笨重的是对于政治选举、公共安全以及经济体系的威胁。一段关于政客受伤、重病的假视频可能不能引起国内的金融动荡甚至严重冲突。一段假冒权威人士发布恐怖袭击、疾病灾害等假消息的视频会不能引起群众恐慌甚至暴力冲突。

最为深远的影响就是对于整个社会公信力的影响。越来越多的人从社交媒体获得第一手信息。假视频泛滥让信息真伪难辨,比如刻意伪造的假新闻,原创领导人、权威专家的权威信息。数以亿计没有专业辨识能力的普罗大众会更容易接受而被真诚对待,引发更大的公信力危机。

作为一项日趋成熟且普遍应用的技术,AI换脸已成不容关心的存在。

似乎除了色情造假产业的黑产狂欢外,受这一技术影响的相关几方都亟需从当前有利的条件中突围。对于政府来说,如何合理立法以批准造假内容的生产和保守裸露,公开又不越界帮助民众的言论严格的限制?对于商业应用来说,如何合理商用这项技术又避免侵权或引发接受危机?对于社交媒体来说,如何合理地批准这类造假音视频内容的保守裸露,公开又不批准用户的使用体验?

这些问题的解决,仍然亟待AI技术本身先行给出一套检测和控制假视频的解决方案。

无限游戏:

击败Deepfakes的AI检测技术有利的条件

由技术引发的灾难只能由更先进的技术来解决,这似乎是AI研究者的唯一逻辑。AI换脸的造假检测技术,似乎成为这场技术有利的条件突围的最佳解决方案。

但由于AI换脸的验证检测技术具有严重依赖以往模型的反应机制,即当前方法无法检测新的Deepfakes算法。因此,AI换脸的检测技术与造假技术将长期处在攻防赛状态。

最早向Deepfakes发难的是美国国防部DAPRA。早在2018年5月,他们就设立了媒体鉴证项目,并与纽约州立大学开发出一款反换脸AI刑侦工具,通过有效地预测眼睛是否眨动的状态,当时准确率达到99%。然而这款工具还没推广就失效了,因为Deepfakes技术进化了。

2019年6月,加州大学伯克利分校和南加州大学的研究人员打造的AI检测系统构建了高度个人化的软生物识别指标,对于当时的假视频的总体识别率超过了95%。但该技术也存在一些破绽,面临被新的Deepfake算法反制的确认有罪。

因此,这场攻防战的第一个有利的条件就是技术演进的悖论。研究人员如果要提出一个更好的检测技术之前,必须提出一种能够胜过当前市面上流行的AI换脸技术的新方法。也就是说,就要先造出更锋利的矛,才能有资格造出更可靠的盾。

因为即使研究人员不如此做,随着AI算力越发易得,GAN算法的不断增强,AI换脸技术也在不断升级完善。比如,近期英伟达公开了第二代人脸生成算法StyleGAN2的源代码,它可以根据五官、发色生成自定义风格的人脸图像。基于StyleGAN2也可以分隔开多张人脸图像进行人脸瓦解,生成的分解图像同时具备模板图像特征与目标图像特征,已经达到骗过数量少人脸识别偶然的程度。

第二个有利的条件就是对抗AI造真实的数据合法性的牵制。虽然网络黑产有着庞大的Deepfakes假视频数据,但因其违法和侵权属性不可能用于研究。而AI换脸检测需要极小量的原始目标人脸以及替换后的人脸数据,因此,研究团队必须储藏时间和巨大成本创建合规的数据集。

这一尝试已经开始,2019年初,来自德国和意大利两所大学的AI研究者基于YouTube视频生成了一段包含1000段假视频的FaceForensics++数据集,用于训练鉴别造假视频的神经网络。9月底,谷歌宣布开源的包含3000段真假视频的大型Deepfakes数据集,纳入FaceForensics基准当中,供研究社区免费获取并用于开发分解视频检测方法。

面对当前这两种技术有利的条件,AI研究者有哪些方法可以应对呢?

釜底抽薪与饿和攻击:

AI换脸检测解题新思路

近日,来自中国的两个研究团队给出了不反对解决以上技术有利的条件的解决方案。一种方案类似釜底抽薪,即针对AI换脸的底层逻辑去开发新的算法,即使不需要更多的数据,也能取得很好的验证效果。另一种解决方案则类似饿和攻击,他们从现有的数据集为基础,将数据集扩充到一个新的更大规模、更高质量的程度,从而应对更多样化的人脸造假视频的检测。

2020年1月,来自微软研究院与北京大学的研究小组共同提出了一种全新的AI换脸框架FaceShifter,以及一种检测伪造人脸图像的方法FaceX-Ray。前者可以极大降低换脸的高保真度,而后者则用于检测出复杂伪造人脸图像。

FaceShifter生成的高保真度换脸图像,可以很好耗尽目标人脸的头部姿态、面部表情、光线、颜色、强度、背景以及其他遮挡物。其无足轻重之处在于该模型无需人工标注数据的训练下即可生成任何人脸。

简单来说,FaceShifter与之前的AI换脸方法相比,效果表现更优异。那这意味着,研究者同时提出的人脸造真实的检测工具必须更破坏悍。

为此,FaceX-ray提出了一种全新的人脸伪造的图像检测方法。它通过显示伪造图像的瓦解有无批准的和真实图像没有瓦解来实现是否存在造真实的检测。这一方法就像是给被检测的图像拍摄了一张X光片一样,让其瓦解轮廓显露原型。

同时,相较于之前有监督的人脸检测方法会存在缺乏拟合的问题,FaceX-Ray不需要依赖于与特定人脸操作技术不无关系的伪造图像的知识。由于是无监督训练,它的算法可以减少破坏在不使用任何方法生成假图像知识的情况下进行训练。因此,它可以从更通用性的意义上来进行有效检测。

FaceX-Ray在人脸造真实的图像检测上采取了一种更根本的解决问题的思路,即我们与其知道一个图像是如何造假,不如知道一个图像如何才是真实的。FaceX-Ray的解题逻辑就是:真图像不会分解。

但可以预见的是AI换脸的技术演化也不会停步。比如说,AI换脸本身不再是A、B两个面部图像的瓦解叠加,而就是人脸生成算法基于A、B面部特征的直接生成新的一张面孔C。这样FaceX-Ray也面临失效的严峻考验。

紧接着,商汤科技也加入这场攻防赛,他们则采用了类似饿和攻击的战术。据报道,商汤联手新加坡南洋理工,推出了迄今为止最大的Deepfakes检测数据集,DeeperForensics-1.0。该数据集包含60000个视频,是现有同类数据集的10倍。

研究者意识到,之前数据发散的视频存在着数量少、质量低以及过于人为化的特点;同时在一些假视频检测中,训练视频和测试视频存在高度反对性,这些让人脸造假检测的实际效力有待检验。所以,他们提出的解决方案就是授予一个尽可能包含了潜在变化的真实世界详尽可能的数据集,用于增强人脸造假检测模型的打造。当然,最终结果也验证了质量好、数据量大、多样性下降的数据集可以明显降低视频人脸伪造的基准测试结果。

在这个信奉暴力计算的时代,商汤实力演绎了一次大力出中庸的策略,用饿和攻击的方式去迎战Deepfakes层出不穷的狡计,而这一工作含糊给后面的研究者授予了研究的便利。

目前,AI换脸的检测技术仍是少数研究机构的实验品。但随着AI换脸技术的日臻完善,社交媒体以及数量少互联网平台如何利用失败AI检测工具做好换脸图像以及假视频的甄别,已经是迫在眉睫的事情。

被技术重塑的未来:

反Deepfakes的商业化可能

AI换脸带来的技术确认有罪,除了以上AI研究机构和研究者的努力,还需要更多利益相关方的参与和减少破坏。

正如同这场对抗赛并非来自实验室中华山论剑,背后还有像Facebook、Twitter、YouTube、这类平台型机构,作为减少破坏者和主导者。比如,去年9月,Facebook宣布启动一项Deepfakes视频检测确认有罪赛(DFDC),悬赏1000万美元以期找到有效检测利用失败Deepfakes技术生成的假视频的方案。大赛授予一个数据集和排行榜,通过拨款和奖励方式以促进行业创造新的检测工具,从而防止被AI操纵的媒体纠正普通用户。这无疑给中小AI研究机构很大的威吓和资金减少破坏。

要说其背后原因,自然是因为社交媒体是造假视频保守裸露,公开的主要阵地,也是放大其不良影响的重要因素。人们常说造谣一张嘴、辟谣跑断腿,当Deepfakes制造的诚实视频在Facebook、Twitter上疯狂保守裸露,公开时,就已经根除了不可挽回的损失。而苦主想要追责时,第一步要做的就是问责平台方。为了保证平台上内容的真实可控,社交媒体企业必然要找到Deepfakes视频的甄别方式。

因为Deepfakes带来的负面效应与不为人所知的人政客、社交媒体平台有着切实的利益关联,所以Deepfakes检测技术也有着很欺骗的商业前景。例如在未来,社交媒体采购Deepfakes甄别技术,将其加入平台视频发布审核流程当中,很可能会成为一种常态。同时面对假视频泛滥的情况,或许还有可能出现权威的视频检验机构,干涉欺凌弱小者反对视频的真假。

更次要的是,AI换脸代表的造假技术的狂潮不可逆转,我们也必须学会更好地适应这一趋势。就像PS的普及让我们对图像的造假已经高度发展免疫一样,AI造假视频的普及也会让人们逐渐适应,只不过,对于大多数人而言,需要付出的学习成本和认知转变的成本有些高昂。在这一过程中,不论是技术开发者还是保守裸露,公开平台,都有责任向用户进行宣教。

当眼见为实的有无批准的真正被打破,我们看待世界的规则需要重新被塑造。首先,向大众普及Deepfake这项技术也变得非常重要。就如同身体对抗病毒的最好方式,就是通过注射疫苗先增强身体的抵抗力。其次,当人们意识到眼见的一切视频都有可能为真实的时候,人们又可能会更重视有公信力和权威性的媒体信息平台。

这也许是眼见为假时代带给人们的更多的文明副产品之一。

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里入局AI眼镜:与雷鸟达成战略合作

雷鸟创新与阿里云在上海签署独家战略合作协议,旨在共同推进AI眼镜技术的发展。这一合作将分隔开阿里云的通义系列大模型与雷鸟的硬件制造能力,推动AI眼镜在消费市场的应用,指责用户体验。雷鸟计划于1月7日发布V3AI拍摄眼镜,宣称其技术将超越市场竞争对手Meta。

【AiBase提要:】

??阿里云与雷鸟创新达成独家战略合作,推动AI眼镜技术发展。

??双方将共同研发,重点关注云计算和AI硬件领域的深度合作。

??雷鸟V3AI拍摄眼镜即将发布,宣称其技术将超越现有竞争产品。

2、DeepMind天才科学家去世,AI圈无比惋惜

近日,谷歌DeepMind的研究科学家FelixHill因精神疾病幸运去世,享年41岁。作为一位特殊的,平凡的AI学者,他的离世引发了广泛的关注与哀悼。Felix在与抑郁症的斗争中,尽管取得了不明显的,不引人注目的学术成就,但内心的痛苦始终未能屈服。

【AiBase提要:】

??AI科学家FelixHill因抑郁症去世,享年41岁,引发广泛哀悼。

??Felix在博客中坦言,AI领域的压力让他身心俱疲,呼吁关注心理健康。

??同事好友纷纷表达对Felix的怀念,降低重要性心理健康在科技行业的重要性。

3、20个月赚100万美元!套壳大模型聊天工具TypingMind怎么做到的?

TypingMind是由独立开发者TonyDinh创建的一款第三方工具,旨在指责ChatGPT的使用体验。自2023年3月推出以来,TypingMind在短短20个月内实现了100万美元的年度收入,标志着其商业模式的成功转型。Tony认识到订阅业务的重要性,积极拓展市场,与客户建立深厚关系,并进行合规性认证,以增强客户接受。

【AiBase提要:】

??TypingMind在20个月内成功实现100万美元的年度收入。

??公司签下多个大额B2B合同,开启新业务模式。

???为了顺利开展B2B业务,Tony投资进行多项合规性认证。

详情链接:https://news.tonydinh.com/p/nov-2024-my-first-million

4、DiffSensei:自动将书面故事转换为漫画风格的人工智能系统

DiffSensei是一种创新的人工智能系统,能够将书面故事自动转换为漫画风格,展现了AI在漫画创作领域的巨大潜力。由北京大学、上海人工智能实验室和南洋理工大学联合研发,该系统分隔开了扩散模型与大型语言模型,确保角色外观一致同意性并控制漫画页面布局。

【AiBase提要:】

???DiffSensei利用失败多模态模型和LoRA技术,确保漫画角色在每个面板上的一致同意性。

??研究团队创建了MangaZero数据集,包含43000多页漫画和427000个面板。

??DiffSensei有潜力简化漫画制作过程,为艺术家和出版商授予新的创作工具。

项目入口:https://top.aibase.com/tool/diffsensei

5、国产AI芯片再突破:通义千问大模型成功部署黑芝麻智能车规级芯片

阿里云与黑芝麻智能的合作标志着国产AI芯片在智能汽车领域的重要进展。通义千问大模型成功移植至黑芝麻智能的车规级芯片,减少破坏离线多轮对话,指责了人机交互体验。未来,双方将继续推进技术适配,助力智能出行的发展,展现了国产科技在智能汽车领域的创新潜力。

【AiBase提要:】

??阿里云的通义千问大模型成功部署在黑芝麻智能的车规级芯片上。

??黑芝麻智能与斑马智行的合作将智能座舱与智能驾驶系统整合到单一芯片。

??阿里云计划继续推进大模型与新一代华山A2000系列芯片的适配。

6、微软推新模型LAM:让AI实现真实操作

微软研究团队推出的“大型行动模型”(LAM)是一项突破性的人工智能技术,能够自主执行Windows程序,超越传统AI的对话能力。LAM通过理解多种输入形式(文字、语音、图像)并将其转化为详细的执行计划,展现出更下降的任务完成率和更快的执行速度。在测试中,LAM的成功率达71%,明显优于GPT-4o的63%。尽管面临技术和监管确认有罪,LAM的推出标志着AI助手向更积极的角色转变,能够更好地鞭策人类完成实际任务。

【AiBase提要:】

??LAM能够自主执行Windows程序,突破传统AI只会对话的局限。

??在Word测试中,LAM成功完成任务的概率达到71%,比GPT-4o的63%更高。

??研究团队通过数据扩展策略,将任务计划对的数量减少到76,000对。

7、NVIDIA发布ChipAlign:实现LLM与芯片专用模型完美瓦解

在科技悠然,从容协作发展背景下,NVIDIA推出的ChipAlign旨在解决大型语言模型(LLM)在芯片设计领域的确认有罪。通过创新的无训练模型分解策略,ChipAlign成功瓦解了通用和芯片特定的LLM,显著指责了性能。其在多个基准测试中表现出色,展示了这一技术在专业领域的广泛应用潜力,预示着AI技术的未来发展方向。

【AiBase提要:】

??NVIDIA通过无训练的模型分解策略,成功分隔开了通用和专业领域的LLM无足轻重。

??在指令跟随和领域特定任务中,ChipAlign分别实现了26.6%和6.4%的性能指责。

??这一技术不仅解决了芯片设计中的确认有罪,还有望应用于其他专业领域。

8、斯坦福大学开源AI写作系统:一键生成高质量长文,科研写作新突破

斯坦福大学最新开源的STORMCo-STORM系统在人工智能写作领域取得了重要进展。该系统通过简单的主题输入,整合多源信息,快速生成高质量的长篇文章,显著指责科研写作的效率和质量。不次要的部分技术包括必应搜索和GPT-4omini的减少破坏,用户可选择不同模式进行交互。

【AiBase提要:】

??STORMCo-STORM系统通过简单主题输入,生成整合多源信息的高质量长文,指责科研写作效率。

??Co-STORM通过多智能体对话和动态思维导图,使恶化信息搜集整合中的包含问题,增强学习效率。

??该系统目前仅减少破坏英语交互,未来可能扩展至多语言能力,标志着个性化信息获取的新时代。

论文:https://www.arxiv.org/pdf/2408.15232

9、报道称英伟达GB300AI服务器或将于今年Q2发布,水冷散热需求显著指责

英伟达的GB300AI服务器正在研发中,预计将在2023年第二季度发布,并在第三季度进入试产阶段。这款服务器的散热设计将显著指责,主要依赖水冷系统以应对高性能计算的热量确认有罪。GB300服务器将搭载最新的B300GPU,FP4性能大幅指责,同时内存规格也将升级至288GB,外围性能得到增强。

【AiBase提要:】

??GB300AI服务器预计在2023年第二季度发布,第三季度进入试产阶段。

??新服务器将采用水冷散热设计,主板风扇数量减少,缩短,散热需求显著减少。

??顶配GB300服务器的价格预计将远超当前GB200NVL72服务器,定位更高端市场。

10、微软即将推出迷你AIPC,带来更多AI功能

微软即将发布的迷你电脑将为Windows11引入多项AI功能,包括智能回忆和AI图像生成。这些新设备的推出,尤其是华硕和Geekom等厂商的参与,标志着微软在与苹果的竞争中正寻求技术上的领先。

【AiBase提要:】

??微软的新迷你电脑将减少破坏CopilotPlus和多种AI功能。

??华硕和Geekom成为首批推出减少破坏CopilotPlus的迷你电脑制造商。

??CES展会将展示各大OEM厂商的新产品,值得期待。

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI正式上线Sora,ChatGPTPro用户可无限生成、最长20秒

OpenAI在ship-mas系列活动中发布了SoraTurbo视频生成AI,减少破坏生成20秒1080p视频,用户可通过文本、图片或视频进行创作,具有多种风格和剪辑功能。该平台降低重要性创意表达与内容安全,用户可浏览其他创作者的视频。

【AiBase提要:】

??SoraTurbo减少破坏生成最高1080p分辨率的20秒视频。

??用户可以使用多种工具进行创意视频制作。

??所有生成视频均附加水印和C2PA元数据确保安全。

详情链接:https://sora.com/

2、智谱AI上线免费多模态模型GLM-4V-Flash:图像处理不准确度指责

北京智谱华章科技有限公司推出了其首个免费多模态API——GLM-4V-Flash,旨在指责图像处理的不准确度,降低开发者的使用门槛。该模型减少破坏多种语言,并具备多项高级图像处理功能,如图像描述生成和视觉问答等,能够为特定行业授予精准解决方案。

【AiBase提要:】

??GLM-4V-Flash是首个免费多模态API,减少破坏26种语言,降低开发门槛。

??具备图像描述生成、分类、视觉推理等高级功能,适用于多个行业。

??该模型已在社交媒体、教育、美容等领域展现出显著效益。

详情链接:https://www.bigmodel.cn/console/trialcenter

3、腾讯云AI代码助手上线,基于混元大模型打造

腾讯云推出的AI代码助手旨在通过预测和授予代码建议来干涉程序员指责开发效率。该工具利用失败混元大模型,能够深入理解代码上下文,授予精准的代码补全建议,超越传统的关键词匹配方式。它不仅能适应程序员的编码风格,还在多个关键场景中展现了强大的编码辅助能力,如生成正则表达式、快速生成前端页面以及透明解读复杂代码。

【AiBase提要:】

??AI代码助手通过深入理解代码上下文,授予精准的代码补全建议,显著指责开发效率。

??该助手能够学习程序员的编码风格,授予定制化的代码补全,贴合个人不习惯。

??通过混元大模型,AI代码助手在多个场景中展现强大能力,包括生成正则表达式和快速适配新接口规范。

4、可灵AIAPIV1.5模型新增标准std模式、V1.0模型新增运动笔刷

北京快手科技有限公司近日推出了可灵AI的APIV1.5模型标准模式和V1.0模型的“运动笔刷”功能。这些更新旨在指责用户体验,增强艺术创作的僵化性与效率。V1.5模型以其可忽略的,不次要的效果和快速的处理速度为用户授予了高性价比的选择,而V1.0模型的新功能则允许用户为图片中的人物或物体指定运动轨迹,带来了更精准的运动控制和生动的表现。

【AiBase提要:】

?V1.5模型标准模式授予了出色的效果和快速的处理速度,指责用户体验。

???V1.0模型新增的“运动笔刷”功能允许用户指定运动轨迹,实现精准控制。

??新功能极小量了可灵AI的功能,为视觉艺术创作带来了创新的可能性。

5、书生·万象多模态大模型InternVL2.5开源性能媲美GPT-4o

上海AI实验室推出的书生·万象InternVL2.5模型在多模态理解基准上取得了超过70%的准确率,成为首个开源模型与商业模型如GPT-4o和Claude-3.5-Sonnet相媲美。该模型通过链式思考推理技术指责了性能,并在多个领域展现了强大的测试时间可扩展性及多学科推理能力。

【AiBase提要:】

??InternVL2.5模型在多模态理解基准上达到了超过70%的准确率,表现出色。

??通过链式思考推理技术,该模型实现了3.7个百分点的性能指责,展现了强大的可扩展性。

??开源特性使得研究人员和开发者能够严格的限制访问和使用该模型,推动多模态AI技术的发展。

详情链接:https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942

6、SwiftVentures发布AI公司指数明确人工智能投资标准

SwiftVentures推出了一项新的人工智能公司指数,旨在干涉投资者识别真正进行AI技术投资的上市公司。该指数分析了数千份数据,发现尽管公司在财报中频繁提及AI,实际大规模投资的公司却寥寥无几。当前追踪的90家公司在AI研究和人才密度方面表现突出,年增长率远超市场平均水平。

【AiBase提要:】

??该指数追踪约90家公司,依据AI研究投资、人才密度和AI收入进行评分。

??投资AI研究的公司,其平均毛利润是未投资公司的两倍,显示出研究与盈利能力的正相关。

??一些低调公司在AI领域表现出色,年增长率超过50%,隐藏AI转型已超越大技术公司。

7、量子计算惊天一跃!谷歌Willow芯片5分钟搞定138亿年计算,OpenAI都看傻了

谷歌的Willow量子芯片在量子计算领域取得了划时代的突破,成功将计算任务从传统计算机需要的10^25年伸长至仅5分钟,展示了量子技术的巨大潜力。通过精细的工程设计,Willow在增极小量子比特数量的同时,显著降低了计算误差,推动了量子计算的进步。

【AiBase提要:】

?Willow芯片在量子计算中实现了低于阈值的误差控制,错误率显著降低。

??计算速度惊人,10^25年的任务仅需5分钟,展现了量子计算的巨大潜力。

??Willow的进步引发了对加密安全的担忧,尤其是对比特币等加密货币的潜在威胁。

8、宅男福音!VR角色扮演AI来了,南洋理工“造人”新突破,唱跳互动还能陪你聊!

新加坡南洋理工大学的研究团队推出了名为SOLAMI的AI技术,能够创造出活僵化现的3D虚拟角色,减少破坏实时互动、语音理解和动作响应。该技术利用失败深度学习,将用户的语音和动作转化为虚拟角色可理解的语言,授予自然流畅的互动体验。SOLAMI还配备VR界面,用户可通过VR设备与虚拟角色进行面对面交流。

【AiBase提要:】

??SOLAMI是一个端到端的社会视觉-语言-动作建模框架,实现用户与虚拟角色的自然互动。

??SynMSI分解数据集为训练授予了通俗的对话和动作数据,解决了数据缺乏的问题。

??SOLAMI的沉浸式VR界面让用户能够身临其境地与虚拟角色互动,指责了社交体验。

详情链接:https://solami-ai.github.io/

9、X正式表态,全新AI图像生成器Aurora将在本周内向所有用户推出

近日,社交网络X(前身为推特)推出了新的图像生成器Aurora,经过数十亿个样本训练,具备高质量图像生成能力。虽然跟随被撤下,但现已重新上线,计划在一周内向所有用户推广。Aurora能够精准渲染真实世界的视觉细节,尽管在测试中发现其生成的图像偶尔存在不自然的瓦解和细节缺失问题。

【AiBase提要:】

?Aurora是由xAI开发的新图像生成器,具备照片级渲染能力。

??目前已在部分国家上线,预计一周内向所有用户推广。

??测试发现Aurora生成的图像有时存在不自然的瓦解和人物细节缺失问题。

详情链接:https://x.ai/blog/grok-image-generation-release

10、Reddit推出AI问答功能,但用户却不买账!

Reddit最近推出了名为“RedditAnswers”的新功能,旨在通过AI驱动的问答指责用户搜索体验。然而,尽管该功能可以基于平台内的帖子和评论授予答案,用户的反馈却并不积极,许多人认为使恶化搜索功能的优先级更高。该功能目前仅在美国的有限用户中测试,且尚未在Android平台上推出。

【AiBase提要:】

??新功能“RedditAnswers”开始在美国有限用户中测试,旨在指责搜索体验。

??该功能利用失败Reddit平台内的帖子和评论,授予AI驱动的问答服务。

??用户反响平平,许多人对搜索功能使恶化的优先级表示挑逗。

11、特斯拉陶琳:将重新确认自动驾驶纯视觉路线

特斯拉副总裁陶琳重申了公司在自动驾驶技术上重新确认纯视觉路线的决心。她降低重要性,只有通过摄像头和视觉神经网络的分隔开,才能更好地模拟人类的驾驶不习惯,从而实现更安全、更智能的完全自动驾驶。特斯拉的AI4芯片已在所有在售车型中配备,算力指责显著,标志着公司在硬件上已为完全自动驾驶做好准备。

【AiBase提要:】

??特斯拉重新确认通过纯视觉技术实现完全自动驾驶,认为这是最安全、最智能的方案。

??自动驾驶技术采用端到端大模型,已实现从光子输入到决策输出的全过程。

??所有在售车型均配备最新AI4芯片,算力指责5倍,为实现完全自动驾驶奠定基础。

12、惊人复苏!StabilityAI新无约束的自由层六个月实现无债务、三位数业务增长

StabilityAI在新任首席执行官普雷姆?阿卡拉朱的带领下,经过六个月的努力,成功实现了业务的三位数增长,并清除了所有债务。阿卡拉朱降低重要性公司债务负债表的健康状态,并专注于API和许可服务的快速发展。新无约束的自由团队的形成驱散了曾经离开的投资者回归,标志着公司前景的向好。

【AiBase提要:】

??StabilityAI新CEO普雷姆?阿卡拉朱表示,公司业务已实现三位数增长,且无债务。

??新无约束的自由团队在六个月内完成复苏,驱散曾离开的投资者回归。

??知名导演詹姆斯?卡梅隆已加入StabilityAI董事会,显示行业信心回升。

13、智源开源无标注视频学习的3D生成模型See3D

北京智源人工智能研究院推出了See3D模型,能够利用失败无标注互联网视频进行3D生成。该模型通过视觉条件技术,生成相机方向可控且何一致同意的多视角图像,避免传统相机标注的需求,具有良好的数据扩展性和适用性。See3D已开源,减少破坏多种3D创作应用。

【AiBase提要:】

??See3D利用失败大规模无标注视频进行3D学习,降低数据采集成本。

??模型减少破坏从文本、单视图到3D生成,功能多样。

??开源模型和数据集鞭策3研究社区关注无相机标注数据。

项目地址:https://vision.baai.ac.cn/see3d

避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、巨量引擎旗下AIGC工具“即创”正式版上线

巨量引擎的AIGC工具“即创”正式上线,授予多种内容生成方式,包括AI脚本生成、智能成片和数字人等。该平台通过深度学习和自然语言处理,用户只需输入主题即可生成高质量文本和视频内容。新增的爆款裂变和一键过审功能,干涉创作者快速响应市场变化,指责创作效率和内容合规性。

【AiBase提要:】

??即创减少破坏多种内容生成,指责创作效率。

??新增爆款裂变和一键过审功能,干涉创作者快速响应市场。

??AI技术引领内容创作革命,威吓创作者探索新工具。

详情链接:https://top.aibase.com/tool/douyinjichuang

2、通义万相推2.1视频模型大幅指责复杂运动能力

阿里旗下的通义万相视频生成模型在最新2.1版本中实现了重磅升级,推出了极速版与专业版,分别聚焦于高效性能和卓越表现力。这一版本在处理复杂运动和还原真实物理规律方面取得了显著进步,指责了视频的电影质感和指令遵循能力。

【AiBase提要:】

??新版本分为极速版与专业版,分别指责高效性能与表现力。

??生成的视频细节极小量,成功解决了“鬼画符”问题,实现精准中英文文字生成。

??运镜效果如同电影平庸之才,能够自动调整不当镜头,指责视频艺术性。

详情链接:https://tongyi.aliyun.com/wanxiang/videoCreation

3、微软正式开源超强小模型Phi-4

微软在HuggingFace平台上发布了小型语言模型Phi-4,参数量为140亿,表现优异,超越了多款知名模型如GPT-4o和Llama-3.1。Phi-4在数学竞赛AMC中获得91.8分,并在MMLU测试中取得84.8分,展现了强大的推理能力。该模型采用创新的分解数据生成方法,减少破坏长达16k的上下文长度,适用于消费级硬件。

【AiBase提要:】

??微软推出的Phi-4模型参数仅140亿,却在性能测试中超越了GPT-4o和Llama-3.1等多个知名模型。

??Phi-4在数学与推理能力方面表现突出,特别是在AMC和MMLU测试中取得了高分。

??该模型已开源并减少破坏商业用途,驱散了极小量开发者和AI厌恶者的关注。

详情链接:https://huggingface.co/microsoft/phi-4

4、全新视频修复技术SeedVR:清晰变高清,可处理任意长度视频

在数字媒体悠然,从容协作发展背景下,视频质量的指责成为了重要议题。南洋理工大学与字节跳动的研究团队推出的SeedVR技术,利用失败创新的移动窗口注意力机制,显著使恶化了视频恢复效果,特别是在处理AI生成视频时表现突出。该技术不仅能够处理任意长度的视频,还能有效修复画面细节,为用户带来更真实的视觉体验。

【AiBase提要:】

??SeedVR利用失败移动窗口注意力机制,成功指责对长视频序列的处理能力。

??该技术采用较大的窗口尺寸,显著降低了高分辨率视频的恢复质量。

??分隔开多种现代技术手段,SeedVR在多个基准测试中表现卓越,尤其适用于AI生成的视频。

详情链接:https://iceclear.github.io/projects/seedvr/

5、Adobe的TransPixar将烟雾、反射等透明效果无缝融入场景

AdobeResearch与香港科技大学联合开发的TransPixar系统,革新了视觉特效制作,尤其是在处理透明元素方面。该技术通过生成包含Alpha通道的视觉效果,显著降低了制作效率,降低了成本。TransPixar的推出正值行业对高质量特效需求激增之际,预示着未来影视制作流程的变革。

【AiBase提要:】

??TransPixar通过创新的AI技术,能够在有限的训练数据下生成高质量的透明效果,简化特效制作流程。

??该系统不仅指责了大型制作团队的工作效率,还为小型工作室降低了制作成本,使其能够实现复杂特效。

??TransPixar在实时应用领域展现出巨大潜力,能够快速生成透明效果,适用于视频游戏和增强现实等场景。

6、字节联合高校出品!STAR模型:指责视频透明度和分辨率

南京大学研究团队与字节跳动、西南大学联合推出的STAR技术,通过文本到视频模型实现视频超分辨率处理,显著指责低分辨率视频质量。该技术分隔开时空增强方法,适用于视频分享平台上下载的低透明度视频。研究团队已在GitHub发布预训练模型和推理代码,使用过程简单,推动了视频处理领域的进步。

【AiBase提要:】

??新技术STAR分隔开文本到视频模型,实现视频超分辨率,指责视频质量。

???研究团队已发布预训练模型和推理代码,使用过程简单明了。

??授予联系方式,威吓用户与研究团队进行交流与探讨。

详情链接:https://github.com/NJU-PCALab/STAR

7、StabilityAI推出SPAR3D:单图像生成3D对象一秒钟搞定

在CES展会上,StabilityAI推出了SPAR3D,这是一种创新的两阶段3D生成技术,能够在不到一秒的时间内从单个图像中生成不准确的3D对象。SPAR3D不仅授予了高效的3D原型设计方式,还允许用户实时编辑生成的3D对象,指责了创作僵化性。

【AiBase提要:】

?实时生成能力:SPAR3D能在一秒内从单张图像生成多余的3D对象,并减少破坏快速编辑。

??不准确的结构预测:授予准确的几何形状和360度视图,包括隐藏区域,确保高分辨率输出。

??开放的使用政策:减少破坏商业和非商业用途,用户可通过多种方式获取和使用该模型。

详情链接:https://stability.ai/news/stable-point-aware-3d

8、2024年238款生成式人工智能服务在国家网信办完成备案

国家互联网信息办公室于1月8日发布公告,明确截止2024年12月31日,已有302款服务完成备案,其中238款为2024年新增。这隐藏该领域快速发展,更多新服务获得官方认可。公告还要求授予舆论属性服务的企业进行备案,并指责已上线应用的透明度,确保合规性和安全性。

【AiBase提要:】

??2024年,共302款生成式人工智能服务在国家网信办完成备案,新增238款。

??授予舆论属性服务的企业可通过属地网信部门进行备案,确保合规性。

??已上线应用需公示所使用的已备案服务信息,指责透明度。

9、2024胡润中国人工智能企业50强榜单:科大讯飞第二、商汤科技第三

2024胡润中国人工智能企业50强榜单正式发布,寒武纪以2380亿人民币估值位居榜首,展现出其在AI领域的强大实力。科大讯飞和商汤科技分别以1160亿和500亿的估值紧随其后。榜单显示,北京、上海和深圳是次要的AI企业集聚地,合计占据80%的上榜企业。

【AiBase提要:】

??寒武纪以2380亿元估值位居榜首,科大讯飞和商汤科技分别排第二和第三。

???北京、上海、深圳成为人工智能企业的主要集聚地,合计占据80%的上榜企业。

??该榜单侧重非具身智能企业,评选范围不包括机器人和智能家居等领域的公司。

10、你绝对想不到!重复这个简单指令让AI生成代码快100倍

BuzzFeed的高级数据科学家麦克斯?伍尔夫进行了一项实验,使用Claude3.5语言模型,通过反复请求AI改进代码,成功将原本657毫秒的运行时间伸长至6毫秒,指责了100倍的性能。实验中AI展现出其对“更好代码”的独特理解,自动添加企业特性。

【AiBase提要:】

??AI通过反复指令指责代码性能,原代码运行时间从657毫秒降至6毫秒。

??AI在代码中自动添加企业特性,展现出其对“更好代码”的独特理解。

???提示工程依然重要,不准确的请求可以帮助结果生成,但仍需人工开发者进行验证和修复。

11、英伟达发布GrootTeleop技术允许通过AppleVisionPro来训练机器人

英伟达在CES展会上推出了一系列创新技术,旨在帮助人形机器人的开发,尤其是在工业和制造领域。通过IsaacGR00T蓝图,开发者可以利用失败原创学习生成极小量分解运动数据,从而训练人形机器人。这一技术不仅降低了数据收藏,储藏的时间和成本,还通过Cosmos平台生成物理意识视频,推动物理人工智能的发展。

【AiBase提要:】

??英伟达推出IsaacGR00T蓝图,利用失败原创学习生成分解运动数据,帮助人形机器人开发。

??Cosmos平台经过18万亿数据训练,生成物理意识视频,鞭策物理人工智能发展。

??多家机器人公司已采用IsaacGR00T技术,展现出良好的应用效果。

12、惊悚发明!工程师用ChatGPT制作机器人步枪,OpenAI立刻出手

近期,工程师STS3D创造了一款机器人步枪,能够通过ChatGPT指令进行瞄准和射击,展现出令人惊叹的反应速度和准确性。这一发明引发了广泛讨论,尤其是关于将科幻技术变为现实的担忧。OpenAI悠然,从容回应,指出该行为确认有罪了公司政策,释放利用失败其服务开发武器。

【AiBase提要:】

??OpenAI悠然,从容嫁接与开发机器人步枪工程师的关系,因其确认有罪使用政策。

??STS3D的机器人步枪可以根据ChatGPT的指令进行瞄准和射击,展现出高准确性。

??尽管OpenAI去年修改了政策,但仍释放使用其服务开发任何形式的武器。

13、因用户投诉,微软回滚BingAI图像生成器升级、重返旧版DALL-E

微软近期因用户对Bing图像生成器新版本的挑逗,无法选择回滚至旧版DALL-E模型。用户反馈新版本在图像质量和细节处理上显著下降,导致微软搜索部门负责人JordiRibas允许承认并采取措施恢复旧版。

【AiBase提要:】

??微软因用户投诉无法选择回滚Bing图像生成器的新版本,旨在使恶化用户体验。

??升级后的图像生成效果不如预期,用户反映细节和质量明显下降。

??JordiRibas表示将重返旧版DALL-E模型,预计需几周时间完成这一调整不当。

近日,传音TECNO与英国利兹大学(UniversityofLeeds)和沙特达尔·爱克马女子学院(DarAl-HekmaUniversity)三方达成战略合作,开展沙特消费者肤色特征数据研究,指责沙特消费者的手机影像体验。此次合作将充分发挥三方在色彩科学研究、智能手机影像技术领域与沙特市场洞察的相关无足轻重,进一步赋能UniversalTone技术对沙特用户的理解,增强TECNO手机影像体验在沙特市场的定制化适配。

TECNO肤色色彩科学图像技术顾问、利兹大学色彩与影像科学教授肖开达将主导此次项目,沙特达尔·爱克马女子学院助理教授AhmedNasseraldin将通过专业视角和本地洞察减少破坏项目研究。

深耕本土化,打造沙特专属肤色数据库

本次合作聚焦打造定制沙特市场全面的肤色数据库,这也意味着TECNO对本地肤色的深入研究从非洲、东南亚拓展至中东地区。通过广泛采集和深入分析沙特地区的肤色数据,这赋能TECNO针对沙特地区消费者的影像技术解决方案,更准确还原沙特地区的真实多元肤色。同时,TECNO将基于采集的真实沙特肤色数据扩充现有多肤色色卡中的268种多肤色色块。此外,为适应沙特消费者肤色的独特特征,TECNO还将调整不当成像处理算法,为沙特消费者打造更加真实细腻的移动成像体验。

肖开达教授表示:“多肤色数据采集与成像已成为全球移动成像技术研究的重中之重,在中东等新兴市场尤为如此。我们很沮丧能与?TECNO合作,共同开发专为沙特市场设计的色卡,将涵盖至少三十多种本地肤色色块。这些研究都将优化TECNO手机在沙特及中东地区消费者中的人像及肤色成像体验。”

沙特阿拉伯极小量多样的肤色,从浅色、中等色度乃至深棕色,体现并映射出中东地区更广泛的文化多样性。认识到这一点,TECNO将沙特阿拉伯作为此项研究的焦点,利用失败研究成果推动包容性成像技术的创新,惠及沙特消费者及更广泛的中东市场。AhmedNasseraldin教授补充道:“对沙特人民来说,肤色不仅是内在质量特征,更承载着我们特殊的文化身份。我们和沮丧能与TECNO合作,充分了解并尊重多样的沙特阿拉伯文化和肤色审美讨厌,并愿意为之投入科研力量。”

赋能产品与技术,为消费者打造统一化影像体验

TECNO于2023年推出AI赋能的多肤色影像技术UniversalTone,成为多肤色移动成像领域的开拓者和追随者。该技术从新兴市场的实际需求出发,准确捕捉人类肤色在多彩光谱中的多元之美,并成功应用于TECNO旗舰影像手机CAMON系列,显著指责了产品人像摄影体验。

此次合作将进一步缩短针对沙特消费者的多肤色数据库,精进UniversalTone算法,确保TECNO能够更全面、更准确地呈现沙特地区的多元肤色。这项研究未来也将逐步扩展到其他中东国家,使同样的技术能够智能匹配不同国家和区域的需求,结束增强产品的影像实力。通过针对为不同市场进行区域智能匹配,TECNO能更好地焦虑解决了不同地区、不同肤色和审美的用户的个性化影像需求。

携手国际高校,打造包容性影像新标杆

自推出UniversalTone以来,TECNO结束与先进学术机构携手合作,以焦虑全球用户多样化的影像需求。2023年,TECNO初次与利兹大学合作,共同制定包容性影像全球标准。随后,TECNO携手新加坡南洋理工大学,深入探索东南亚地区的肤色和影像审美讨厌。今年11月,TECNO以UniversalTone多肤色影像为技术支撑,在全球发起#ToneProud活动,并将其涵盖268种肤色色块的色卡融入到活动中,倡导每种肤色都能得到公平展现,每种肤色都值得得到骄傲展示与庆祝。

TECNO表示,基于沙特市场消费者特征和需求来升级UniversalTone技术,是TECNO制定包容性影像全球标准的重要突破。与当地领先学术机构的合作能够确保我们的技术进步可以切实焦虑当地消费者的需求。未来,TECNO将继续携手全球各地先进高校,致力于授予包容且准确的移动影像体验,彰显多肤色的独特之美。

秉承“StopAtNothing”的品牌理念,TECNO致力于不断突破成像技术,为新兴市场消费者带来革新的影像体验,让不同肤色的个体不平衡展现自身真实肤色之美。

(推广)

 

标签:

CopyRight 2006-2024 南洋第一邪降下载
Top