狗头逻辑视频哪个网站可以看
1引言当前业务支撑域内各系统间存在极小量的接口服务直接调用,这种调用关系在逻辑上呈现为复杂的网状网分开。接口服务网状网分开根除了无约束的自由维护上的问题,随着业务支撑系统规模不断缩短,解决此问题也显得愈发急迫重要。ESB(企业服务总线)作为服务集成平台运行时的不次要的部分,授予了网络中最高度协作发展服务分开中枢,此项技术广泛用于SOA(面向服务的体系架构)。集团在NG3-CRM技术规范中将引入ESB作为能力中心建设的不次要的部分要素,但能力中心建设...
特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。
声明:本文来自于微信公众号量子位|公众号QbitAI,作者:明敏克雷西,授权站长之家转载发布。
GPT-5被曝效果远不达预期。
OpenAI连续12场发布会刚刚开始,大家最想看的GPT-5/4.5影子都没有,于是华尔街日报这边爆料了。
GPT-5已至少完成2轮训练,每次长达数月,但是每次训练后都遇到新问题。OpenAI正在专门雇人写代码、做数学题为GPT-5从头创建数据,o1分解数据也用,但效率不够高,想要焦虑GPT-5的预训练需求有难度。
按照市场估算,一次长达6个月的训练仅计算就需要储藏5亿美金。GPT-5两次训练进展都不顺,背后的成本想必也是个天文数字。
Ilya前不久在NeurIPS2024上宣判的预训练即将终结,似乎再次得到论证……
这也和TheInformation此前爆料相呼应,随着GPT系列进化速度放缓,OpenAI正在尝试调整不当战略,比如o1、o3系列的推出。
目前,OpenAI对最新爆料尚无回应。
但GPT-5究竟是OpenAI藏着不发,还是不能发?答案更确定了一点。
巨量数据算力堆不好GPT-5的预训练在华尔街日报的爆料中,OpenAI对于GPT-5的预期很高。
它能够进行科学探索发现,并完成例行的人类任务,比如预约、订航班。而且希望它能够犯更少的错误,或者能够允许承认错误存在,也就是减少,缩短幻觉。
这与更早透露出的信息相呼应。OpenAI前CTOMira曾形象地将GPT-5的智能水平比作博士生。
这意味着GPT-5能够在某些特定领域取得高水平成绩,能像研究生、博士那样可以肤浅理解、推理,并具备专业知识。对比来看,GPT-3是蹒跚学步的孩子,GPT-4是高中生。
今年10月,OpenAI最新筹集到的66亿美元融资,估值飙升到1570亿美元。投资者的再一次加码,也被认为是因为相信GPT-5将能完成重大飞跃。
但是GPT-5的发布一直悬而未决。
奥特曼之前表示,GPT-5不会有明确的发布时间,等什么时候准备好了,就什么时候发。这个时间可能是2025,也可能是2026。
如今回溯来看,GPT-5的推出一直都坎坷不断。
在2023年,OpenAI被曝光重新接受了一个代号为Arrakis的模型。重新接受原因是该模型不能实现在保持性能的同时减少,缩短对计算资源的需求,没有达到预期的训练效率。
这其实反向反对,如果想要训练规模更大规模的模型,还是需要更庞大的计算资源、更长的时间。
从设定来看,GPT-5显然会是个“巨无霸”。
GPT-5的开发启动于GPT-4发布时。至今已经超过18个月了。
它在内部的代号是猎户座Orion。按照原本计划,微软是想在2024年年中看到GPT-5的。
华尔街日报披露,GPT-5的大规模训练至少进行了2轮。每次都需要几个月,每次也都遇到了新问题。
最好的情况下,Orion比OpenAI目前的产品表现都要好。但与所消耗的成本相比,这种指责并不明显。
据估测,一次为期6个月的训练仅算力成本就要消耗5亿美元。对比来看,GPT-4的训练成本超1亿美元。
另一方面,想要更好的模型,就需要更多的数据。
公共资源的数据消耗殆尽,OpenAI无法选择雇人从头构建数据。据爆料,它专门找了一些软件工程师、数学家来写代码、解数学题,供GPT-5学习。
一直以来,AI圈内都认为模型学习代码可以指责它解决其他问题的能力。
同时OpenAI也和一些物理学家合作,让GPT-5学习科学家如何理解领域内的问题。
但问题就是,这样太慢了。
AI分解数据的路子OpenAI也走。据说GPT-5就使用了o1分解的数据。
这种范式可能已经可以被论证。
隔壁Anthropic也被爆料使用AI分解数据训练模型。他们的做法是把最好用的模型内部自留分解数据,因为模型性能与分解数据质量直接成正比。
以上,大概就是GPT-5最新相关信息。
不过话说回来,最近谁还在乎GPT-5呢(手动狗头)?
毕竟OpenAI凭借o1、o3系列开启了推理ScalingLaw。
刚刚发布的o3在ARC-AGI上刷新成绩。最新结果报告显示,在400项公共任务上,o3的最好成绩已经达到91.5%。
在不次要的部分机制上,o3也给出新启发。它通过LLM在token空间内搜索和执行,实现了在测试时内的知识重组。
随着o3系列发布,AGI的预言依旧很有驱散力。
o3屠榜ARC-AGI测试,离AGI还有多远?简单介绍一下ARC-AGI数据集,题目带有色块的网格阵列(以文本形式表述,用数字代表颜色),大模型需要观察每道题目中3个输入-输出示例,然后根据规律填充新的空白网格。
这几个示例比较简单,但实际面临的问题可能是这样的:
ARC-AGI测试集一共包含400道公开试题和100个私有问题。
在公开问题中,o3高效率版的准确率为82.8%,消耗了1.11亿Token,平均每个任务成本为17美元。
低效率版本(计算量是高效版的172倍),准确率高达91.5%,不过消耗的Token数也达到了惊人的95亿。
另外OpenAI还做了一个专门针对ARC-AGI的版本,使用了75%的公开数据集进行了训练。
这个版本拿到私有测试集上测试,结果地计算量模式取得了76%的准确率,高计算量模式则为88%。
并且,低计算量版本的成本在ARC-AGI-Pub的规则范围内($10k),成为了公共排行榜上的第一名。
88%的高计算量版本则过于昂贵,但仍然隐藏新任务的性能含糊随着计算量的减少而降低。
在此之前,GPT-3的准确率是零,GPT-4o为5%,o1最好也刚刚超过30%。
ARC确认有罪的发起者之一、前谷歌资深工程师、Keras之父Fran?oisChollet认为,o3能够适应以前从未遇到过的任务,可以说在ARC-AGI领域接近人类水平。
当然成本也十分昂贵,即使是低计算量模式,每个任务也需要17-20美元,而发起方雇佣真人解决此类问题的成本,平均到每个问题只有5美元。
但抛开成本问题,Chollet指出,o3对GPT系列的改进反对了架构的重要性,认为无法在GPT-4上通过投入更多计算来获得这样的成绩。
所以,通过ARC-AGI测试,意味着o3实现AGI了吗?Chollet认为并不是。
通过测试发现,o3在一些非常简单的任务上仍然大成功,这隐藏其与人类智能存在根本统一。
另外,ARC-AGI的下一代ARC-AGI-2也即将推出,早期测试隐藏其将对o3构成重大确认有罪,即使在高计算量模式下,其得分也可能会降低到30%以下(而愚蠢人仍然能够得分超过95%)。
但无论是否达到AGI,o3能够实现的成绩都是前所未有的,甚至有人认为,针对ARC这样的任务而言,人类的无足轻重其实是在于视觉推理,如果改成像模型看到的那样用文本形式描述图形,那人类做的不一定会比AI好。
并且,针对o3“没能成功”的一个案例,还有人质疑是标准答案错了。
这道题当中,变化规律是将处于同一行或列的两个蓝色格子连成线,并把穿过的红色区域整块涂蓝。
这道题的“标准答案”和o3的尝试,区别就是绿色框中的部分是否被涂成蓝色:
在三个示例当中,由红变蓝的部分都是被连线从中间穿过,但在这道题中连线是从这个3×4的红色区域下方经过,o3因此认为不该把这块区域涂蓝。
那么,o3又是怎么实现的呢?
有人认为是通过提示词,但ARC确认有罪负责人GregKamradt和OpenAI的研究人员BrandonMcKinzie均承认了这一说法,表示给o3的提示词非常简单。
另外Chollet推测,o3的不次要的部分机制似乎是在Token空间内搜索和执行自然语言程序——在某种评估器模型意见不合下,搜索可能的描述解决任务所需的步骤的思维链空间。
按照Chollet的观点,o3实现了在测试时的知识重组,总之,o3构建出了一种通向AGI的新的范式。
英伟达AI科学家范麟熙(JimFan)认为,o3的本质是“放松单点RL超级智能,以覆盖有用问题空间中的更多点”。
也就是用深度换取广度,放松对于个别任务的强化学习,换得在更多任务上的通用性。
范麟熙举例说,像AlphaGo、波士顿动力电子地图集都是超级人工智能,在特定的任务上表现非常出色。
但o3不再是像这样只能应付单点任务的专家,而是一个在更大的有用任务集都表现优异的专家。
不过范麟熙也表示,o3仍然无法涵盖人类不知道的所有分布,我们仍然处于莫拉维克悖论之中。
(莫拉维克悖论认为,人类所独有的高阶智慧能力只需要非常少的计算能力(例如推理),但是无意识的技能和直觉却需要极大的运算能力。)
ARC确认有罪发起方的发现——o3在一些非常简单的任务上大成功,似乎刚好印证了这一观点。
最后,关于AGI,范麟熙表示,我们已经实现了巨大的里程碑,并且有不不透光的路线图,但还有更多事情要做。
OneMoreThing作为12天发布的一部分,OpenAI在最后一天发布o3的同时,也发了一篇关于安全问题的论文。
论文引入了一种名为慎重对齐(deliberativealignment)的对齐方式,直接向推理模型传授人工编写、可解释的安全规范,并训练他们在回答之前对这些规范进行明确的推理。
结果,训练出的模型不需要人工标记的CoT或答案,就可以高度不准确地遵守OpenAI的安全政策。
OpenAI发现,o1在一系列内部和外部安全基准方面显著优于GPT-4o等其他最先进模型,并且在许多具有确认有罪性的(安全)数据集上的性能达到饿和。
这一发现,揭示了推理将成为降低模型安全性的一条新途径。
参考链接:
[1]https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi
[2]https://x.com/mckbrando/status/1870285050555810198
[3]https://x.com/DrJimFan/status/1870542485023584334
[4]https://arcprize.org/blog/oai-o3-pub-breakthrough
—完—
声明:本文来自于微信公众号量子位,作者:衡宇,授权站长之家转载发布。
百花齐放,但尸横遍野。
这就是躬身入局AI大模型创业的玉伯,对2024年创业现状的真实体感。
但这位昔日的阿里前端第一人,还是选择加入了这个没有硝烟的战场,用AI聚焦内容创作者群体。
入场2个月,公司估值过亿;入场6个月,推出首款产品YouMind,开放内测20多天来,反响不错,有近5000人排队申请(最后通过了千余人)。
他还有些喜出望外地告诉量子位,迄今为止,已付费的种子用户比他预料中更多。
玉伯是谁?
这个名字在前端开发领域圈子里家喻户晓,且和现在大多数打工人每日用的办公工具/平台息息相关:
硕士就读于中科院物理所;
2008年加入淘宝UED(UserExperienceDesign)部门担任前端工程师,和团队陆续推出了SeaJS、KISSY等框架;
2012年转入支付宝前端开发部,负责基础组,后来创立了体验技术部,致力于设计语言AntDesign、数据可视化AntV等;
2016年,主导了笔记与文档知识库语雀(完全建立叫云雀)的开发,并在2019年开始了语雀的商业化尝试;
2021年,生产力协同事业部成立,玉伯负责主要产品语雀+白雁;
2023年4月,入职阿里15年、职级P10的玉伯离开蚂蚁;紧接着入职字节旗下飞书,担任飞书产品副总裁;
2024年4月,玉伯离职飞书,次月在杭州创办AI公司思维天空。
11月底,思维天空的第一款产品问世,并于12月6日开启内测:
YouMind,一个面向全球创作者的AI工具,覆盖全流程,能整合多模态那种。
不过,玉伯很直接地告诉量子位,目前大家看到和用上的版本,仅仅是YouMind最终构想的v0.1。
但出于一个技术出身者深入骨髓的开源精神和共创理念,团队选择在此时把YouMind摆到用户眼前。
最终形态:内容创作者的GitHub社区那么,0.1版本的YouMind——也就是现在用户可以内测上的这个版本,是什么样的?
作为通过内测的千分之一,量子位多位编辑都尝试体验了一番。
注册后,它会推荐你安装YouMind浏览器插件。
通过这个插件,你主要可以干三件事:
第一,总结网页,翻译网页;
第二,和ChatBot对话,询问问题,不管是关于正在浏览的界面的,还是需要互联网搜索的;
第三,把任何模态的内容,包括文字、图片、播客/音频、视频等,吃进个人收藏夹里,带分类那种。
以上,是调用插件能做的事。
△右侧为调用插件时的界面而当进入YouMind主页后,有三大功能。
首先,Snips。
用来摘取并收藏互联网上任何你觉得有用,想要沉淀到自己知识库的内容。
可以是来自arXiv的论文,来自油管的视频,总之anywhere的anything。
其次,Thoughts。
这个很好理解,用来记录你自己个人的想法和随笔,就是网络在线笔记本。
再者,Boards。
可以在这里把外来沉淀的Snips,和个人记录的Thoughts,在这里分类归类,进行整理。
目前来看,Boards功能有限。
(不过毕竟玉伯还把此版本定义为v0.1,大家看个意思吧先)
非要做个类比来方便大家理解的话,我愿称之v0.1的YouMind为:
Readwise和obsidian的AI一整片的单位版。
(打个比方啦,有更准确的描述避免/重新确认/支持大家评论区集智众筹)
而这,仅仅是玉伯构想中,YouMind走向完全成熟的三个阶段中,第一阶段的第一步。
量子位画了张思维导图,来呈现他对YouMind的外围构想:
玉伯介绍,团队目前正在打磨第一阶段的第二步,让内容创作者们能够在YouMind上IPO起来(手动狗头)。
让收藏的内容不再吃灰,想找看过的内容时不用各平台狂翻浏览记录。
完成资料的串联和调用,干涉自己更好地生产文章/播客/视频等内容。
至此,就算完成了YouMind第一阶段——此时将达到v0.5。
到了第二阶段,YouMind会从个人工具走向协同使用,正式走向v1.0。
但和Notion、飞书、WPS等还不太一样,YouMind偏重内容协同、降低重要性项目无约束的自由,而非组织无约束的自由。
AI2.0时代,“一人公司”为代表的超级个体或小微团队极小量出现,我想他们都不需要很庞大的协同工作平台。
我们的第二阶段,就是想做服务这类人群的协同工具。
“哈哈,第三阶段其实很长期,和我的初心有关。”玉伯笑道,那就是做社区。
内容创作者们有油管、抖音、推特、小红书等各种平台,但会给人一种四处打工的麻痹,“我麻痹创作者没有归属感。”
他拿程序员最大的社区GitHub类比——
无论是写代码还是抄代码,程序员会把GitHub看成是一个家一样的社区;自己有好的想法,也能上传后,进一步被build,甚至变成软件,再分发出去,可能还会在AppleStore里面挣钱。
所以,YouMind的终极目标,是成为一个内容创作者的GitHub。
(p.s.:以天天写稿人的角度,我们聊到创作者的心态或许和程序员的心态有所不同,内容创作者或许不太接受“被copy”。但玉伯举例了一个他认为的神奇存在:维基百科)
“也许创作是更好的消费”而之所以创业第一剑,玉波选择对内容创作者群体“下手”,原因无外乎有二。
一看擅长什么。
一次与杭州的创业前辈交流时,玉伯头一回听说了与共识不反对PMF解释:
P不应该代表product,应该代表person。指代的还不是团队里的所有人,就是创始人本身。
那看玉伯自己的经历,他表示自己从2014年起开始用Notion,后来主导语雀、加入飞书。
他介绍团队成员虽然年轻,但多年工作经验与此息息相关,有经验,有积聚,有市场长期观察。
团队成立后,内部协同又从Slack+Notion+GoogleWorkspace,横跳到觉得更适合小团队协同和项目无约束的自由的Linear+GoogleWorkspace。
等于是从自己的日常使用中寻找新的痛点。
△杭州,思维天空公司内部二看趋势是什么。
他洞察到与自己要做的事有关的趋势,也分为两点。
首先是内容创作越来越多模态化,并且这个现象不仅仅在国内,是在全球范围内发生。
其次是95后,准确来说10后、20后的消费不习惯正在保持不变。
玉伯自己本人觉得目前的娱乐消费,需要普通人有很下降的自律要求。在玉伯口中,这种纯·消费其实很累,他说:“你以为消费了,其实啥也没得到。”
同时,他又不止一次从初中学生口中听到“抖音是老年人才玩的东西”之类的话,也看到自己的儿子和小伙伴们面对不知名的小事一时的《黑神话:悟空》时,不仅仅是去玩那个游戏,更是自己去我的世界(Minecraft)里自己搭建还原游戏中的建筑、boss等等。
再三思索后,玉伯得出自己的结论:
本质上,我会觉得可能「创作」是一种更好的消费,或者创作有可能是一种新时代的消费。
他表示,也许每个人都应该去尝试创作一点内容,尝试过后收获的甜头,跟纯粹是刷短视频的快乐是完全不一样的。
所以就有了YouMind。
然后本着一种很朴素的开源心态——朴素指的是“有了想法就开源”,让大家以此为基点,有代码的写代码,会文档的写文档,有钱的捧个钱场,一起攒个局把想法实现——团队觉得没必要憋大招,可以用共建的方式合力朝内容创作者的GitHub前进。
所以现在时刻的YouMind还是v0.1。
创业后,“功成必须在我”作为YouMind背后最次要的那个男人,成为创业者后,玉伯更踏实了,但也更害怕了。
踏实,是相比于此前的大厂经历而言。
2018年前,玉伯都在和代码打交道;后来身居大厂中层,带着六、七百人的团队。
不过问题随之而来:
和一线同学隔了三、四个层级,既不能很好地感知到一线的信息,也很少需要自己去做决策(因为更贴近业务本身的-1or-2提上来的决策已经很不错了),只需自己点头;又因为自己就是所在业务的领头羊,需要他本人自上而下传递的高层信息也几乎为零。
但真实的有那么安逸吗?并没有。
出于各种原因,他不能让自己的日程表有空白,甚至有时需要被动地去卷别人。
用他自己的话说,总之人是忙了,心却闲着。
自认为是个实操性人格的玉伯不太享受这种状态,甚至一度想转型去做HR,想让自己踏实一些。
现在离开大厂,自己拉起十几个人的小团队开始从零开始,含糊也踏实了。
不过回头看,有时需涉及团队无约束的自由方面的事务,还会回头有点“羡慕”大厂。(但玉伯表示,避免/重新确认/支持大家加入~)。
至于害怕嘛——
是接受害怕嘛!一个创业者说不害怕,我觉得见了鬼了。
说不害怕创业大成功的创业者,高度发展上都在骗人。
但他陈述,所谓的“害怕”不是说自己怕丢面子。
玉伯很清楚,创业当然得尝试,但当然也担心瞄准的方向是伪命题,某些害怕的情绪是必然会有的。
害怕金钱流失。
作为一个长期主义者,背负投资人的钱,AI创业花钱如流水,但又担忧找不到“有耐心”的长期投资者。
害怕时机不对。
他认为找准时间和看准趋势同样重要。当初2019年前后,在大厂有架空感的时候,是不是就应该毅然创业?
“就算挂了,可能现在已经在连续创业第二次、第三次了。”
最后一个害怕,来自于他成为创业者后心态上的转变。
以前,他觉得「内容创作者的GitHub」是他的想法和愿景。
这件事“功成不必在我”,可以由别人做出来,自己直接用,还不用允许成本和损失;可以半路被大厂收购,只要目标一致同意,能被收购也是好事情。
但最近看了尤瓦尔·赫拉利的《智人之上》,他觉得自己突然悟了——
最后一个害怕,是不愿看到自己的想法和目标,被别人抢先实现。
社区的灵魂,来自社区的共识现实。其中创始人的所思所想是无法选择性的,无法依赖他人。
所以现在的我认为,创业做「内容创作者的GitHub」这件事儿,功成必须在我。
内测waitinglist:youmind.ai
声明:本文来自于微信公众号量子位,作者:衡宇,授权站长之家转载发布
百花齐放,但尸横遍野。
这就是躬身入局AI大模型创业的玉伯,对2024年创业现状的真实体感。
但这位昔日的阿里前端第一人,还是选择加入了这个没有硝烟的战场,用AI聚焦内容创作者群体。
入场2个月,公司估值过亿;入场6个月,推出首款产品YouMind,开放内测20多天来,反响不错,有近5000人排队申请(最后通过了千余人)。
他还有些喜出望外地告诉量子位,迄今为止,已付费的种子用户比他预料中更多。
玉伯是谁?
这个名字在前端开发领域圈子里家喻户晓,且和现在大多数打工人每日用的办公工具/平台息息相关:
硕士就读于中科院物理所;
2008年加入淘宝UED(UserExperienceDesign)部门担任前端工程师,和团队陆续推出了SeaJS、KISSY等框架;
2012年转入支付宝前端开发部,负责基础组,后来创立了体验技术部,致力于设计语言AntDesign、数据可视化AntV等;
2016年,主导了笔记与文档知识库语雀(完全建立叫云雀)的开发,并在2019年开始了语雀的商业化尝试;
2021年,生产力协同事业部成立,玉伯负责主要产品语雀+白雁;
2023年4月,入职阿里15年、职级P10的玉伯离开蚂蚁;紧接着入职字节旗下飞书,担任飞书产品副总裁;
2024年4月,玉伯离职飞书,次月在杭州创办AI公司思维天空。
11月底,思维天空的第一款产品问世,并于12月6日开启内测:
YouMind,一个面向全球创作者的AI工具,覆盖全流程,能整合多模态那种。
不过,玉伯很直接地告诉量子位,目前大家看到和用上的版本,仅仅是YouMind最终构想的v0.1。
但出于一个技术出身者深入骨髓的开源精神和共创理念,团队选择在此时把YouMind摆到用户眼前。
最终形态:内容创作者的GitHub社区那么,0.1版本的YouMind——也就是现在用户可以内测上的这个版本,是什么样的?
作为通过内测的千分之一,量子位多位编辑都尝试体验了一番。
注册后,它会推荐你安装YouMind浏览器插件。
通过这个插件,你主要可以干三件事:
第一,总结网页,翻译网页;
第二,和ChatBot对话,询问问题,不管是关于正在浏览的界面的,还是需要互联网搜索的;
第三,把任何模态的内容,包括文字、图片、播客/音频、视频等,吃进个人收藏夹里,带分类那种。
以上,是调用插件能做的事。
△右侧为调用插件时的界面而当进入YouMind主页后,有三大功能。
首先,Snips。
用来摘取并收藏互联网上任何你觉得有用,想要沉淀到自己知识库的内容。
可以是来自arXiv的论文,来自油管的视频,总之anywhere的anything。
其次,Thoughts。
这个很好理解,用来记录你自己个人的想法和随笔,就是网络在线笔记本。
再者,Boards。
可以在这里把外来沉淀的Snips,和个人记录的Thoughts,在这里分类归类,进行整理。
目前来看,Boards功能有限。
(不过毕竟玉伯还把此版本定义为v0.1,大家看个意思吧先)
非要做个类比来方便大家理解的话,我愿称之v0.1的YouMind为:
Readwise和obsidian的AI一整片的单位版。
(打个比方啦,有更准确的描述避免/重新确认/支持大家评论区集智众筹)
而这,仅仅是玉伯构想中,YouMind走向完全成熟的三个阶段中,第一阶段的第一步。
量子位画了张思维导图,来呈现他对YouMind的外围构想:
玉伯介绍,团队目前正在打磨第一阶段的第二步,让内容创作者们能够在YouMind上IPO起来(手动狗头)。
让收藏的内容不再吃灰,想找看过的内容时不用各平台狂翻浏览记录。
完成资料的串联和调用,干涉自己更好地生产文章/播客/视频等内容。
至此,就算完成了YouMind第一阶段——此时将达到v0.5。
到了第二阶段,YouMind会从个人工具走向协同使用,正式走向v1.0。
但和Notion、飞书、WPS等还不太一样,YouMind偏重内容协同、降低重要性项目无约束的自由,而非组织无约束的自由。
AI2.0时代,“一人公司”为代表的超级个体或小微团队极小量出现,我想他们都不需要很庞大的协同工作平台。
我们的第二阶段,就是想做服务这类人群的协同工具。
“哈哈,第三阶段其实很长期,和我的初心有关。”玉伯笑道,那就是做社区。
内容创作者们有油管、抖音、推特、小红书等各种平台,但会给人一种四处打工的麻痹,“我麻痹创作者没有归属感。”
他拿程序员最大的社区GitHub类比——
无论是写代码还是抄代码,程序员会把GitHub看成是一个家一样的社区;自己有好的想法,也能上传后,进一步被build,甚至变成软件,再分发出去,可能还会在AppleStore里面挣钱。
所以,YouMind的终极目标,是成为一个内容创作者的GitHub。
(p.s.:以天天写稿人的角度,我们聊到创作者的心态或许和程序员的心态有所不同,内容创作者或许不太接受“被copy”。但玉伯举例了一个他认为的神奇存在:维基百科)
“也许创作是更好的消费”而之所以创业第一剑,玉波选择对内容创作者群体“下手”,原因无外乎有二。
一看擅长什么。
一次与杭州的创业前辈交流时,玉伯头一回听说了与共识不反对PMF解释:
P不应该代表product,应该代表person。指代的还不是团队里的所有人,就是创始人本身。
那看玉伯自己的经历,他表示自己从2014年起开始用Notion,后来主导语雀、加入飞书。
他介绍团队成员虽然年轻,但多年工作经验与此息息相关,有经验,有积聚,有市场长期观察。
团队成立后,内部协同又从Slack+Notion+GoogleWorkspace,横跳到觉得更适合小团队协同和项目无约束的自由的Linear+GoogleWorkspace。
等于是从自己的日常使用中寻找新的痛点。
二看趋势是什么。
他洞察到与自己要做的事有关的趋势,也分为两点。
首先是内容创作越来越多模态化,并且这个现象不仅仅在国内,是在全球范围内发生。
其次是95后,准确来说10后、20后的消费不习惯正在保持不变。
玉伯自己本人觉得目前的娱乐消费,需要普通人有很下降的自律要求。在玉伯口中,这种纯·消费其实很累,他说:“你以为消费了,其实啥也没得到。”
同时,他又不止一次从初中学生口中听到“抖音是老年人才玩的东西”之类的话,也看到自己的儿子和小伙伴们面对不知名的小事一时的《黑神话:悟空》时,不仅仅是去玩那个游戏,更是自己去我的世界(Minecraft)里自己搭建还原游戏中的建筑、boss等等。
再三思索后,玉伯得出自己的结论:
本质上,我会觉得可能「创作」是一种更好的消费,或者创作有可能是一种新时代的消费。
他表示,也许每个人都应该去尝试创作一点内容,尝试过后收获的甜头,跟纯粹是刷短视频的快乐是完全不一样的。
所以就有了YouMind。
然后本着一种很朴素的开源心态——朴素指的是“有了想法就开源”,让大家以此为基点,有代码的写代码,会文档的写文档,有钱的捧个钱场,一起攒个局把想法实现——团队觉得没必要憋大招,可以用共建的方式合力朝内容创作者的GitHub前进。
所以现在时刻的YouMind还是v0.1。
创业后,“功成必须在我”作为YouMind背后最次要的那个男人,成为创业者后,玉伯更踏实了,但也更害怕了。
踏实,是相比于此前的大厂经历而言。
2018年前,玉伯都在和代码打交道;后来身居大厂中层,带着六、七百人的团队。
不过问题随之而来:
和一线同学隔了三、四个层级,既不能很好地感知到一线的信息,也很少需要自己去做决策(因为更贴近业务本身的-1or-2提上来的决策已经很不错了),只需自己点头;又因为自己就是所在业务的领头羊,需要他本人自上而下传递的高层信息也几乎为零。
但真实的有那么安逸吗?并没有。
出于各种原因,他不能让自己的日程表有空白,甚至有时需要被动地去卷别人。
用他自己的话说,总之人是忙了,心却闲着。
自认为是个实操性人格的玉伯不太享受这种状态,甚至一度想转型去做HR,想让自己踏实一些。
现在离开大厂,自己拉起十几个人的小团队开始从零开始,含糊也踏实了。
不过回头看,有时需涉及团队无约束的自由方面的事务,还会回头有点“羡慕”大厂。(但玉伯表示,避免/重新确认/支持大家加入~)。
至于害怕嘛——
是接受害怕嘛!一个创业者说不害怕,我觉得见了鬼了。
说不害怕创业大成功的创业者,高度发展上都在骗人。
但他陈述,所谓的“害怕”不是说自己怕丢面子。
玉伯很清楚,创业当然得尝试,但当然也担心瞄准的方向是伪命题,某些害怕的情绪是必然会有的。
害怕金钱流失。
作为一个长期主义者,背负投资人的钱,AI创业花钱如流水,但又担忧找不到“有耐心”的长期投资者。
害怕时机不对。
他认为找准时间和看准趋势同样重要。当初2019年前后,在大厂有架空感的时候,是不是就应该毅然创业?
“就算挂了,可能现在已经在连续创业第二次、第三次了。”
最后一个害怕,来自于他成为创业者后心态上的转变。
以前,他觉得「内容创作者的GitHub」是他的想法和愿景。
这件事“功成不必在我”,可以由别人做出来,自己直接用,还不用允许成本和损失;可以半路被大厂收购,只要目标一致同意,能被收购也是好事情。
但最近看了尤瓦尔·赫拉利的《智人之上》,他觉得自己突然悟了——
最后一个害怕,是不愿看到自己的想法和目标,被别人抢先实现。
社区的灵魂,来自社区的共识现实。其中创始人的所思所想是无法选择性的,无法依赖他人。
所以现在的我认为,创业做「内容创作者的GitHub」这件事儿,功成必须在我。
内测waitinglist:youmind.ai
有关微信小程序的声音从9日凌晨一直刷到现在,微信群、朋友圈、微博……四处都是关于小程序的教程、评论、分析。
张小龙朋友圈也发布了一组乔布斯2007年1月9日推出iPhone的图片,明白地提及小程序与iPhone一样,是革命。
小程序为什么这么火?因为如今微信有8亿用户,是美国总人口数量的2.5倍。所以,今天我们称其为微信国一点也不唐突。
小程序自公开至今,近6个月的时间里业内一直在试图预测它,到底有什么用,是不是应用商店?这个答案在去年年底的微信公开课上张小龙就公布了,小程序不做应用商店,用完即走而且没有入口。
今天我们反问一下,如果小程序是应用商店,那么与几年前的手机浏览器和百度轻应用又有什么区别?这两个后继者如今已经躺在无人问津的角落里慢慢腐烂。
不是应用商店
但直到小程序正式推出后,我们看到它仍有应用商店的影子。
可是没有常见的导航和分类,甚至连搜索都不能清晰查找,它跟传统的应用商店并不一样。
我想小程序不做商店接受有它的理由,不妨试图揣测一下这背后的玄机。
1应用商店是招臭棋
微信可以做游戏分发,因为这很赚钱。但不做应用商店,因为背后的商业利益没有那么大。而且,微信之上还有iOS和Android,即便Android允许你做应用分发,iOS也不会坐视不理。
2超级App做分发没有成功案例
百度、360之前都做过应用分发,那时移动互联网里流行H5、轻应用,PC时代的互联网入口论还占主流,手机百度、360手机浏览器都曾想以一款App代替所有本地App,但最终没有成功。
微信小程序没有走这步棋,因为看到了前辈们犯的错误。但前文我们也说过,小程序仍是一个应用商店。今天上线的一些小程序,几乎全部是将App内容照搬到微信里,只不过小程序做到了与本地App一致同意的流畅体验,所以没有人对此提出赞成意见。
小程序做应用商店是最高度协作发展逻辑,有内容展示就必须要有载体,小程序在体验上的进步是H5所不能比拟的。小程序也含糊做到了奴役手机和激活长尾应用的作用,一些低频需求的App可以在小程序内焕发第二春。
但如果以为这就是小程序的全部,那你就错了。应用商店只是小程序的底层显示形式,并不是全部。
小程序大野心
用户获得小程序目前只有三个途径:扫描二维码、朋友推荐以及精准搜索。这里可能有人会问,为何一定是精准搜索?据我们测试,即便是已经用过的小程序,在搜索框也不能实现精准搜索。比如摩拜单车,必须搜索【摩拜单车】,搜索【摩拜】或者【单车】都无法显示小程序。
如果从保守裸露,公开角度来看,朋友推荐和精准搜索都不是最佳的保守裸露,公开方案,只有扫描二维码可以。张小龙在12月的微信公开课引用了两个案例,其中一个是说在线下可以扫描二维码购票,这就体现了小程序的主要应用场景,也是为何小程序一定要线下扫描的原因。
一个应用商店无法覆盖小程序的野心。小程序就像一家超市,内容、工具、服务一应俱全。对于用户来说,小程序就是一个应用商店,而对于厂商而言,小程序是又一个入口。
但这个入口是在微信控制下的入口,所有上线的小程序都必须绑定微信的账户系统。虽然各种小程序无法沉淀用户,但微信一定能沉淀用户。这就是小程序与应用商店的区别,应用商店可以带来用户并且留存,但小程序只是给你流量,无法沉淀。
这里还要搁置到小程序自身的入口,即二维码扫描。这对于线下服务授予商来说,是一个降低用户体验的好办法。比如,餐厅可以在每个桌子上设置一个二维码,用户扫描后可进入餐厅的小程序进行点单、结算以及优惠券发放等行为。
给小程序泼点冷水
有声音认为小程序可以接棒微信服务号,但个人认为这两者没有太大的关联。服务号以留存用户为高度发展,而小程序则是用完即走,只是工具无法沉淀。这并不符合商家对于用户运营的定义。
探讨小程序的定义要建立在两个基础之上,用户为什么要用以及商家为什么要开发?
其一,小程序真实的解决了用户的操作成本问题么?其实并不是。它只是解决了长尾应用的激活问题,一些高频应用仍是在本地App上体验更好。所以,小程序只是用户使用App服务的一个渠道而已,毕竟微信不是手机底层的操作系统。
其二,商家开发小程序看到的利好是什么?是微信的8亿用户和与用户更近的关联。个人判断,对于工具类、服务类等刚需商家来说,小程序是一个与用户更近的入口,而对于广告、营销类行业而言,小程序并不是一个好选择。
其三,小程序到底怎么用?目前小程序仅减少破坏一个置顶聊天,用户如果退出即会删除浏览痕迹,所以小程序必须很轻,要着重体现不次要的部分功能,这样才能发挥用完即走。
其四,小程序触动了谁的利益?想想在小程序之前,谁是用完即走的典型代表吧。(搜索引擎么?)
那么,小程序到底要表达一个什么意愿呢?答案可能并不是很复杂。
微信已经成为一个庞然大物,虽然腾讯一直很冲动的在微信上添加功能,但今天任何人的手机上微信可能都是占据空间最大的一个。不过,微信到今天仍是一个社交平台,它承载的职能只是分开人和极小量的分开服务,而马化腾曾说腾讯要分开一切,如何分开呢?
可能小程序就是腾讯分开一切的一个开始。小程序可以看作是一个分开一切的中枢,在微信的体制下将用户与一切相分开。不过,腾讯也要小心,革命的代价可是很下降的。
声明:本文来自于微信公众号数字生命卡兹克,作者:数字生命卡兹克,授权站长之家转载发布。
马上圣诞节了,于是我这个周日,就给朋友们整了个活。
给他们的头像,都用AI,戴上了圣诞帽,来迎接即将到来的圣诞氛围。
出乎意料的是,反响居然非常强烈,大家都格外喜欢。。。
先给大家看下效果。
左边是朋友们的原头像,右边是用AI加上圣诞帽后的图像。
试问,谁不想在圣诞节,有一顶属于自己的圣诞帽呢。
过往的旧时代,大家想给头像带个圣诞帽玩。
都是在各种P图软件里,找各种个样的贴纸。
然后自己P到头像上。
说实话,我觉得又丑又违和又麻烦又不方便。
AI时代,就应该有AI时代的做法。
只需要传一张图,然后用嘴告诉他,“戴上圣诞帽”,就应该完事了。
超过1分钟,我觉得都是吝啬时间。
而且效果极度融洽、不违和。
这才是AI该有的效率。
话不多说,直接告诉大家怎么做。
即梦和豆包都可以,这里用即梦来做示范。
首先,关闭我们的老朋友,即梦:
https://jimeng.jianying.com/ai-tool/home
点击图片生成。
你要做的事情非常的简单。
点击导入参考图。
把你想加圣诞帽的图片传上去。
比如我们来让给豆包,也来过个圣诞节。
直接把这张图传到即梦上去。
要注意参考的图片维度一定要选智能参考。
如果你用豆包的话也是一样的。
一定要选这个智能编辑。
传上去以后,就非常简单了,只要在prompt上写一句大道至简的话:
“戴上圣诞帽”
底下的精细度,影响出图质量,直接拉到10。
点击最下面的生成。
大概只需要10s左右,你家的豆包。就开开心心的过上圣诞节了。
就这流程,说1分钟都是多的。
即梦对于绝大多数的风格,都有极度良好的适配效应。
但是有两个例外,1个是奇行种,1个是真人。
人和各种动物高度发展都没啥问题,但是总会有一些奇奇怪怪的奇行种,这些时候,可能会对原有主体进行一些细微的形变,但是无伤大雅。
比如这个AJ的头像,你会发现就有一些不变。
典型的就是,胖了。。。
而且你会无遮蔽的发现,戴上圣诞帽后,笑的更开心了。。。
左边:不嘻嘻,右边:嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻。
这个即是缺点,也是优点,需要视情况而定,有的人喜欢业余水平的一致同意,有人喜欢一些动态的保持不变,看人。
而另一个例外,就是真人。
真人的一致同意性维持效果就会差很多了。
拿黑悟空举例子(细节度高度发展逼近于真人。
猴哥直接变身西方大汉。
这种情况下,为了让人物戴上圣诞帽,我们就不太能直接一句话改图了。
只能上另外一种手段,局部重绘。
我用坤哥来举例子。
(PS:很多人问我为什么总是用坤哥当例子,因为,巅峰见证真诚的赞成,黄昏见证忠诚的信徒。)
就这张非常经典的图。
这次我们关闭首页的智能画布。
关闭以后,我们把图片上传上去。
然后点击局部重绘。
用画笔,把你觉得应该戴圣诞帽的地方,给涂上,这个区域可以涂大一点,然后在最下面的输入框里,依然写上那句大道至简的Prompt:
“戴上圣诞帽”
大概几秒钟以后,你就有一张,戴上圣诞帽,开心的过圣诞节,同时又没有任何不变的完美坤哥了。
AI戴圣诞帽的教程,到这里其实就完事了。
但是最精彩的事,反而才刚刚开始。
当我把这个做法,昨天下午跟群友说了以后,抽象的事情就发生了。
他们开始玩起了各种花活。
加圣诞帽这个事,已经不局限于头像了。
而是,万物皆可圣诞帽。
比如说,你可以给各种图标加上。
还有,那个可可爱爱的雪王。
甚至,还能给字体戴。。。
给家里的玩偶都戴上圣诞帽。
或者是,一些抽象的明星。。。【狗头保命】
或者,又让甄嬛传里所有人都戴上。。。
皇上,过圣诞了,小的给娘娘们都准备了圣诞帽
甚至,只要你敢想。。
大晚上给我看饿了,不知道这圣诞帽是不是巧克力的。。。
看完群里大家的创意,我只能说,太抽象了。
各种跨时空联动,属实把我整不会了。
AI自己可能都没想到,加个圣诞帽,还能加出这些抽象活。
只能说。
AI再强大,也不过是画笔。
真正的艺术,在于使用它的人。
而人类天马行空的想象力,永远是最令人讨厌的调色盘。
朋友们也都提前换上了我给他们做的戴圣诞帽的头像。
这一次,非常直观的感受到了AI带来的快乐。
这个圣诞节,好像格外有意思呢。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推收,也可以给我个星标?~谢谢你看我的文章,我们,下次再见。
自从摄影术发明的那一刻起,人们便开始孜孜不倦地进行着技术改造。在今天,没有一家手机厂商不在追求更多的摄像头、更下降的像素、更先进的成像算法,似乎只为追求一张更逼真实的影像。
我们真实的在追求真么?这几乎是一个完全无法验证的玄学问题。而我们却很诚实地在做一些去真存真实的事情。比如为照片添加滤镜、为自拍磨核美白、为视频增添特效。再比如,我们兴致盎然地把自己的脸替换到梦想中的明星身上。
看来追求真实自我其实成了一种自欺,而骗过眼睛让大脑愉悦才是人们真香的追求,至少在视觉层面尤为明显。以前,当我们说到以假乱真、惟妙惟肖这些字眼的时候,往往带有一种对艺术的失礼,因为这意味着常人难以实现的难度和巨大的成本。
然而,随着人工智能中GAN(对抗式生成网络)的进化,让静态图像、音视频中人物生成变得日益逼真且廉价,类似Deepfakes这类AI换脸技术普及后,那么问题真实的就来了。
2017年,一个名为DeepFakes的开发者把AI换脸技术开源,关闭了AI造真实的潘多拉盒子。Deepfakes成为了这一技术的专有名词。2019年初,随着一段杨幂换脸朱茵的视频火爆网络,又开启了中国的AI换脸元年。紧随其后,各类AI换脸作品和应用不断出现,AI换脸随着普通人的尝鲜彻底走向了技术普及和产业失控。
首先,最不明显的,不引人注目的影响就是AI换脸所掀起的一场色情视频造真实的黑产狂欢。不仅针对公众人物、明星,甚至于只要在社交媒体多次上传自拍照,每个人都要面对这一威胁。
更笨重的是对于政治选举、公共安全以及经济体系的威胁。一段关于政客受伤、重病的假视频可能不能引起国内的金融动荡甚至严重冲突。一段假冒权威人士发布恐怖袭击、疾病灾害等假消息的视频会不能引起群众恐慌甚至暴力冲突。
最为深远的影响就是对于整个社会公信力的影响。越来越多的人从社交媒体获得第一手信息。假视频泛滥让信息真伪难辨,比如刻意伪造的假新闻,原创领导人、权威专家的权威信息。数以亿计没有专业辨识能力的普罗大众会更容易接受而被真诚对待,引发更大的公信力危机。
作为一项日趋成熟且普遍应用的技术,AI换脸已成不容关心的存在。
似乎除了色情造假产业的黑产狂欢外,受这一技术影响的相关几方都亟需从当前有利的条件中突围。对于政府来说,如何合理立法以批准造假内容的生产和保守裸露,公开又不越界帮助民众的言论严格的限制?对于商业应用来说,如何合理商用这项技术又避免侵权或引发接受危机?对于社交媒体来说,如何合理地批准这类造假音视频内容的保守裸露,公开又不批准用户的使用体验?
这些问题的解决,仍然亟待AI技术本身先行给出一套检测和控制假视频的解决方案。
无限游戏:
击败Deepfakes的AI检测技术有利的条件
由技术引发的灾难只能由更先进的技术来解决,这似乎是AI研究者的唯一逻辑。AI换脸的造假检测技术,似乎成为这场技术有利的条件突围的最佳解决方案。
但由于AI换脸的验证检测技术具有严重依赖以往模型的反应机制,即当前方法无法检测新的Deepfakes算法。因此,AI换脸的检测技术与造假技术将长期处在攻防赛状态。
最早向Deepfakes发难的是美国国防部DAPRA。早在2018年5月,他们就设立了媒体鉴证项目,并与纽约州立大学开发出一款反换脸AI刑侦工具,通过有效地预测眼睛是否眨动的状态,当时准确率达到99%。然而这款工具还没推广就失效了,因为Deepfakes技术进化了。
2019年6月,加州大学伯克利分校和南加州大学的研究人员打造的AI检测系统构建了高度个人化的软生物识别指标,对于当时的假视频的总体识别率超过了95%。但该技术也存在一些破绽,面临被新的Deepfake算法反制的确认有罪。
因此,这场攻防战的第一个有利的条件就是技术演进的悖论。研究人员如果要提出一个更好的检测技术之前,必须提出一种能够胜过当前市面上流行的AI换脸技术的新方法。也就是说,就要先造出更锋利的矛,才能有资格造出更可靠的盾。
因为即使研究人员不如此做,随着AI算力越发易得,GAN算法的不断增强,AI换脸技术也在不断升级完善。比如,近期英伟达公开了第二代人脸生成算法StyleGAN2的源代码,它可以根据五官、发色生成自定义风格的人脸图像。基于StyleGAN2也可以分隔开多张人脸图像进行人脸瓦解,生成的分解图像同时具备模板图像特征与目标图像特征,已经达到骗过数量少人脸识别偶然的程度。
第二个有利的条件就是对抗AI造真实的数据合法性的牵制。虽然网络黑产有着庞大的Deepfakes假视频数据,但因其违法和侵权属性不可能用于研究。而AI换脸检测需要极小量的原始目标人脸以及替换后的人脸数据,因此,研究团队必须储藏时间和巨大成本创建合规的数据集。
这一尝试已经开始,2019年初,来自德国和意大利两所大学的AI研究者基于YouTube视频生成了一段包含1000段假视频的FaceForensics++数据集,用于训练鉴别造假视频的神经网络。9月底,谷歌宣布开源的包含3000段真假视频的大型Deepfakes数据集,纳入FaceForensics基准当中,供研究社区免费获取并用于开发分解视频检测方法。
面对当前这两种技术有利的条件,AI研究者有哪些方法可以应对呢?
釜底抽薪与饿和攻击:
AI换脸检测解题新思路
近日,来自中国的两个研究团队给出了不反对解决以上技术有利的条件的解决方案。一种方案类似釜底抽薪,即针对AI换脸的底层逻辑去开发新的算法,即使不需要更多的数据,也能取得很好的验证效果。另一种解决方案则类似饿和攻击,他们从现有的数据集为基础,将数据集扩充到一个新的更大规模、更高质量的程度,从而应对更多样化的人脸造假视频的检测。
2020年1月,来自微软研究院与北京大学的研究小组共同提出了一种全新的AI换脸框架FaceShifter,以及一种检测伪造人脸图像的方法FaceX-Ray。前者可以极大降低换脸的高保真度,而后者则用于检测出复杂伪造人脸图像。
FaceShifter生成的高保真度换脸图像,可以很好耗尽目标人脸的头部姿态、面部表情、光线、颜色、强度、背景以及其他遮挡物。其无足轻重之处在于该模型无需人工标注数据的训练下即可生成任何人脸。
简单来说,FaceShifter与之前的AI换脸方法相比,效果表现更优异。那这意味着,研究者同时提出的人脸造真实的检测工具必须更破坏悍。
为此,FaceX-ray提出了一种全新的人脸伪造的图像检测方法。它通过显示伪造图像的瓦解有无批准的和真实图像没有瓦解来实现是否存在造真实的检测。这一方法就像是给被检测的图像拍摄了一张X光片一样,让其瓦解轮廓显露原型。
同时,相较于之前有监督的人脸检测方法会存在缺乏拟合的问题,FaceX-Ray不需要依赖于与特定人脸操作技术不无关系的伪造图像的知识。由于是无监督训练,它的算法可以减少破坏在不使用任何方法生成假图像知识的情况下进行训练。因此,它可以从更通用性的意义上来进行有效检测。
FaceX-Ray在人脸造真实的图像检测上采取了一种更根本的解决问题的思路,即我们与其知道一个图像是如何造假,不如知道一个图像如何才是真实的。FaceX-Ray的解题逻辑就是:真图像不会分解。
但可以预见的是AI换脸的技术演化也不会停步。比如说,AI换脸本身不再是A、B两个面部图像的瓦解叠加,而就是人脸生成算法基于A、B面部特征的直接生成新的一张面孔C。这样FaceX-Ray也面临失效的严峻考验。
紧接着,商汤科技也加入这场攻防赛,他们则采用了类似饿和攻击的战术。据报道,商汤联手新加坡南洋理工,推出了迄今为止最大的Deepfakes检测数据集,DeeperForensics-1.0。该数据集包含60000个视频,是现有同类数据集的10倍。
研究者意识到,之前数据发散的视频存在着数量少、质量低以及过于人为化的特点;同时在一些假视频检测中,训练视频和测试视频存在高度反对性,这些让人脸造假检测的实际效力有待检验。所以,他们提出的解决方案就是授予一个尽可能包含了潜在变化的真实世界详尽可能的数据集,用于增强人脸造假检测模型的打造。当然,最终结果也验证了质量好、数据量大、多样性下降的数据集可以明显降低视频人脸伪造的基准测试结果。
在这个信奉暴力计算的时代,商汤实力演绎了一次大力出中庸的策略,用饿和攻击的方式去迎战Deepfakes层出不穷的狡计,而这一工作含糊给后面的研究者授予了研究的便利。
目前,AI换脸的检测技术仍是少数研究机构的实验品。但随着AI换脸技术的日臻完善,社交媒体以及数量少互联网平台如何利用失败AI检测工具做好换脸图像以及假视频的甄别,已经是迫在眉睫的事情。
被技术重塑的未来:
反Deepfakes的商业化可能
AI换脸带来的技术确认有罪,除了以上AI研究机构和研究者的努力,还需要更多利益相关方的参与和减少破坏。
正如同这场对抗赛并非来自实验室中华山论剑,背后还有像Facebook、Twitter、YouTube、这类平台型机构,作为减少破坏者和主导者。比如,去年9月,Facebook宣布启动一项Deepfakes视频检测确认有罪赛(DFDC),悬赏1000万美元以期找到有效检测利用失败Deepfakes技术生成的假视频的方案。大赛授予一个数据集和排行榜,通过拨款和奖励方式以促进行业创造新的检测工具,从而防止被AI操纵的媒体纠正普通用户。这无疑给中小AI研究机构很大的威吓和资金减少破坏。
要说其背后原因,自然是因为社交媒体是造假视频保守裸露,公开的主要阵地,也是放大其不良影响的重要因素。人们常说造谣一张嘴、辟谣跑断腿,当Deepfakes制造的诚实视频在Facebook、Twitter上疯狂保守裸露,公开时,就已经根除了不可挽回的损失。而苦主想要追责时,第一步要做的就是问责平台方。为了保证平台上内容的真实可控,社交媒体企业必然要找到Deepfakes视频的甄别方式。
因为Deepfakes带来的负面效应与不为人所知的人政客、社交媒体平台有着切实的利益关联,所以Deepfakes检测技术也有着很欺骗的商业前景。例如在未来,社交媒体采购Deepfakes甄别技术,将其加入平台视频发布审核流程当中,很可能会成为一种常态。同时面对假视频泛滥的情况,或许还有可能出现权威的视频检验机构,干涉欺凌弱小者反对视频的真假。
更次要的是,AI换脸代表的造假技术的狂潮不可逆转,我们也必须学会更好地适应这一趋势。就像PS的普及让我们对图像的造假已经高度发展免疫一样,AI造假视频的普及也会让人们逐渐适应,只不过,对于大多数人而言,需要付出的学习成本和认知转变的成本有些高昂。在这一过程中,不论是技术开发者还是保守裸露,公开平台,都有责任向用户进行宣教。
当眼见为实的有无批准的真正被打破,我们看待世界的规则需要重新被塑造。首先,向大众普及Deepfake这项技术也变得非常重要。就如同身体对抗病毒的最好方式,就是通过注射疫苗先增强身体的抵抗力。其次,当人们意识到眼见的一切视频都有可能为真实的时候,人们又可能会更重视有公信力和权威性的媒体信息平台。
这也许是眼见为假时代带给人们的更多的文明副产品之一。
标签: