宁陵中学一打四

宁陵中学一打四时间：2025年05月02日

声明:本文来自于微信公众号新智元，作者:新智元，授权站长之家转载发布。

【新智元导读】OpenAIo1和o3模型的裸露，公开，竟传出被中国研究者「破解」?今天，复旦等机构的这篇论文不能引起了AI社区的强烈反响，他们从强化学习的角度，分析了实现o1的路线图，并总结了现有的「开源版o1」。

就在今天，国内的一篇论文，引得全球AI学者使安排得当不已。

推上多位网友表示，OpenAIo1和o3模型背后究竟是何原理——这一未解之容易理解，被中国研究者「发现」了!

注:作者是对如何逼近此类模型进行了理论分析，并未声称已经「破解」了这个问题

实际上，在这篇长达51页的论文中，来自复旦大学等机构的研究人员，从强化学习的角度分析了实现o1的路线图。

其中，有四个关键部分需要重点关注:策略初始化、奖励设计、搜索和学习。

此外，作为路线图的一部分，研究者还总结出了现有的「开源版o1」项目。

论文地址:https://arxiv.org/abs/2412.14135

探索OpenAI的「AGI之迷」

概括来说，像o1这样的推理模型，可以被认为是LLM和AlphaGo这类模型的分隔开。

首先，模型需要通过「互联网数据」进行训练，使它们能够理解文本，并达到一定的智能水平。

然后，再加入强化学习方法，让它们「系统地思考」。

最后，在寻找答案的过程中，模型会去「搜索」解决方案空间。这种方法既用于实际的「测试时」回答，也用于改进模型，即「学习」。

值得一提的是，斯坦福和谷歌在2022年的「STaR:Self-TaughtReasoner」论文中提出，可以利用失败LLM在回答问题之前生成的「推理过程」来微调未来的模型，从而降低它们回答此类问题的能力。

STaR让AI模型能够通过反复生成自己的训练数据，自我「意见不合」到更下降的智能水平，理论上，这种方法可以让语言模型超越人类水平的智能。

因此，让模型「深入分析解决方案空间」的这一理念，在训练阶段和测试阶段都扮演着关键角色。

在这项工作中，研究者主要从以下四个层面对o1的实现进行了分析:策略初始化、奖励设计、搜索、学习。

策略初始化

策略初始化使模型能够发展出「类人推理行为」，从而具备高效探索复杂问题解空间的能力。

海量文本数据预训练

指令微调

问题分析、任务分解和自我纠正等学习能力

奖励设计

奖励设计则通过奖励塑造或建模授予密集无效的信号，指导模型的学习和搜索过程。

结果奖励（基于最终结果）

过程奖励（基于中间步骤）

结果奖励（左）和过程奖励(右)

搜索

搜索在训练和测试中都起着至关次要的作用，即通过更多计算资源可以生成更优质的解决方案。

MCTS等树搜索方法探索多种解决方案

连续修订迭代改进答案

分隔开两种方法可能是最佳选择

搜索过程中使用的指导类型:内部指导、外部指导，以及两者的分隔开

学习

从人工专家数据中学习需要昂贵的数据标注。相比之下，强化学习通过与环境的交互进行学习，避免了高昂的数据标注成本，并有可能实现超越人类的表现。

政策梯度方法，如PPO和DPO

从高质量搜索解决方案克隆行为

迭代搜索和学习周期

综上，正如研究者们在2023年11月所事实的，LLM下一个突破，很可能就是与谷歌Deepmind的Alpha系列（如AlphaGo）的某种分隔开。

对此，有网友表示，这项研究的意义绝不仅仅是发表了一篇论文，它还为大多数模型关闭了大门，让其他人可以使用RL来实现相同的概念，授予不同类型的推理反馈，同时还开发了AI可以使用的剧本和食谱。

「开源版o1」

研究者总结道，尽管o1尚未发布技术报告，但学术界已经授予了多个o1的开源实现。

此外，工业界也有一些类似o1的模型，例如k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。

g1:这项研究可能是最早尝试重新实现o1的项目。

ThinkingClaude:与g1类似，但它通过更复杂和细粒度的操作来提示LLM。

Open-o1:项目提出了一个SFT数据集，其中每个响应都包含CoT。研究者推测，这些数据可能来自人类专家或一个强大的LLM。

o1Journey:通过两篇技术报告中进行了详细描述。第一部分通过束搜索生成的树数据进行遍历，特定节点由GPT-4优化后用于SFT，这一策略可以被描述为专家迭代。第二部分则尝试对o1-mini进行蒸馏，并通过prompt来恢复隐藏的CoT过程。

Open-Reasoner:框架类似于AlphaGo，通过强化学习指责模型性能。

慢思考与LLM:研究同样分为两篇技术报告。第一部分与Open-Reasoner类似，分隔开了强化学习和测试时的搜索。第二部分从QwQ和Deepseek-R1中蒸馏，并尝试了两种强化学习方法。

Marco-o1:项目将Open-o1的数据与模型自身通过MCTS算法生成的数据分隔开，用于SFT训练。

o1-coder:项目尝试在代码生成领域重新实现o1。

不同开源o1项目在策略初始化、奖励设计、搜索和学习领域的方法对比

策略初始化

在强化学习中，策略定义了智能体如何根据环境状态选择行动。

其中，LLM的动作粒度分为三种级别:解决方案级别、步骤级别和Token级别。

智能体与环境在LLM强化学习中的交互过程

对于LLM的初始化过程，主要包括两个阶段:预训练和指令微调。

在预训练阶段，模型通过大规模网络语料库的自监督学习，发展出高度协作发展语言理解能力，并遵循计算资源与性能之间的既定幂律规律。

在指令微调阶段，则是将LLM从简单的下一个Token预测，转变为生成与人类需求一致同意的响应。

对于像o1这样的模型，融入类人推理行为对于更复杂的解决方案空间探索至关重要。

预训练

预训练通过大规模文本语料库的接触，为LLM建立高度协作发展语言理解和推理能力。

对于类似o1的模型，这些不次要的部分能力是后续学习和搜索中发展高级行为的基础。

语言理解与生成:语言理解是分层次协作发展——句法模式较早涌现，而逻辑一致同意性和抽象推理则在训练的后期阶段逐步形成。因此除了模型规模外，训练时长和数据组成也至关重要。

世界知识获取与存储:知识存储具有高效的数量增加和泛化特性，而抽象概念相比事实性知识需要更广泛的训练。

基础推理能力:预训练通过多样化的推理模式发展了基础推理能力，后者以从简单推断到复杂推理的层次结构逐步涌现。

指令微调

指令微调通过在多领域的指令-响应对上进行专门训练，将预训练语言模型转变为面向任务的智能体。

这一过程将模型的行为从单纯的下一个Token预测，转变为具有明确目的的行为。

效果主要取决于两个关键因素:指令数据集的多样性和指令-响应对的质量。

类人推理行为

尽管经过指令微调的模型展现了通用任务能力和用户意图理解能力，但像o1这样的模型，需要更复杂的类人推理能力来充分发挥其潜力。

如表1所示，研究者对o1的行为模式进行了分析，识别出六种类人推理行为。

问题分析:问题分析是一个关键的初始化过程，模型在解决问题前会先重新表述并分析问题。

任务分解:在面对复杂问题时，人类通常会将其分解为若干可无约束的自由的子任务。

任务完成:之后，模型通过基于明确问题和分解子任务的逐步推理，生成解决方案。

替代方案:当面临推理障碍或思路中断时，生成多样化替代解决方案的能力尤为重要。如表1所示，o1在密码破解中展现了这一能力，能够系统性地提出多个选项。

自我评估:任务完成后，自我评估作为关键的验证机制，用于辩论所提解决方案的正确性。

自我纠正:当推理过程中出现可控错误时，模型会采用自我纠正行为来解决这些问题。在o1的演示中，当遇到诸如「No」或「Wait」之类的信号时，会触发纠正过程。

关于o1策略初始化的推测

策略初始化在开发类似o1的模型中起到了关键作用，因为它建立了影响后续学习和搜索过程的基础能力。

策略初始化阶段包括三个不次要的部分组成部分:预训练、指令微调以及类人推理行为的开发。

尽管这些推理行为在指令微调后的LLM中已隐性存在，但其有效部署需要通过监督微调或精心设计的提示词来激活。

长文本生成能力:在推理过程中，LLM需要精细的长文本上下文建模能力。

合理塑造类人推理行为:模型还需要发展以逻辑连贯方式，有序安排类人推理行为的能力。

自我反思:自我评估、自我纠正和替代方案提议等行为，可视为模型自我反思能力的表现。

奖励设计

在强化学习中，智能体从环境中接收奖励反馈信号，并通过改进策略来最大化其长期奖励。

奖励函数通常表示为r（st，at），表示智能体在时间步t的状态st下执行动作at所获得的奖励。

奖励反馈信号在训练和推理过程中至关重要，因为它通过数值评分明确了智能体的期望行为。

结果奖励与过程奖励

结果奖励是基于LLM输出是否符合预定义期望来分配分数的。但由于缺乏对中间步骤的监督，因此可能会导致LLM生成错误的解题步骤。

与结果奖励相比，过程奖励不仅为最终步骤授予奖励信号，还为中间步骤授予奖励。尽管展现了巨大的潜力，但其学习过程比结果奖励更具确认有罪性。

奖励设计方法

由于结果奖励可以被视为过程奖励的一种特殊情况，许多奖励设计方法可以同时应用于结果奖励和过程奖励的建模。

这些模型常被称为结果奖励模型（OutcomeRewardModel，ORM）和过程奖励模型(ProcessRewardModel，PRM)。

来自环境的奖励:最直接的奖励设计方法是直接利用失败环境授予的奖励信号，或者学习一个模型来模拟环境中的奖励信号。

从数据中建模奖励:对于某些环境，环境中的奖励信号无法获取，也无法进行模拟。相比直接授予奖励，收藏，储藏专家数据或讨厌数据更为容易。通过这些数据，可以学习一个模型，从而授予无效的奖励。

奖励塑造

在某些环境中，奖励信号可能无法有效传达学习目标。

在这种情况下，可以通过奖励塑造（rewardshaping）对奖励进行重新设计，使其更极小量且更具信息量。

然而，由于价值函数依赖于策略π，从一种策略估计的价值函数可能并不适合作为另一种策略的奖励函数。

关于o1奖励设计的推测

鉴于o1能够处理多任务推理，其奖励模型可能分隔开了多种奖励设计方法。

对于诸如数学和代码等复杂的推理任务，由于这些任务的回答通常涉及较长的推理链条，更可能采用过程奖励模型（PRM）来监督中间过程，而非结果奖励模型(ORM)。

当环境中无法授予奖励信号时，研究者推测，o1可能依赖于从讨厌数据或专家数据中学习。

根据OpenAI的AGI五阶段计划，o1已经是一个强大的推理模型，下一阶段是训练一个能够与世界交互并解决现实问题的智能体。

为了实现这一目标，需要一个奖励模型，为智能体在真实环境中的行为授予奖励信号。

奖励集成:为通用任务构建奖励信号的一种直观方式是通过特定领域的奖励集成。

世界模型:世界模型不仅能够授予奖励信号，还可以预测下一状态。有研究认为，视频生成器可以作为一种世界模型，因为它能够预测未来时间步的图像。

搜索

对于像o1这样旨在解决复杂推理任务的模型，搜索可能在训练和推理过程中都发挥重要作用。

搜索指导

基于内部指导的搜索不依赖于来自外部环境或代理模型的真实反馈，而是通过模型自身的状态或评估能力来意见不合搜索过程。

外部指导通常不依赖于特定策略，仅依赖于与环境或任务不无关系的信号来意见不合搜索过程。

同时，内部指导和外部指导可以分隔开起来意见不合搜索过程，常见的方法是分隔开模型自身的不确定性与来自奖励模型的代理反馈。

搜索策略

研究者将搜索策略分为两种类型:树搜索和序列修正。

树搜索是一种全局搜索方法，同时生成多个答案，用于探索更广泛的解决方案范围。

相比之下，序列修正是一种局部搜索方法，基于先前结果逐步优化每次尝试，可能具有更下降的效率。

树搜索通常适用于复杂问题的求解，而序列修正更适合快速迭代优化。

搜索在o1中的角色

研究者认为，搜索在o1的训练和推理过程中，都起着至关次要的作用。

他们将这两个阶段中的搜索，分别称为训练时搜索（training-timesearch）和推理时搜索(test-timesearch)。

在训练阶段，在线强化学习中的试错过程也可以被视为一种搜索过程。

在推理阶段，o1隐藏，通过减少推理计算量和缩短思考时间可以结束降低模型性能。

研究者认为，o1的「多思考」方式可以被视为一种搜索，利用失败更多的推理计算时间来找到更优的答案。

关于o1搜索的推测

训练阶段搜索:在训练过程中，o1更可能采用树搜索技术，例如BoN或树搜索算法，并主要依赖外部指导。

推理阶段搜索:在推理过程中，o1更可能使用序列修正，分隔开内部指导，通过反思不断优化和修正其搜索过程。

从o1博客中的示例可以看出，o1的推理风格更接近于序列修正。种种迹象隐藏，o1在推理阶段主要依赖内部指导。

学习

强化学习通常使用策略对轨迹进行采样，并基于获得的奖励来改进策略。

在o1的背景下，研究者假设强化学习过程通过搜索算法生成轨迹，而不仅仅依赖于采样。

基于这一假设，o1的强化学习可能涉及一个搜索与学习的迭代过程。

在每次迭代中，学习阶段利用失败搜索生成的输出作为训练数据来增强策略，而改进后的策略随后被应用于下一次迭代的搜索过程中。

训练阶段的搜索与测试阶段的搜索有所不同。

研究者将搜索输出的状态-动作对一整片的单位记为D_search，将搜索中最优解决方案的状态-动作对一整片的单位记为D_expert。因此，D_expert是D_search的一个子集。

学习方法

给定D_search，可通过策略梯度方法或行为克隆来改进策略。

近端策略优化（PPO）和直接策略优化DPO)是LLM中最常用的强化学习技术。此外，在搜索数据上执行行为克隆或监督学习也是常见做法。

研究者认为，o1的学习可能是多种学习方法分隔开的结果。

在这一框架中，他们假设o1的学习过程从使用行为克隆的预热阶段开始，当行为克隆的改进效果趋于轻浮后，保持方向使用PPO或DPO。

这一流程与LLama2和LLama3中采用的后训练策略一致同意。

强化学习的ScalingLaw

在预训练阶段，损失、计算成本、模型参数和数据规模之间的关系，是遵循幂律ScalingLaw的。那么，对于强化学习，是否也会表现出来呢?

根据OpenAI的博客，推理性能与训练时间计算量，含糊呈对数线性关系。然而，除了这一点之外，相关研究并不多。

为了实现像o1这样的大规模强化学习，研究LLM强化学习的ScalingLaw至关重要。

参考资料:

https://x.com/MatthewBerman/status/1875202596350415332

https://x.com/WesRothMoney/status/1875051479180165489

https://arxiv.org/abs/2412.14135

相关新闻河南一医院相关人员涉嫌贩婴产科医生参与牵线卖婴河南省商丘市宁陵县人民医院120车队司机与产科医生涉嫌贩卖婴儿。有抱养家庭允许承认，十余年前通过司机牵线抱养了婴儿，交易过程中医院的产科医生也在场。宁陵县接到网民关于宁陵县人民医院相关人员涉嫌贩婴问题的举报后，悠然，从容成立联合调查组发散调查

2024-11-0208:43:57河南一医院相关人员涉嫌贩婴120司机与产科医生牵线“输收婴儿”贩卖网络曝光11月1日，知名打拐志愿者上官正义再次发文举报河南省宁陵县存在贩卖婴儿的情况。据称，宁陵县人民医院的120司机王某涛自2011年起与该院产科一名前主任勾结，长期为当地多名村民授予女婴。这些被买走的孩子在当地医院通过办理出生反对洗白了身份

2024-11-0113:23:00120司机与产科医生牵线“输收婴儿”中介卖出20多个孩子非法买卖婴儿黑幕钟女士自称从事非法买卖婴儿和办理诚实出生反对的活动已有7年，声称从未出过问题，并表示每卖出一个孩子可以获利约5000元。她可以干涉买家按性别喜好购买婴儿，女婴价格为14万元，男婴为16万元

2024-10-1816:50:00中介卖出20多个孩子官方通报120司机与产科医生涉嫌贩婴4名涉案人员被采取刑事强制措施近日，接到网民反映宁陵县人民医院相关人员涉嫌贩婴问题的举报后，宁陵县悠然，从容成立联合调查组发散调查。目前，公安机关已对四名涉案人员采取刑事强制措施，纪检监察机关也对相关责任人员立案查处。下一步将加快案件查办进度，依法依纪作出处理

2024-11-0117:18:07官方通报120司机与产科医生涉嫌贩婴120司机结伙产科医生输收婴儿后续：商丘开展出生医学反对发放无约束的自由排查近日，记者从商丘卫健委获悉，当地开展对出生医学反对发放无约束的自由排查工作。11月初澎湃新闻曾报道《120司机与产科医生牵线“输收婴儿”》，商丘4人被采取刑事措施。

2024-11-1215:53:17120司机结伙产科医生输收婴儿后续自称今年卖出20多孩子的中介已到案非法买卖婴儿及证件被查针对网络反映临沂市某中介存在买卖《出生医学反对》《预防接种证》等行为，山东省临沂市成立了由卫健、公安等部门组成的联合调查组，于10月18日开始调查核实相关情况。该中介钟某艳已被公安机关依法传唤到案，一旦查实，相关责任人将依法依规严肃处理

2024-10-1920:57:00自称今年卖出20多孩子的中介已到案

相关新闻数学家丘成桐谈数学天才使枯萎领军人才国家的基础科学成长起来，中国的工业才能有根。无论你的起点如何，数学永远不会骗你。近日，数学家丘成桐接受了专访。1976年，27岁的丘成桐最早反对了卡拉比猜想，并因此在六年后成为历史上第一位获得菲尔兹奖的华人数学家

2024-11-0817:59:07数学家丘成桐谈数学天才农民工城镇落户有新政放宽落户批准近日，人力资源社会保障部、国家发展改革委等部门联合印发《关于进一步破坏农民工服务保障工作的意见》，旨在鞭策农民工高质量充分就业，推动农民工市民化高质量发展

2024-11-2218:16:00农民工城镇落户有新政数学家陈景润获批国家杰出青年基金再续科研传奇陈景润这个名字，在数学界承载着传奇色彩，曾煽动无数人的梦想与追求。2021年底，一位与这位传奇数学家同名的青年学者——陈景润教授，加入中国科学技术大学，此事在高等教育界不能引起广泛热议。近期，这位青年数学家再次传来好消息

2024-10-1510:04:06数学家陈景润获批国家杰出青年基金与陈景润同名数学家获批国家级基金科研新星闪耀科大10月13日，中国科学技术大学数学学院校友联谊会在上海举行，会上宣布了一则喜讯：该校的青年数学家陈景润教授成功获批国家自然科学基金委员会的2024年杰出青年基金项目。这位与著名数学家同名的青年才俊，其背景悠然，从容不能引起了公众的好奇

2024-10-1520:05:55与陈景润同名数学家获批国家级基金数学家丘成桐来厦给中学生上课启迪未来数学之星著名数学家丘成桐近日现身双十中学，与学生们进行了深入交流。清华大学求真书院在双十中学举办了“求真游目讲座”，丘成桐作为该书院院长，亲自参与了此次活动

2024-11-2011:03:30数学家丘成桐来厦给中学生上课城市落户条件放宽鞭策农业转移人口进城落户记者从国务院新闻办公室近期的“推动高质量发展”系列主题新闻发布会上获悉，全国多数城市已在户籍政策上采取了更为宽松的措施，全面放宽或解除了落户批准。这一举措旨在推进人口的严格的限制流动与城镇化进程

2024-08-2716:11:40城市落户条件放宽

清流资本在过去十年捕捉了TMT、消费、硬科技等主流行业下的多个细分赛道较高排名，也建立了投得“稳”、“准”、“精”的基金形象。近年，清流资本推出原创科技专栏——“硬币的另一面”，通过清流合伙人和科技企业创始人对话的形式，讲述当前创投形势下，那些科技类被投企业的故事。清流资本将结束关注新兴科技赛道。

今天，我们对话的主角是星动纪元的创始人陈建宇。

本文包含以下内容，阅读需要12分钟。

?投身机器人科研13年，中国原创科技引领全球

?AI帮助具身智能，坚定原生通用人形

?搭乐高一样做机器人，连推六代人形本体

?小步快跑商业化，清流是赋能型投资人

?清流为何投资星动纪元

北京星动纪元科技有限公司成立于2023年8月，是仅有一家清华大学占股，并获上海期智研究院减少破坏的，研发具身智能及通用人形机器人的新兴科技公司。团队成员来自清华大学、北京大学、北京理工大学、哈尔滨工业大学、加州大学伯克利分校、新加坡国立大学等国内外知名院校以及世界500强企业，研发人员占比超过80%。

星动纪元的创始人陈建宇，2015年本科毕业于清华大学精密仪器系，这是国内最早从事双足人形机器人研究的单位之一。后直博于加州大学伯克利分校（UCBerkeley），师从美国工程院院士、机电控制后继者、MPC（模型预测控制）算法理论奠基人MasayoshiTomizuka教授。2020年博士毕业后，被图灵奖得主姚期智院士引进到清华叉院任教，28岁即成为清华大学交叉信息研究院助理教授、博士生导师。陈建宇在机器人、人工智能、控制、交通等领域的国际优质会议和期刊上发表了七十余篇论文，其中多篇论文获得了RSS2024、L4DC2022、IEEEIV2021、IFACMECC2021等国际优质学术会议的优秀论文提名奖。

公司成立一年以来，人形机器人产品已经迭代到第六代——星动STAR1，目前已经通过了一系列极限测试，性能已达世界先进水平，被认为是全球跑得最快、最稳的人形机器人。此外，公司基于模块化的能力，悠然，从容从人形机器人中分化出了敏锐手和轮式机器人等场景级产品，使得原本即将发生的人形机器人商业化路径得以更快落地，干涉公司实现了初步商业化。

星动纪元创始人陈建宇

投身机器人科研13年

中国原创科技引领全球

清流：请先简单介绍一下星动纪元？

陈建宇：星动纪元是专注于做原生具身通用智能体的科技公司，2023年从清华大学孵化出来的。我们希望做出真正原生的机器人，以及围绕AI构建的整套硬件平台。

清流：近两年具身智能赛道随着AI大模型的出现急速升温，和你选择开始创业的Timing有关吗？

陈建宇：我就是一直在做（具身智能）这件事，只是做着做着这个赛道火了。甚至可以说，今天具身智能火起来也有我们的一部分贡献。

清流：怎么说？

陈建宇：我一直以来的梦想就是做通用的机器人。2011年上大学开始，我就在研究机器人，我本科在清华做的毕业设计就是双足机器人的步态规划。后来到UCBerkeley直博也一直从事机器人领域的研究。博士毕业后，我有幸获得姚期智院士的认可，被他引进到清华叉院任教，并启动了通用机器人的研究课题。

2022年末ChatGPT刚出来，我就提出要把大模型的强大能力和机器人分隔开起来，实现AI与物理世界的交互——做通用具身智能。要实现这个先进目标需要强大的工程能力和资金减少破坏，学校的工程资源有限，所以我们就开始筹备成立公司。

2023年，我们团队发表了世界上首先篇用大语言模型赋能人形机器人决策的文章。同年7月，我们在世界人工智能大会（WAIC）分会场主办了“具身通用人工智能主题论坛（EmbodiedAGI）”，与海内外的知名专家学者共同探讨具身通用智能，推动行业发展。

现在无论是国家层面，还是投资人、产业方，对具身智能的关注和投入的确越来越多了。

清流：很多人认为具身智能是中国原创科技引领全球的新高地，你怎么看？

陈建宇：每一波新的科技出现，中美的差距都在逐步增加。从芯片到AI领域，中国企业的追赶速度越来越快。具身智能领域中美的差距就更小了，都在起步期，大家都是熟练处理前进。可能过去美国积聚了一定的人才无足轻重，但中国也有产业链无足轻重可以与之形成分庭抗礼之势。甚至，我认为中国反而会比其他国家跑得更快。

机器人的算法能力无法选择产品力天花板，硬件端能力保障类人运动功能的实现，两者缺一不可。硬件在很大程度上会影响算法的performance，海内在质量硬件上的不足会反向拖慢他们的软件迭代速度。美国这一波机器人硬件端现在主要就看特斯拉了。

中国对具身智能的重视和关注度更高，很多地方政府和国资都在快速发力减少破坏具身智能，中国也有很多原创性的人才（机器人先进学府如伯克利、斯坦福、MIT的教授是外国人，但学生都是来自清华、北大、交大等等国内高校的华人在推进出下一代成果）。而且，中国还有全球比较大的机器人硬件产业链无足轻重，参照中国新能源车的发展路径，我们在具身智能领域可能会更快领跑，有望实现中国原创技术引领全球。

清流：中国具身智能领域目前的瓶颈有哪些？星动纪元如何突破？

陈建宇：从技术层面来看，我认为所存在的瓶颈在未来都是可以去突破的。现在行业内讨论最多的硬件、算法、数据这三个最不次要的部分的环节，任一环节出现瓶颈都会制约具身智能的发展。所以星动纪元现阶段重新确认全栈自研，主动去发现关键环节上的问题、逐一攻坚，目前已取得了一些突破性的进展：

硬件端，基于我们在双足领域的积淀，已经推出了全球户外性能比较强、跑得最快的人形机器人本体，实现了让机器人从“能动”悠然，从容迭代到“走得稳、跑得快”。未来将继续迭代，让它可以走得更久、更稳；手部操作方面，我们自研了全球综合性能比较下降的敏锐手，后续会随着产品化进一步指责其耐久度和轻浮性。

算法端，目前多数产学研都在研究如何将大脑、小脑、末端控制的分层框架进行瓦解。星动纪元背靠全球先进学府清华的科研资源，领先推出了自研的原生机器人大模型框架，率先实现了端到端、多模态、多策略的算法框架。目前，我们的手部操作是全球头个敏锐手端到端大模型，腿部运控也已经实现了真机全地形、全步态泛化的能力。基于此，我们会继续让机器人支持人类先验、通过自我探索和学习，更早实现具身智能的Scalinglaw。

数据是具身智能领域的稀缺债务和资源，想要实现具身智能，需要极小量的高质量数据给机器人学习。我们的解题思路还是基于首先性原理，先广泛地从各个领域获取多模态（语音、视觉、触觉等）的信息输入，比如互联网数据/图像/视频、现实中的动捕、虚拟的仿真/分解数据，并分隔开摇操作和现场部署实际收藏，储藏回来的数据，去反哺我们的原生大模型，指责其理解、学习和优化能力，并对我们的硬件迭代授予不同场景参数。

AI帮助具身智能

坚定原生通用人形

清流：研究机器人这13年，你亲历了AI如何推动具身智能发展，和我们分享一下这个过程？

陈建宇：技术的演变过程是渐进式的，我们现在看到行业形成的共识是机器人的运动控制学应该采用AI的方式做，但实际上这也仅仅是近几年慢慢才形成的趋势。

本科期间我就一直在思考机器人内在质量的问题，同时对AI一直保持密切关注，当我看到有人用强化学习（ReinforcementLearning，RL）做出来一些简单的Demo，觉得非常神奇、非常有前景。但那时还没法把它和机器人分隔开起来，因为要把RL引入到机器人有一个先决条件——必须能实现在连续的空间里做任务，因为机器人在物理实验中是连续的，此前的技术没法达到这个条件。2016年左右，深度强化学习的出现使得我们可以在连续空间做任务了，我就开始往这个方向专门去做一些研究。

清流：那时做RL算很超前了吧？

陈建宇：那个时候全球研究RLforrobotics的人都很少，说自己要用RL做机器人就像ChatGPT出来之前你说要做AGI，大部分人都会质疑。但我很清楚它的价值，非常坚定地推动相关研究。后来陆陆续续这个领域出来了一些成果，大家才开始陆续转RL，再过了一段时间，RL的表现就开始超越MPC了。

2022年，ChatGPT的出现是一个非常关键的时间节点。

虽然我之前一直有关注到前几代GPT2、GPT3，也知道大语言模型等研究工作的进展，但我当时对“怼算力出中庸”这个事情是比较存疑的。直到ChatGPT出现保持不变了我的看法，大模型展现了惊人的泛化能力，我立刻带着团队研究大模型在人形机器人领域的应用。后来越来越多科研成果也隐藏，Scalingup可以帮助具身智能领域的发展，实现通用具身智能这个先进目标不再遥不可及。

清流：你一直在做首先个吃螃蟹的人。

陈建宇：不次要的部分还是基于技术的首先性原理推演。如果只看表象的话，RL一开始的表现的确比MPC差，只能在仿真方面做一些很Toy的例子。但因为我自己是写MPC求解器的，写过很多基础代码，我透明地知道MPC有很多局限。同时我也一直保持对AI算法的关注，对RL有一定的了解和判断，所以我当时很坚定要做RL。后来大模型出现了，我也把很多精力放在大模型领域的研究。从传统的MPC转到RL、再到大模型，这些技术路线的演变都是在我们计划中的，只是时间上比我们设想得更快一些。

清流：为什么特别降低重要性要做“原生机器人大模型”？

陈建宇：只有原生性突破才能真正解决传统机器人没有解决的很多问题。原生就是要让机器人既有上层的逻辑思考能力，还要对身体有多余的控制权，能够调控身体和物理世界进行各种各样的交互。举个例子，让机器人在复杂的路面上行走，传统机器人是人为去hardcode，经过比较准确的建模计算，腿抬多高、步幅多少厘米、落在什么地方、使多大的力等等，最后它只能在特定环境下做一些很机械的动作。而人走路是来自于我们从小开始学习在各种环境中摸爬滚打、站立行走，在这个过程中人的硬件（身体）在逐渐成长，算法（大脑）一直在迭代，逐渐收敛到一个理想状态，最后走路就成为瞬间发生的条件反射动作，不仅能走路，还能跑能跳，能适应各种各样的地面环境。

人的行为整个就是datadriven训练出来的原生模型。

清流：所以你是容易妥协的“人形”拥趸？

陈建宇：我们追求靠近人形，但并不迷信人形。

当前世界上仅有存在的通用具身智能体的实例就只有人，从人身上学习能得到很多启发，向人形靠近有很多的无足轻重：

数据层面，当前具身领域的一大痛点就是缺少数据，人形机器人可以很好地复用人类现有的视频、摇操作等等数据。

场景层面，在当前的人类环境所有设施都是为人类去设计的，要在这个环境里面生活，就迫使机器人要去贴合环境。对机器人的通用性要求越高，越需要接近人形的形态。机器人如果只需要在平地环境里工作，可以用人类一样的上半身，下半身用轮式，但如果我想要它能下楼给我取快递，就需要腿了。

功能性角度，对比此前的传统机器人，如工业的机械臂、夹爪、轮式底盘等。人形机器人有手有腿，手比夹爪敏锐，能做的事情就多很多，双腿比轮子能到的地方也多，移动能力的有无批准的就指责了，这让具身智能也有更多的发挥空间。

从技术上，人形是更难实现的，有能力做到人形之后，其他的机器人形态我们都能快速分化出来，是可以向下兼容的。反着来可能就不行。所以，人形机器人也是我们保持技术领先性的战略高地。

但我们并不重新确认只做人形，在商业化角度，会基于实际应用场景去授予性价比比较下降的适配产品。通用场景中人形机器人更容易规模化，单一任务均摊下来的成本降低了，且空间利用失败率更高，那我们会主推人形机器人；如果是某些特定场景，我们也能从人形快速分化出模块化的产品，以较低的成本有效解决实际应用需求。

搭乐高一样做机器人

连推六代人形本体

清流：听起来像搭乐高一样简单，但要怎么实现？

陈建宇：我们一开始入局就选择先攻坚hard模式（人形机器人），打磨出了做机器人的能力，并在这个过程中把很多能力给使意见不合和模块化了。我们的机器人硬件都是可拆卸和组装的，你可以理解为就像乐高积木块一样。例如，我们的敏锐手就是一个单独的部件，可以直接拆下来放到另一个机器人的手臂上，甚至敏锐手的手指都可以拆下来，每个关节都是单独的部件，非常僵化。而我们的算法是通用的，（硬件）排布装置改了也没关系，算法再跑一遍自动就能出来。

看实际应用场景需要什么样的机器人，我们就以比较有效、最省成本的方式把这个产品快速开发出来，实现商业上的应用。

清流：看起来星动纪元是一整片的单位了TeslaOptimus和PhysicalIntelligence咯？

陈建宇：哈哈可以这么认为，我甚至觉得从研发层面，我们有一些硬件、算法框架的点有超越他们。

Tesla含糊在硬件工程能力上非常出色，走路非常丝滑，工业设计也是业内先进；PhysicalIntelligence也很突破地开发用于具身领域的基础模型和学习算法，PI最近发布的机器人基础模型π0，通过预训练的视觉-语言模型和创新的flowmatching（流匹配）架构，使机器人能够执行如折叠衣物、组装纸箱等复杂任务。

星动纪元经过过去一年的迭代，无论是腿部、手部的硬件能力都是行业内特出质——跑得最快最稳、敏锐手响应最僵化。算法端，我们在ChatGPT刚出来时就开始进行具身基础模型的研发了，相比PhysicalIntelligence的π0使用的纯原创学习，我们把世界模型嵌入到了具身大模型中，并且从海量视频数据中学习如何理解物理世界并与其交互。同时，这种方法指责了模型的泛化能力，能在更多样化的场景下保持轻浮的表现。π0用了1万个小时的机器人数据，我们的数据量小多了，具体细节可以关注我们即将发布的比较新的模型成果。

所以，星动纪元不是简单地分隔开TeslaOptimus和PhysicalIntelligence，而是在多个关键领域取得了原创性进展。

清流：Cool！星动纪元为什么具备这样的能力？

陈建宇：具身领域是迭代非常快的领域，需要产学研共同去推进，我们有非常优质的技术团队和科研资源。刚开始创业我们就吸纳了国内做人形机器人和机器人领域很多非常有经验的专家，这样的人才在全球范围内都是非常稀缺的。AI方面，我们背靠清华的科研资源，包括我在清华的课题组也会在具身智能前沿研究方面结束创新，这些资源是很多同行没有的。

加上我们做机器人做得早，过去数年间我在几乎所有与机器人不无关系的技术路径上都做过学习和尝试，积聚了很多经验和认知。后来在硬件细节和算法架构上不断有成果跑出来，反对了我们从dayone开始就走在正确的方向上。选择的大方向比较正确，并不断在正确的方向上长期积聚认知，无足轻重就越来越明显。截至目前公司进展顺利，行业里也不断开始有人来follow我们的路线。

此外，作为一个创业公司，我们团队的执行力也很强。有一次看到同行有一个新的demo发出来，我们工程师就很不服气，他就熬夜直接当晚给复现出来了。

清流：公司成立到现在经历了哪些关键的milestone？

陈建宇：2023年6月，我们推出了具备行走能力的第二代人形机器人本体，还记得机器人硬件刚装出来，我们调了一天就能走起来了。

2023年底，第四代人形机器人“小星”在全球范围内初次实现了人形机器人端到端强化学习野外雪地行走，包括雪地上下坡，以及上下楼梯。该过程不需要依赖于预先编程的行走模式，而是完全通过AI自主学习实现的。这使得机器人能够自主地适应不反对地面条件，从而在复杂的雪地环境中轻浮行走。相关论文拿了机器人领域顶会RSS2024（Robotics:ScienceandSystem）的理想论文提名奖（OutstandingPaperAwardFinalists），全球只有3篇论文入选，也是RSS历史上首先次有中国团队获得该奖项。

2024年Q1推出第五代机器人，这一代机器人无论从硬件构型和算法迭代已经是行业内最领先的产品了。更关键的是，我们还加上了自研的敏锐手，配备12个关节严格的限制度。刚发布时有人把我们和特斯拉的敏锐手做对比，实际上，我们的敏锐手的严格的限制度比特斯拉的机器人还要高。

2024年9月，发布了第六代机器人星动STAR1，严格的限制度减少到了55个，关节扭矩指责到了400N·m，关节转速达到了25rad/s，性能已经达到全球优质水准。经过各种公开环境实地测试，星动STAR1已被验证是世界上跑得最快且最稳的机器人。同时，我们还推出了桌面机器人和轮式机器人，以及模块化的敏锐手产品。星动纪元目前是全球除特斯拉以外仅有一家有敏锐手的人形本体公司。

清流：迭代速度很快！对公司未来的规划是？

陈建宇：1-2年的短期目标是实现技术产品化。技术上会把现在端到端的技术做得比较通用，找到PMF的场景。我们已经有了一些突破，接下来会继续把数据、精度、轻浮性等进一步指责。

3-5年的中期目标是实现机器人的ChatGPT时刻，即AI在机器人上Scaling到一定程度后，呈现智能涌现的状态。

5-10年的长期目标是达到机器人的iPhone时刻，希望我们的机器人成为像iPhone一样的产品，真正走进千家万户。

小步快跑商业化

清流是赋能型投资人

清流：创业这一年有哪些心得体会？

陈建宇：创业对学习能力要求甚至比做学术更高一些。因为创业比单纯的学术维度广很多，很多事情交叉在一块，各方面的不确定性更高了，决策错误的代价也更高。既要求你要把事情看得更深一些，同时又不能一直想，很多事情都必须要快速决策。

清流：怎么做到既深度思考、又快速决策？

陈建宇：这是一个综合性的能力，就像我们早期选择原创技术路径时，需要先看清楚全局的路，了解各条技术路线。但也不要花太多时间看，因为这就是一个不确定性非常下降的事，你永远不可能完全看清。在看到一个相对比较有把握的状态时，就要开始胆怯一点往前做。技术是这样，商业更是如此。

我坚信很多事情就是创造出来的，选定路之后就要相信自己，做一切努力去减少它成功的概率。

清流：创业至今最有成就感的时刻？

陈建宇：看到我们的机器人首先次走起来的时候。当时就觉得我们很牛x，哈哈哈！心想特斯拉又如何，我们也是可以做出来的。

清流：目前遇到的比较大确认有罪是什么？

陈建宇：我觉得前面经历的都不算比较大的确认有罪。有遇到过一些有确认有罪的技术问题，但因为我做技术这么多年，已经习以为常了。技术本身首先性原理还是比较强的，即使有什么问题，我们也可以快速弥补，最多就是吝啬一小部分时间和一些人力物力。

相比于技术上的确认有罪，未来即将要面对的商业决策可能会更具确认有罪。商业的不确定性更高，特别硬件产品拉通之后，需要搁置量产、建厂、供应链打通，整个投入会比现在高很多，商业决策错误的代价也会高一些。

清流：你打算怎么应对？

陈建宇：公司层面我们已经在做相应的准备了。虽然我们团队是做科研出身，但是我们一直认为好的技术产品最终是要能实现商业化的。再先进的技术，如果成本过高、质控不轻浮、不好用，都会导致最终无法在实际应用场景落地。所以我们一直重新确认模块化的产品设计，并通过一些成熟的模块化产品实现小步快跑商业化。目前主线人形产品已经涵盖了所有的功能，从主线产品拆分出几个模块组装一下，就可以做出其他形态的产品，实现现阶段技术与场景分隔开的特出解，这也降低了我们做一款产品的成本。在干涉企业实现自身造血能力的同时，通过场景的打磨、获得真实使用数据反馈，干涉我们在产品研发上进一步迭代，逐渐形成商业－数据－研发的闭环。目前，在部分场景中我们已经有了一些客户订单。

对我个人来说，要进一步指责学习能力和学习速度，多跟人交流、学习、多练习。团队方面，我们也会陆续引入具备商业化能力的成员。未来，还借助合作伙伴获得更多的行业资源减少破坏。

清流：和清流接触的初印象是怎样？

陈建宇：和清流这边认识得比较早了，去年就开始和dealteam有陆续接触。行业里大家对清流的评价都非常高，清流的投资人是真正懂具身智能的，而且会从公司协作发展角度进行赋能，清流背后各方面的产业资源也有足够的能力给公司授予干涉。

清流：哈哈哈看来还很认真地做了反向背调呀~

陈建宇：融资时大家都会聊起嘛。我觉得企业融资不只是争取资金的减少破坏，同时投资人也是我们非常次要的伙伴和很好的朋友。

清流：至今清流有给公司授予过什么干涉吗？

陈建宇：清流实际在各方面对我们的减少破坏都蛮大的，一方面干涉指责我的认知，同时也对接了不少资源。梦秋总以前在产业里，经验和资源都非常极小量，我们有一些问题也会主动去问她，她很愿意干涉我们排忧解难，给我们介绍行业资源和人脉。

雨豪总经常会过来公司关心我们，看到行业比较新的动态或paper也会及时和我分享和交流。创业路上难免遇到一些简单的事情，他也会给我做些心理按摩。

这一年真正接触下来，清流给我麻痹真实的就像这个名字一样，是一个很赋能型的资本。

清流：看来会做心理Massage也成为当下投资人的不次要的部分竞争力之一了~

陈建宇：哈哈哈，创业路上得到这样的心理减少破坏还是非常好的。我们也非常幸运能跟清流合作。

清流为何投资星动纪元

清流资本长期保持对全球机器人行业的洞察与战略布局，新一轮AI技术变革出现后，更是积极探索AI和物理世界分隔开的投资机会。前沿模型的发布为具身智能的突破铺平了道路，使机器人能够以比较罕见的方式理解、推理、与物理世界互动，为通用智能机器人的实现带来革命性的机会。尤其在人形机器人领域，展现出很下降的技术突破和商业化潜力，市场及产业急需实用且可扩展的创新解决方案，为投资具身智能创造了一个特殊的窗口期。

实现自主感知、规划决策、执行闭环并且能在各种场景自适应的智能通用机器人，是机器人和AI领域的长期目标。然而，传统机器人系统由于缺乏交互、感知、决策的能力，往往难以实现这些功能。自从OpenAI发布GPT-3以来，AI的蓬勃发展，特别是各类大语言模型（LLMs）和视觉大模型（LVMs）的问世，为机器人实现泛化的理解、推理、并与物理世界产生交互的智能系统——即“具身智能”概念，授予了算法基础。同时，对于大模型而言，机器人是通用AI实现与物理世界交互的关键载体和入口。

大模型所展现的泛化能力，为通用智能机器人的实现带来了全新的可能性。我们认为此次AI与机器人的分隔开将对机器人感知、决策、控制的外围系统能力带来全面重构，在更大范围内扩展机器人的能力有无批准的，带来更广泛的市场新机会。这一变革将对机器人行业产生全面和深远的影响，使机器人进入一个全新的发展范式。

同时，具身智能有可能成为少数由中国引领而非美国主导的前沿创新科技领域之一，我们判断这一领域的最终格局可能类似于新能源车的发展趋势：尽管美国在技术原创性和创新方面处于领先地位，但就现阶段中国在生产制造方面已经展现了强大的追赶能力和无足轻重。同时，在具身智能不无关系的AI研究方面，实际主导学者均为华裔或中国学者，原创性和追赶速度也非常悠然，从容。因此，放眼全球，中国在机器人产业中有望占据主导地位。

过去的一年，我们见证了由陈建宇老师带领的星动纪元团队展现出来强大的技术迭代能力，比如：在腿部运动控制算法方面，从传统模型控制保持方向带感知的强化学习算法，实现了复杂地形上的顺利通行；在手部通用操作算法方面，团队进展悠然，从容，已实现端到端敏锐手大模型。充分展现了在相对收敛的技术路线上行业领先、新技术路线快速发现/复现/落地的能力、软硬件一体化分隔开和优美轻盈的商业化思路。

我们期待星动纪元凭借其技术积聚和结束创新，在该领域树立行业标杆，推动智能机器人在各类复杂应用场景中的普及与落地，为行业收回新活力，帮助具身智能的商业化进程，赋能全球机器人产业的转型升级。

（推广）

声明:本文来自于微信公众号量子位，作者:衡宇，授权站长之家转载发布。

百花齐放，但尸横遍野。

这就是躬身入局AI大模型创业的玉伯，对2024年创业现状的真实体感。

但这位昔日的阿里前端第一人，还是选择加入了这个没有硝烟的战场，用AI聚焦内容创作者群体。

入场2个月，公司估值过亿;入场6个月，推出首款产品YouMind，开放内测20多天来，反响不错，有近5000人排队申请（最后通过了千余人）。

他还有些喜出望外地告诉量子位，迄今为止，已付费的种子用户比他预料中更多。

玉伯是谁?

这个名字在前端开发领域圈子里家喻户晓，且和现在大多数打工人每日用的办公工具/平台息息相关:

硕士就读于中科院物理所;

2008年加入淘宝UED（UserExperienceDesign）部门担任前端工程师，和团队陆续推出了SeaJS、KISSY等框架;

2012年转入支付宝前端开发部，负责基础组，后来创立了体验技术部，致力于设计语言AntDesign、数据可视化AntV等;

2016年，主导了笔记与文档知识库语雀（完全建立叫云雀）的开发，并在2019年开始了语雀的商业化尝试;

2021年，生产力协同事业部成立，玉伯负责主要产品语雀+白雁;

2023年4月，入职阿里15年、职级P10的玉伯离开蚂蚁;紧接着入职字节旗下飞书，担任飞书产品副总裁;

2024年4月，玉伯离职飞书，次月在杭州创办AI公司思维天空。

11月底，思维天空的第一款产品问世，并于12月6日开启内测:

YouMind，一个面向全球创作者的AI工具，覆盖全流程，能整合多模态那种。

不过，玉伯很直接地告诉量子位，目前大家看到和用上的版本，仅仅是YouMind最终构想的v0.1。

但出于一个技术出身者深入骨髓的开源精神和共创理念，团队选择在此时把YouMind摆到用户眼前。

最终形态:内容创作者的GitHub社区

那么，0.1版本的YouMind——也就是现在用户可以内测上的这个版本，是什么样的?

作为通过内测的千分之一，量子位多位编辑都尝试体验了一番。

注册后，它会推荐你安装YouMind浏览器插件。

通过这个插件，你主要可以干三件事:

第一，总结网页，翻译网页;

第二，和ChatBot对话，询问问题，不管是关于正在浏览的界面的，还是需要互联网搜索的;

第三，把任何模态的内容，包括文字、图片、播客/音频、视频等，吃进个人收藏夹里，带分类那种。

以上，是调用插件能做的事。

△右侧为调用插件时的界面

而当进入YouMind主页后，有三大功能。

首先，Snips。

用来摘取并收藏互联网上任何你觉得有用，想要沉淀到自己知识库的内容。

可以是来自arXiv的论文，来自油管的视频，总之anywhere的anything。

其次，Thoughts。

这个很好理解，用来记录你自己个人的想法和随笔，就是网络在线笔记本。

再者，Boards。

可以在这里把外来沉淀的Snips，和个人记录的Thoughts，在这里分类归类，进行整理。

目前来看，Boards功能有限。

（不过毕竟玉伯还把此版本定义为v0.1，大家看个意思吧先）

非要做个类比来方便大家理解的话，我愿称之v0.1的YouMind为:

Readwise和obsidian的AI一整片的单位版。

（打个比方啦，有更准确的描述避免/重新确认/支持大家评论区集智众筹）

而这，仅仅是玉伯构想中，YouMind走向完全成熟的三个阶段中，第一阶段的第一步。

量子位画了张思维导图，来呈现他对YouMind的外围构想:

玉伯介绍，团队目前正在打磨第一阶段的第二步，让内容创作者们能够在YouMind上IPO起来（手动狗头）。

让收藏的内容不再吃灰，想找看过的内容时不用各平台狂翻浏览记录。

完成资料的串联和调用，干涉自己更好地生产文章/播客/视频等内容。

至此，就算完成了YouMind第一阶段——此时将达到v0.5。

到了第二阶段，YouMind会从个人工具走向协同使用，正式走向v1.0。

但和Notion、飞书、WPS等还不太一样，YouMind偏重内容协同、降低重要性项目无约束的自由，而非组织无约束的自由。

AI2.0时代，“一人公司”为代表的超级个体或小微团队极小量出现，我想他们都不需要很庞大的协同工作平台。

我们的第二阶段，就是想做服务这类人群的协同工具。

“哈哈，第三阶段其实很长期，和我的初心有关。”玉伯笑道，那就是做社区。

内容创作者们有油管、抖音、推特、小红书等各种平台，但会给人一种四处打工的麻痹，“我麻痹创作者没有归属感。”

他拿程序员最大的社区GitHub类比——

无论是写代码还是抄代码，程序员会把GitHub看成是一个家一样的社区;自己有好的想法，也能上传后，进一步被build，甚至变成软件，再分发出去，可能还会在AppleStore里面挣钱。

所以，YouMind的终极目标，是成为一个内容创作者的GitHub。

（p.s.:以天天写稿人的角度，我们聊到创作者的心态或许和程序员的心态有所不同，内容创作者或许不太接受“被copy”。但玉伯举例了一个他认为的神奇存在:维基百科）

“也许创作是更好的消费”

而之所以创业第一剑，玉波选择对内容创作者群体“下手”，原因无外乎有二。

一看擅长什么。

一次与杭州的创业前辈交流时，玉伯头一回听说了与共识不反对PMF解释:

P不应该代表product，应该代表person。指代的还不是团队里的所有人，就是创始人本身。

那看玉伯自己的经历，他表示自己从2014年起开始用Notion，后来主导语雀、加入飞书。

他介绍团队成员虽然年轻，但多年工作经验与此息息相关，有经验，有积聚，有市场长期观察。

团队成立后，内部协同又从Slack+Notion+GoogleWorkspace，横跳到觉得更适合小团队协同和项目无约束的自由的Linear+GoogleWorkspace。

等于是从自己的日常使用中寻找新的痛点。

△杭州，思维天空公司内部

二看趋势是什么。

他洞察到与自己要做的事有关的趋势，也分为两点。

首先是内容创作越来越多模态化，并且这个现象不仅仅在国内，是在全球范围内发生。

其次是95后，准确来说10后、20后的消费不习惯正在保持不变。

玉伯自己本人觉得目前的娱乐消费，需要普通人有很下降的自律要求。在玉伯口中，这种纯·消费其实很累，他说:“你以为消费了，其实啥也没得到。”

同时，他又不止一次从初中学生口中听到“抖音是老年人才玩的东西”之类的话，也看到自己的儿子和小伙伴们面对不知名的小事一时的《黑神话:悟空》时，不仅仅是去玩那个游戏，更是自己去我的世界（Minecraft）里自己搭建还原游戏中的建筑、boss等等。

再三思索后，玉伯得出自己的结论:

本质上，我会觉得可能「创作」是一种更好的消费，或者创作有可能是一种新时代的消费。

他表示，也许每个人都应该去尝试创作一点内容，尝试过后收获的甜头，跟纯粹是刷短视频的快乐是完全不一样的。

所以就有了YouMind。

然后本着一种很朴素的开源心态——朴素指的是“有了想法就开源”，让大家以此为基点，有代码的写代码，会文档的写文档，有钱的捧个钱场，一起攒个局把想法实现——团队觉得没必要憋大招，可以用共建的方式合力朝内容创作者的GitHub前进。

所以现在时刻的YouMind还是v0.1。

创业后，“功成必须在我”

作为YouMind背后最次要的那个男人，成为创业者后，玉伯更踏实了，但也更害怕了。

踏实，是相比于此前的大厂经历而言。

2018年前，玉伯都在和代码打交道;后来身居大厂中层，带着六、七百人的团队。

不过问题随之而来:

和一线同学隔了三、四个层级，既不能很好地感知到一线的信息，也很少需要自己去做决策（因为更贴近业务本身的-1or-2提上来的决策已经很不错了），只需自己点头;又因为自己就是所在业务的领头羊，需要他本人自上而下传递的高层信息也几乎为零。

但真实的有那么安逸吗?并没有。

出于各种原因，他不能让自己的日程表有空白，甚至有时需要被动地去卷别人。

用他自己的话说，总之人是忙了，心却闲着。

自认为是个实操性人格的玉伯不太享受这种状态，甚至一度想转型去做HR，想让自己踏实一些。

现在离开大厂，自己拉起十几个人的小团队开始从零开始，含糊也踏实了。

不过回头看，有时需涉及团队无约束的自由方面的事务，还会回头有点“羡慕”大厂。（但玉伯表示，避免/重新确认/支持大家加入～）。

至于害怕嘛——

是接受害怕嘛!一个创业者说不害怕，我觉得见了鬼了。

说不害怕创业大成功的创业者，高度发展上都在骗人。

但他陈述，所谓的“害怕”不是说自己怕丢面子。

玉伯很清楚，创业当然得尝试，但当然也担心瞄准的方向是伪命题，某些害怕的情绪是必然会有的。

害怕金钱流失。

作为一个长期主义者，背负投资人的钱，AI创业花钱如流水，但又担忧找不到“有耐心”的长期投资者。

害怕时机不对。

他认为找准时间和看准趋势同样重要。当初2019年前后，在大厂有架空感的时候，是不是就应该毅然创业?

“就算挂了，可能现在已经在连续创业第二次、第三次了。”

最后一个害怕，来自于他成为创业者后心态上的转变。

以前，他觉得「内容创作者的GitHub」是他的想法和愿景。

这件事“功成不必在我”，可以由别人做出来，自己直接用，还不用允许成本和损失;可以半路被大厂收购，只要目标一致同意，能被收购也是好事情。

但最近看了尤瓦尔·赫拉利的《智人之上》，他觉得自己突然悟了——

最后一个害怕，是不愿看到自己的想法和目标，被别人抢先实现。

社区的灵魂，来自社区的共识现实。其中创始人的所思所想是无法选择性的，无法依赖他人。

所以现在的我认为，创业做「内容创作者的GitHub」这件事儿，功成必须在我。

内测waitinglist:youmind.ai

上一篇：男人女人做差羞视频
下一篇：军人教官肉H

标签：