“今年具身智能遍地是钱”|投资界

六月盛序，太湖之滨。由清科控股（01945.HK）、投资界主办，吴中金控集团联合主办的“2026投资界SuperLink大会”于6月10-11日举行。这场盛会覆盖“募投管退”全链条，致力于成为中国创投生态的超级枢纽。

本场《当AI长出“身体”——具身智能开始真正理解物理世界》圆桌对话，由北汽产投副总经理钟志伟主持，对话嘉宾为：

飞捷科思联合创始人杜朋

聆动通用机器人创始人兼CEO 季超

蔚来资本合伙人 吕元兴

OriginFlow创始人&CEO 秦深涛

极佳视界联合创始人 孙韶言

智平方联合创始人张鹏

以下为对话实录，

经投资界（ID:pedaily2012）编辑：

钟志伟：大家好，我来自北汽产投。今天主题与具身大脑相关。近两年大模型重塑了AI底层能力，无论语言理解、逻辑推理、长程任务规划都得到了全面提升。

当前行业迎来了转折点，具身智能从概念走向实战，AI跨界走进物理世界，产业化落地成为整个行业竞争的核心焦点。资本市场也更聚焦于核心技术落地与供应链体系建设，未来，围绕着商业化场景落地、稳定商业交付以及物理AI环境的深度适配，将成为整个行业落地突破的关键卡点。

作为产业资本，北汽产投过去三年持续深耕具身智能全产业链投资布局，覆盖本体、大脑、零部件等多个赛道，累计投资了十余个具身智能项目，且多数项目都在早期阶段完成布局，包括智元机器人、银河通用、帕西尼感知、极佳视界等。

本次圆桌主题为“当AI长出身体——具身开始真正理解世界”，邀请嘉宾阵容覆盖面十分广。下面进入第一个环节，有请嘉宾做简单的自我介绍和公司介绍。

杜朋：谢谢钟总，我是70后老法师团队。飞捷科思在上海创办，核心就是物理引擎和仿真。物理AI在今年成为一个特别热门的词，包括具身在内的各行各业，都在向AI+、向物理AI看。

今年3月份，我们第一个发布了中国全模态可微的物理引擎，英伟达一直沿用的PhysX物理引擎其实就是我们公司创始人张立华教授在英伟达时期负责研发的。基于如此深度了解，我们做了底层结构的重构，目前通过飞捷科思的引擎求解出来的结果是非常理想的。

很多产业的朋友，已经与我们在做联动，我想我们可能是世界最好水平。从引擎出发去做仿真，两个月前我们发布了物理AI的基础模型，意味着从引擎出发可以衍生出更多数据。欢迎各位看看我们是如何做全新的物理AI底座生态。

季超：我来自聆动通用机器人，我们是科大讯飞的具身智能板块，2021-2022年初在上市公司体系内正式成立，我主要负责基于多模态强化学习在机器人运动控制上的工作。

早在2019年，我就开始关注物理引擎这一板块。整个强化学习包括机器人的灵活运动操作，其实本质上都是物理引擎在模拟器里面产生的突破。国内用的最早的是Lsaac Gym，我的博士论文就做相关的研究，国内基本上很少人做。

在科大讯飞，团队采用数据驱动的方式，完成了Action（行动）环节的数字化。与此同时，公司的大模型团队也在视觉语言领域推进Next-token Prediction（即GPT路线）。在这一发展进程中，我们敏锐地捕捉到了在Transformer统一架构下实现多模态融合的可能性。从团队基因来看，我们的核心班底一直专注于“大脑”的研发，因此从LLM到VLM再到VLA的演进，对我们而言是一条自然且连贯的技术发展路径。

为什么会成立聆动通用机器人？从2022年到2023年，我们见证了视觉-语言-动作（VLA）的兴起；而到了今年，整个架构正朝着原生多模态大一统的“世界动作模型”演进。不过目前还不能简单地将其称为“世界模型”，因为大家的观点尚不统一。现在世界模型主要有四种技术路线：3D生成、3D重构、隐空间表征和操作世界模型，大家认知没有拉齐。本质上是我们只是在图像视觉层面达到了生成和理解的统一，视觉层面还没有，所以单纯讨论世界模型比较早期。但是讲世界动作模型里面，加上了模拟器和物理引擎，我们认为这样的backbone比之前的VLM可能在应用空间的特征密度上更好一点。

所以聆动不是通用大脑的公司，我们专注于B端泛制造业，三大板块就是物流、汽车、3C电子。现在纯通用底座还是长坡厚雪的事情，但已经有了预训练基座的范式，不管是过去ACT等小模型，到后训练大模型，再到世界动作模型，本质上都是在不断增强预训练底座在特定场景中的能力厚度。这个过程中，在工业场景可以率先落地，所以我们就开始布局团队，2024年年底聆动公司注册成立。

吕元兴：我来自蔚来资本，我们是一家拥有产业背景的专业投资机构，管理规模将近200亿的等值人民币，旗下有人民币基金、美元基金，覆盖早期、中期和成长期投资。之前围绕汽车、尤其是智能驾驶、电动化投了非常多的企业，目前我们重点关注AI模型和应用以及具身领域的优秀企业。

具身智能跟智能电动汽车整个产业的发展有非常相似和相通的地方，我们积极布局相关的企业，目前在模型端、本体以及在零部件也投了非常多的企业，后续会持续布局这个领域优秀的创业公司。

秦深涛：感谢邀请。我就是那个00后，公司也是在座最年轻的一家，成立大概半年。做的是物理交互基础设施，这应该很久没被提及了。具身智能发展到今天，最大的问题是缺少一个真正的physical knowledge up-loader，这是一个新词。此前行业司空见惯有两个knowledge up-loader：第一个是互联网，当Anthropic和OpenAI一路狂奔的时候，我们刷的每一个手机、每一次上网都提供了大量文本数据，当我们开着特斯拉、蔚小理时，通过Shadow Mode等数据回传提供了大量关于video的数据。这是两个非常典型的knowledge up-loader。

今天全球有近80亿人，每人每天清醒12个小时，意味着每天可以生产1000亿小时的数据。然而今天任何一家做具身大脑的公司，能够用的数据却不足百万小时，即便是Generalist AI也是几十万小时量级，我们看到了它在scaling曲线上的努力和尝试，也看到了我们离终点真正长坡厚雪的路径。OriginFlow的路径叫NeuroScale，通过一种Neuro Motor interface的方案，非侵入、无感地进入80亿人的生产和生活，然后去打造这样一个physical knowledge up-loader，这是我们要做的事情。

孙韶言：我来自极佳视界，公司成立于2023年，是一个自动驾驶背景的团队，创始团队基本上来自地平线。2023年，大家看到ChatGPT爆发之后，我们就想自动驾驶量产干了这么多年，学了非常多的 bitter lesson，那么更本质的解法是什么，当时我们就认为是世界模型。

我们是最早押注世界模型的公司之一，2023年我们发布的自动驾驶世界模型的系列论文，也是后续行业里大家都引用的标杆。此后我们陆续拿到了理想、小鹏、比亚迪、广汽等客户的世界模型的订单，并一起做了非常多世界模型场景泛化和闭环仿真的工作。

驾驶的下一站肯定是通用具身智能，所以我们现在的定位也是围绕着四个方面——世界模型、具身基模、原生本体和泛化场景，四位一体联合往前推，希望为物理AI的爆发贡献我们自己的力量。

张鹏：智平方成立于2023年，位于深圳南山，是一家AGI原生通用智能机器人企业，核心理念是围绕通用智能模型的研发，打造真正具有生产力价值的通用智能机器人。所谓真正体现生产力价值的机器人，不是让它变成摆设或玩具，我们做的是生产力。

因此，智平方一直坚持以模型、硬件、场景三个重要元素来构建研发体系以及整个公司的发展理念。

从2023年4月成立至今，围绕以上三位一体的理念，智平方已经在汽车制造、半导体制造、生物医药、公共服务、新零售领域的场景中落地。这是我们一直做的事情，希望通过真实场景、具身模型，让整个中国的供应链硬件汇聚到一起，实现打造真正新质生产力和生产力工具的理念。

钟志伟：纵观整个具身智能行业的发展，从早期聚焦本体到关注小脑、大脑、VLA，以及今年重点关注世界模型、数据采集等等，产业链热度高涨，一环扣一环。大部分做本体的公司也在做大脑和行业模型，大家怎么看待这个行业的快速变化？站在创业企业视角，过去一年具身智能行业最大的突破在哪里？从张总开始。

张鹏：自2023年具身智能赛道兴起以来，行业经历了从“单点技术突破”到“真实场景落地”的关键转型。早期，业界主要聚焦于基础模型、运动控制或特定动作（如跳舞）等单一维度的研发；而去年，行业迎来了明显的转折点——全面转向真实场景的探索。

这一转变的核心逻辑在于：无论机器人采用何种形态，若要在真实环境中真正投入工作，就必须摆脱对传统程序化指令和人工遥操的依赖，实现真正的自主驱动。因此，当前行业的核心路径，就是通过不断升级模型（如VLA等），推动机器人在真实场景中实现自主作业与商业化闭环。

到了今年，行业发生了一个非常明显的质变：大家不再满足于“找到场景”，而是要在场景里“把任务彻底打通”。我认为，这是整个具身智能行业的里程碑。因为只有真正打通了，我们才能验证现在的机器人、模型和硬件，到底能不能持续地创造价值——不管是社会价值、商业价值，还是实打实的生产力价值。

场景一旦明确，技术路线的讨论也就有了落脚点。现在大家都在讨论VLA的下一步该怎么走。从智平方的视角来看，VLA未来一定会走向系统化的架构，它会像一个不断生长的有机体，把世界模型、类脑技术这些新能力都吸收进来。比如我们近期发布的全球首个类脑架构VLA大模型（NeuroVLA），就是为了让机器人在真实物理世界里把活干得更好。这也是我们最核心的理念：一切技术都要围绕真实场景。现在整个行业，无论是做模型、做供应链还是做制造，大家都在往一个方向使劲，那就是让机器人真正发挥出它的价值。

孙韶言：目前具身行业的狂奔，其实是为满足整个社会的热切期待。大家看到了语言模型的爆发，对物理世界通用智能的期待非常高。很多海外客户，例如日本面临非常严峻的劳动力短缺问题，招不到人，国内也开始有这样的趋势；以及对降本增效的需求、工厂危险场景的覆盖，大家都有期待。

我们在上个月发布了拾光机器人，面向C端消费场景的子品牌。发布后收到了超出预期的正反馈，很多用户反映机器人帮他们解决了生活上的很多问题，满满的留言让我们感受到了责任重大。这也是整个行业的动力所在。

早期做AIoT等场景时，大家都说我是不是在创造需求，是不是拿着锤子找钉子，但是具身智能这件事情完全不是这样，市场非常明确，关键问题就是需要技术和市场充分匹配的状态。我们对此充满信心。通过一系列深入的探索与钻研，从模型底层结构的进化到数据规模的Scaling，我们已经观察到模型逐渐产生了涌现的迹象。接下来，我们将通过VLA以及世界动作模型（World Action Model），完成从解决单一任务向以Agentic方式应对复杂场景任务的跨越。沿着这条技术路径，我们坚信必将逐步抵达预期的那一天。

秦深涛：简单来说，在Anthropic做到如今这个程度前，80%-90%的人并未真正能相信AGI，对它有非常强conviction甚至是belief的只是一小撮人。今年Anthropic的陡峭增长和强劲表现，让这个东西落到了地上。

非常Bitter Lesson的是，今天任何一个行业都有可能被范式变革全部重塑，不管现金流有多好。所以这一定程度上带来了恐慌，push行业上下游思考这个问题。

从AGI到物理AGI的演进，其实就是世界模型不断变复杂的过程。目前的AGI只是很简单的language token space，任何信息一旦固化成文本，就已经完成了第一轮塑造。比如我们现场聊一个小时，最多也就一万多字，不到50KB，信息量很小，本身的噪音也很低。现在物理AGI还处在初级阶段，像Robotaxi这类应用，已经能在相对复杂的场景里完成稳定运作、实现成熟落地。依靠scaling规模化能力，我们能精准聚焦核心方向，并把这套能力延伸到机器人领域。我们的终极目标，是让机器人真正趋近于人。

后续行业会涌现大量原生AI人才，等大语言模型、Robotaxi赛道人才趋于饱和，大批从业者就会流向具身智能领域，这也是现在具身智能掀起行业热潮的核心原因。在这波行业风口里，大家要保持清醒。沉下心把行业里最脏、最累的基础工作梳理打磨到位，这一定会成为企业和行业最终的核心护城河。

吕元兴：当前具身智能赛道热度空前，我从三个维度分享我的判断。

第一，赛道长期广阔的市场天花板，是全产业链持续加码投入的核心底层逻辑。站在十年长周期视角，全球具身智能硬件远期年出货量存在多重预期：1亿台、10亿台乃至百亿台，不同出货量级将对应截然不同的产业规模。保守测算，行业整体市场容量将超越新能源汽车赛道；若按乐观情景推演，其市场空间甚至有望赶超智能手机行业。

这一赛道有望成长为人类工业史上体量最大的单一硬件赛道。具身智能融合机械结构、运动控制、人工智能多学科技术，当前全产业链各细分环节尚未完全成熟，尚存大量待攻克的技术难题，孕育了海量创新与创业机会。复盘智能电动汽车产业的发展历程，行业从0到1的产业化进程中，催生了电动化、智能化上下游配套产业的发展，诞生出多家千亿、万亿级市值的世界级企业。正是基于对这条赛道长期巨大的成长预期，产业和财务资本均积极在全环节持续加大投入。

第二，物理AI必须依托实体硬件落地。放眼全球AI产业的发展，中美的发展路线有一定的差异。依托自身产业生态与资源禀赋，美国市场绝大多数资本和资源向通用大模型及软件应用倾斜，布局具身智能赛道的投入相对有限；国内产业发展路径则与之略有不同，在具身智能领域的投资巨大。对国内而言，具身智能是必须把握、不容错失的核心战略赛道。国内完整齐备的产业链资源和场景优势，也为行业发展筑牢了得天独厚的产业根基。

第三，AI呈指数级增长，市场对具身产业的成长速度期待也很高。现在大模型的落地增长速度前所未有，如若Anthropic持续按照当前速度增长，后年ARR有望追上谷歌，这样的增长速度过去很难见到，市场也在用同样的标准期待具身智能行业。在发展的过程中大家发现，没有高质量可靠的数据，就会去找数据的供应商；没有高质量可靠的硬件，就会找硬件的供应商；大家已经意识到这是个需要体系化能力和上下游紧密合作的行业。如果把具身智能比作一个木桶，那么当下部分创业企业在不断做高自身的长板，而短板部分，则依赖其他创业企业补足，大家通力合作，不断提升木桶的有效高度，推动行业的发展迭代。

同时还有一个现象，就是每家企业都在做它的上游或下游的事情。比如一家企业的起点是数据，但如果它不懂怎么去训练模型、不懂怎么跟场景更好的结合，它就没法采集更好的数据去服务模型和场景。所以大家会看到，每个环节在上下游里面的融合度是非常高的。

相比于前两年，我认为今年最大的变化在于，之前大家都是以表演娱乐为主，今年大家都专注于去做生产力的工具，具身行业从之前发布demo，转向做具体场景应用、做闭环商业化落地，2026年将成为具身行业的“商业化元年”。

季超：我尝试用结构化的方式讲一下这个问题。因为第一线最有体感，最下面是基础研究，然后科研层面，往上是应用的开发，再往上一层就是产业。

从最底层看，如果大家关注学术界，像CVPR这样的顶会，大家关注的主题都没有变过，去年最佳论文是牛津大学的VGGT（Visual Geometry Grounded Transformer），今年可能也是3D、4D生成相关的——在科研界、学术界大家更关注世界模型，但是世界模型关注哪一点？其实是四条技术路线，3D生成、3D重构、隐空间表征和操作世界模型，前三个大家尝试用同一个架构实现它，但是现在还没有一家研究机构和企业能够把视频的生成、重建和影空间表征，其实就是杨立昆讲的那套架构。学术界去年是这样，今年依然也是，需要类似于Transformer的架构，这是最底层的发展趋势，是有连续性的。

再往上一层就发生变化了。去年因为Physical Intelligence这家公司进行了开源，进行了π0.5、π0.6，目前大部分的具身智能公司基于π0.5等VLA基座模型进行后训练或场景微调，去年是后训练的阶段，去年算力压力没有像大规模预训练阶段那样集中显现。今年在应用研发那一层，大家推出了大规模预训练，包括预训练维度，就催生了为什么去年没有人提数据，今年有人提数据了，原因就是预训练和后训练阶段差异最大的就是需要有多样性数据，在后训练阶段完全盯着垂直场景。比如说汽车的SPS分拣垂直场景，面向单一场景的模拟学习，不用预训练也可以做得很好。

但是今年大家发现π0.6论文里面提到，预训练阶段的多样性逐步增加到一定程度的时候，人类数据和机器数据scaling天然的对齐，这是非常好的结论，就引发了今年大家在预训练数据上的热潮，所以今年数据基建特别火。同样也包括世界模型，但世界模型能够站在一个认知level上讨论的模型架构和VLA的backbone没有太大的差别，就是把VLM换成了video encoder，就是视频表征或视频生成编码模块，再加上action的encoder做建模动作条件下的动力学演化，我们就称之为“世界模型”。

这相比于去年在应用开发层面是巨大的进步，意味着大家把关注点从后训练迁移到预训练，预训练必然会出现算力的瓶颈，所以今年整个大模型公司算力消耗非常巨大。

再往上就是产业层，我们需不需要产业层短期在预训练+后训练统一范式？其实也不一定，从理论研究到应用研究、到应用落地的阶段，我认为技术路线不一定是大一统的，小模型针对场景的专项后训练，强化学习，预训练+后训练，这三条路线在应用层都可适用，这是完全依托客户在真实场景下给任务的指标要求，因为你完全依靠预训练加后训练，本质上来说在泛化性上会好，但是节拍上很慢，即使最先进的Thor，但是它现在最大的输出频率就是26赫兹，国内有一家企业能够做到26赫兹的推理输出，依然无法满足物流分拣包括SPS分拣，比如说一台车下线可能72秒将所有的零件全部装到小车里，以这样的预训练+后训练的方式不能以那么快的节拍去处理数据，但是泛化性很好。

所以应用上有一个悖论，横坐标是通用性，纵坐标是效率，是这样一个曲线，我们需要在应用层面这样一个曲面找到合适点，用合适的技术路线实现。

所以这两年，我是从三层视角看待技术和产业的发展。我们每年都会跟投资人，包括跟讯飞内部投资机构说今年应该投什么，我觉得今年应该重点关注数据工程化和数据基建相关的事情。

杜朋：刚才大家都提到了数据准确性的获取，我们干引擎和仿真器，目前测试效果非常好，给行业提供了全新的工具。今年很多工业场景来找我们，我们觉得工业场景对于数据的安全性、可靠性和持续的泛化性需求更高，其实已经有某一家开始合作，有机会的话，我们也会做出一些范式出来。

现在各行各业都在蓬勃发展，AI+千行百业，我们也愿意赋能千行百业，让数据产出更加精准。

钟志伟：接下来我们聚焦行业融资与估值话题，这一点我自己也是深有体会。2023至2024年我们投了四个具身智能早期项目，目前估值均已突破百亿，2025年投的几个项目估值也上百亿，整个行业估值涨得很快。目前很多企业估值都已达到二三十亿美金，但从企业发展阶段来讲，可能仍处于初创阶段，仅有几千万的营收。

你们认为未来一两年投资人会关心哪些问题？以及一级市场融资的窗口已经到哪一个阶段，是否还会持续有大量的资金入场、维持高估值的投资态势？这个问题先请几位创业企业先回答，吕总做最后的验证，我们从杜总开始。

杜朋：简单说，全世界的AI真的才起步不久，特别是机器人行业，大家期待着进入到千行百业的状态。对于融资窗口，我觉得会有越来越多的投资人进来，我们对此饱含期待。

季超：我们从去年初开始启动融资，直观感受到市场很热情。投资人在最开始见面时就会问商业模式是什么，这方面我们很擅长，本质上我们不算严格意义上从0到1出来的——因为要说服上市公司，必须做到技术上的验证和商业模式上的验证。其实我们很喜欢这样的投资人，能讲清楚这件事情。具身是长链条的事情，如果在车厂或B端制造厂落地，就要遵循定点加批量爬坡到整个POC小批量中试的阶段，所以不是3-6个月就可以见成果的点。我们的投资人很多都是产业背景出身，特别能理解我们希望把技术真正转化到产业，所以也相对更有耐心。

今年也是一样的节奏。投资人没有一个是催促我们尽快地在B端客户PR，因为产业是一个过程，我们给出严格化的时间点，按照这个时间点去做，按照每一个季度check，这个过程中每一个节点证明给投资人，这就可以了。所以我们对于融资、商业化、估值的节奏有自己的看法，相对保持比较克制，不能融太少，也不能融太多，这是一个折中的过程。

秦深涛：刚才应该有两个问题，第一个问题是为什么今年钱特别热？我觉得核心点是Anthropic和OpenAI把AGI赛道估值逻辑重塑了，自己的高增长带来了全球的存储和算力供不应求，也体现在二级市场。大家觉得错过了最大的一波，但要赶上第二波。

关于第二个问题，我们身处其中就是受益者，可能估值上比以前有3-5倍的溢价。但核心逻辑是溢价背后对你的期望是什么？我想这期望大概来自于你是一个带有neo lab属性的公司，将来有机会把生产方式掀桌子，你是一个game changer，且你的变化速度是无法被估计的。所以溢价代表左侧信号阶段，对将来百倍、千倍乃至万倍增长的估计。但如果有一天泡沫破掉呢？企业从Day1起就应该把融到的第一笔钱当作最后一笔钱，提前规划好如何穿越周期。任何时候，只要完成了“右侧验证”，公司都不会缺钱。

钟志伟：秦总的意思是要有底线思维，有请孙总。

孙韶言：投资本质上是合伙，大家为共同的目标，你出钱我出力，共同达成这个事情。投资人愿意给到比较高估值，一方面是认可做这个事情需要更多的钱，这是大家的共识——做AGI、通用人工智能，绝不是花三五千万就能解决。

投资人的期待就是我给你这么多钱，团队有没有能力把这些钱高效花出去并且转化成价值，这是大家对创业公司的期待。

关于是否要求大家商业化，如果通用AI、物理AI的问题解决，大家对此没有质疑。对商业化的期待，更多是能够找到很好的路径。具身智能不同于语言模型也不同于自动驾驶，它的载体不是目前已经广泛停留在大家日常生活中的——不像手机和电脑，加一个语言模型就能交互；也不像自动驾驶的载体汽车，本来就是通用的必需品，我把自动驾驶的能力放上去，场景和模型就可以共振。具身如何产生场景和模型的共振，这是通向最终目的的必要手段，明面上期待大家做商业化，更多的是说你能不能找到场景，在场景里面把模型和场景共振。

关于窗口期，我觉得还是非常有机会，但是那个机会摆在面前的时候，各个团队有没有足够的资金，有没有足够的能力，有没有足够多的积累把这个事情达到，这是需要经历考验的。

钟志伟：孙总的意思就是我们告诉投资人怎么样把钱花出去，然后实现商业化。

张鹏：这个问题我非常有感触。2023年，我们跟投资人解释最多的是智平方是做什么的，到底空间智能是干什么的。那时最流行的是大语言模型，投资人一定会问大语言模型跟空间智能、具身智能关系是什么。

到了2024、2025年，投资人对具身智能和通用智能机器人这件事情的理解越来越深，这种情况下，大方向上其实已经没什么可犹豫的了。我们正站在数字世界AGI爆发的时代节点上，至少在中美两国，大力发展生产力、布局通用智能机器人，已经是板上钉钉的战略决心。这不再是一个需要反复论证的方向，而是我们必须坚定走下去的必然选择。

那么在这个过程中，我们到底要看什么？最核心的就是看“窗口期”还有多久。这就像当年我们做新能源汽车一样，如果等所有市场都完全打开了，那窗口期早就过了。真正的窗口，一定是在市场和技术都还没完全成熟的时候。具身智能机器人也是一样的道理。如果哪天机器人保有量到了1亿台，那它就只有商业价值，没有投资窗口了。但现在，我们正处在产品和技术不断打磨、核心价值正在被打造出来的阶段，这就是我们最好的窗口期，而且这个窗口还会持续一段时间。

重点看什么，核心有三点：第一，看AI底座。不管走哪条路线，你具不具备底层的人工智能研发能力？这是根本。第二，硬件同样重要，有没有软硬件整合的能力，能不能做到大规模、高质量、高一致性的生产制造？第三，面向围绕面向场景和面向应用，研发体系以及系统如何整合？如何跟整个落地生态打通？这是一个极其复杂的系统工程，绝对不是靠单体智能就能解决的，未来这也是最考验企业功力的地方。

从中长期来看，具身行业会分化，正如2026年很多企业说要做具身数据，大家专注的点会不同。所以从投资角度来看，认可大方向、窗口期还有多长、以关注哪些企业和细分方向，以及细分方向里需要关注企业哪些特质是很重要的。市面上有上千家具身机器人公司，谁能真正做出价值还需拭目以待。

钟志伟：刚刚几位嘉宾的分享各有侧重，季总重点说了跟投资人讲商业模式的问题，秦总重点说了如果泡沫破裂的话，底线思维在哪里，孙总重点说了跟投资人讲如何花钱、加快商业化的进程。吕总，您觉得是您关心的问题吗？

吕元兴：他们讲的都是我关心的，先回答你第二个问题就是会不会投，我觉得是毫不犹豫地，会投。

就像刚才我提到的，如果是每年1亿台的出货量，最终的价格假设是万美金级别，这个市场就是1万亿美金的市场。可以想象这条产业链上会有多少家优秀的世界级企业诞生。

最重要的是关注人才流动和闭环落地能力。我们投资智能电动汽车行业的时候，发现一个现象，人才的流动和人才密度对于行业的发展非常重要。具身正在吸引机器人、汽车、智驾、AI等各种背景的优秀人才，这种人才的迅速集聚正在加速产业的发展。其次，闭环落地能力也是至关重要的，时刻关注哪些企业实实在在解决问题，落地场景，创造价值。这个行业在未来的5年甚至10年，都是具有持续投资价值的。

回到窗口期的问题。一提到泡沫，很多人觉得这个泡沫好像随时要破了，破了就没了，但AI只是刚刚开始。

举个具身产业链上最直观的例子，灵巧手。第一，现在灵巧手在技术方向选择上还在收敛的过程中。第二，灵巧手产品的可靠性和使用时长，还远无法达到生产作业的需求，发展还处于早期快速成长的阶段。

深度调研产业链发现，产业链的每个环节都存在一定问题。软硬一体意味着要解决的问题就是一环扣一环，手做好了，跟本体怎么结合？本体做好了，大脑模型在哪里？自己做还是跟别人合作？具身行业还处于发展初期，企业数量一定会比较多。刚才有嘉宾提到具身行业有几百上千家企业，从比较近的时间来比较，十年前中国智能电动汽车行业有多少家企业？如果再往前看，美国在90年代初期，汽车行业蓬勃发展的时候，也有上千家的整车创业企业。

从行业发展角度看，有些企业今年或者明年会完成资本化，或在某些商业场景落地，那投资人就会有更高的期待。但也一定会有落地不如预期的情况发生，就像大家对AI的预期一样，发展越快，期待越高，总有一天预期会落空，市场环境会波动，但不妨碍行业依然在快速地发展，所以我觉得这个窗口期永远在，核心是企业是否在真实地解决问题，创造价值。

至于企业的估值，一方面，行业规模非常大，会诞生出上千亿、上万亿的公司；另一方面，参考电动汽车行业，我们在2020年左右提出过类似概念，就是一切皆可电动化，电动化带动了储能行业的发展。今天的具身行业到一定阶段也会为 “一切皆可具身化”奠定基础，具身能力会模组化、通用化，赋能各类智能硬件，行业最终会形成“通用底座+垂直应用”的生态。

钟志伟：其实做投资跟喝啤酒类似，啤酒没有泡沫是不好喝的，所以要有一定的泡沫，但是全是泡沫也不好喝。总结下吕总的观点，现在AI具身还没有到泡沫过剩的时候，正处于良性发展的阶段，赛道依旧大有可为，对行业长期发展也比较有信心。

最后一个问题，请大家用两三句话简单分享：在你们眼中具身智能未来是什么样子的？

杜朋：这个话题很大。首先，既然大家都关注到了行业的“热”，就意味着外界有着极高的期待。但“热”绝不等于不理性。在座的各位都清晰地认识到，我们当下的每一步探索，都是在切实推动行业的进步与发展。这不仅仅是为了给自己或投资人讲一个好故事，更是我们对整个行业发展做出的实质性贡献。我们希望各方都能在自己的赛道上不断深耕，最终形成一个协同发展的生态链。只有这种全链条的共同发展，才是整合并推动整个行业向前迈进的最坚实基础。

季超：未来几年的发展，长期一定要非常乐观，因为长期这个事情必然会发生；但短期会比较考验企业的商业模式、应对风险的能力。慢慢进入理性阶段，过程中会有一些起起伏伏，但是从第一性原理来说，我认为这是人类所掌控的最后一次工业革命了。

吕元兴：具身智能的发展跟智能电动汽车行业极其类似。保守判断，三到五年可能会出现万级甚至十万级的量在工业或者商业场景落地，具身机器人能在工业、商用等限定场景里吃透局部物理规则，做到灵活自主作业，有点类似于自动驾驶的L2+，无限逼近L3，但仍处于人机协作的状态。五到十年，具身机器人有望掌握通用物理常识、实现类人认知，落地更多真实场景，类似限定场景的L4，完全代替人类从事一些重复和复杂的生产活动，逐渐进入家庭；而真正达到人类级别的全域理解与自主思考，更是十年以上的长期目标。

长远来看，具身机器人会和人类形成互补协作，成为生产、生活中不可或缺的一部分。

秦深涛：具身智能和AGI不太一样。不少垂直领域都有专属数据优势，后续会涌现出大量Physical Agent相关公司。大家依托通用基座模型，结合行业数据把场景做到顶尖。前五年，行业增量主要来自碳基转向硅基，核心就是提升柔性作业效率，优质的存量数据也是这个阶段最直观的优势。

很多人只看到这一步，却忽略了五到十年后的下一阶段。当机器人能力被打磨到极致，接下来就要面对人机共处的问题。之后会迎来“增强人类”的发展方向，借助神经接口这类技术，《环太平洋》《阿凡达》里的场景都有望成为现实。只有当人类的能力和硅基智能旗鼓相当，人机才能真正和谐共存，也不用再担忧人类的生存问题。

孙韶言：直接跳过十年，我不知道大家有没有玩过一个互动影游，叫《底特律：变身为人》，它讲述的场景是说，未来会有这样的人力资源服务平台，这个人是打引号的“人”，如果你需要人就从平台里面拿过来做任何需要的事情，无论是陪伴类的，干活类的，未来会呈现人机共处的状态。

当然那个故事讲的是机器人觉醒的故事，机器人会不会觉醒这是另外一方面了，但是关于那一天那个图景的描述，游戏中呈现的是非常清晰的。

张鹏：我希望我退休的时候能有一个机器人陪伴和养老，这是今后十几年间可以达到的。这意味着每一个人生活里都会出现机器人或者相关的设备，帮我们在物理世界解决问题，所以接下来会变成一个亿、十亿、百亿的量级市场，存在于整个社会方方面面，这是我们对具身行业的憧憬。

第二，虽然那个目标一定会实现，但当下还有很多工作要做，这是非常难的事情。因为这是人类历史上非常重要的工业革命，要解决从模型硬件、体系化、法律法规等各种问题，甚至要痛定思痛才可能完成。当下是艰巨的，但梦想一定能实现。

钟志伟：感谢各位嘉宾，今天探讨了关于行业的趋势、技术突破、商业化落地等等一系列问题，整体来看，大家对行业非常认可，目前这个行业还处于价值成长的初期阶段，还有巨大的想象空间。

当然也依然面临着技术攻坚、商业化落地和生态搭建的问题，希望借助这个活动，跟各位同仁一起深耕技术、做实交付、共建生态！再次感谢各位嘉宾的真知灼见，也希望这次的SuperLink能成为大家合作的起点，本次圆桌论坛到此结束，感谢各位。

资讯

7×24快讯

数据

会议

“今年具身智能遍地是钱”

茉莉Insights

相关作者

茉莉Insights

相关资讯

2026年上半年，460亿砸向具身智能

光象科技发布工业级自进化具身智能机器人Phi-Bot X1，打造工业具身智能落地新标杆

清华系具身智能世界模型公司「千诀科技」完成数亿元A轮融资

相关上市企业

相关企业

相关机构

机器人数据总览

最新资讯

投资界AI周报| 就等宇树打新了

投资界募资月报 | 北方最大一波VC募资

2026组织结构设计咨询公司头部企业核心实力盘点

热门TOP5热门机构 | VC情报局

相关作者

茉莉Insights

相关资讯

2026年上半年，460亿砸向具身智能

光象科技发布工业级自进化具身智能机器人Phi-Bot X1，打造工业具身智能落地新标杆

清华系具身智能世界模型公司「千诀科技」完成数亿元A轮融资

投资界AI周报| 就等宇树打新了

投资界募资月报 | 北方最大一波VC募资

2026组织结构设计咨询公司 头部企业核心实力盘点

热门TOP5热门机构 | VC情报局

2026组织结构设计咨询公司头部企业核心实力盘点