96: 和楼天城聊 Robotaxi：学习人类优秀司机，让我绝望晚点聊 LateTalk podcast

12d ago 1:27:58

Del

Innhold levert av 晚点 LatePost. Alt podcastinnhold, inkludert episoder, grafikk og podcastbeskrivelser, lastes opp og leveres direkte av 晚点 LatePost eller deres podcastplattformpartner. Hvis du tror at noen bruker det opphavsrettsbeskyttede verket ditt uten din tillatelse, kan du følge prosessen skissert her https://no.player.fm/legal.

「没进展的 5 年，也是内部技术变革的 5 年。」

两年多前，我们在 Robotaxi（无人出租车）的信心冰点报道过小马智行。那时的标题是：“市场不相信自动驾驶了，但他们还信”。

转眼到 2024 年：百度萝卜快跑 4 月在武汉引起热潮，Waymo 无人车队 8 月在旧金山的日均总单量超过了当地出租车（未计算网约车）；年底，又有文远知行、小马智行两家中国头部 Robotaxi 公司先后登录美股。

在特斯拉和 Waymo 的路线对比中，强弱之势也正微妙变化。10 月，马斯克的 Robotaxi 发布会后，Uber 股价大涨 10%；而 1 个月后，当 Waymo 传出进入迈阿密，Uber 股价则跳水 10%。

谁更有希望代表 L4 真的改变人类司机出行网络？华尔街在用钱表态。

这个时刻，我们再次访谈了刚刚完成 IPO 的小马智行 CTO 楼天城。

他完整描述了小马过去 5 年 L4 技术变革：从 Learning by Watching 到 Learning by Practicing。

前者是学习人类驾驶行为的模仿学习，是如今 L2+ 普遍选择的路；后者的关键则是构造一个训练车端模型的虚拟环境，让系统可以自己进化，楼天城称之为“世界模型”。

楼天城分享了与之相关的多个技术洞察：
·世界模型本质不是一个模型，世界模型是车端模型的 factory（工厂），自动驾驶技术的真正差别在于 factory 的精度，而非车载模型的能力。
·Learning by Watching 最多是像人，但像人永远无法做到 L4。
·越是优秀的人类司机，学起来越是反向优化。
·MPI 为 1000 公里的产品不存在，因为它反人性。

过去 5 年，外界看不到 L4 公司的明显进展：MPCI（接管里程）仍在提升，但只要无人化车辆没有大量上路，人们就没有直观感受，技术指标只是冰冷的数字。

但在楼天城的叙述里，外界见不到进展的 5 年，也正是关术变革发生的关键时期。

这些变化，使 Robotaxi 今年得以启动百台至千台级别的规模化运营，也给行业带来了高开低走，又逐渐反弹的波折命运。这不仅考验从业者的理性技术判断，更考验感性的决心，和说服团队一起相信的能力。

“我一直说，大部分人不能坚持不是因为太苦，而是因为受到了诱惑。”楼天城说，过去 8 年，他没有遇到过能和自动驾驶相提并论的诱惑，大模型也不算。

时间线跳转：
·5 年前：瓶颈 →绝望→寻找新路
02:53 2019 年后，L4 的进展难再被感知，规模化无人运营带来了市场水温变化。
11:13 这 5 年：从 Learning by Watching 到 Learning by Practicing
12:30 前者是模仿学习，没法学习驾驶员怎么想
14:27 世界上不存在一个 MPI 为 1000 公里的 L2 产品，因为反人性
16:13 模仿学习的另一个问题是人的双标，AI 司机所以像人依然不满足需求。
19:07 学习优秀司机也不行，甚至是反优化
19:45 这本质是因为模仿学习是开环训练，“我绝望了，才发现闭环是出路”

·搭建“世界模型”
22:03 Learning by Practicing 的闭环训练，是强化学习思路
23:46 学了棋谱再强化（AlphaGo），甚至不如直接从 0 开始强化（AlphaZero）
24:28 感性上的挑战：之前的路线做了 3 年还不错，换路线后前两年追得痛苦
26:19 5 年前开始转向以生成数据为重，这也是世界模型的任务之一
30:36 在虚拟环境里学习，本质是“向未来的自己学习”
32:21 世界模型是车端模型的工厂，自动驾驶进化的关键是工厂的精度，而不是车端模型本身
34:43 Learning by Watching，数据和算力是关键；Learning by Practicing，世界模型的精度是关键

·认为 L2 会覆盖 L4，是还没有越过分界点
35:03 没有谁做了错误选择，L2+和 L4的优化方向不同
36:18 L2 使用 Learning by Watching 没问题，也符合 L2+的规模效应特性
38:51 L2 不能覆盖 L4，L4 也不能取代 L2，真正越过分界点后会发现这是两件事
42:20 小马世界模型的构成：1.数据生成器 2.驾驶评估体系 3.高真实性的仿真 4.数据挖掘引擎
45:39 魔鬼在细节，世界模型的细粒度指标是核心竞争力
53:04 世界模型的终极状态：车不再因错误发生事故
54:48 千台 Robotaxi 开始有毛利，净利和扩张则是策略上的 trade off
56:15 不会因为它是特斯拉，Learning by Watching 就能 work
01:03:11 车辆运营维护与合作伙伴一起做；远程遥控人员的比例未来可到 1 比 30

·大部分是因为结果的正确，倒推方法的正确
01:10:20 大部分人不能坚持，不是因为苦，而是因为受到了其它诱惑
01:11:08 大模型现在很 fancy，一旦走到应用阶段，会经历自动驾驶经历的所有事
01:11:35 MiniMax 的产品是 L4，CoPilot 是 L2
01:14:09 度过行业起伏：外界看不到进展时，内部也要有合理且可感的里程碑
01:17:30 越来越相信，世界是模拟的
01:19:40 大部分人是因为结果正确，倒推成功者方法正确，但正因如此，不该盲目套用别人的方法
01:24:00 过早追求商业化，和一定要追求最有价值的商业化，都是极端。“创业前我没想过二者的平衡，创业中我肯定偏执过。”
01:25:57 下一步的关键是合理成本下，扩大车队规模

相关链接：
《市场不相信自动驾驶了，但他们还信》

剪辑：甜食

登场人物：
楼天城，小马智行联合创始人兼 CTO。
程曼祺，《晚点 LatePost》科技报道负责人。

98 episoder

Podcaster verdt å lytte til

晚点聊 LateTalk « »
96: 和楼天城聊 Robotaxi：学习人类优秀司机，让我绝望