李想：抱负VLA司机大模型便是从动物进化到人类

来源：欧宝nba直播在线直播发布日期：2025-05-08 07:57:25

2025年5月7日，抱负轿车推出“抱负AI Talk第二季——抱负VLA司机大模型，从动物进化到人类”，抱负轿车董事长兼CEO李想共享了关于人工智能的最新考虑，VLA司机大模型的效果、操练方法和应战，以及关于创业和个人成长的见地。

现在，大多数人将AI作为信息东西运用，但信息东西常随同很多无效信息、无效成果和无效定论，仅具参考价值。

李想表明：“判别Agent（智能体）是否真实智能，重点是它是否成为生产东西。只有当人工智能变成生产东西，才是其真实迸发的时间。就像人类会雇佣司机，人工智能技术终究也会承当相似责任，成为真实的生产东西。”

代入到自动驾驭范畴来看，李想表明，现在的L2、L2+组合驾驭辅佐仍归于辅佐东西阶段。

而VLA（Vision-Language-Action Model，视觉言语举动模型）可以让AI真实成为司机，成为交通范畴的专业生产东西。对抱负轿车而言，未来的VLA便是一个像人类司机相同作业的司机大模型”。

VLA的完成不是一个骤变的进程，是进化的进程，阅历了三个阶段，对应抱负轿车辅佐驾驭的昨日、今天和明日。

第一阶段，抱负轿车自2021年起自研依靠规矩算法和高精地图的辅佐驾驭，相似“昆虫动物智能”。

第二阶段，抱负轿车自2023年起研讨，并于2024年正式推送的端到端+VLM（Vision Language Model，视觉言语模型）辅佐驾驭，挨近“哺乳动物智能”。

端到端模型在处理杂乱问题时存在限制，虽可凭借VLM视觉言语模型辅佐，但VLM运用开源模型，使其在交通范畴的才能有限。一起端到端模型也难以与人类交流。

为了处理这样一些问题并提高用户的智能体会，抱负轿车自2024年起展开VLA研讨，并在多项尖端学术会议上宣布论文，夯实了理论基础。

第三阶段，在端到端的基础上，VLA将敞开“人类智能”的阶段，它能经过3D和2D视觉的组合，完好地看到物理国际，而不像VLM仅能解析2D图画。

一起，VLA具有完好的脑体系，具有言语、CoT（Chain of Thought，思想链）推理才能，既能看，也能了解并真实履行举动，契合人类的运作方法。

VLA操练分为预操练、后操练和强化操练三个环节，相似于人类学习驾驭技术的进程。

预操练相当于人类学习物理国际和交通范畴的知识，经过很多高清2D和3D Vision（视觉）数据、交通相关的Language（言语）语料，以及与物理国际相关的VL（Vision-Language，视觉和言语）联合数据，操练出云端的VL基座模型，并经过蒸馏转化为在车端高效运转的端侧模型。

后操练相当于人类去驾校学习开车的进程。跟着Action（动作）数据的参加——即对周围环境和自车驾驭行为的编码，VL基座变为VLA司机大模型。

强化操练相似于人类在社会中实践开车操练，方针是让VLA司机大模型更安全、舒适，对齐人类价值观，乃至逾越人类驾驭水平。

VLA司机大模型以“司机Agent（智能体）”的产品形状出现，用户可经过自然言语与司机Agent交流，跟人类司机怎么说，就跟司机Agent怎么说。

简略通用的短指令由端侧的VLA直接处理，杂乱指令则先由云端的VL基座模型解析，再交由VLA处理。

李想着重：抱负人工智能走的是无人区，做VLA这件事，Deepseek、OpenAI、谷歌、Waymo都没有走过这条路，抱负曾经走的是轿车的无人区，以后走的是人工智能的无人区。

李想：抱负VLA司机大模型 便是从动物进化到人类