过去数年间,智能驾驶领域的竞争焦点经历了多次显著转变。
起初,竞争围绕硬件展开,包括激光雷达的配置、摄像头的数量以及算力(TOPS)的水平。随后,随着大模型技术的兴起,竞争转向了端到端、VLA(视觉-语言-行为)以及World Model(世界模型)等技术路线。
如今,越来越多的企业意识到,仅拥有更庞大的模型已不足以形成代际优势。真正决定技术上限的关键,在于模型、数据、算力与芯片之间能否构建一个持续优化的闭环系统。
这正是为何愈发多的汽车制造商选择自主研发。
特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo、自研芯片的全链条。在国内,小鹏、蔚来以及理想等品牌也在不断向更底层技术进行延伸。
在今年推出的L8和L9车型上,理想已采用了自主研发的马赫M100芯片。这款采用数据流架构的芯片被理想视为AI领域的重要技术方向。基于马赫M100,理想也运行了其自研的马赫VLA模型。
然而,对于整个行业而言,更值得探讨的问题并非“是否进行了自主研发”,而是这些投入究竟能解决哪些具体问题。
带着这一疑问,我们与理想汽车自动驾驶负责人詹锟、芯片负责人谢炎进行了深入交流。他们阐述了理想对下一代自动驾驶技术路线的判断,并解释了自研芯片、数据体系及AI基础设施背后的设计理念。以下为部分访谈要点,经编辑整理:
问:为达到特斯拉FSD V14在第四季度(的水平),理想汽车还需要在哪些方面努力?
**詹锟:**我认为追赶FSD主要体现在两个层面。
首先是基础体验,具体包括安全感、效率和舒适度是否能达到FSD的同等水平。FSD在安全感、效率和舒适度方面表现出色,这是其核心优势。即便在不挑战极端路况的情况下,也能达到这种基本水平。
其次是特定能力,这方面追赶难度较大。例如,特斯拉能够识别并礼让特殊车辆,其在极窄通行场景下的感知精度极高,并且能理解交警的指挥,这些能力都非常强大。
在能力层面,存在架构升级的机会。为何某些能力只有特斯拉具备?这可能与过去的范式限制有关,也可能源于架构或数据方面的因素。我们在这些方面进行了大量探索。
问:我理解马赫VLA是一个技术体系而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,当前智能驾驶模型中是否还包含“L”(Language语言)部分?
**詹锟:**当前自动驾驶架构的一个共同趋势是将VLA(视觉-语言-行为模型)与World Model(世界模型)进行整合。
从长远来看,所有技术路线都将朝着这个方向发展。无论采用VLA还是World Model,其中的提示(Prompt)都需要用到语言。因此,语言部分必然存在,关键在于如何运用它。
在机器智能领域,我认为基于视觉(Vision Based)的 approach 更加合理,它更适合对空间、三维空间以及环境的理解和感知。语言固然有用,对于理解环境、交通规则、指令以及进行复杂的决策思考都具有价值。
长远来看,基于视觉和语言的原生基础模型,可能将是未来的发展趋势。
**谢炎:**如果目标是实现L3、L4级自动驾驶,并解决更泛化的问题,模型就需要具备类似人类的思考能力。届时,语言的重要性将日益凸显,这也是未来需要巨大算力的原因之一。
如果模型仅具备视觉和动作(Vision and Action)能力,即便拥有海量数据,在遇到分布之外的场景时也会束手无策。就像动物即使学会了所有常见情况,面对从未见过的情形也可能不知所措,无法做出正确的选择。
我们认为,越接近L3、L4级别,需要解决的问题就越接近那90%、95%、98%之外的“未知”场景,这些场景要求模型具备人类般的思考能力。而实现类似人类的推理和思考能力,其来源是语言模型。例如,理解交警的手势含义,并判断其指令,这并非仅仅通过收集或生成数据就能解决。
问:随着理想汽车车队规模的扩大,从内部来看,数据的边际效应是否出现了衰减?理想汽车是如何定义价值数据的?
**詹锟:**首先,数据的量必须足够庞大,核心目标是收集更多的长尾场景(Corner Case)。目前,业界已开发出多种方法,通过车辆端部署的神经网络触发器(neural trigger),能够判断场景的难易程度,并将关键数据回传。这也是特斯拉当前优势的重要原因之一。
其次,数据的质量至关重要,尤其是行为数据的质量。当前,行业普遍趋向于端到端模式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),都离不开对行为(Action)的精确把握。因此,行为数据的干净度、一致性变得尤为重要。
至于数据规模扩大后边际效应是否衰减,首先,只要模型能力不断提升,只要我们追求极致的100分,数据带来的收益曲线必然是“对数曲线”,呈现逐渐衰减的趋势,而非线性增长。任何一家AI公司都面临这样的情况。尽管后期数据收敛的速度有所放缓,但我们依然希望通过扩大规模来加速这一进程。
问:马赫M100能够运行在不同的AI场景下。五年后或更长远的未来,理想汽车车内的算力中心是否有可能全部采用自主研发的马赫芯片?
**谢炎:**业内存在“舱驾一体”的说法,但我们认为,舱驾一体的核心在于AI算力部分,其他部分的融合并非关键。因为座舱系统与AI智能驾驶系统可以实现完全独立,但AI算力可以集中处理,从而大幅提升效率。
我们规划的最终形态是,车内设立一个集中的AI计算中心,所有AI任务均在此进行计算。这类似于在笔记本上运行某些程序时,实际计算是在云端服务器上完成的。车内也类似,将设立一个“Token Server”。
这个“Token Server”的优势在于:第一,极高的效率。第二,能够实现不同任务间的隔离,互不干扰。例如,智能驾驶任务的确定性——包括内存和带宽,能够得到保证,不被其他任务影响。这是软硬件协同设计才能实现的结果。
问:是否因为M100采用了数据流架构的AI推理芯片,相较于其他厂商的自动驾驶芯片,其对带宽的要求较低,但对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实会相对较低,但这并非设计SRAM容量(非显存)的直接原因。当前HBM(高带宽内存)备受关注,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管资源来实现,最终的设计选择是基于成本、综合性能等多方面因素权衡的结果。
不同架构的设计,仅凭一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重各有优势,但胜负并非由单一指标决定,最终比拼的是整体的竞技水平。
问:为何当前大算力芯片方案,如英伟达、小鹏、理想自研的芯片,均未实现芯片级的舱驾融合,而高通却在低算力芯片上进行了此类尝试?
**谢炎:**本质上,座舱和驾驶是两个独立的系统。特别是对于向L3、L4级别发展的智能驾驶,其系统需要更高的确定性,包括专属的内存和计算资源,此时融合的意义就大大降低了。因为资源无法实现实时切换,而实时切换会影响确定性。如果朝着越来越专用的方向发展,融合的价值就不大了——即便将两个芯片集成在一起,资源仍需独立分配,这并不能降低成本,甚至可能影响效率。
目前市面上的舱驾融合系统,其内部仍然是分开的。无法实现“一会儿运行这个,一会儿运行那个”。如果无法实现动态切换,将两个芯片集成在一块,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但节省幅度有限。
我的观点是,随着智能驾驶向更高端发展,舱驾融合的意义可能并不大。如果能将这些芯片设计得更靠近,在同一块电路板上实现高度集成化的小体积方案,这是可行的,不一定非要集成到一块芯片中,也可以是多块芯片协同工作。
问:自研芯片需要哪些前提条件,例如销量、营收、研发投入?鉴于当前自动驾驶迭代速度极快,芯片要实现持续迭代,需要具备哪些条件?
**谢炎:**芯片的初期投入相当可观,可能每年需要数亿元。
第一个条件是达到一定的营收规模。对于车企而言,年营收超过1000亿元,研发投入至少达到10%,即每年拥有数十亿至上百亿元的投入,才足以支撑芯片的研发。第二个条件是,通过研发芯片解决的问题,能够显著提升产品的能力。
许多人认为芯片需要庞大的出货量才划算。然而,芯片的成本与其面积密切相关。一辆车上的智能驾驶芯片,例如Livis需要两颗马赫M100,总面积约800平方毫米。而一款高端手机芯片的面积约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8部高端手机。
如此计算,几十万辆车所需的晶圆面积非常庞大,足以摊薄成本。因此,成本不能仅通过芯片数量来衡量。
问:动态数据流编译器究竟难在哪里?攻克这一技术花费了多长时间?
**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始了编译器的工作,并在流片前完成了许多模型的运行验证。
数据流是一种完全不同的架构,它所要解决的问题与超级计算机或大规模计算机集群面临的问题非常相似——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信与协作,无法依赖一个中央管理员来统一调度。传统的冯·诺依曼架构的调度方式在这种规模下已不可行,这是一个超大规模的并行调度难题。

用户评论