过去数年间,智能驾驶行业竞争的焦点经历了显著变化。
初期,比拼的重点在于硬件配置,例如是否搭载激光雷达、配备多少个摄像头以及算力能达到多少 TOPS。随后,随着大模型技术的兴起,竞争转向了端到端、VLA(视觉-语言-行为)、World Model(世界模型)等技术路线。
如今,越来越多的企业意识到,仅仅拥有规模更大的模型已不足以建立代际优势,真正决定技术上限的是模型、数据、算力和芯片能否构成一个持续优化的闭环。
这也是为何越来越多的汽车制造商选择自主研发。
特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo、自研芯片的全链条。在中国,小鹏、蔚来以及理想等品牌也在不断向更底层技术延伸。
在今年推出的 L8 和 L9 车型上,理想汽车已采用了自研的马赫M100芯片。这款采用数据流架构的芯片被理想视为人工智能领域的一个重要技术方向。同时,理想也在马赫M100芯片上运行了自研的马赫 VLA 模型。
然而,对于整个行业而言,更值得关注的问题并非“是否进行自主研发”,而是这些投入究竟能解决哪些具体问题。
带着这一疑问,我们采访了理想汽车自动驾驶负责人詹锟和芯片负责人谢炎。他们就理想汽车对下一代自动驾驶技术路线的判断,以及自研芯片、数据体系和AI基础设施背后的设计理念进行了阐述。以下为访谈的重点内容,经过编辑整理:
问:为实现第四季度达到特斯拉FSD V14的性能水平,理想汽车还需要在哪些方面努力?
**詹锟:**我认为追赶FSD可以从两个层面来看。
首先是基础体验,具体包括三个维度:安全感、效率和舒适度是否能达到FSD的同等水平。FSD在安全感方面表现出色,效率很高,舒适度也很不错,这些是其核心功底。即使不处理极端复杂的路况,也能达到这样的基本功水平。
其次是能力层面,这方面追赶的难度也很大。例如,特斯拉能够识别并礼让特殊车辆,对极窄路况下的感知精度极高,并且能识别交警的手势指挥,这些能力非常强大。
在能力方面,存在架构升级的机会。为何其他厂商没有而特斯拉拥有这些能力?这可能与过往的范式限制有关,也可能与架构和数据有关。我们在这些方面进行了大量探索。
问:我理解马赫VLA是一套技术体系而非单一模型。例如,Mind-Edge是用于智能座舱的端侧模型。那么,目前智能驾驶模型中是否还包含“L”(Language语言)的部分?
**詹锟:**当前自动驾驶的架构普遍存在一个趋势,即将VLA(视觉-语言-行为模型)与World Model(世界模型)整合。
从长远来看,所有技术路线都会朝着这个方向发展。无论是VLA还是World Model,其中的提示(Prompt)都需要用到语言。因此,语言部分是必然存在的,关键在于如何应用语言。
在机器智能领域,我认为基于视觉(Vision Based)的 approach 是更合理的,它在空间理解、三维空间感知和环境服务方面更为有效。语言无疑也有其价值,对于理解环境、交通规则、指令以及进行复杂的思考和决策都大有裨益。
从长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。
**谢炎:**如果目标是实现L3、L4级别自动驾驶,需要解决更泛化的问题,那么模型必须具备类似人类的思考能力。此时,语言的重要性将愈发凸显,这也是未来对算力需求巨大的原因之一。
如果模型仅具备视觉和动作(Vision and Action)能力,即使拥有海量数据,在遇到分布外(out-of-distribution)的情况时也会束手无策。就像动物即使学会了所有常见场景,面对从未见过的情况也会完全不知所措,无法做出正确的选择。
我们认为,随着向L3、L4级别迈进,所要解决的问题越来越接近90%、95%、98%之后的那些“未知”问题——即模型需要具备类似人类的思考能力。而获得类似人类的推理和思考能力,其来源正是语言模型。例如,交警正在打手势,你需要理解其意图是让你通行还是停止,这并非仅仅通过收集数据或生成数据就能解决的问题。
问:随着理想汽车车队规模的不断扩大,从公司内部来看,数据的边际效应是否出现了衰减?贵公司是如何定义“价值数据”的?
**詹锟:**首先,数据的规模必须足够庞大,其核心目的是收集更多的长尾场景(Corner Case)。目前,业界有多种方法,例如在车端部署优秀的神经网络触发器(neural trigger),以判断场景的难易程度,并将关键数据回传。这也是特斯拉在数据方面表现强劲的重要原因之一。
其次,数据的质量至关重要,尤其体现在行为质量上。当前,业界逐渐趋向于端到端的范式,无论是VLA(视觉-语言-行为)、World Model(世界模型)还是Vision-Action(视觉-动作)模型,都必须关注行为(Action)的质量。行为的干净程度和一致性非常关键。
至于数据规模扩大后的边际效应是否衰减,首先,只要模型能力不断提升,只要我们追求极致的100分,其收益曲线必然是“对数曲线”,即增长逐渐放缓,而非线性增长。这在任何AI公司都是如此。虽然越往后,数据收敛的速度确实会变慢,但我们仍希望通过规模效应来加速这一过程。
问:马赫M100芯片能够支持多种AI场景的运行。展望未来五年或更长的时间,理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片?
**谢炎:**尽管业界存在“舱驾一体”的说法,但我们认为,舱驾一体的核心在于AI算力部分,其他部分的整合并非最为关键。这是因为座舱系统与AI智能驾驶系统可以完全独立运行,但AI算力可以集中处理,从而显著提高效率。
我们的路线图最终目标是构建一个车内AI计算中心,所有AI任务都可以在该中心进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在笔记本本地进行,而是在Token Provider Server(Token供应服务器)上完成,车内的情况与之类似,将设立一个Token Server(Token服务器)。
该Token Server的优势在于:第一,效率极高。第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能得到保障,不被其他任务影响。这是软硬件协同设计才能实现的目标。
问:是否因为M100采用了数据流架构的AI推理芯片,其对带宽的需求低于其他厂商的自动驾驶芯片,而对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实会相对较低,但这并非直接导致SRAM容量(非显存)设计的原因。当前HBM(高带宽内存)非常流行,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管来实现,最终的设计是综合考量成本、整体性能等多方面因素后的选择。
针对不同的架构设计,仅仅依靠一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终比拼的是这项运动的综合表现。
问:为何目前大算力芯片方案,如英伟达、小鹏、理想自研的芯片,都没有实现芯片级别的舱驾融合,而高通却在低算力芯片上进行了尝试?这是为何?
**谢炎:**从本质上讲,座舱和驾驶是两个独立的系统。尤其对于迈向L3、L4级别的高端智能驾驶而言,它需要一个更高确定性的系统,拥有专属的内存和计算资源。在这种情况下,融合的意义就大大降低了,因为资源无法实时切换,而实时切换会影响确定性。如果朝着越来越专用的方向发展,融合的价值就不大了——即使将两个芯片整合在一起,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但节省幅度有限。
目前来看,舱驾融合系统仍然是分开的,无法实现任务的快速切换。如果将两个芯片集成到一块,晶体管数量可能不变,只是节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但节省幅度有限。
我的观点是,随着智能驾驶系统越来越高端化,舱驾融合的意义可能并不大。如果能将这些芯片设计得更紧密,例如在一块板上实现高度集成的方案,这是可行的,不一定需要做成一块芯片,也可以是多块芯片集成在同一块板上。
问:自研芯片需要具备哪些条件?例如销量、营收、研发投入。鉴于当前自动驾驶迭代速度极快,芯片需要持续迭代,又需要哪些条件?
**谢炎:**芯片的初期投入确实不菲,可能每年需要数亿元。
首先,需要达到一定的营收规模。对于车企而言,年营收超过1000亿元,研发投入至少占10%,即每年有数十亿到上百亿元的资金,足以支撑芯片的研发投入。其次,芯片的研发必须能够解决实际问题,从而提升产品的能力。
许多人认为芯片需要巨大的出货量才能降低成本。实际上,芯片的成本与其面积密切相关。一辆车上的智能驾驶芯片,例如LIVIS需要两颗马赫M100,总面积约为800平方毫米。而一款高端手机芯片的面积大约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8部高端手机芯片的总和。
如此计算,几十万辆车所需的晶圆面积非常可观,足以摊薄成本。因此,成本不能仅以芯片的颗数来衡量。
问:动态数据流编译器在技术上存在哪些难点?攻克它花费了多长时间?
**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始进行编译器的工作,并且在流片前,已经完成了许多模型的运行验证。
数据流是一种完全不同的架构,它需要解决的问题与超级计算机或大规模计算机集群所面临的问题非常相似——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信和协作是一个巨大的挑战,无法依靠单一的中央管理员来管理。传统的冯·诺依曼架构调度方式在这种规模下是不可行的,这是一个超大规模的并行调度问题。
用户反馈
例如:用户分享了他们对亿万28产品在实际生产中应用的心得体会,强调了其稳定性和效率。
回复例如:一位客户分享了亿万28提供的定制化解决方案如何帮助其优化生产流程,显著提升了产出。
回复发表您的见解