
专题:2024中国汽车软件大会开云kaiyun体育
11月7日-8日,2024中国汽车软件大会在上海嘉定召开。百度智能云自动驾驶决策行家徐征发扮演讲。
以下内容为现场发言实录:
尊敬的诸君指示、诸君客东谈主,亲爱的同仁们,全球下昼好!
相配舒坦能有这么一个契机和全球统共来分享百度智能云在汽车行业昔日一年来的一些探索和践诺,百度看成国内最早布局智能云和自动驾驶的企业,咱们一直积极地向行业输披缁具、工夫和做事,鼓舞汽车智能化的快速发展。在昔日一年中,在汽车智能化的大方朝上咱们可以看到接头最多的是大模子上车,第二个是端到端的自动驾驶,固然到咫尺为止,端到端在量产车辆上数目还相配少,然则咱们可以细主义说端到端也曾被以为是个行业共鸣的自动驾驶的工夫道路。在端到端研发,包括在分模块的算力、数据包括器用链都发生了一些相比大的变化。在昔日一年百度亦然在积极探索和斥地,围绕端到端自动驾驶的这么一个基础平台。
是以今天我思给全球分享的题目就叫作念《云智一体 助力自动驾驶工夫的智商升迁,开启自主可控的新范式》。底下咱们看一下,这个是从一个概括的角度来先容一下咱们百度智能云自动驾驶处治决策的一个全景框架。在底层的话其实是咱们的公有云、特有云、边际云,由它提供基础的这么一个云做事、传统的这种CPU云。然后在之上的话,因为针对自动驾驶这么一个AI算力需求,咱们有一个AI的大底座,这里进行AI策画、存储、相聚、加速,包括AI的容器。
然后在这个底座之上会有一个异构的策画平台,这个异构策画平台后头我会讲到它为什么相配清贫,况兼在可料思的畴昔应该是决定着在大模子这么一个AI算力上智商的高下。其实这个底下就像一个冰山通常,底下这一部分是埋在水下的,谈的相比少,其实这些是百度真实花了很大的力气来打造的一个平台。之上的话是全球战役相比多的,亦然评述相比多的,和诸君这种智驾的尤其研发工程师相比紧密的,像器用链包括多样的应用场景,这是一个伸开来看的一个系统架构。
今天我要分享的主如果两部分,第一个是AI的底座,这一部分是因为这部分和咱们昔日一年的趋势,也即是咱们端到端自动驾驶包括大模子上车紧密筹办的,况兼这一部分是在飞快发展,这一部分有相比高的一个门槛。第二部分是个自动驾驶器用链,这一部分器用链亦然因为和诸君同仁责任筹办相比紧密,是以今天我的分享主要围绕这两部分伸开。
率先,咱们从上至下。在器用链层面,百度在3年前就率先发布了这么一个叫作念自动驾驶云或者叫汽车云的1.0版块,那时这个1.0版块针对的是一个传统的智驾斥地的这么一个模子或者叫作念范式。也即是说,它是一个基于这么一个感知、规控分模块的方法,咱们来进行数据的相聚、数据的纳管,然后进行模子的锤真金不怕火、进行仿真、临了模子的上车,打造咱们叫作念数据闭环。这亦然前两年很热点的话题,不休加速这么一个数据飞轮。
这个平台的一个特色,这里有几个数据,一个是在这个平台上利用了通过AI进行自动驾驶的预标注,数据的预标注,可以达到92%的准确率,这部分可以或者裁减东谈主工标注资本50%。同期,复旧这么一个数百PB的数据的全人命周期的托管。然后复旧周级别的算法的迭代,这是那时的1.0版块。
到了2.0之后,也即是自动驾驶缓缓走向量产之后,然后碰到了大宗的在量产当中的长尾问题,针对这些问题咱们推出了2.0版块。2.0版块特色,它是基于提供更多的包括场景的障翳、数据的障翳,包括咱们百城的舆图数据的障翳,千级以上的数据挖掘的类型、千万公里仿真场景,包括千万级的场景库的构建,统共这些更多的是处治自动驾驶问题当中的这些量产长尾问题。
最近一年,连络着这个趋势,更多的元气心灵咱们花在这个端到端和车路协同,也即是咱们当今提到的3.0版块。3.0版块主要针对的一个是端到端,端到端其实它和大模子有好多的相似所在,咱们知谈大模子都有一个叫scaling laws,scaling laws内部有两个清贫的维度,一个是数据一个是算力。针对数据,咱们有端到端这么一个数据生成,来复旧端到端的仿真,来提供这种海量准确的数据。第二部分,针对这个算力其实咱们打造了百度的百舸,加上咱们我方斥地的昆仑芯国产GPU来复旧端到端锤真金不怕火算力的需求。
另外是路侧数据的买通,这部分我后头会提到,它相配清贫。因为咱们作念端到端、作念自动驾驶其实咱们对准的是L4,传统这种单车智能在L4上会有表面上的残障,这亦然为什么咱们一直在强调车路协同。后头我会伸开,先容一下这几个特色、这几个本性到底在说什么。
一个是端到端的这么一个仿真,其的确传统的仿真是话,它更多仿的是规控本领,然则到出现问题的时候,这些工程师更多是调相聚或者调数据,从这两方面进行优化。然则到端到端之后有很大变化,出现Corner Case的时候,可能咱们并不需要调相聚,相聚是保握不变的。把更多的优先级或者元气心灵放在这些数据的优化上,也即是说咱们需要更多精确的海量数据(维权),这些数据从那儿来?有两个部分,第一部分即是咱们也曾在路侧,千万公里路侧也曾有一个大宗的场景库,包括这些视频、点云等等大宗的数据,中枢的问题是何如把这些有用的数据挖掘出来,这里就有个大模子的智能搜索平台。
第二部分是长余数据合成,只是靠路侧相聚的话这个资本相配高的,跟着工夫的发展其实咱们发现当今可以自动生成一些场景、自动生成一些数据,况兼效果也还可以。这个时候咱们有一个叫作念数据生成的一个平台,同期还有一个仿真场景,也即是咱们基于这么一个端到端的仿真,它更多是基于这么一个真实场景的场景级别的效果考据,而不再是只是考据规控这个本领,这是复旧端到端的仿真。
第二个是复旧端到端的锤真金不怕火,锤真金不怕火来讲咫尺最大的一个瓶颈或者痛点就在算力,咫尺实质上是一个暴力的策画,然后在算力方面主要围绕着3个方面作念升迁,第一个叫作念异构芯片的多芯混训,后头我会提到,也即是说咱们把不同厂家、不同型号的这些芯片把它组在统共、构成一个集群,这个集群可以让它完成清除个任务,这么可以极地面利用历史钞票。
第二个是全链路模子的锤真金不怕火优化,这么是升迁利用率。好多东谈主买了大宗的GPU卡之后,其实这个集群的利用率是很低的,大宗的时刻包括算力都是处于悠闲状态,在这种情况下咱们通过软件的样式升迁集群的利用率,也即是变相的你可以买到更多的卡。
第三个,复旧一个超大集群的,也即是万卡集群的清静的锤真金不怕火,这一部分诟谇常清贫,因为量变产生质变,当一个万卡集群的时候是不可幸免地出现多样故障。若何让这个故障不影响锤真金不怕火的效果或者不影响锤真金不怕火的着力,是在端到端锤真金不怕火内部要处治的一个相配清贫的问题。
第三部分,车路云协同,其实咱们发现非论在高速照旧在城市内部其实有大宗谈路的一些数据,这些数据对自动驾驶相配有匡助。百度也一直在和监管部门包括一些谈路钞票的运营部门在相助,把这个车的数据和交通的数据能够买通,这么的话可以使自动驾驶能够愈加的安全、高效。
这个是咱们直不雅来看一下,这个器用在干什么,因为时刻的关系我就不放视频。第一个,左边部分看到的是智能搜索,传统的搜索全球照旧靠打标签的样式,结构化的一些标签,这个是费时贫寒的。还有一个更大的问题,跟着工夫的迭代有些标签它不成知足需求了,还要再从头打一遍。这种情况下资本诟谇常高的,然则咱们发现跟着昔日一年话语大模子、视觉大模子工夫的发展,然后咱们在探索是不是可以把这些工夫连络起来提高数据搜索的着力。在此基础上咱们打造了一个基于视频特征库和图片特征库,同期连络语义的信息,然后完成这种跨模态的搜索,这方面比如这里左侧叫以图搜图。比如我有一个很难刻画的场景,假定说即是一辆车,它长得很奇怪,这个车我不知谈何如刻画它,以前也莫得打过标签,这个时候最浅薄的一个样式即是我去丢几张图片,它长的什么样,然后去搜一下。如果效果不好的话再丢几个反例的图片,这么把以前可能需要花周级别或者月级别的这么一个数据挖掘的任务,结束到这种分钟级别或者秒级别,这个叫作念智能搜索。
第二个,难例的挖掘。这部分主如果以文搜图,也即是譬如说你可以通过语义和图片和这个视觉的连络,来定向挖掘多样难例数据。比如说这里,咱们这个罕见类型的环境感知,比如说盘曲路面碰到车辆。还有罕见的复杂的一些场景,比如在夜晚骑着电动车等红绿灯的东谈主,然后还包括这种空间关系的组合、精良化的搜索,比如在这里即是一个堆积货品的货车,相配庆幸的是语义大模子可以浮现什么是堆积货品,是以咱们可以奏凯搜索出来堆积货品的货车。它就可以把它精良地给挖出来,这些都为大模子或者端到端提供了这些准确的和海量的数据。
然则光靠现存的数据,也即是咱们传统的方法下的谈路相聚、数据挖掘,它不成知足端到端的条款,原因即是因为端到端模子锤真金不怕火它其实对数据的障翳度条款相配高。这种情况下,其实咱们就斟酌到在进行探索这种智能场景的数据生成,况兼效果诟谇常好。这里包括比如破除动态元素,这种场景也即是说咱们通过相聚之后,把这些动态元素消撤除以后得到一个更为通用的、更为基础的一个场景,在这个场景上咱们连络着第四条,也即是重叠假造元素就可以形成车载斗量的泛化的真实场景来供模子进行锤真金不怕火,包括不同的角度,比如说主车的视角,包括改造天气环境等等,这些都相比好浮现,因为时刻关系视频不逐一播放,这个看上去还诟谇常直不雅的。
同期,在一个端到端的仿真内部,另一个升迁即是咱们在仿真是时候除了这种对规控的仿真,除了对单车的仿真除外,再更多的是针对这个场景的一个合座效果的考据,或者说一方面来讲是针对单车来讲它不再是只考据规控本领,而是考据某个场景下的端到端的效果。
第二部分,从单车到统共宏不雅的角度,因为全球都知谈百度在作念Robotaxi,咱们作念萝卜快跑,萝卜快跑追求买卖化,在这种仿真内部它相配保养的少量是运营的着力,在运营的着力内部它除了单车的智能除外,咱们更多的要看比如咱们在北京投放一辆车、投放一个车队,和在武汉投放一个车队,它们的交通流是皆备不通常的,我何如样提高合座的车队的安全度、提高合座车队的运营着力,其实触及到的即是更宏不雅的或者咱们叫作念交通流的模子。在交通流内部咱们及时地相聚交通真实的景色。
第二个,可以来建模,也即是说在这个环境内部不同的交通参与者他们的一些行为方法,然后不休和真实情况来作念对比,从而提高自动驾驶的着力。咱们自动驾驶最终是对准L4的,L4最清贫的一个场景或者绝大多数的一个场景其实是分享出行,也即是Robotaxi,在分享出行内部不单是看到单车,咱们要看到统共车队的、统共城市的运营着力。
刚才一部分更多先容器用链,这部分跟业务紧密筹办。底下这一部分先容更多的是咱们叫作念百舸平台,也即是咱们的AI大底座,AI大底座更多处治的是算力的问题。就像刚才提到的,在算力问题中第一个来讲即是异构芯片的多芯锤真金不怕火,这部分处治的问题是,咱们知谈好多车厂包括这些自动驾驶公司其实都买了大宗的卡,然则这个卡是在不同期期买过来的,有英伟达的卡、有国内的卡,英伟达的卡有不同的型号。
现存的阵势基本上是清除类型的卡或者清除型号的卡构成一个小集群,这个集群内部完成一个单一的任务,比如完成一个推理任务、一个锤真金不怕火任务。然则跟着芯片的不休迭代之后,这种芯片的厂家和它的型号越来越复杂,若何让这些不同型号以致不同厂家的这些卡在一个集群内部初始,这是一个相配清贫的问题。这个问题难度其实相配大,全球知谈GPU卡的话,不同的供应商从他们的通信条约、架构、算子库都是不兼容的,百度作念了一项责任,基础型的责任,即是咱们把统共这些卡把它兼容起来。第一步结束的,也即是在单一集群内部多样不同厂家的卡、不同型号的卡可以混布在统共作念锤真金不怕火。
第二部分,这件责任天然也可以去作念,前提是这么作念下去不会酿成性能的亏损。性能亏损很好浮现,比如性能高的这些卡在完成任务的时候它跑的快一些,它跑完之后它就等,等着那些性能差的这些卡再提交任务。这个时候这些性能差的卡就形成了一个瓶颈,咱们若何来破除这些瓶颈,这是一个相配基础性的责任。通过昔日一年的时刻,咱们可以作念到在万卡集群算力亏损少于3%,也即是说基本上你可以看不到各别。
当咱们完成了集群的混布之后,还有一个清贫的课题即是算力的利用率是很低的,咱们若何来提高算力的利用率,算力利用率很低后头根底的原因即是,在GPU内部它的策画这一部分的性能诟谇常高的,然则它的存储和相聚这部分性能相对来讲弱一些。是以通常酿成策画任务完成之后在等数据,这么恭候的时刻占了大宗的时刻,这个时候酿成性能的瓶颈。
是以说,针对利用率的升迁,其实咱们作念了多重的优化责任,包括显存优化、算子优化、存储优化和相聚优化,这些我就不逐一伸开,因为这些相配工程化,包括这些并行优化。然则全球可以思象的即是,它和交通流的方法相配相似的。也即是说我有多个任务的话,当它莫得一个很好的优化料理的话,比如在上海这个城市,当全球都去出行的时候,我为了保证不拥挤可能需要把车谈修到8车谈、10车谈,这是通过硬件来升迁。然则通过这种软件优化之后,然后我通过合理的息争,通过不同的战略包括像绿波等等,全球可以并行的来出行。这么咱们可能不再需要8个车谈、10个车谈,可能只需要2个车谈、4个车谈,通过这种精良化的猖狂就可以使着力得到提高,使出行不会产生拥挤,其实优化部分中枢处治的即是这么一个责任。然后执行效果来讲,全球可以看到在锤真金不怕火方面,关于一个70B的模子,这亦然咫尺主流的一个锤真金不怕火模子的规模。然后1.4T的语料在传统的,即是在莫得优化前通过A800的这么一个卡或者需要21天的锤真金不怕火时长,然后通过这个优化之后。21天锤真金不怕火时长在传统的莫得优化之前或者需要2000卡的A800,然后通过优化之后或者可以简陋23%的算力。
然后在推理这个应用内部,这是一个真实的案例,也即是日活500万的AI应用,在传统莫得优化之前或者需要178张的A800的卡,通过优化之后或者可以简陋55%的算力,这个简陋的算力即是真金白银的降本增效。
第三部分处治的是清静性的问题,清静性的问题中枢来讲,咱们其实看到底下有个公式,在统共万卡集群这么算下来它总归有些故障点,有一些硬件它失效,失效之后表面上就会酿成任务的无效锤真金不怕火时刻。这部分算了一半之后卡坏了,那我就要回到上一个保存的点从头再来算,这个即是从上一个咱们作念的阿谁保存点到失效的这个部分,其实即是个无效的锤真金不怕火时刻。咱们若何压缩无效锤真金不怕火时刻即是中枢问题,压缩无效锤真金不怕火时刻笔据这个公式的话主如果3个方面。
一个是裁减故障的中断次数,天然硬件的故障咱们是没认识裁减的,但咱们可以通过平台、多维的故障感知之后,通过平台级的容错来使得在平台锤真金不怕火的任务层面让这个任务不中断。第二个,即是中断之后它有两个时刻,即是是一个故障的复原时长加上故障的重算时长,这部分也就浮现为就超越于这个硬件坏了之后我这个还没算完的这些任务就白算了,我若何减少白算的这些任务,这一部分即是通过多维的容错处理、包括这个节点的维修、秒级的冷挪动复原、自动故障拒绝、自动任务转换等等来减少这个时长。
第三部分是常态写Ckpt,因为有故障是以每隔一段时刻咱们就要把责任保存一下,就像一个快照通常,咱们把现存的锤真金不怕火保存一个快照,这个叫Ckpt。但这个写Ckpt是一个相配长的时刻。在这一部分咱们就用了一些工夫包括秒级的Ckpt写入,异步的加速、包括散布式加速等等来裁减Ckpt的总时长。
临了可以使咱们万卡集群的有用锤真金不怕火时长达到98.8%,带宽的有用性达到95%。这是一个相配了不得的设立,这亦然全球知谈背后除了工夫本人的跳跃除外,中枢的照旧要降本,尤其是在这种大模子领域。
临了一部分咱们要说的是这么一个车路云的协同。咱们看到左侧有多样种种的Corner Case,其实有些Corner Case即是从纯正的这种单车智能的话,非论你有何等跳跃的激光雷达等传感器,它有些荫庇或者有些天气情况即是失效,表面上它即是在ODD可初始除外的。也即是说,关于这一些部分的话其实单车智能并不是唯独的一个路子,而关于这一部分Corner Case的话,其实关于谈路的钞票料理部门来讲他们有相配精确的数据、相配及时的数据,这些数据百度就一直在,和监管部门相助,但愿这些数据能够来和车端的数据智商来交融,从而形成一个天主视角的路面情况。这种情况下就可以极地面提高车辆的安全性,因为有些Corner Case,说真话靠单车智能是无法去处治的,也即是说处治的一个旅途可能即是车路协同。其实中国在车路协同方面是有一定上风的,包括咱们的这种5G的这些相聚基础步伐成立,包括有一个强力的大政府,即是咱们可以建立这种定约、这种尺度。在这一方面咱们在客岁也和广交加团作念了相配多的一些探索,获取了一些相比好的效果,包括这两天全球看了上海汽车城在这方面亦然走在前哨。
咱们深信,车路协同在L4自动驾驶场景内部会越来越清贫。这么咱们也相配但愿和诸君行业同仁一块死力,共同打造这么一个有中国特色的、基于车路云一体的,天下跳跃的自动驾驶处治决策。
我的分享就到这里,谢谢全球!
(注:本文笔据现场速记整理,未经演讲嘉宾审阅)
海量资讯、精确解读,尽在新浪财经APP
背负裁剪:梁斌 SF055开云kaiyun体育
