这就是自动驾驶的大结局？

技术 发布于：2021-08-20 12:40:00

北京时间8月20日，特斯拉召开一次别开生面的技术发布会，AI DAY，与以往的电池日、新车日不同，这次发布会的重点放在目前电动车上最前沿的技术——自动驾驶、神经网络、超级计算机等。

在AI DAY上，特斯拉着重介绍了在人工智能领域的软件和硬件进展，尤其在神经网络上的训练系统，其中最大的看点就是『Dojo超级计算机』。

特斯拉本次推出的人工智能训练机Dojo D1芯片，是特斯拉全新自研的超级计算机芯片，该电脑将用于车辆自动驾驶数据的运算和分析，能够自动地学习和识别标记道路上的行人、动物、坑洼地等数据，将海量的数据汇聚于Dojo，然后通过自动化深度神经网络训练，以此不断加强算法进化，最终实现以纯视觉为基础的完全自动驾驶（FSD），即特斯拉自动驾驶的最终形态。

据悉，目前单个Dojo D1芯片的演算力已经达到全球第五。纵观全世界的超级计算机的排名，前五中除了第五名的Selene是英伟达的之外，前四的都是国家所有，包括第一的日本『富岳』、第二的美国Summit、第三的美国Sier，以及第四的中国『神威太湖』。

其中，目前排名第一的超级计算机是日本的『富岳』，在机器学习应用上的算力超频之后是2.15EFLOPS，默频是1.95EFLOPS。

值得一提的是，上述前四的超级计算机都是举国之力研发的结果，而特斯拉只是一家新能源车制造公司，能取得这样的成就，特斯拉可谓又一次突破了自己的极限。

什么是『Dojo超级计算机』？

Dojo一词来源于日语，意思是“道场”，翻译成中文应该叫做“训练馆”。

特斯拉特地取此名，可以说目的就是专门训练特斯拉汽车的。来自全球超100万辆特斯拉车辆采集的真实数据将汇聚于此，然后通过Dojo进行深度神经网络训练，以此帮助特斯拉的Autopilot不断进化，最终实现以纯视觉为基础的完全自动驾驶（FSD）。

换一个更好理解的方式，就像是AlphaGo专攻围棋领域一样，经过人工参与调整和标注的训练，只需要几年时间就击败了全球围棋高手，而Dojo可以被看做是为专攻自动驾驶领域的AlphaGo，通过深度学习和分析海量的特斯拉车队数据，Dojo可以自动模拟开车、自动寻找问题最优解，从而完成自我进化。

重点是“无监督训练”和“自我进化”，你可以理解为：Dojo最初不会驾驶车辆，但通过极快的速度学习人类开车（影子模式）和模拟开车（特斯拉为其构建了一个虚拟世界供训练）后，就可以慢慢地在真实世界开车了。

接着随经验的积累，算法的精进，驾驶技术还会越来越娴熟，最终超过人类的驾驶水平。就像AlphaGo最终击败李世石和柯洁一样。

『Dojo超级计算机』有什么能力？

今年6月，特斯拉AI高级总监Andrej Karpathy宣称由特斯拉团队研发的世界第五代超级电脑Dojo即将问世。今天的AI Day发布会则透露了更多的细节。

Dojo D1计算芯片采用了5760个算力为321TFLOPS的英伟达A100显卡，组成了720个节点构建的超级计算机，总算力达到了1.8EFLOPS（EFLOPS：每秒千万亿次浮点运算），有10PB的存储空间，读写速度为1.6TBps。

注意，这还是单个Dojo D1的算力，未来特斯拉还会将多个Dojo D1组成『Dojo超级计算机群』，届时，该超级计算机群的总算力将超过目前世界第一的超级计算机『日本富岳』。

随着Dojo D1推出，毫不夸张的说，它就是目前世界上最强大的人工学习机器，它使用7nm芯片驱动、将50万个训练单元搭建在一起。

在马斯克的规划中，『Dojo超级计算机群』目标算力要达到每秒钟exaFLOP的级别，也就是百亿亿次浮点运算，是现在的一万倍，名副其实的直接最尖端的超级计算机。

那么，Dojo能做什么呢？主要就是自主深度神经网络训练。

特斯拉车辆搭载的摄像头，能够不间断地采集真实的道路数据，然后Dojo D1的人工智能算法，会自动标记这些数据中的物体（包括常规道路、危险道路和其他意外情况）。

之前的大型AI数据集通常需要手动标记，非常耗时费力，而Dojo将配合无监督学习算法（Unsupervised Learning，无需人工对训练数据集进行标注，系统可以自行根据样本间的统计规律对样本集进行分析）。

譬如，可以不给任何额外提示的情况下，仅依据一定数量“狗”的图片特征，就能将“狗”这个物体识别出来。大幅减少特斯拉对于数据人工标注的工作量，进而帮助其数据训练效率实现指数级提升。

这些数据还可以包括信号灯、车道线、动物、行人、天气、马路边缘、指示牌、路灯、桩桶、可行车区域、不可行车区域等等，通过8个摄像完成360度环影，以鸟瞰的方式来展示一个4D视图（三维空间+时间戳）。

不过，特斯拉车辆并不会将每分每秒的视频数据都发送给Dojo，也不会随机发送视频数据，更多的情况是发送一个“案例”（10秒）。比如在Autopilot驾驶时，驾驶员突然介入，改为人工驾驶，Dojo就会分析这个视频案例，试图找出驾驶员中断Autopilot的原因，又或者司机在高速路上突然刹车、堵车时有人插队、雷达与摄像头判断结果不一致、车辆发生事故/险些发生事故等等，将这些具体的案例，交给Dojo来分析处理。

最终，更多的数据通过Dojo的处理，反馈给神经学习系统，实现自动驾驶算法的迭代，而算法的迭代，让Autopilot更加好用，持续反馈更多的数据给Dojo分析，从而实现一个正循环。

目前，特斯拉已经积累了100万个10秒左右的视频，并给60亿个物体贴上了深度、速度和加速度的标签。这些数据每天都还在增加，这就需要特斯拉有一个强大的计算机来处理这些庞大的数据，目前这些数据已经达到了惊人的1.5PB。

以特斯拉百万级的车辆保有量，这个规模的数据收集终端，数据增长速度也是惊人的。这似乎是个天文数字，而特斯拉如果继续依赖纯视觉的自动驾驶方案，不断提高其可靠性，就需要开发出更强大的超级计算机，以追求更先进的AI算法。

一家车企为什么要做超级计算机？

我们前面说到，全世界的超级计算机的排名前五的超级计算机，除了第五名的Selene是英伟达的之外，前四的都是国家拥有的，包括第一的日本『富岳』、美国的Summit和Siera分别位于第二、第三，第四的是中国的『神威太湖』。

这些都是国家级的超级计算机，它们通常是体量巨大、造价高昂的设备，拥有数以万计的处理器，旨在执行专业性强、计算密集型的任务，可完成极端尺度的宇宙模拟、为药物反应预测寻找新途径、发现可用于制造高效有机太阳能电池的新材料等任务，应用于人工智能、生物医药和智慧城市建设等多个领域。

为什么特斯拉，一个电动车企需要研制一台超级计算机？

其实原因，上面已经有所提及。

目前，全球自动驾驶领域主要分为两派，即纯视觉路线与高精地图+雷达路线。后者认为，多传感器与摄像头可以优势互补，更可依靠高精度地图与多激光雷达来完成全自动驾驶。而作为纯视觉路线领头者的特斯拉，则坚定的认为，纯视觉是唯一正确的出路。

马斯克主张采用纯视觉的自动驾驶方法，就是依靠摄像头和机器学习来支持其高级驾驶辅助系统和自动驾驶，而摒弃了激光雷达（LiDAR）、毫米波雷达。

马斯克曾非常自信地说到：“只要人眼能够完成的事情，视觉传感器也应该能够完成。其它的激光雷达都是累赘”。

在特斯拉看来，把激光雷达、毫米波雷达砍掉，是因为多传感器融合，会干扰系统的判断，甚至会造成误判，因为当不同传感器过来的数据冲突的时候，会延长系统处理和判断的时间，甚至会出现误判。

在纯视觉自动驾驶方法下想改进这套自动驾驶AI达到足够的可靠性，自研适应计算需要的超级计算机便极为必要。

特斯拉AI高级总监Andrej Karpathy是计算机视觉和深度学习领域的顶级专家之一，博士毕业于斯坦福AI实验室，主要研究方向是卷积神经网络结构，自然语言处理，以及其在计算机视觉上的应用。

进入特斯拉之后，主要就是为了攻坚特斯拉自动驾驶的难题，而特斯拉非常坚决地采取纯视觉算法路线，这就为数据处理以及神经网络学习提出了巨大的要求。

Karpathy解释道，如果想要让计算机以人类的方式对新环境做出反应，需要一个巨大的数据集，以及超级计算机的处理能力。我们有一个神经网络架构网络和一个1.5 PB的数据集，需要大量的计算。

对我们而言，计算机视觉是使自动驾驶成为可能的基本要素。为了让其更好地工作，我们需要掌握来自车队的数据，训练大量的神经网络，并进行大量实验。

Karpathy讨论了特斯拉人工智能的视觉组件，他指出，特斯拉在设计其汽车的视觉皮层时，是按照眼睛感知生物视觉的方式进行建模的。他还谈到了特斯拉的视觉处理策略多年来是如何演变的，以及现在是如何实现的。Karpathy还提到了特斯拉的“HydraNets”，它具有多任务学习能力。

充分利用从整个车队收集来的数据训练，从而不断改善特斯拉的自动驾驶功能（Autopilot），为下一代自动驾驶人工智能（AI）提供能够更进一步的自主学习的神经网络。

这里的神经网络可以简单理解为通过『仿生学』模拟人类大脑皮层的神经元『沟通学习』的方式进行处理数据，用来实现『类似人类』的学习方式。

这也是为什么这个超算机群取名为Dojo（道场）的原因，在中文里翻译为训练场也非常合适，这个“训练场”就是专门用来训练特斯拉汽车的自动驾驶能力的。

其实早在2019年的Autonomous Day，马斯克就提到过Dojo，称Dojo是能够利用海量的视频（级别）数据，做『无人监管』的标注和训练的超级计算机。

如果认真了解过当年Autonomous Day的朋友，自然会发现，特斯拉推出Dojo超算以及自研芯片，是必然且在规划中的事，也是特斯拉不得不去做的事。

因为按照特斯拉的逻辑，一辆车上要装8个摄像机，十秒内就能产生一百万个视频。这也难怪，需要依赖超级计算机的运算能力。

换句话说，不是特斯拉想要成为人工智能巨头，而是被逼无奈，因为选了纯视觉路线，就需要一个超级计算机的算力与之匹配。结果Dojo一出场，就是要成为世界第一。可以说，这也是马斯克的凡尔赛了吧。

其实关于“视觉算法与AI的关系”这个问题，马斯克曾在推特中回复过，大致意思为：『只有解决了真实世界的 AI 问题，才能解决自动驾驶问题……除非拥有很强的 AI 能力以及超强算力，否则根本没办法……自动驾驶行业大家都很清楚，无数的边缘场景只能通过真实世界的视觉 AI 来解决，因为整个世界的道路就是按照人类的认知来建立的……一旦拥有了解决上述问题的 AI 芯片，其他的就只能算是锦上添花』。

确实，毫米波雷达或激光雷达方案虽然有优势，但是成本更高，而且还有着无法解决的弊端。首先雷达精度、反应速度都不如纯视觉方案，而高精地图则严重限制了可使用自动驾驶的范围。这意味着他们除了需要非常详细的使用地点地图外，还需要所有车道及其连接方式、实时交通灯等额外信息。

但特斯拉的纯视觉方式不同，特斯拉的自动驾驶依靠8个摄像头和背后的Dojo超算，原则上我们可以在地球上任何地方（的道路上）使用。

『Dojo超级计算机』的出现意味着什么？

Dojo的问世，将帮助特斯拉的无人驾驶技术继续提升一个等级，让视觉算法这条路线走的更加深远，它能帮助训练电脑去理解道路画面，通过对视频信息的采集和大量视频信息运算处理，达到仅通过视觉图像便能实现全自动驾驶的目的。

视觉自动驾驶与人类驾驶员的开车方式相似，但最重要的是，计算机更加的可靠。为此，Karpathy也举了几个例子：

首先，人类的反应速度太慢，即使是优秀的驾驶员也要250ms（0.25秒）的反应速度，很多人甚至超过460ms（0.46秒），而电脑的反应速度全部低于100ms（0.1秒）；其次，人类驾驶员经常在开车时玩手机，而电脑则会全神贯注，不会一会看看微信，一会刷刷抖音；再来，人类驾驶员的视野范围太窄，并道时如果不回头，则完全看不到位于后视镜盲区的来车，而特斯拉拥有8个摄像头以每秒36帧的速度从车身周围识别信息，涵盖360度视野……

通过海量的案例，Dojo将帮助驾驶员更安全的驾驶车辆，包括利用视觉计算机来纠正人类错误和不安全的驾驶行为。比如：信号灯警告，系统识别到远处的红灯或黄灯，如驾驶员不减速会发出警告；紧急制动场景，系统判断车辆在障碍物前减速度不足或没有减速，会自动帮助车辆制动；躲避障碍，系统侦测到周围有突然出现的动物、行人、车辆、异物等，会自动控制方向盘来进行躲避。

在目前的特斯拉Autopilot中，已经出现过很多因系统失灵而出现的事故，这些可以通过Dojo进行解决，包括不限于：桥下阴影造成的无故刹车；高速跟车时，自动刹车踩得太死；遇到路边占用部分车道停放车辆的规避问题；当车辆检测到前方有行人或者道路变窄的情况时，当驾驶员把油门当做刹车踩下，车辆则不会加速（包括恶意报复社会行为）。

总结起来， Dojo的出现，实现了海量数据的『无监督训练』，大幅度提高神经网络训练的效率。通过用海量的数据锻炼它，就能解决各种『边缘场景』的问题，加快自动驾驶系统的成熟和完善，实现指数级的成长速度。

更关键的是，特斯拉对其软硬件的垂直整合度非常高，不仅不受制于别人，而且能够以此作为服务，给外界提供深度学习的训练业务。

在特斯拉的规划中，全球各地的数据，都会汇集到Dojo超级计算机中心进行处理。当然，这不包括中国的数据，因为中国出台了相关的管理办法，限制这类数据出境（因此，特斯拉在上海建立了数据中心，所以我们也会期待Dojo也能在中国实现）。

这就是自动驾驶的大结局？

对于自动驾驶的科技价值，几乎全球科学家都达成共识，其拥有广泛的应用前景，在包括出租车、代驾、共享汽车、机器人物流等领域都有巨大潜力。

根据中国信通院《2020年全球自动驾驶战略与政策观察》报告显示，自动驾驶具有巨大的社会经济价值，预计2050年将为美国创造大约3.2至6.3万亿美元的经济效益，其中社会福利和消费者福利预计接近8000亿美元。

我国多个地方政府也大力支持自动驾驶技术发展。北京已累计开放四个区县的自动驾驶测试道路共计200条、699.58公里，开放了亦庄和海淀2个自动驾驶测试区域，面积约140平方公里。同时累计为14家自动驾驶企业87辆车发放一般性道路测试牌照。

深圳市也已经先后公开两批无人驾驶路测道路；深圳坪山区的L5级别全无人RoboTaxi已商业化试运营超过100天，并承载了国内首批乘客。此外，包括亚马逊、苹果、三星等国外科技巨头，以及阿里巴巴、百度、腾讯等国内科技巨头都纷纷加入无人驾驶的赛道，想在这个潜力无限的市场里瓜分一块蛋糕。

从技术的角度来看，无人驾驶汽车是一个复杂的软硬件结合的智能自动化系统，运用到了自动控制技术、现代传感技术、计算机技术、信息与通信技术以及人工智能等。从战略意义的角度来看，自动驾驶移动能力更强，能够有效改善交通安全、实现节能减排、消除交通拥堵、促进产业转型。

过去数年，特斯拉一直对外宣传“全自动驾驶”技术，由此也为人们所诟病。因为事实上，特斯拉的“Autopilot”（自动辅助驾驶）以及“Full Self-Driving”（全自动辅助驾驶）都只是“辅助驾驶”功能，并不是真正意义上的“自动驾驶”功能。

因为这样的宣传，导致了不少车主过于相信特斯拉的辅助驾驶功能，因此也导致了很多起令人痛心的安全事故，最近的蔚来也因为NIO Pilot导致的事故登上了热搜。

可见，截止目前，自动驾驶还是一个理想中的概念，离我们的实际使用还有不少的距离，我们现在能用上路的都是“辅助驾驶”，大家为了自己的人身财产安全一定要牢记这一点，切勿过分相信市面鼓吹的“自动驾驶”功能。

目前，特斯拉已开始向纯视觉自动驾驶路线转变，从上月开始，部分在北美生产的特斯拉车型，已停止安装雷达传感器，而全新的FSD Beta V9.0（完全自动驾驶测试版）也将在近期更新，而这一切的背后，都离不开Dojo。

Dojo的到来，意味着我们离真正的“自动驾驶”又近了一步，打开了电动车驾驶AI世界的新入口。

对了，这个技术并不遥远，我们明年可能看到Dojo正式运行。

最后的彩蛋

就在发布会最后，马斯克开着玩笑带来了一位Tesla Bot机器人，他表示，如果Dojo的能力能够如期实现，那么将它至于机器人的内部，同样可以100%模拟人类的性能。在未来，可以为人类社会释放更多的劳动力。

马斯克绝对是一个技术疯子，改变全球能源布局、改变交通出行方式、改变人类脑机交互方式、游历太空、探索火星等等，单凭一个人的意志推动了整个人类社会的科技进步。

通过已量产的产品挣钱，但不会敛财，因为挣到的钱马上用在下一个疯狂的想法，并努力实现它，如果此时说马斯克是后乔布斯时代最伟大的科技创造者，应该没有人会反对吧？

（图/文/摄：皆电唐科）