面对特斯拉芯片发展之路,国产芯片如何追赶?
8月20日,特斯拉AI Day上,马斯克协同自动驾驶软硬件的高管们,对外公布了新的感知、规控算法架构,以及由自研D1芯片组成的Dojo超算中心。 然而传闻中的第二代FSD芯片并没有亮相。这意味着,特斯拉早在2019年便发布的FSD Chip,将承载着特斯拉新的视觉神经网络、更复杂场景下庞大的计算量,以及快速迭代,帮助特斯拉收集有效数据的Triggers。
2021-08-27 | 出处: AutoLab | 责编: 王友新
8月20日,特斯拉AI Day上,马斯克协同自动驾驶软硬件的高管们,对外公布了新的感知、规控算法架构,以及由自研D1芯片组成的Dojo超算中心。
然而传闻中的第二代FSD芯片并没有亮相。这意味着,特斯拉早在2019年便发布的FSD Chip,将承载着特斯拉新的视觉神经网络、更复杂场景下庞大的计算量,以及快速迭代,帮助特斯拉收集有效数据的Triggers。
甚至作为彩蛋出现的Tesla Bot,其“大脑”也依旧是这款2019年发布的FSD芯片。
自动驾驶技术发展如此迅猛,比HW3.0版Model 3更晚的车型,也开始纷纷切换计算芯片,不得不惊叹FSD芯片有如此长久的生命力。
芯片设计本质上是将算法抽象出来,设计一套能承载各类算法高效运行的硬件。这意味着,想要把自动驾驶芯片做好,就需要对自动驾驶算法及算法发展趋势有清晰的认识,对技术发展方向足够笃定。
在芯片领域摸爬滚打长达20年的单记章对此深有体会。单记章毕业于清华大学无线电系,曾在全球顶尖的 CMOS 图像传感器公司豪威,担任研发副总裁,专注图像处理和视觉感知,个人拥有100 多项相关专利。在看到计算机视觉将彻底改造汽车行业的趋势下,单记章带着自己在视觉处理领域的积累,创办了自动驾驶芯片企业黑芝麻智能。
黑芝麻在2020年6月发布的A1000芯片,在架构选择上,与特斯拉FSD芯片非常相似。这或许就是一种行业先行者的英雄所见略同。这种相似,主要体现在以下两点共识。
摄像头≠视觉,摄像头+ISP=视觉
在AI Day上,特斯拉Autopilot 软件总监Ashok Elluswamy,介绍了他们如何用搭建的虚拟仿真系统,来对视觉感知做针对性训练,例如过曝、过暗。
这些模拟的场景,实际上高频地发生在我们的驾驶过程中,例如从隧道出来后的强弱光交替,遇到迎面而来亮瞎眼的“远光狗”,以及更为平常的黑夜、雨后反光路面等等。这些都算是高频且危害较大的场景。
如何对抗这些危险的场景呢?ISP(Image Signal Processing,图像信号处理) 是唯一解。在特斯拉FSD芯片中,紧接着Input 的,就是ISP。看过我们《超级补课》的小伙伴会知道ISP是Image Signal Processor 的简称,也就是图像信号处理器。我们把它比喻为LOL游戏中的“水银饰带”,能够秒解摄像头的“致盲”Debuff。
摄像头本就是模仿我们的眼睛,因此它也会和人眼一样,在低光照、强弱光交替等场景下看不清。但好在摄像头可以借助ISP算法自动调整曝光、去噪、白平衡矫正等一顿操作,使其能够获得对前方道路环境的完整感知。
实际上得益于手机厂商的宣传,很多人对ISP处理器是早有耳闻的。苹果手机的像素只有1200万,这个数据被一众安卓产品按在地上摩擦,但不论是照片的成像效果,还是视频的拍摄效果,iPhone都是顶流的存在,这其中就少不了ISP的功劳。
因此国内手机厂商华为小米ViVO,在计划自研芯片时,都选择了从ISP动手,因为在手机约等于半个微单的当下,自研ISP对“跑分”的影响是最立竿见影的。
虽然ISP在手机领域很成熟,但这并不意味能直接搬上车。自动驾驶对ISP提出了更高的设计需求,首先是低延时,手机拍摄可以允许1到2秒的延时,但这对自动驾驶而言是决不允许的,车辆“致盲”2秒在高速上就意味着跑出去50多米,这已经不能用危险来形容了。因此车端芯片的ISP需要毫秒级的高处理率和高传输率。
此外自动驾驶汽车的ISP要求全时在线,面临的场景也丰富的多,诸如被强光直射、黑夜、强弱光交替等极端场景,车端芯片的ISP需要解决这些挑战。
差异最大的是处理的带宽上,手机只需要处理1个摄像头,但车端就需要同步处理多个摄像头,且每个摄像头的方位不一样,光线条件遇到的问题也都不相同。例如特斯拉的ISP,就需要同步处理不同方位8路摄像头的信号。目前自动驾驶芯片厂商中,黑芝麻选择了自研ISP的IP,针对车载场景做了优化,做到了1.5Gpps的带宽。
现有通用的ISP IP,由于并非针对自动驾驶开发,因此在算法的兼容上会有瓶颈,但由于特斯拉仅8个200万摄像头,选择通用的ISP架构能够满足需求。而自动驾驶芯片厂商,需要兼容更多车企客户的传感器方案,特别是即将到来的千万像素摄像头,对多传感器格式的兼容,以及带宽提出了更高的要求。
以黑芝麻自研的ISP为例,1.5Gpps的带宽能够毫秒间,同时处理6路800万像素摄像头的输入。此外,针对自动驾驶自研的ISP,对自动驾驶的特征场景处理也会大幅提高。
下方的一张图,就能够直观展示通用ISP和黑芝麻自研ISP,对同一摄像头输入的处理表现差异。
除了处理好当下智能汽车需要处理的各类环境,黑芝麻自研的ISP,还针对智能汽车下个发展阶段做了技术规划。目前智能汽车已经能够看懂交通标识,接下来需要突破的便是识别红绿灯,只有理解了各类信号灯,汽车才能真正像人一样遵守交通规则。
识别信号灯对摄像头而言是很难的,因为有频闪的存在,某L4级Robotaxi企业为了对抗频闪,还在车上加了一个专拍信号灯的摄像头。黑芝麻自研ISP解决了这个问题,其利用LED闪烁抑制(LFM)技术,可以有效消除交通信号灯和汽车LED照明的高频LED闪烁问题,令不同光照条件下交通信号灯和车灯识别算法更加准确,提高自动驾驶视觉感知系统的可靠性,保障所有道路参与者安全。
很多人对视觉有所误解,认为视觉就是摄像头采集的信息,实际上摄像头采集的信息就如同是菜市场买来带泥的菜,需要在ISP的多道工序处理下,才能成为烹饪所需的食材。摄像头和ISP的组合,一同构成了视觉信息输入。
从《超级开箱》此前评测来看,很多车企基本是没有开发ISP算法的,其辅助驾驶系统在夜间低光照环境下的表现,和白天差异非常大。这一方面是部分车企对ISP还不够重视,而最为关键的是,目前市面上的自动驾驶计算芯片,很少有能为ISP算法提供很好的硬件支持。
自研ISP的黑芝麻A1000及A1000pro芯片,为车企提供了解决方案。除了硬件支持外,黑芝麻还提供强大的tuning服务能力。黑芝麻基于自身在ISP的软硬件积累,组建了专门服务客户摄像头模组适配调优的团队,业内主流sensor及镜头,都已于A1000系列芯片适配完成,车企可以快速灵活部署。
NPU主导的大算力架构支撑自动驾驶长期发展
NPU(神经网络加速器)是特斯拉研发团队自研的IP,在FSD芯片占比最大最为重要。支撑特斯拉的算法能够从2D到4D的迁移,其自研的NPU是最大的功臣,72TOPS的算力,能够支持更大规模的并行计算,运行参数量更大的计算模型。
可以看到,在视觉神经网络成为自动驾驶核心技术的当下,由NPU主导的大算力架构,才能支撑起自动驾驶的长期发展。
算力需求和算法的优劣是成反比的,通过对算法的优化,可以降低对算力的需求。当下,多数车企和Tier 1的算法还处于探索阶段,因此提供更大的算力,以及兼容度更高的NPU,是最为友好的自动驾驶芯片设计方案。
这一点上英伟达、黑芝麻都有着共识。英伟达Orin几乎是沿用了Xavier的设计方案,兼顾深度神经网络和传统计算机视觉算法的计算加速,同时通过更先进的制程,更新的GPU架构,实现了高算力。Orin的做法自然受到了多家车企的青睐,但昂贵的成本下,车企也需要做找替代方案的考虑。
黑芝麻的做法则是介于特斯拉FSD与英伟达之间,尽可能做到与英伟达方案一样均衡兼容的同时,更多押注NPU提供更高的算力支持。
黑芝麻面向L2-L3应用场景的A1000产品,通过自研NPU,算力最高可达116TOPS,与同期产品对比,是英伟达Xavier算力的3倍以上,地平线今年发布的征程5系列也达到了类似的性能。黑芝麻对标英伟达Orin的A1000 Pro单Soc算力最高可达196TOPS,通过多颗级联的方式,能够实现1000+TOPS的算力支持。
更大算力意味着更强的算法兼容性,以及能处理更多的信息输入,而这正是自动驾驶发展的需求。近年来,小鹏、蔚来等车企,纷纷从Mobileye切换到了英伟达,背后就是对高算力的需求。
不久前发生的NOP高速事故,AutoLab在报道中提到,Mobileye EYE Q4芯片可能无法支撑蔚来针对特征场景做定向开发,一方面因为Mobileye的算法和处理是封闭固定的,车企很难更改。另一方面在于Mobileye EYE Q4架构上侧重传统计算机视觉算法,对深度神经网络为主的深度学习算法支持不够。这都导致了,即便蔚来知道让系统识别桩桶,可以提升NOP的安全性,但它也依然没有去做。
辅助驾驶迈向自动驾驶的量变到质变,从来都不是功能的叠加,适用场景的拓展,而是系统安全性和稳定性的提升,只不过在营销的压力下,新的功能,新的场景拓展往往比系统的安全可靠有更高的关注度。可以预见的是,未来1到2年,主流车企的辅助驾驶系统,在功能上会逐步趋同,能拉开差距的,是系统的安全性和稳定性。
而黑芝麻的A1000系列产品,大算力的NPU配合丰富的异构计算单元(GPU, DSP, ARM等),提供强大的SOC计算能力,让智能车辆在应对极端情况下的安全性大大增加。这一点上,黑芝麻已经在国内一众芯片厂商中走在前列,并逐步向全球领先水平靠拢。
以深度神经网络为主的深度学习算法,可以帮助系统逐一消灭极端场景,提升系统的安全性和可靠性。同时特斯拉也证明了,侧重支持神经网络加速的NPU,可以让自动驾驶芯片具备较长的生命周期,应对算法的演进和优化。
因此我们判断,辅助驾驶到自动驾驶这一量变到质变的发展阶段,深度神经网络为主的深度学习算法,也将逐步取代传统计算机视觉算法。而包含NPU的大算力自动驾驶芯片,也将登上C位,逐步取代小算力芯片。
写在最后
并非所有车企都能为自己的算法自研自动驾驶芯片,国内外可供选择的自动驾驶芯片也并不少,选择一款符合技术发展趋势的芯片至关重要,特斯拉的芯片架构提供了非常好的参考。
对消费者而言,我们在关注量产车辅助驾驶体验的同时,也可以去看这款车型背后用了怎样的芯片,因为芯片的选择能一定程度显示车企的技术侧重,同时也透露着硬件的生命周期,没有人希望刚入手,就成了“上代产品”。
毕竟车不是手机,汽车的智能硬件差异,对功能和系统整体的安全性影响非常大,需要谨慎考虑。