人形机器人,AI领域的终极形态。
当地时间6月3日,特斯拉CEO埃隆·马斯克在推特上预告,将在9月30日的特斯拉人工智能日上发布原型机。它叫“擎天柱”(Optimus),又被称为“特斯拉人形机器人”(Tesla Bot),是特斯拉今年最重要的产品。
人形机器人的出现可以赋能千行百业,是人工智能场景的下一波浪潮,随着技术的不断成熟和商业化落地,有望带来万亿级别的空前蓝海。
特斯拉或将于 2022年9 月 30日推出首款人形机器人原型机,并将其命名为 ” OPTIMUS”。早在2021年8月19日,马斯克在特斯拉人工智能日时提出推出人形机器人,旨意是解决从事重复性高、单调枯燥的危险差事。
马斯克宣布进军AI机器人领域,意味着特斯拉绝不只是一家电动车公司,而是一家 AI公司。此外马斯克声称特斯拉机器人有朝一日随着时间推移将比汽车公司更加重要。
特斯拉机器人可以简单拆分2个域,即AI域及技术域。
AI域 : 采用FSD computer作为算力核心,配备8个Autopliot Cameras作为传感器,支持深度学习、数据分析,Dojo训练,自动标记等算法。
技术域:机器人头部包含信息屏幕,用来展示信息,此外机器人由轻质材料组成,并且四肢包含40个左右的机电执行器,并通过力反馈感应系统来实现平稳和敏捷双脚行走。
据马斯克介绍,该机器人大约1.73米,体重约56.7千克,可抱起约20.4千克的货物最快行走速度可约达8KM/时。
AI域是人形机器人的核心,因为机器人只有通过不断的机器学习的训练,才能完成指定的任务。此外特斯拉人形机器人是特斯拉自动驾驶的集大成者,因为人形机器人的核心与智能驾驶共用 FSD系统,我们预计智能驾驶很多神经网络系统将会应用在人形机器人中。
数据是实现智能驾驶和智能机器人的根基,而算力为机器学习、神经网络提供基础动力,随着特斯拉所处理的数据指数级的增长,公司由于耗电问题放弃Nvidia A100 GPU作为超级电脑的阵列去做训练,而是凭借自身强大的垂直整合能力,研发出专注于深度学习训练的Dojo D1芯片,于是特斯拉Dojo超级电脑应运而生。
1、大脑:D1芯片
D1芯片作为 Dojo超级计算机的关键单元,实现了超强算力和超高带宽,实现了空间和时间的平衡。该芯片采用分布式结构和7纳米工艺,搭载500亿个晶体管、354个训练节点,仅内部的电路就长达17.7公里。
Dojo超级计算机实为 ”性能猛兽 ”,算力高达s 9PFLOPs 。Dojo超级计算机的训练模块由1500个D1芯片组成,共53万余训练节点,相邻芯片之间延迟较低,配合特斯拉自创高宽带、低延迟的连接器,算力高达9PFLOPs,是世界上首屈一指的超级计算机。与业内相比,同成本性能可提升4倍,同能耗性能可提高1.3倍,占比空间节省五倍。
特斯拉 Dojo D1芯片主要可以拆解成4个部分,即CPU、 Switch、 Mat mult、 SIMD。
CPU即中央处理器,是计算机系列的运行和控制核心,是信息处理、程序运行的最终指令单元。
Switch即交换器,是计算机芯片与芯片之间的桥梁,具有数据传输功能。
SIMD即单指令流多数据流,可以理解成平行计算,是采用一个控制器来控制多个处理器,介入实现空间并行性的技术,简单来说是一个指令可以处理多个数据。
Mat mult 即计算单元,可以专注于神经网络的计算,进而加速神经网络的计算速度,是特斯拉计算机实现算力猛兽的根本原因之一。可以将该计算单元可以理解成人工智能芯片,即AI处理器,是一款芯片专门用于机器学习的算法及神经网络的运算,可用于训练和推理。相较于同期的CPU和GPU相比,可以实现15-30倍的性能提升,以及30-80倍效率(性能)提升。
特斯拉 Dojo D1芯片主要可以拆解成4个部分,即CPU、 Switch、 Mat mult、 SIMD。
CPU即中央处理器,是计算机系列的运行和控制核心,是信息处理、程序运行的最终指令单元。
Switch即交换器,是计算机芯片与芯片之间的桥梁,具有数据传输功能。
SIMD即单指令流多数据流,可以理解成平行计算,是采用一个控制器来控制多个处理器,介入实现空间并行性的技术,简单来说是一个指令可以处理多个数据。
Mat mult 即计算单元,可以专注于神经网络的计算,进而加速神经网络的计算速度,是特斯拉计算机实现算力猛兽的根本原因之一。可以将该计算单元可以理解成人工智能芯片,即AI处理器,是一款芯片专门用于机器学习的算法及神经网络的运算,可用于训练和推理。相较于同期的CPU和GPU相比,可以实现15-30倍的性能提升,以及30-80倍效率(性能)提升。
特斯拉最著名的 AI算法是其机器视觉中的纯视觉解决方案,该算法在人形机器人的制造中将其延续。
基于图像的目标检测: 目的是确定图象中是否存在给定类别的目标实例,可以是动态或静态目标,如果存在,就返回每个目标实例的空间位置和覆盖范围。目标检测是解决分割、场景理解、目标追踪、图像描述、事件检测和活动识别等更复杂更高层次(时间记忆等)的视觉任务的基础。
2D物体识别到 3D物体识别的转换 : 特斯拉通过在8个不同位置的摄像头,得到不同角度的同一物体,在通过神经网络(类似NeRF算法)渲染出该物体的3D图像,并记录该物体的大小及位置;随后生成一个3D向量空间,通过鸟看图的方式,通过另一种神经网络(类似LSTM算法)和物体识别计算出物体下一时间点出现的位置,至此人形机器人完成全部的感知步骤,其中包含三维信息及时间维度信息,并将该信息存储在训练集中,并不断强化学习。