高端装备制造:人形机器人感知硬件专题研究.docx
《高端装备制造:人形机器人感知硬件专题研究.docx》由会员分享,可在线阅读,更多相关《高端装备制造:人形机器人感知硬件专题研究.docx(23页珍藏版)》请在三一办公上搜索。
1、高端装备制造:人形机器人感知硬件专题研究人形机器人加速发展,感知能力愈发重要人形机器人迅速迭代,国内外厂商加速布局特斯拉机器人迭代迅速,历时8个月便可执行复杂动作。2022年10月,在特斯拉AIDay匕特斯拉机器人OPtimUS首次亮相,当时还需要人工推出,仅能完成简单的肢体动作。而在2023年3月的投资者日中,OPtimUS便展现了步行以及组装机器人的工作能力。到2023年5月的股东大会上,OPtimUS已经可以实现对物品的抓取等复杂动作。马斯克提出,OPtimUS将面向应用场景进行快速迭代,预计在特定应用场景将快速推出量产机型。我们认为特斯拉强大的汽车供应链有望加速Optimus量产实现。
2、特斯拉强大的供应链及解决方案有望加速人形机器人量产进程。目前人形机器人商业化量产的瓶颈主要可归结为技术、成本和应用场景三个方面。但特斯拉在三大瓶颈方面均有特有优势。1)技术方面,拥有FSD自动驾驶技术以及DOJODl超级计算芯片的特斯拉在人形运动控制、硬件执行器、运动规划算法等方面正在进行广泛深入的底层研究;2)成本方面:研发团队在设计阶段已充分考虑量产阶段的降本可行性,例如高度集成的电池、6种执行器等,强大供应链保障有望降低量产成本;3)应用场景:特斯拉汽车工厂将为人形机器人提供巨大的试验田,早期版本的机器人将在工厂中进行大量训练,并不断迭代,解决了大多数厂商早期寻找应用场景这一大难题。传统
3、机器人公司技术迭代速度较慢,且并未面向应用场景设计机器人,供应链问题也导致机器人造价十分昂贵。以大家熟知的波士顿动力AtlaS为例,根据波士顿动力官网,波士顿动力的AtlaS拥有近40年的发展历史,1983年-2013年,从麻省理工LegLab走出来的Atlas基本完成了简单的肢体动作和行走能力,2016年Atlas开始具有简单的物体搬运功能,并且没有灵巧手,2019年AtlaS行走能力进一步增强,可实现后空翻等动作,并且能够识别复杂地形,2021年,AtlaS具有一定的工作能力,用简单的灵巧手搬运物体。目前,发展了40年的AtlaS仍然没有明确的应用场景,且售价十分昂贵,达到200万美元以上
4、。特斯拉或在机器人行业再次带来鱼效应。回顾新能源汽车在中国市场的发展史,特斯拉这条站鱼”对于我国新能源汽车升级与降本带来巨大推动作用。2019年1月,特斯拉上海工厂奠基,2020年1月,特斯拉上海工厂新车交付,国产版Model3售价下调,扣除补贴后,基础版车型售价从35.58万元下调至29.9万元,低廉的售价以及优良的性能对我国新能源车厂商带来了巨大冲击,迫使我国新能源车厂商降本提效,加速了新能源车行业的发展,同时也推动了我国消费者对新能源车的接受度提高。因此,我们认为特斯拉在机器人行业中也将扮演这条“贴鱼,极快的迭代速度以及可预期的低廉的售价将迫使老牌机器人厂商加速发展。新能源汽车销量(万辆
5、新能源汽车渗透率图4:特斯拉在中国建厂后,我国新能源车销量快速增长800700-600500-400-300-200-100-0-国内外巨头纷纷参股或设立人形机器人研发公司。现有人形机器人产品主要为日本本田ASIM0、美国波士顿动力Atlas、美国AgiIityRobOt、优必选Walkers、中国小米Cyberne以及特斯拉OPtimUS等。其中,日本本田、小米及特斯拉皆研发了自己的人形机器人。而波士顿动力相继辗转谷歌、软银后,目前被现代公司收购。美国AgilityRObOt的2022年B+轮融资的投资者中,出现了亚马逊及索尼。国内外巨头纷纷下场加码人形机器人,人形机器人有望迎来快速发展。国
6、内外机器人创业公司也纷纷推出人形机器人或产品。国内机器人行业创业公司如追觅科技、达网科技等先后推出自己的双足人形机器人,国内四足机器人领先企业宇树科技也在加入到人形机器人的研发中,腾讯RoboticsX实验室推出自研机器人灵巧手TRX-Hand和机械臂TRX-Arm,为其后续在机器人行业的发展作出铺垫,华为于2023年6月注册成立东莞极目机器有限公司,正式进军机器人领域,注册资本&7亿元。国外方面,OPenAI在A2轮领投挪威人形机器人公司IXTeChnologies,旨在将其强大的AI系统与实体机器人结合起来,从而为AGI的发展奠定基础。人形机器人浪潮下,类人型机器人也迎来快速发展,但人形机
7、器人仍然是各大厂商的主要目标0随着人形机器人浪潮袭来,类人型机器人如四足机器人也迎来了快速发展,成为各大厂商的必争之地,早在2021年3月腾讯便发布多模态四足机器人Max,并在2022年8月推出MaX二代,小米于2021年8月发布第一代四足机器人铁蛋,小鹏鹏行机器也于2022年7月发布首款四足机器人。此外一些在机器人领域深耕多年的创业公司也拥有自己的标杆四足机器人产品,例如宇树科技的AL云深处的绝影X20、蔚蓝科技的E系歹h优宝特的YoBoG0。国外较为出名的四足机器人有波士顿动力的Spot、HT的HyQReaI。但人形机器人相较于仿人形机器人仍有较大优势:(1)仿生步态下运动能力较传统履带/
8、四轮/双轮机器人大幅提升;(2)灵巧手可实现双手配合和工具替换,较工业机器人技能更广;(3)依靠算法能力实现复杂环境识别并实施决策。预计到2027年,全球人形机器人市场规模将达到141亿美元。根据优必选招股书,弗若斯特沙利文预计2026年全球智能服务机器人产品及解决方案的市场规模将达到676亿美元,2021年到2026年CAGR达到25%。而根据StratisticsMarketResearchConsulting数据,全球人形机器人市场规模将在2027年达到141亿美元,2020年到2027年CAGR达到58%。人形机器人是具身智能的重要裁体,AI发展赋能机器人感知人工智能的下一个浪潮将是具
9、身智能。在ITFWOrId2023半导体大会上,英伟达创始人兼首席执行官黄仁勋表示,人工智能的下一个浪潮将是具身智能,即能理解、推理、并与物理世界互动的智能系统。具身智能是具有身体体验的智能。1950年,图灵在他的论文CompiitingMachineryandInteIIigence”中首次提出了具身智能的概念。之后的几十年里,大家都觉得这是一个很重要的概念,但是由于技术限制,具身智能并未有很好的发展。从认知的角度来看,人类是第一人称视角的智能,用1963年的实验来说明,有两只猫,一直猫被绑起来,只能看这个世界,另一只猫可以主动去走。被动的猫是一种旁观的智能,而主动的猫是具身的智能。到最后,
10、这只旁观的猫失去了行走能力。当机器可以主动感知世界时,人工智能也就变成了第一人称的智能,也就无限接近于人类。具身智能由具身感知、具身想象和具身执行三个基础模块构成。上海交通大学卢策普教授在机器之心Al科技年会中提出了PIE方案,即具身感知(Perception)具身想象(Imagination)和具身执行(EXeCUtiorI)。P正方案帮助机器模拟了人类的思维及行动方式,即机器人首先需要识别物体,然后通过交互感知物体,再通过数字挛生进行仿真模拟,利用最好的结果去执行。卢教授也演示了机器人如何抓取被打碎的陶镜瓶碎片,对于不规整的碎片,机器人总是能成功抓取。作为具身智能的大脑,多模态大模型更符合
11、人类大脑接受与处理信息的方式。从人类接受信息的角度看,我们所接收到真实世界的信息来自于多模态的数据源,如语音、文本、图像等,而单模态预训练模型只涵盖了单一模态的信息,无法对人类的信息获取、环境感知、知识学习与表达的主动学习过程进行有效表达,不同模态之间的隐式交互信息并未被充分利用与学习。GPT一小步,多模态Al的一大步,GPT-4支持图片和文本类信息同时输入。GPT-4是由OPenAl发布的大型多模态模型,它不仅能与用户一起生成、编辑,完成创意的迭代和技术写作任务,更重要的是,它还能读懂图片。多模态感知是实现通用人工智能的必要条件,无论是知识/能力获取还是与现实物理世界的交互,这也是其与上一代
12、GPT的主要区别。在GPT-4中,多模态输入的图像和文本基于TranSfOrmer作为通用接口,图形感知模块与语言模块对接进行进一步计算。基于TranSfOrmer技术,GPT-I只有12层,而到了GPT-3,则增加到96层,GPT-4增加了额外的视觉语言模块,理论上具有更大的模型尺寸和输入窗口。图10:视觉与语言TranSfOrmer技术的演进2020202320142017Vision TransformerTranSfonner 类PaLM-EittAIiM语言处理MSTrantformer类架构XLNetTQnSfonner 类架构Kosmos-IRTTransfonntrGPT-2G
13、PTjGPT-4BEiT-3语言方面,以ChatGPT为代表的大模型已具备协助机器人处理语言,从而可以高效地对感知信息进行交互,如人类通过自然语言对机器人进行调试。根据微软SaiVemPrala等最新的论文:”目前的机器人需要专门的工程师不断编写新的代码来修正机器人的行为,而我们使用ChatGPT的目标是让非技术用户参与到修正过程中,通过高级语言命令与语言模型交互,无缝部署各种平台和任务。如果付诸实践,Al有望帮助编写新代码和规范来纠正机器人的行为,因此允许了不懂技术的广大用户提供反馈,轻松地与机器人互动,直到用户对机器人的处理解决方案满意为止,再将这个代码部署到机器人上,一个调试就结束了。视
14、觉方面,谷歌推出ViT统一了CV和NLP框架,用于图像识别。ViT模型将语言模型的transformer架构用于视觉模型,代替了传统的CNN,统一了CV和NLP的架构。2020年10月,谷歌推出ViSiOnTranSfOrmer(ViT)模型,证明了不使用CNN,直接将TranSfOrmer结构应用于视觉模型也可以很好地执行图像分类任务。TranSfOrmer将句子中的每个词(token)并行输入编码器,ViT直接将图像拆分为多个块,将每个块的位置和包含的图像信息当做是一个词,输入到编码器中,训练好的编码器可以将图像输出为一个包含了图像特征的编码,类似于在语言模型中将一句话输出为一个包含了语言
15、信息的编码,之后通过MLP层将编码器的输出转化为不同分类的概率。信息处理方面,算法模型与软硬件一起集成为可供机器人思考的大脑。如谷歌发布RoboCat,其基于谷歌的多模态模型Gato,可以在模拟和物理环境中处理语言、图像和动作。通过将Gato的架构与一个大型训练数据集结合起来,该数据集由各种机器人手臂的图像序列和动作组成,可以解决数百种不同的任务。RObOCat先通过机器视觉观察由人工操作的机械臂完成任务,搜集数据后通过在物理和虚拟环境中进行练习,通过练习生成新的训练数据,合并进入训练集,用于新版本的训练,从而学会此次任务。学会此次任务的RoboCat可被移植到新的机械博上,对新的机械博进行微
16、调后执行相同的任务,RoboCat在几小时内观察100O次人工演示后,可以灵巧的指挥新手臂抓取齿轮,成功率高达86%。RObOCat的出现为未来更加通用的机器人出现打下基础。人工智能要走向具身智能的交互端,必须要具备强大的感知能力。陆奇在我的大模型世界观的演讲中提到AI发展的新范式将属于行动系统。第一代系统信息对应着感知,第二代系统模型”对应着思考,第三代系统行动”对应着实现,目前GPT的快速发展让人工智能的思考以及交互能力大大提升,而TeslaBot的推出也就预示着行动”系统的量产己有眉目。但感知能力是模型和行动的基础,人形机器人终端的发展离不开感知能力的不断提升。人形机器人更加智能化,所需
17、的感知硬件远多于传统机器人人形机器人可与人体进行类比,总体分为控制、感知和执行三大环节,其中感知是控制和执行的前提,而控制和执行过程中也需要不断感知提供实时反馈。人形机器人整体可分为控制、感知和执行三大系统;控制类似于人类的大脑,对全身进行指令,在人形机器人的软件端体现为模型及算法,硬件端体现为主控芯片:感知类似于人类的各种感官神经,包括器官、神经、大脑皮层等,在人形机器人中体现为各类传感器;执行类似于骨骼肌,包括线性执行器、旋转执行器、灵巧手等。对于传统机器人而言,除编码器外,多数工业机器人不需要其他的感知硬件,部分特定种类的机器人仅需要单一感知硬件,而人形机器人则集成使用类各类感知硬件。编
18、码器是闭环控制系统的必备组成部分,用以对伺服电机的旋转角度进行检测,编码器属于感知硬件,但其本质上是机器人运动控制子系统内部的感知器件,因此成为了各类机器人运动控制的必需品。其他机器人往往仅使用较少类别的感知硬件,如协作机器人为避免伤害到工人从而使用力矩传感器做力反馈,服务机器人和移动机器人使用3D视觉传感器进行位移导航,IMU(惯性测量单元)为无人机等无人移动系统提供导航和姿态控制等。人形机器人由于其复杂的交互性,需要各类传感器的集成,己特斯拉OPtimUS为例,其感知系统至少需要视觉传感器、力(力矩)传感器、IMU(惯性测量单元)、编码器及主控芯片等感知硬件。根据特斯拉2022AIDay及
19、2023年投资者交流日信息,OPtimUS的旋转执行器由无框力矩电机+谐波减速器+双编码器+制动器+力矩传感器+低压驱动+轴承等组成,直线执行器由无框力矩电机+行星滚柱丝杠+编码器+力矩传感器+驱动器+轴承等组成,灵巧手由空心杯电机+手指紧握执行器+低压驱动+编码器组成,均需要使用大量的力矩传感器、编码器。此外,根据论文Devel。PmemandReal-TimeOptimization-basedControlofaFull-sizedHumanoidforDynamicWalkingandRunning(MinSungAhn,UCLA)所示的Artemis机器人下半身使用本体执行(半直驱)
20、机构”,脚踝位置也均需要使用力矩传感器做力反馈。以特斯拉人形机器人Optimus为例进行硬件BOM分拆成本测算,我们认为2万美元的降本目标实现可期,感知硬件成本是人形机器人运动控制零部件外的最主要环节。我们通过国内主流厂商及其相关产品的代表价格,对特斯拉人形机器人OPtimUS进行测算,测算后可得当前单台机器人的硬件的总成本约为24.7万元人民币(约合3.4万美元),该成本不含软件、研发及供应链管理,且为非量产阶段,未来量产后2万美元的降本目标实现可期。不包括旋转和线性执行器,仅感知交互系统自身硬件,就占总硬件成本的8%,力矩传感器、编码器、视觉传感、主芯片及IMU均有较高的硬件成本占比。其中
21、力矩传感器占比最高,其原因在于机器人每个关节中均要使用力矩传感器,且目前最具功能完备性的六维力传感器价格非常高,均在一千美元以上,但未来人形机器人仅在部分关节使用六维力(矩)传感器,多数关节中使用价格较低的一维力(矩)传感器,也是降本的主要方案。图22:特斯拉人形机器人各零部件成本占比测算力矩传感器 无框力矩电机7% 编码器 低压驱动谐波减速及制动器 滚柱丝杠 空心杯 视觉传感 主芯片及IMU 轴承 动力电池 紧握执行器 线缆 其他控制及结构件12%先非智库五类感官类比人体,相关硬件必不可少人形机器人的感知环节主要可以分为交互控制、视觉传感、力控传感、位移姿态传感及执行环节的运动控制传感,均涉
22、及相关软件算法和硬件零部件。人形机器人各个零部件环节可以形象地看作人类的大脑、眼睛、触觉、小脑、末梢神经”等,且感知环节各部分均包含软硬件算法,从硬件端来看,均在整体BoM中占据一定价值量,主要包括力矩传感器、视觉传感器、IMU等,且我国厂商有望在硬件制造端持续发力。交互控制:人形机器人的“大脑控制系统是决定机器人性能最核心的系统,一般由机器人厂商自行开发研制,目前一般智能控制及工业运动控制对于人形机器人而言均有一定的不足,人形机器人尚未形成统一且标准的控制架构。控制器主要包括硬件和软件两部分:硬件部分是工业控制板卡,包括主控单元和部分信号处理电路;软件部分主要是控制算法、二次扩展开发等。目前
23、主流的控制器包括单片机为核心的专用控制器、PLC系统为核心的控制系统以及IPC+运动控制卡等。单片机适用于智能电器等对运动控制要求较低的设备:以PLC为核心的控制系统由于其优秀的集成封装和二次开发特性,非常适用于一般的工业运动控制;PC-based控制方式基于工控机和运动控制卡,可进行更为爱杂的串联、并联控制,但不方便移动。以上主流的智能控制和工业控制方式在面对人形机器人控制的实时性、复杂性、轻量性等较高要求时均存在一定的不足,目前人形机器人尚未形成可以大规模复用且满足标准的控制系统硬件方案。机器人控制方式主要包括点位、连续轨迹、力(力矩)和智能控制等,人形机器人的控制需要将连续轨迹、力(力矩
24、)和智能控制相结合。工业机器人的控制方式主要有点位控制方式(PTP)和连续轨迹控制方式(CP),协作机器人主要采用力(力矩)控制方式,人形机器人不仅需要连续轨迹控制和力(力矩)控制,还需要再运动过程中实时反馈视觉、语音、力触觉等信号,属于智能控制方式,因此其控制系统也更为复杂,同时需要使用更多和要求更高的控制器。主控、协调和分布控制有望成为人形机器人最主要的控制方式,因此硬件方面需要主控芯片及控制器、通信线缆以及关节分部控制器等。特斯拉投资者开放日所展示人形机器人的运动能力已完全超越普通工业及服务机器人,其同时表明OPtimUS将采用SoC主控芯片,因此,不同于其他机器人,人形机器人有望采用主
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高端 装备 制造 人形 机器人 感知 硬件 专题研究
链接地址:https://www.31ppt.com/p-6858953.html