媒体支持
联系我们

杨浩(销售总监)
展会咨询QQ: 515616785
手机: 18964878976(微信同号)

首页 新闻中心

金一:智能机器人如何迈向感控协同和行业可用——挑战、框架与演进 | CNCC专家谈

在即将于今年10月26-28日在沈阳举办的CNCC2023期间,在129个涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等30个热门专业领域的技术论坛上,包括国际知名学者、两院院士、产学研各界代表在内的700余位报告嘉宾将着力探讨计算技术与未来宏观发展趋势,为参会者提供深度的学术和产业交流机会,当中不乏在各领域深具影响力的重磅学者专家亲自担纲论坛主席。


本专题力邀CNCC2023技术论坛主席亲自撰稿,分享真知灼见,带你提前走进CNCC,领略独特专业魅力!

伴随着社会和产业数字化基础设施的发展,尤其近来大模型等代表性成果带来的智能技术能力的跃升,使得科学界和产业界对智能机器人在自主性和实用性两方面的进展产生了极大的兴趣和极高的预期。高度智能化和自主化的人形机器人和行业可用的任务机器人正在逐渐成为现实,协助和替代人执行各种任务,体现出了自主、复杂的决策能力和高效的协同能力。


可以预见的,智能机器人变得更加智能化和自主化并迈向感控协同和行业可用,是迫切需求,具有重大意义。通过本技术论坛,我们希望能与学术界和产业界的专家和朋友一起,探讨智能机器人迈向感控协同和行业可用中在感知、决策、规控等层面的边界、挑战、框架和演进,共同携手促进智能机器人端到端感控协同优化和行业可信应用落地。



“群雄逐鹿”:各具特色的智能机器人及其应用


随着相关技术的演进和成熟,智能机器人已经广泛应用在行业场景和消费场景中,作为人的辅助和补充,为对应场景带来了执行效率上的提升和作业方式上的方便。


智能机器人能感知环境、执行任务。典型地,作为智能机器人在技术难度上的重要代表,人形机器人可以适应人类设计的环境、模仿人类的表情、姿势、手势等非语言信号,能够与人类进行自然的交流和互动,以类人的方式从事作业和执行任务。2022年首次在Tesla AI Day上亮相的Tesla Bot[i]是由特斯拉公司开发的一款全能双足机器人,旨在执行危险、重复的任务。该机器人基于先进的视觉和决策AI,具备高效的推理硬件,能满足各种不同场景需求。除此之外,波士顿动力(Boston Dynamics)是一家成立于1992年的机器人技术公司,该公司专注于研发和制造先进的机器人技术,以解决各种工业、商业和研究应用中的挑战,包括建筑、油田、以及危险环境中的勘察和维护工作。智元远征A1机器人也是一款具身智能机器人,其配备了多种传感器,包括激光雷达、视觉传感器、深度相机等,可以进行自主导航、避障、抓取等功能[ii]


对于更加侧重效率和具备来自行业的特殊约束的任务场景,行业机器人对比通用人形机器人具备高效率和任务专注性。行业机器人相关技术侧重于机械控制、自动化、传感器技术等,且更加注重精确性和效率,也涌现出了许多典型的应用。亿嘉和[iii]是一家专注于电力等各种其他行业智能机器人研发、制造、推广及应用的科技公司,拥有一系列智能机器人技术和产品。随着辅助驾驶技术的普及和新能源汽车的不断发展,汽车装配领域的智能机器人应用也随之扩大。相关和数据显示,我国有超过一半的工业智能机器人应用在汽车制造领域[iv]。海康机器人[v](HIKROBOT)针对汽车制造环节中的汽车总装、零部件检测和发动机检测等关键环节研发了配备视觉感知功能的行业机器人。越来越多的行业对采用机器人或智能化装备来辅助生产、运维等场景持有了拥抱的态度。


无论是具备多功能的人形机器人,还是在特定场景发挥巨大作用的行业机器人,他们都极大程度提升了生产力,为我们的生活提供便利。这些智能机器人取得的成就离不开相关其中算法的支持。自然语言大模型的出现使智能机器人更好的理解人类的指令,多模态大模型使机器人更精准的感知环境的状态,这些新技术的出现大幅提高了智能机器人的作业效果和效率。



“奇点时刻”:大模型激发机器人性能和泛化能力



在大模型技术出现之前,也有许多人工智能专用模型应用在机器人上,并支撑相关的行业应用。但由于应用场景的状况和要求各异,算法泛化能力较弱,导致算法的可用程度和性能效果不够鲁棒,训练成本高。同时,现有智能机器人多采用模块化设计方案,执行端和智能端是单独负责的子任务,相对割裂,机器人的执行端仅作为支撑算力和完成执行的专用编程设备,但如果不同任务解耦,各模块相对于最终的任务目标会存在信息损失,且误差会在模块间传递,也亟需针对智能机器人智能端和执行端的端到端的优化。


近两年,大模型取得了巨大的进展,通过大规模的数据预型练来提高模型的泛化能力和下游任务性能。大模型在各个领域取得了令人瞩目的进展,模型不再受限于单一的模态信息,从而为智能机器人的后续行为决策提供依据。


由OpenAI团队研发的视觉语言大模型“CLIP”可以从任意文本中学习视觉概念,并实现跨域的图像检索和分类,在多种视觉语言任务上有着优异的性能表现[vi]。智能机器人不仅能“看”和“读”,还要能“听”,因此理解音频、视觉和自然语言件的关系同样对智能机器人至关重要。华南理工大学提出的音频大模型“Speechformer++”将自然语言和音频信息融合在一起,实现对声音或音乐的理解、描述、生成。该模型从大规模的标注数据中学习语音表示,结合新颖的自注意力机制捕捉到不同频率范围的语音特征,因而可以处理多种音频任务[vii]。理解具有时序关系的视频数据能够使机器人不再局限于单一时刻的环境数据。阿里云推出的视频生成大模型“I2VGen-XL”能够结合结合视频和图像信息,实现图像到视频的转换[viii]。中国科学院自动化研究所徐波研究员团队研究的全模态大模型“紫东太初”实现了图像、文本、视频、音频、声音等多种数据的全模态感知认知,率先实现认知增强的多模态关联,具备全模态理解能力、生成能力和关联能力[ix]。这些大模型为智能机器人理解环境提供了重要的理论和技术支持,为后续的决策提供重要的数据参考。



图1:李飞飞团队“VoxPoser”机器人大模型[x]


机器人大模型是指一种能够处理多种模态(如自然语言、图像、声音等)的人工智能模型,具备对多种任务的泛化能力和语义理解能力。机器人大模型可以用于机器人领域的各种任务,如规划、控制、导航等。机器人大模型使机器人能够从网络数据和机器人数据中学习,并将这些知识转化为通用的机器人控制指令。机器人大模型的研究是近年来多模态大模型领域的重要方向之一,也是实现通用人工智能的一个重要方向。“RT-2”是DeepMind提出的一种新型的视觉-语言-动作(VLA)机器人大模型[xi],它能够从网络数据和机器人数据中学习,并将这些知识转化为通用的机器人控制指令。其特点是能够利用网络数据中的丰富信息,提高机器人的泛化能力和语义理解能力,使其能够处理以前没有见过的对象、环境、任务和情况,RT-2还能够进行链式思维推理,即根据多个步骤分解问题,并根据上下文选择合适的动作。机器人大模型的发展正如火如荼,斯坦福大学李飞飞教授前不久公布了他们在具身智能方向上的研究成果“VoxPoser”,他们将大模型接入机器人,把复杂指令转化成具体行动规划,无需额外数据和训练,便可引导机器人完成复杂的指令动作如清扫垃圾,打开抽屉等。该模型实现了对未见指令的零样本泛化,从而适应多种复杂任务。“VoxPoser”同样具备了思维链式推理功能,对比RT2,研究团队使用了更丰富的机器人演示数据和基于GPT-3的自然语言大模型训练他们的模型,因此该模型能够利用网络数据中的丰富知识和多样性实现更加复杂多样的任务。机器人大模型提升机器人的感知能力,使机器人可以处理多种类型的输入,如图像、视频、语音、文本,这使得智能机器人可以更好地理解和完成任务。同时,机器人大模型增强了机器人的学习能力,根据不同的数据和任务,调整自身模型的参数和结构,这使得智能机器人可以更好地从自己的经验和外部的知识中学习和进步,适应不断变化的环境和挑战。


图2:智能机器人的行为范式OODA


基于上述成果,大模型可以带给机器人更加灵活的交互方式;更好的对于物理环境的通识理解;更优的少样本甚至零样本的学习效果;更强的场景泛化能力;某些垂直领域上更出色的性能。特别地,可以通过以人熟识的方式向机器人下达任务,机器人在大模型的帮助下,理解需要去完成的任务,拆分子任务和动作,生成底层规控指令,并根据任务的执行效果进行改善和修正,极大的辅助了机器人的自主运行。



“决胜之机”:智能机器人距离行业可用还有多远


然而,现有的智能机器人是否能够符合“行业可用”甚至是“行业好用”的要求,仍然还存有许多的关键问题需要进行讨论和解决。


现有的大模型在通识理解,以及小样本、零样本学习方面的能力,更适合相对来讲比较粗线条的任务级规划,指挥机器人完成动作,但很少能做到端到端优化到机器人的动作级乃至伺服控制级的指令。同时,人工智能生成的任务级规划还存在着不够完备和安全的可能,也存在模型输出是否足够安全、足够鲁棒,符合应用场景的规范甚至法律伦理的问题。


在机器人对外界环境的感知层面,对不同的垂直领域,大概率会采用基于基础模型深度结合行业知识的方式,相较于大模型使用付出的代价,能够带来的性能增益并不相同,甚至是否能够比专用模型取得显著的性能提升,也有较大的差别。


另外,目前还少有将感知、决策和执行整个链路打通的端到端模型,真正做到从机器人多传感器的环境感知到任务规划和控制执行。尤其是从感知、决策到执行的高质量数据集由于涉及机器人终端和物理环境,相较于互联网数据以及视觉数据,数量十分匮乏,且数据的收集非常困难。数据闭环的收集方法,是否存在借助模拟器等工具自动化生成机器人训练数据的可能,也是需要探讨的关键点。


更为基础的层面,从模型方法的层面,强化学习、观察学习是否能够对机器人的行业可用和场景落地,产生实质性的巨大推动。机器人的硬件设计方面,模块化设计和可扩展性、柔性和变形设计和硬件设计等,也将为机器人在各个领域的发展提供助力。感知和决策算法的实时性也应当得到关注。感知层面上,如何构建一个多模态感知系统,融合多维传感数据,对周围环境进行精准和鲁棒的感知,并使得感知算法具有一定程度上的普遍的适应性,也是关键。



“前景光明”:智能机器人迈向行业可用空间广阔



随着人工智能技术,尤其是基础模型、多模态人工智能等新技术,带来的智能化能力进步甚至是涌现,为智能机器人解决现实行业中的实际业务需求并发挥更大的赋能作用提供了空间和可能。我们认为,不论是行业场景还是消费场景,智能机器人和智能化装备作为生产生活的重大补充这一趋势已不可逆转,应用空间十分广阔。


然而现有智能机器人控制的核心部件、操作系统、底层架构并未随着机器人智能化程度的提升出现新的演进,更未与智能感知产生有效的协同并发挥出额外的增益;同时,智能机器人距离能够高效解决行业中的刚需难题、可信可靠地完成作业任务仍然存在着很大的距离。伴随着智能机器人在医疗、教育和社交领域的应用增加,我们需要考虑到伦理原则和价值观,以确保机器人的决策和行为是符合道德和法律标准的。最后,人们对于智能机器人的接受度和态度会影响其广泛应用,改变人类观念和提高智能机器人的可接受性同样面临着诸多难题。机器人如何与人类协同工作,以及机器人在教育、娱乐和日常生活中的角色,还需要考虑社会文化和心理学因素。


综上所述,本论坛旨在聚焦上述难题,讨论智能机器人迈向“更智能”、“更柔性”、“更实用”的技术挑战和演进路径,促进智能机器人技术的创新和应用落地,为智能机器人真正实现行业规模应用提供有力支持,也欢迎对此感兴趣学术界和产业界各位专家和朋友共同讨论和参会指导。