您的位置:首页 >智能识别 >

机器人时代,座舱的人机交互发展趋势是什么?

2022-04-07 10:48:10    来源:中国汽车报网

智能汽车是机器人的第一形态,对应的智能座舱也引领了机器人时代人机交互发展的新方向。历史上,每一次交互方式的改变,都重塑了智能设备的产业格局。正如DOS转向Windows时代带来的产业巨变一样,人机自然交互打开了一道通向新产业的大门。

人机自然交互将改变我们对待智能汽车、泛机器人和人工智能的态度。人类最重要的发明是创造了语言体系,用于人与人的交互,带来人类文明;今天,人机自然交互可能是下一个基石性发明,其与机器的自主决策强结合,将带来机器文明,重塑人与机器的关系,对我们的社会工作方式及生活方式等方面将产生深远的影响。

人与机器的交互方式发展趋势是什么?

座舱的人机交互未来将走向何方?这个问题的答案,可能需要从智能设备的发展历史中去寻找。

计算机行业是人机交互技术发展的起源。实际上,人机交互一开始不叫HMI,而是HCI,即Human–Computer Interaction。PC的发展史广为人知,下图是一个简单的发展阶段划分:

最开始是DOS系统加上键盘,命令行界面的操作需要非常高的专业技能,只有少数专业人员才能使用。鼠标与Windows操作系统的出现改变了一切,让PC用户呈爆炸性增长。接下来,触控成为更简单直接的操作方式,出现了Surface这样的平板电脑。而微软小娜则代表了最新的交互方式,我们可以用语音这种更加自然的方式与机器交互。

PC和手机的发展史折射出机器与人交互方式的发展脉络,那就是从复杂走向简单;从抽象操作走向自然交互。未来最重要的人机交互趋势是机器从被动响应走向主动交互。

顺着这样一个趋势的延长线去看,人机交互的终极目标,就是让机器拟人化,可以说:人机交互的发展历史,是从人适应机器到机器不断地适应人的发展史。

智能座舱的发展也经历了类似的过程:

多模交互是下一代人机交互方式的理想模型,什么是多模交互?简单说,就是利用手势、眼球跟踪、语音等方式来进行交互。这里的模态类似于人的“感官”,多模态即是将多种感官进行融合,对应人视觉、听觉、触觉、嗅觉、味觉五种感官。

但多模交互的命名太过技术化,我更愿意将其称之为:自然交互。

例如手势,可以说是原生的“鼠标”,不同的手势能够表达丰富的语义。

自然交互实现方式是什么?

智能汽车本质上是载人机器人,机器人最重要的两项能力是自主决策能力和人机交互能力,缺乏其中任何一项,就无法有效地为人类服务。因此打造智能的人机交互能力是其必选项。

如何衡量人机交互的智能化程度呢?我的一个思考是使用图灵测试,即机器能否在交互行为的表现上和人无法区分。

如何实现自然交互呢?传感器、算力和算法缺一不可。下图做了一个直观的展示:

座舱内会融合越来越多的传感器,一方面会使座舱内算力需求不断飙升,座舱里的AI算力需求将上升到30 TOPS以上,甚至百TOPS级别的水平。另一方面也提供了更好的感知能力支撑。

AI计算能实现人脸、表情、手势、语音等多信息的感知,从而实现更加智能的人机交互。座舱人机交互的计算必须依赖边缘计算,而不是云计算来实现。因为三点:可靠性、实时性和隐私保护。

个人隐私保护可能是我们这一代人在AI时代面临的最大挑战之一,座舱内的私密空间,隐私保护问题更加突出。今天的语音识别,绝大部分仍然是在云端进行的,其中的声纹等生物信息可以轻易暴露个人身份。通过在车端进行边缘AI计算,可以将视频、语音等个人生物信息去除,转化为语义信息,再上传到云端,可以有效保护车内个人数据隐私。

自动驾驶时代,交互智能必须跟驾驶智能相匹配

在可以预见的未来,人机共驾都会是长期存在的状态,座舱内的人机交互是人了解自动驾驶能力的第一界面。

当前智能汽车技术存在进化不均衡的挑战,人机交互能力落后于自动驾驶能力的发展,导致自动驾驶事故频发,影响了自动驾驶的普及。

人机共驾的特点是人在驾驶回路中(Human In the Loop),因此,人机交互能力必须跟自动驾驶能力相匹配,否则带来严重的预期功能安全问题,几乎所有的自动驾驶致命事故都与此有关。即使不发生事故,对自动驾驶状态的不了解也会让人产生严重的恐慌和焦虑。

例如,自动驾驶系统在实际驾驶工况中,经常出现“鬼刹车”的情况。如果人机交互界面能够显示自动驾驶的感知结果,司机就可能会明白系统误判是由于把路上的一个易拉罐识别成了一辆车导致的。

为什么特斯拉把越来越多的自动驾驶感知结果展示出来,背后的出发点就是这一原因。随着自动驾驶的能力越来越强,用户将越来越关注自动驾驶系统在虚拟3D环境中呈现的过程和状态。

人机交互与自动驾驶相辅相成,其具体作用如下图所示:

人机交互与自动驾驶相辅相成

例如,未来更为人性化的泊车应该是人车共泊的,包括人对车的接管和车对人的接管,比如车遇到困难路况,可能会说我不太有把握,请求接管。再比如人迟迟停不进去,AI算法推荐是否开启自动泊车。

这种舱泊一体的方案能提升智能座舱交互和泊车的整体体验,还能大幅节省硬件成本:通过分时复用AI芯片的资源,可以同时满足座舱感知与APA泊车感知的需求,从而为行业提供高性价比方案,也可让智能化下探到更多中低端车型。在国内,地平线和映驰科技合作,正在推进这一方案开发。

当前,智能座舱的交互方式主要还是手机安卓生态的延伸,主要由实体屏幕来支撑。今天屏幕越变越大,甚至达到60寸,这实际上是用低优先级的功能占据了高优先级功能的空间,还带来额外的信息干扰,容易让人分心,影响驾驶安全。

实体屏幕在未来依然会存在,但我有一个判断,未来,实体屏幕和触控将不再是座舱交互的中心,取而代之的是自然交互+AR-HUD,下面我们做进一步分析。

第一个原因:面向自动驾驶的人机交互属于温饱问题,是刚需,属于安全域,有最高优先级;面向音乐、游戏和舒适性的人机交互是小康需求,属于娱乐域,在实现了前一阶段任务后才能有足够的施展空间。

下图对两个域的功能做了简要的分析总结。

因此,未来座舱内娱乐域和安全域(人机交互和自动驾驶)的定位会调过来,安全域会成为主控制域。

第二个原因:自然交互方式+AR-HUD的交互界面更加安全,例如通过语音和手势交流,可以避免驾驶员视线偏移,从而提升驾驶安全。而座舱的大屏是无法做到这一点的,相比之下,AR-HUD可以做到在显示自动驾驶感知信息的同时避免了这个问题。

第三个原因:自然交互方式是隐形的、简约的、更加情感化的交互方式,不会过多地占用车内宝贵的物理空间,但却可以做到随时陪伴在身边,给予驾驶员及乘客更多的信任感、安全感。

综合以上分析,未来智能驾驶和智能座舱的跨域融合是较为确定的发展方向,最终诞生的就是车载中央计算平台。

当前发展阶段、前沿实践以及挑战

目前,座舱的语音识别基本已经普及,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达98%以上。

DMS正在急速普及,预测至2030年装备车内摄像头的车型占比将超过50%。

DMS普及势头迅猛

下一步将是语音+手势+眼球跟踪+AR-HUD交互界面的组合,这是对应于L3+级别自动驾驶的智能交互方式。业内领先的车企已经开始布局,如下图所示。

中国自主品牌在这一块的实践基本上跟国外领先品牌是并驾齐驱的,从迭代速度上看还要更快。2020年,长安推出UNI-T车型, 包含多项主动服务。比如:如果你正在接听电话,系统会自动降低多媒体音量;再比如,当车机中控屏处于熄屏状态时,注视屏幕一秒即可唤醒屏幕。该方案搭载了地平线的征程2芯片,支持通过语音、动作姿态、面部表情等指令的交互。

理想中的自然交互目标是从用户体验出发,需要提供稳定、流畅、可预期的交互体验。但理想再丰满,也得从骨感的现实起步,当前挑战依旧众多。

例如,当前自然交互的误识别情况依然严峻,全工况、全天候的可靠性和准确率还不够。比如手势识别,也许你不经意间动一下手势,就会被误识别为一个命令动作,这只是无数种误识别情况之一,在移动状态下,光照、震动、遮挡等等都是巨大的工程挑战。自然交互的流畅度也是亟待解决的问题,这需要更高性能的传感器、更强大的算力和高效算法来逐渐改善。而同时自然语言理解(NLP)和意图理解依然处于早期阶段,还需要算法理论创新。

总结

在当下激烈的行业竞争中,智能座舱已经成为整车厂实现功能差异化的关键一招,座舱人机交互与人的沟通习惯、语言文化等密切相关,因此必须是高度本地化的,智能座舱人机交互是中国智能汽车公司品牌向上的重要突破口,更是中国智能汽车技术引领全球技术潮流的突破口。

智能座舱产业链将持续延伸,会有更多玩家进入到智能汽车这个大生态中,智能汽车玩家也会跨界进入更多的机器人领域,未来智能座舱生态圈发展主题将围绕“生态协同”与“跨界延伸”展开。这场科技革命将产生颠覆性影响,不仅将开启一个全新的产业生态,更对我们的社会工作方式及生活方式等方面产生深远的影响。(作者为地平线生态发展与战略规划副总裁李星宇)

关键词: 机器人时代 人机交互 发展趋势 智能设备

相关阅读

精彩推送