扫码打开虎嗅APP
本文来自微信公众号:学术头条(ID:SciTouTiao),作者:XT,编审:寇建超,原文标题:《现实版头号玩家!科学家突破VR应用瓶颈,实现高精度视觉惯性手部运动跟踪》,头图来自:视觉中国
近年来,虚拟手在 VR 游戏等领域得到了广泛的应用,开发者们不断探索用逼真的虚拟手实现基于手势识别的交互运动,但想要让用户充分感受真实运动的逼真感还存在许多技术难题。
当前,在虚拟/增强现实(VR/AR)领域,大多数追踪手部动作的最先进技术缺乏足够的准确性。
那些依赖于视觉检测的跟踪设备在黑暗环境中或有障碍物阻挡视线的情况下会无法工作,而那些依赖于基于速度和力计算位置的惯性测量单元(IMU)更是容易受到电磁干扰。同样,一些由软传感器组成的设备也不能总是区分出手何时在做动作、何时触摸会导致物体变形。
近日,来自韩国首尔大学、美国斯坦福大学和三星电子的科研团队,就通过紧密耦合的方式将视觉传感器和 IMU 融合,克服了这些限制并设计出了一个新的视觉惯性骨架跟踪(VIST)框架。
视频|3D 无人机群控制。用户可以通过简单地推动无人机群或快速定义 3D 虚拟墙来有效地控制复杂的 3D 群体行为,以避开危险区域,这些操作很难依靠传统的 2D 平板电脑界实现。(来源:该论文)
据论文描述,该框架由一个配备传感器的手套和头戴式摄像机组成,是一种准确、经济、便携、甚至可清洗的跟踪系统,能够结合视觉和力的测量准确跟踪人体手和手指的运动,准确跟踪一些在现实环境中受障碍物影响而难以检测的运动。此外,研究人员也展示了这一新跟踪系统应用于 VR、假肢,户外无人机群等各个领域的潜力。
一种十分友好的人机交互
人类可以很轻松地使用双手完成一些运动控制,如果可以将人体手部的灵活性复制到 VR/AR 场景中,例如通过拟人化机器手的触觉反馈来完成复杂的远程操纵任务,将显著提高人机交互(HRI)应用的效率、直观性和丰富性。
实时交互性是指用户对模拟环境中物体的可操作程度和从环境得到反馈的自然程度。交互性的产生,主要借助于 VR 系统中的特殊硬件设备(如数据手套、力反馈装置等),使用户能以自然的方式产生与在真实世界中一样的感觉。VR 系统比较强调人与虚拟世界进行自然的交互,交互性的另一个方面主要表现了交互的实时性。
在 VR/AR 和人机交互的用户体验中,对手部(包括手指)的追踪是一项关键技术。目前用于解决手部追踪问题的方法主要有以下 3 种:
基于视觉的手部追踪。使用相机来追踪没有标记的手部运动,同时利用大型图像数据集训练的机器学习技术,但该方法存在无法规避遮挡的问题;
基于惯性测量单元(IMU)/罗盘的可穿戴手部追踪。通常使用的传感器包括六轴 IMU(即加速度计和陀螺仪)和罗盘(即磁力计)。这种方法从根本上说容易受到磁场变化或干扰的影响,受铁磁性物体或电子设备干扰严重;
软性可穿戴手部追踪。使用一些软性传感器,检测每个传感器变形产生的信号,将传感器包裹在手的周围,用额外的手部姿势传感器来估计手的配置。这种方法无法区分运动引起的变形和接触引起的变形,使其不适合于用户需要处理物体/工具或佩戴触觉设备的应用。
此外,纯磁跟踪器、外骨骼跟踪等方法均存在一定的技术和应用局限性。为此,研究人员提出了一个视觉惯性骨架跟踪(VIST)系统及其相应算法,用于准确、稳健、经济实惠的手部跟踪,克服了这些手部追踪方法的技术局限。
图|VIST 的系统配置和可能的应用(来源:该论文)
VIST 系统的关键创新之一是,以紧密耦合(TC)的方式融合了视觉和惯性传感器,对于视觉传感器没有检测到的物体,惯性传感器都会作辅助估计,反之亦然:而惯性传感器没有检测到的动作也会由视觉数据作一补充,TC 融合方法使得 VIST 算法在手部追踪上表现出更高的稳健性。VIST 架构的一些重要优势主要为:
与其他最先进的方法相比,由于 TC 视觉-惯性融合和自动校准,跟踪精度更高;
对闭塞、视觉复杂/变化的环境和环境照明的稳健性;
对电磁干扰和模糊的机械接触的鲁棒性,从而使得操作物体和佩戴设备成为可能;
方便实时校准/自动校准解剖学/手套运动学参数,并纳入 VIST 算法;
在可清洗方面表现出的坚固性,在手套材料成本方面的可负担性,还可以使用头戴式显示器(HMD)的摄像头和计算,重量较轻,可穿戴性强。
显著提高跟踪精度和用户便利性
在手部追踪系统中,对手部的建模是一个关键步骤。在该研究中,人手被建模为分段关节骨架模型,并选择手背和在日常生活中起关键性作用的三个手指(拇指、食指和中指)作为目标跟踪段。
图|VIST 的建模与流程(来源:该论文)
为了获得目标跟踪段的视觉和惯性信息,研究人员设计了一个传感器手套,手套分两层:带有 7 个 IMU 的手套内层,带有 37 个视觉标记的外手套层 ,视觉标记具有 4 种不同颜色(红色、蓝色、绿色和黄色),手套上还有一个头戴式立体摄像机。同时,研究人员还开发了一种基于滤波的视觉惯性手部跟踪算法,该算法主要包括对视觉信息的提取以及视觉惯性手部运动的估计,通过将 IMU 信息与提取的视觉信息和手部解剖约束融合处理,来估计手部运动。
图 | 未使用视觉和惯性信号融合处理的方法得到的跟踪效果(有许多异常值,检测精度不稳定)
图 | 使用视觉和惯性信号融合处理的方法得到的跟踪效果(利用 IMU 信息进行鲁棒匹配)
视觉信息的提取主要包括对原始图像中的标记检测、左右立体匹配和 IMU 辅助的对应搜索三个过程,在数据融合处理过程中使用 IMU 信息进行手部运动预测,再利用视觉信息进行校正,然后对手部作解剖约束进行校正。由于使用视觉惯性融合对关节段的运动相关状态进行实时校准和自动校准,与其他系统相比,该研究设计的 VIST 系统可以显著提高跟踪精度和用户便利性。
VIST 算法的高鲁棒性
另外,研究人员也定量评估了 VIST 系统在自由运动、对象交互和佩戴指尖皮肤触觉设备(CHD)的情况下的性能和稳健性。
每个实验招募了 15 名参与者,每位参与者被指示坐在一张被 MOCAP 摄像机包围的桌子前,并复制监视器中随机显示的手部配置。
图 | 自由运动跟踪定量评估的测试设置和结果(来源:该论文)
由于 VIST 跟踪利用了视觉信息和手部参数的自动校准,对手部大小的可变性不敏感。研究人员通过实验观察发现,VIST 算法对遮挡具有良好的鲁棒性,即使可见标记相当少,其平均误差也仅略微增加。
研究人员构建了 8 个日常对象的图像数据集,每个对象有 100 张不同手部姿势的图像,以此来定量评估 VIST 系统在对象交互和佩戴指尖皮肤触觉装置上的应用,从而评估其对严重闭塞、磁干扰和机械接触的鲁棒性。以往的研究表明,人类无法检测到 VR 中 50 毫米以下的食指尖跟踪误差,而且人类无法基于本体感觉区分 1.7 度以下的食指关节角度误差。
研究发现,该研究设计的 VIST 系统可能允许用户根据真实的手准确地感知渲染的手,且优于一些最先进的基于视觉的算法对于自由运动的跟踪,该 VIST 算法的平均误差仅为 10.69 mm。
图 | 对视觉复杂背景的定性评价(来源:该论文)
研究发现,VIST 系统在使用手钻、便携风扇、耳机壳、CHDs 等含有铁磁材料或内部电流的设备时,不仅可以保持跟踪稳定性,还可以保持其准确性。
图 | 操作工具时跟踪手势(在工厂中,操作一些工具时的手势跟踪是非常具有挑战性的)
VIST 系统在真实场景中具有强稳健性
研究人员在真实场景中对 VIST 系统进行了一些具有挑战性定性测试,在背景中使用彩色物体(杂志、水果和文具)和一幅画(阿尔勒的卧室),在视觉上与手套标记具有相似的颜色/图案。
研究表明,尽管存在视觉上对抗的物体和背景,该系统仍可以稳健地跟踪手部运动。
图|各种闭塞的定性评估(来源:该论文)
此外,通过 IMU 辅助的对应搜索,可以将标记观察结果与手套上的真实匿名标记进行稳健匹配,同时有效地消除异常值,从而即使在视觉复杂的对象和背景下,也能表现出稳定的跟踪性能。研究人员还在户外对 VIST系统的性能进行了测试。实验表明,VIST系统可以在户外稳健地跟踪手部运动,而这一点对大多数现有的系统来说是相当困难的。
户外实验不仅验证了 VIST 系统在硬件和算法方面的完全可移植性,也验证了它在户外场景的应用中具有可行性。
图 | VIST 系统户外性能测试
通过定量和定性的评估,研究发现 VIST 系统在具有挑战性的真实世界场景中运行稳健且性能高,尤其是 VIST 架构能够与具有手的大小和形状变化的不同物体进行互动。VIST 系统规避了基于视觉的系统的基本问题,在处理闭塞、泛化和缓慢的更新中均具有优越性,克服了IMU/compass-可穿戴系统的漂移或磁干扰问题,通过利用视觉信息与解剖学约束相结合,还克服了软传感器可穿戴系统的未建模接触问题。通过融合视觉和惯性传感器在 TC 融合中的互补性,VIST 系统解决了现有手部跟踪系统的基本约束,这对于正确解决手部跟踪的特殊性至关重要。
图 | VR 触觉操作中的手部跟踪结果
研究人员表示,VIST 系统的强大手部跟踪性能可能会促使其获得更广泛的应用,解决现有方法所无法企及的各种现实世界的应用场景,例如医疗康复的日常监测和工具操作技能评估等。
参考资料:https://www.science.org/doi/10.1126/scirobotics.abe1315
本文来自微信公众号:学术头条(ID:SciTouTiao),作者:XT,编审:寇建超