成员自1984年以来

了解更多

AIA - 推进的视觉+成像已转变为促进自动化协会,愿景+成像,机器人,运动控制和工业AI产业的领先全球自动化贸易协会。

内容提交:

行业:
N / A.

应用:
其他其他

面部和手势跟踪应用程序的信号视觉信号正面

发表于02/10/2020.

作者:Dan McCarthy,特约编辑

虽然在过去的30年里,计算机已经变得彻底智能,但他们没有更加了解。他们仍然很大程度上依赖于人类迈向参与的第一步。Siri,Alexa和其他计算机化的语音助手尽管如此,大多数人机互动(HCI)仍然涉及数十年的技术:鼠标,键盘,触摸屏。但是,虽然语音助手为我们提供了一种与计算机,面部和手势识别技术进行了一种新的方式,但是承诺扩大计算机如何与我们互动。

虽然若干技术使计算机能够“查看”人类特征和手势,但计算机愿景可能是这一部门的驱动力。该研究公司Marketsand Markets预测,全球面部识别技术市场将超过2019年的32亿美元至70亿美元至2024美元,以16.6%的复合年增长率(CAGR)。

该公司分别跟踪姿态识别,并将其在2017年至2022年的CAGR成长为29.63%,该公司预测,市场将达到近190亿美元。这些数字拼写了基于视觉的深度传感技术的显着增长机会,尤其是那些找到最小化系统成本和足迹的方法的机会。

与3D摄像机的脸部现实

面部识别通常与安全应用程序相关联,这些应用程序旨在从大量人脸数据集中区分个人,这些数据集要么是结构化的(如执法数据库),要么是非结构化的(如拥挤的机场)。但在人机交互的背景下,比如让智能手机能够正确识别主人,面部识别可以采用相对简单的嵌入式成像技术。

关键字是“适度”。三星Galaxy Note 8是首款将面部识别作为一项有用的安全功能集成在一起的智能手机,利用设备内置的图像传感器构建用户面部的二维图像地图。然后,它将这些细节与嵌入的红外虹膜扫描传感器的数据结合起来。尽管采用了双传感器设计,但在Note 8上市后,一群黑客很快证明,其2D面部识别传感器可能会被5米外200毫米镜头的数码相机捕捉到的图像欺骗。

苹果公司的Face ID系统——部署在该公司的iPhone X系列上——采用了一种更安全、但更昂贵的3D方法。它利用红外摄像机、深度传感器和点状投影仪来绘制用户脸上的3万个点。然后,嵌入式软件会创建一个人工3D扫描,而这要比用照片进行黑客攻击困难得多。小米、OPPO和华为的智能手机型号也采用了类似的3D扫描方法,使用红外发射器创建面部的点云。

它应该是毫不奇怪地看到这么多的中国手机制造商倾向于更安全的3D技术,作为中国公民越来越多地依赖于他们的手机进行点销售购买。事实上,面部识别已经超越了手机在中国,越来越多的公民可以购买商品,购买地铁票,或入住酒店,只需通过显示他们的脸。这样的应用程序还没有扎根在西方。但正如我们在12月强调的那样,太平洋这一方面的零售商和营销人员正在利用基于视觉的面部认可来聚集商业智能,并实现独特的客户体验。

骨架跟踪

而面部识别(通常)的静态捕获的图案进行比较,以静态存储的模式,手势识别系统必须工艺复杂动态人体运动。这种系统的范围从通过控制器手套在微软的Kinect系统为Xbox的静脉传达到全身骨骼跟踪跟踪固定的手势。现在已不存在,Kinect的象征保持在其基本架构基于视觉的手势识别系统。它捕捉的3D运动通过一个VGA照相机,基于近红外发射器的深度传感器和单色CMOS传感器的应用。

今天,大多数基于视觉的骨骼追踪工作继续建立在红外光和深度传感器上,以捕捉人类四肢的关节点以及它们彼此之间的相对位置。使用任何类型的深度摄像机都可以使骨骼跟踪系统消除重叠或闭塞物体或四肢之间的歧义。它还减少了不同照明条件的影响。然后,图像分析软件可以在所有识别的关节之间画线,形成一个动态运动的整体。骨骼追踪不需要应用于全身。它可能专注于单手手指的运动。

显然,系统复杂性,计算和功耗都与骨骼系统必须跟踪的比例均比成比例,这在嵌入了紧凑的消费电子设备中嵌入手势跟踪时构成了挑战。作为响应,半导体供应商正在设计高速ASIC或DSP芯片,该芯片集成了芯片电平的跟踪软件。

但即使是如今智能手机上的2D传感器也已被证明能够用于基本但有用的手势跟踪应用程序。

在三个维度跟踪

三星SelfieType项目在今年的消费电子展(CES)与启示的S10智能手机的10万像素的前置摄像头和本地计算机芯片就足以使一个无形的投影机键盘上了报纸头条。本质上,手势识别应用,SelfieType让你支撑你的手机像马上在它前面的任何平面上显示,然后在“类型”,好像有一个QWERTY键盘在你的指尖。这款手机的摄像头和一个专有的AI引擎将您的手指运动转换成文本。

作为引人注目的SelfieType是,基于视觉的手势识别的大部分开发商继续向银行长期的3D深度感应或者基于结构光,立体成像,或时间飞行技术。所有杠杆近红外光源,以支持不同的光照条件下,并且最一体化的带通滤波器只允许IR发射的特定波长到达检测器以增强图像。

为手势跟踪和其他应用而设计的深度传感器已经开始出现在智能手机上。大多数情况下,这依赖于立体技术,通过比较两个嵌入式传感器捕获的图像数据的差异,在逐像素的基础上解决图像深度问题。但索尼、LUCID/Helios和其他公司的更复杂的飞行时间技术开始出现在三星、OPPO、Honor和LG的高端智能手机上。

手势识别也是在汽车应用中发现的牵引力。Sony’s DepthSense time-of-flight (ToF) sensors, for example, now power the gesture recognition features inside the BMW 7 Series, allowing drivers to raise or lower radio volume, accept or reject phone calls, set the navigation for home, and exercise other controls.

在在CES另悉,Cerence显示它的驱动平台,基于视觉的系统,旨在提升驾驶体验。除了面部识别过于供电,也就是说,识别特定的用户,当他们爬上驾驶座和拨号自己喜欢的播放列表,系统还跟踪眼球运动,手势和语音命令来控制流。司机可以一览无余地一面,例如,说:“关闭所有窗口”,或点车外的一个里程碑,并要求它从车辆的语音助手的更多信息。

拇指为愿景

使计算机能够识别和跟踪人类功能仍然提供比利润更具承诺。除了这里列出的申请外,研究人员还探讨了增强和虚拟现实系统,外科剧院,工业自动化和航空航天和防御的无情控制的潜力。

在硬件方面,视觉组件已经提供了许多应用程序的成功的坚实基础,尤其是供应商继续开发更具成本效益,结构紧凑,提高分辨率和景深传感器。的限制因素 - 特别是用于手势跟踪 - 可归结为计算功率需要执行复杂的图像分析,运动建模,并需要精确地解释人类姿势模式识别。然而,由于视觉工程师继续发展他们的神经网络和深度学习的理解,他们将很好地帮助解决这些挑战。