摘要
神经心理测试可以对各认知域受损严重程度做出客观评价,是检测疾病进展、评估药物疗效的有效手段。其中理解力测试部分通过判断受试者是否根据指令要求作出相应动作实现,是老年人认知功能障碍评估的重要部分,有利于痴呆的早预防早干预。文章提出了一套神经心理测试中理解力检测的人体姿态估计视频分析方法,基于Openpose深度卷积网络提取人体关键点坐标,随后基于图像形态学处理技术和Faster R-CNN等技术提出了纸张、牙刷等目标物体关键点二维坐标提取方法,并以量表中动作要求建立人体姿态估计数学模型。通过实验对神经心理测试的6个动作进行识别,结果表明,所提姿态估计数学模型和交互动作识别方法能够有效检测人体姿态动作指令及人与纸张的交互指令。
痴呆是一种增龄性综合征,其患病率随年龄增长而迅速上升。中国65岁以上的老年人痴呆的患病率5.14%,85岁以上增至23.66
理解力测试是神经心理测试的重要项目,通过判断受试者是否根据指令要求做出相应动作实现,是老年人认知功能障碍评估的重要部分。理解力测试包含多项人体动作测试以及和目标物体的互动测试。文献[
神经心理理解力测试包含折纸、握拳、指屋顶地板、拍肩膀、移动牙刷等指令要求。针对其特定的人体姿态识别要求及受试者与目标物体互动等问题,作者提出一种基于OpenPose的神经心理量表理解力测试方法,结合Faster R-CNN考虑目标物体的形态转变,综合建立人体姿态和目标物体的互动识别模型,完成了整套动作的评分。实验结果表明,文中提出的方法能够有效实现神经心理理解力测试中特定人体姿态识别及受试者与目标物体互动识别。
OpenPose是由卡耐基梅隆大学基于卷积神经网络和监督学习开发的C++开源库,它提供了基于COCO数据

图1 OpenPose中身体、手部和面部关键点
Fig. 1 Key points of body, hand and face detected by OpenPose
在利用OpenPose采集坐标数据的过程中,由于肢体交叉遮挡、拍摄角度、背景光线明暗等问题,获得的原始坐标数据中包含有部分置信度较低的数据和少量异常抖动数据,对数据的准确性造成影响,导致后续的姿态估计中极易出现误判的现象,所以有效的数据预处理是非常必要的。
首先,剔除置信度较低的数据,以保证采集坐标数据整体的精度;然后,针对异常抖动数据,通过中值滤波的方法消除其影响,经过多组数据验证,滤波窗口大小为11的中值滤波操作的去抖效果最好;最后,用插值的方法将剔除的数据补
由于被剔除的数据较少且不连续,所以采用分段线性插值的方法进行补全:分段线性插值函数记作,它满足
。 | (1) |
在每个区间是线性函数,可表示为
, | (2) |
(3) |
为对应的实际值,为插值基函数,保证插入值的计算仅与相邻2个节点有关。具有良好的收敛性,越大时,与实际数值的误差越小,能够较好地保证补全数据的可靠性。
由于人体姿态的变化都伴随着肢体的伸缩移动,相应的关键点之间会产生距离、角度、相对位置的变化,所以姿态识别可以通过分析人体关键点间的数学信息变化特征来实现。对预处理得到的关键点进行计算,得到坐标数据间的欧式距离、余弦角、斜率、相对位置等信息,通过分析神经心理测试理解力测试标准动作完成时以上信息的变化特征,分别设置相应的阈值或区间条件,当达到该阈值或者满足区间条件时视为实现该动作。
以完成屈肘动作为例,说明姿态估计数学模型构建及判断流程。
设分别为人体右肩、右肘、右腕关键点,如

图2 屈肘动作评分参考图
Fig. 2 Elbow flexion score
通过
(4) |
标准屈肘动作完成时和分别呈现明显的减小和增大趋势,所以设置阈值条件和;当受试者的和分别小于和大于上述相应阈值时,视为完成屈肘动作。
在神经心理量表理解力测试中,常常涉及到受试者和其他物体的交互,OpenPose仅能获得人体的关键点坐标,为了拓展OpenPose在交互动作识别中的应用,需要对交互物体进行检测和定位,结合交互物体的特点,可以将交互物体分为以下两类:第一类交互物体特征显著、动作过程中不涉及形态变化,如牙刷、鼠标等,可以使用深度学习目标检测技术对交互物体进行识别,实现交互物体的坐标提取;第二类交互物体特征提取困难、动作过程中发生形态变化,如折纸动作中的纸张,可以采用图像处理技术,利用颜色空间变换、连通域提取等方法,实现该类物体的定位和坐标提取。基于以上分析,提出了以下2种提取物体坐标的方案。
Faster R-CNN是目标检测的主要框架之

图3 Faster R-CNN整体结构
Fig. 3 Structure of R-CNN
Faster R-CNN由4部分结构组成:首先,卷积层提取输出图片特征,得到特征图;接着,通过RPN网络输出多个推荐候选区域;然后,通过ROI Pooling将不同大小的输入转化为固定长度的输出;最后,分类回归,输出候选区域所属的类及其在图像中的精确位置。
本Tensorflow Object Detection API中提供的Faster R-CNN框架和COCO数据集(包含80个类别)实现目标检测,可以将待识别物体以矩形框加置信度标注的形式框选出来,同时得到归一化后的矩形框左上角坐标和右下角的坐标,其参考坐标系与OpenPose的参考坐标系一致,如

图4 目标检测结果
Fig. 4 Target detection results
结合量表测试的需要,作出了以下两方面的改进:一方面,把归一化的像素坐标值转化为实际的像素坐标,同时用矩形框中心坐标代替物体坐标,简化分析过程,可以用
(5) |
另一方面,AD量表涉及到的交互物体中的卡片虽然不包含在COCO数据集类别中,但是由于卡片在动作过程中不发生折叠等形态变化,可以通过在卡片上绘制香蕉等COCO数据集中的物体的图案,通过检测香蕉间接实现对卡片的检测和坐标提取。
对于纸张这类物体由于特征提取困难,难以使用目标检测方法进行坐标提取,所以通常从数字图像技术的角度进行处理。传统数字图像技术中的坐标提取方法是将纸张用固定形状的矩形框定位出来,但是当纸张的形状、位置、颜色等发生变化或受到遮挡时,无法准确提取出纸张边角坐标和面积变化情况,文中提出基于图像形态学处理技术的纸张坐标提取方法,如

图5 纸张坐标提取流程图
Fig. 5 Process of the paper coordinate extraction
具体表述如下:
1)二值化处理,由于纸张区域为明显的白色,像素值接近255,合理设置[210,255]的像素阈值,消除大部分的背景干扰,但仍有人体皮肤和地面反射光线干扰的存在。
2)为了消除皮肤的干
。 | (6) |
颜色空间是一种常用的肤色检测的色彩模型,其中表亮度,代表光源中的蓝色分量,代表光源中的红色分量。人的肤色在外观上的差异是由色度引起的,不同人的肤色分布集中在较小的区域内。肤色的颜色空间平面分布在近似的椭圆区域内,通过判断当前像素点的是否落在肤色分布的椭圆区域内,就可以很容易地确认当前像素点是否属于肤色,由此滤除皮肤的影响。
3)在消除皮肤干扰后,可以发现图像中还存在部分孤立点,可以对图像进行开闭运算进行消
4)用最小矩形框将图像中最大连通域,即纸张区域框选出
神经心理测试量表中通过要求受试者完成指定动作来评估受试者的理解能力,主要要求受试者完成如下动作:1)用右手拿纸,再用双手对折,将纸放在大腿上;2)握拳;3)指屋顶,然后指地板;4)用1只手的2个手指拍每个肩膀2次;5)将牙刷放在卡片上面,然后再拿回来,将鼠标放到卡片的另一边并且将卡片翻过来。
研究基于第1章所提人体姿态识别及目标检测方法设计了如

图6 姿态识别流程
Fig. 6 Human posture recognition process
通过语音给出受试者动作指令,调用2个摄像头从不同角度同时记录受试者的动作,将记录的视频由OpenPose处理后得到人体关键点二维坐标,对所得坐标进行滤波、插值等预处理以消除数据抖动可能带来的误判,将记录的视频由图像形态学或API目标检测处理后得到纸张、牙刷等交互物体的二维坐标,对所得坐标进行平移、翻转后使之与人体关键点坐标位于同一坐标系下,最后将预处理后的坐标输入到姿态识别数学模型中,得到该动作的评分情况。
1) 用右手拿纸,再用双手对折,将纸放在大腿上。人体资态关键点。纸张。牙刷等物体关键点信息如
, | (7) |
式中:表示第个身体关键点坐标;表示第个纸张顶点坐标。

图7 人体姿态关键点、纸张、牙刷等物体关键点信息
Fig. 7 Key point information of body, hand, paper, toothbrush and other objects
折纸。当整个过程中纸张面积的最大值和最小值满足时,判定受试者完成折纸。
。 | (8) |
将纸放到大腿上:当左右手肘夹角的余弦值,都出现了先增大再减小这一过程并且此后每一帧身体关键点8与纸张顶点1的欧式距离均小于设定的阈值距离时,判定受试者完成将纸放在大腿上。
, | (9) |
, | (10) |
式中,表示身体关键点之间的欧式距离。
2) 握拳。需提取的关键点:右手关键点0、4、8、12、16、20。当某一帧右手所有指尖到手腕的欧式距离同时小于整个过程中最大欧式距离的1/2即同时满足时,判定受试者完成握拳。
。 | (11) |
3) 指屋顶,然后指地板。需提取的关键点:右手关键点0、8。当时判定受试者完成指屋顶;当时判定受试者完成指地板。
, | (12) |
式中:表示食指指尖与手腕在y方向的相对位置;表示食指指尖与手腕两点连线的斜率。
4) 用1只手的2个手指拍每个肩膀2次。需提取的关键点:身体关键点2、3、4、5;右手关键点0、4、8、12、16、20。拍左肩:当某一帧右手手腕到左肩的欧式距离小于设定的距离阈值并且右手肘、右手腕、左肩3点共线即满足时,判断受试者完成拍左肩动作。拍右肩:当右手肘和右手腕的连线近似垂直并且右手手腕到右肩的欧式距离小于设定的距离阈值即满足条件时判断受试者完成拍右肩动作。
, | (13) |
。 | (14) |
5) 将牙刷放在卡片上面,然后再拿回来。当牙刷与卡片的横坐标之差先减小后增大并且前后的符号相同时,判定受试者完成该动作。将鼠标放到卡片的另一边并且将卡片翻过来:当的正负发生变化情况即可判定受试者将鼠标放到了卡片的另一边。卡片正面和背面分别印有苹果和香蕉的图案。当苹果的坐标消失,香蕉的坐标出现时,判定受试者完成将卡片翻过来。
, | (15) |
式中:为卡片的横坐标;为牙刷的横坐标;为鼠标的横坐标;代表鼠标与卡片的相对位置。
本实验的硬件系统主要由2个像素为800万,最高分辨率为3 264×2 448的摄像头构成,其中一个摄像头用于正面拍摄,另一个摄像头用于俯视拍摄。软件系统主要由OpenPose1.3.0和Opencv-Python3.4.5构成。根据AD量表中指定受试者完成的动作的特点,调用相应的摄像头记录受试者完成的动作,将该视频交由OpenPose1.3.0和Opencv-Python3.4.5处理后分别得到每一帧(1秒30帧)人体关键点的二维坐标和交互物体(如纸张等)的二维坐标。将得到的二维坐标经数据预处理后输入到姿态识别模型中,输出受试者该动作的完成得分情况。
由于OpenPose在提取人体关键点二维坐标时可能出现的出现跟丢、跟错等情况,得到的坐标置信度较低,进而有可能造成姿态误判,故需要对获取的坐标进行预处理操作。如

图8 姿态误判示意图
Fig. 8 Human posture misjudgment
如
滤波前后 | 帧 | x | y | 置信度 | |
---|---|---|---|---|---|
滤波前 | 42 | 674.65 | 752.97 | 0.36 | 19.40 |
43 | 652.19 | 691.78 | 0.09 | 2.58 | |
44 | 658.87 | 756.15 | 0.43 | 16.20 | |
滤波后 | 42 | 674.65 | 752.75 | — | 19.40 |
43 | 666.76 | 754.56 | — | 7.10. | |
44 | 658.87 | 756.15 | — | 16.20 |
为了验证所建姿态识别模型的准确度,本部分测试了神经心理测试的所有指令。实验结果将对“用右手拿纸,再用双手对折,将纸放在大腿上”这一动作的识别结果进行详细分析,

图9 姿态识别过程
Fig. 9 Human posture recognition
右手手腕到纸张的欧式距离()如

图10 右手手腕到纸张的欧式距离
Fig. 10 Distance from the wrist of the right hand to the paper
纸张面积()变化如

图11 纸张面积变化
Fig. 11 Changes of paper in size

图12 左右手肘夹角余弦变化情况
Fig. 12 Cosine value of the wrist

图13 纸张到身体关键点的欧式距离
Fig. 13 European distance from paper to body key points
实验结果出现了小于设定的距离阈值,但手肘夹角余弦值未出现先变大再变小这一过程,说明受试者完成折纸后,纸张位于大腿的正上方,此时还未将纸张放到大腿上。若手肘夹角余弦值出现先变大再变小这一过程后,大于设定的距离阈值,则受试者可能将纸放在大腿的旁边或者其他位置,此类情况判定受试者未完成该动作。
“握拳”“指屋顶然后指地板”“将牙刷放在卡片上面,然后再拿回来”“将鼠标放到卡片的另一边并且将卡片翻过来”“用1只手的2个手指拍每个肩膀2次”5个动作的识别情况进行分析,识别结果如
识别动作 | 提取对应坐标 | 完成情况 | 得分 |
---|---|---|---|
握拳 |
![]() |
![]() | 1 |
指屋顶然后指地板 |
![]() |
![]() | 1 |
将牙刷放在卡片上面,然后再拿回来 |
![]() |
![]() | 1 |
识别动作 | 提取对应坐标 | 完成情况 | 得分 |
将鼠标放到卡片的另一边并且将卡片翻过来 |
![]() |
![]() | 1 |
用1只手的2个手指拍每个肩膀2次 |
![]() |
![]() | 1 |
2
进一步,选取老年受试者对文中所提方法进行了相关测试,测试过程如

图14 老年人姿态识别测试过程
Fig. 14 The test process for the elderly
针对量表中理解力测试部分提出一套基于OpenPose的人体姿态估计视频分析系统,辅助传统人工AD诊断流程。利用OpenPose获取了人体关键点坐标,基于图像形态学处理技术和Faster R-CNN等技术提出对纸张、牙刷等指定目标二维坐标提取方法,针对量表中的具体动作建立人体姿态识别数学模型,通过实验验证了模型的准确性和可靠性。
参考文献
Jia J P, Wang F, Wei C B, et al. The prevalence of dementia in urban and rural areas of China[J]. Alzheimer's & Dementia, 2014, 10(1):1-9. [百度学术]
Wasenmüller O, Stricker D. Comparison of Kinect V1 and V2 depth images in terms of accuracy and precision[C]. Asian Conference on Computer Vision Workshop. Springer, 2016, 34-45. [百度学术]
Wang W J, Chang J W, Haung S F, et al. Human posture recognition based on images captured by the Kinect sensor[J]. International Journal of Advanced Robotic Systems, 2016, 13(2): 54. [百度学术]
Hsu S C, Huang J Y, Kao W C, et al. Human body motion parameters capturing using kinect[J]. Machine Vision and Applications, 2015, 26(7): 919-932. [百度学术]
李昕迪, 王云龙, 何艳, 等. 基于Kinect的人体单关节点修复算法研究[J]. 自动化技术与应用, 2016, 35(4):100-102, 124. [百度学术]
Li X D, Wang Y L, He Y, et al. Research on the algorithm of human single joint point repair based on Kinect[J]. Techniques of Automation and Applications, 2016, 35(4), 100-102, 124.(in Chinese) [百度学术]
沈秉乾, 武志勇, 贺前华, 等. 人体姿势状态判决的跌倒检测方法[J]. 计算机应用, 2014(Z1):223-227, 264. [百度学术]
Shen B Q, Wu Z Y, He Q H, et al. Falling detection method based on human body posture judgment[J]. Journal of Computer Applications, 2014(Z1): 223-227, 264. (in Chinese) [百度学术]
汪大峰. 视频监控中跌倒行为识别[J]. 电子设计工程, 2016, 24(22): 122-126. [百度学术]
Wang D F. Abnormal behavior recognition of fall in surveillance video[J]. Electronic Design Engineering, 2016, 24(22):122-126. (in Chinese) [百度学术]
张程, 祝凯, 赵德鹏, 等. 基于人体骨架的跌倒行为识别研究[J]. 电子技术与软件工程, 2020(23): 85-86. [百度学术]
Zhang C, Zhu K, Zhao D P, et al. Fall behavior recognition based on human skeleton[J]. Electronic Technology & Software Engineering, 2020(23): 85-86. (in Chinese) [百度学术]
唐心宇, 宋爱国. 人体姿态估计及在康复训练情景交互中的应用[J]. 仪器仪表学报, 2018, 39(11): 195-203. [百度学术]
Tang X Y, Song A G. Human pose estimation and its implementation in scenario interaction system of rehabilitation training[J]. Chinese Journal of Scientific Instrument, 2018, 39(11): 195-203. (in Chinese) [百度学术]
王怀宇, 林艳萍, 汪方. 基于OPENPOSE的三维上肢康复系统[J]. 机电一体化, 2018, 24(9):31-37. [百度学术]
Wang H Y, Lin Y P, Wang F. Three-dimensional upper limb rehabilitation system based on OPENPOSE[J]. Mechatronics, 2018, 24(9):31-37. (in Chinese) [百度学术]
白敬, 宋爱国, 李会军, 等. 基于工作空间测量的居家脑卒中患者上肢康复训练评估系统[J]. 仪器仪表学报, 2018, 39(4): 74-81 [百度学术]
Bai J, Song A G, Li H J, et al. Upper extremity rehabilitation training and assessment system for home stroke patients based on workplace measurement[J]. Chinese Journal of Scientific Instrument, 2018, 39(4): 74-81. (in Chinese) [百度学术]
徐彬, 郑燕萍, 曹高兴. 面向无人驾驶的行人三维姿态估计方法[J]. 科学技术与工程, 2018, 18(34): 85-91. [百度学术]
Xu B, Zheng Y P, Cao G X. 3D pose estimation method of pedestrians for driverless vehicles[J]. Science Technology and Engineering, 2018,18(34):85-91. (in Chinese) [百度学术]
Qiao S, Wang Y, Li J. Real-time human gesture grading based on OpenPose[C]. International Congress on Image and Signal Processing. IEEE, 2017:1-6. [百度学术]
Cao Z, Simon T, Wei S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:7291-7299. [百度学术]
Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]. In European Conference on Computer Vision. Springer, Cham: 740-755. [百度学术]
司守奎, 孙玺菁. 数学建模算法与应用[M]. 北京: 国防工业出版社, 2011. [百度学术]
Si S K, Sun X J. Mathematical modeling algorithms and applications[M]. Beijing: National Defense Industry Press, 2011. (in Chinese) [百度学术]
Ren S, He K, Girshick R, Sun J. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6):1137-1149. [百度学术]
Rajendran S P, Shine L, Pradeep R, et al. Fast and accurate traffic sign recognition for self driving cars using retinanet based detector[C]//2019 International Conference on Communication and Electronics Systems (ICCES). IEEE, 2019: 784-790. [百度学术]
曹建秋, 王华清, 蓝章礼. 基于改进YCrCb颜色空间的肤色分割[J]. 重庆交通大学学报(自然科学版), 2010, 29(3): 488-492. [百度学术]
Cao J Q, Wang H Q, Lan Z L. Skin Color Division Base on Modified YCrCb Color Space[J]. Journal of Chongqing Jiaotong University (Natural Science), 2010, 29(3): 488-492. (in Chinese) [百度学术]