基于<bold>MSAF</bold>与多模态任务的普通话唇语识别

doi:10.11835/j.issn.1000-582X.2026.04.010

首页 > 过刊浏览>2026年第49卷第4期 >107-116. DOI:10.11835/j.issn.1000-582X.2026.04.010

基于MSAF与多模态任务的普通话唇语识别
DOI:
                        10.11835/j.issn.1000-582X.2026.04.010
                    
CSTR:
                        
                    
作者:
                        
                        
                    
作者单位:1.中移(杭州)信息技术有限公司，杭州 310000;2.重庆科技大学 计算机科学与工程学院(人工智能学院)， 重庆 401331;3.重庆邮电大学 自动化学院，重庆400065
作者简介:荣玉军（1976—），男，高级工程师，主要从事自动语音识别、自然语言处理、数字家庭生态、全屋智能、物联网等方向研究，（E-mail）rongyujun@cmhi.chinamobile.com。
通讯作者:吴仙海，（E-mail）15980401212@163.com。
中图分类号:
基金项目:教育部-中国移动研究基金（MCM20180404）。

Mandarin lip recognition based on MSAF with multimodal task

Author:

Affiliation:

1.China Mobile(Hangzhou) InformationTechnology Co., Ltd., Hangzhou 310000, P. R.China;2.School of Computer Science and Engineering(School of Artificial Intelligence), Chongqing University of Science and Technology, Chongqing 401331, P. R. China;3.School of Automation, Chongqing University of Posts and Telecommunications, Chongqing 400065, P. R. China

Fund Project:

Supported by Foundation Item:Ministry of Education - China Mobile Research Fund(MCM20180404).

摘要

图/表

访问统计

参考文献

相似文献

引证文献

资源附件

文章评论

摘要:

多模态唇语识别的主要功能是通过结合唇部运动和语音信息，提供更准确和稳健的语音识别，帮助特定用户群体更好的理解和交流。但现有的唇语模型大都服务于英文数据集，对于中文唇语识别的研究还仅存在于起步阶段。针对现有中文唇语识别模型存在如何处理和组合来自不同模态的数据特征、如何使多模态特征进行充分融合等问题，提出多模态分裂注意力融合视听识别（multimodal split attention fusion audio visual recognition，MSAFAVR）模型。基于中文唇语识别数据集（chinese mandarin lip reading，CMLR）的实验表明该模型在中文唇语识别方面的准确率达到了92.95%，与现有SOTA普通话唇语识别模型进行对比，达到了最佳。

Abstract:

Multimodal lip recognition aims to enhance speech recognition accuracy and robustness by integrating lip movements and speech information, while also aiding specific user groups in communication. However, existing lip-speaking models predominantly focus on English datasets, leaving research on Chinese lip recognition in its nascent stage. Addressing challenges in handling data features across different modalities, integrating these features, and achieving comprehensive fusion of multimodal features, we propose a multimodal split attention fusion audio visual recognition (MSAFVR) model. Through experiments utilizing a Chinese Mandarin lip reading (CMLR) dataset, our model, MSAFVR, demonstrates significant advancements, achieving a remarkable 92.95% accuracy in Chinese lip reading, surpassing state-of-the-art Mandarin lip reading models.

参考文献

相似文献

引证文献

引用本文

荣玉军,吴仙海,蔡枫林,杨同鑫,李鹏华.基于MSAF与多模态任务的普通话唇语识别[J].重庆大学学报,2026,49(4):107-116.

复制

文章指标

点击次数:
下载次数:
HTML阅读次数:
引用次数:

历史

收稿日期:2024-06-12
最后修改日期:
录用日期:
在线发布日期: 2026-04-21
出版日期:

期刊社主页

编辑部首页

期刊介绍

编委会

数据库收录

过刊浏览

联系我们

引用本文

分享

相关视频

文章指标

历史

文章二维码