| 主要人员: |
闵华清,吴庆耀,朱金辉,庞观士,陈志列,陈超,杨冬立,蔡毅,毕盛,陈俊颖,闫玉光,吴汉瑞,赖吕龙,马先明,沈航,林淼,薛春花,赵晓曦,余志雄,张梓杰 |
| 介绍: |
1. 课题来源与背景:在广东省重点领域研发计划项目《多模态智能机器人视觉感知与人机交互关键技术研究及应用示范》的支撑下,以解决机器人关键问题和应用示范为目标,针对机器人视觉感知、动作行为识别、语音交互等多模态人机交互关键技术展开研究。
2. 技术原理及性能指标:技术原理:利用深度学习前沿理论,开展机器人视觉检测、动作行为感知、语音识别和去噪、多模态数据融合、模型压缩与加速、人机交互等机器人关键技术研究。
性能指标:
(1)机器人视觉检测:液晶显示面板生产线缺陷检测系统,点、线类缺陷漏检率≤0.5%、过检率≤10%,面板缺陷漏检率≤0.2%、过检率≤5%,可检测亮度敏感度0.4 nit,缺陷对位精度±1μm;多源血管图像分割方法,单张图像推理时间少于50 ms,在图像数据集DRIVE、STARE、CHASEDB1上准确率达96.14%、97.04%、98.02%;图像协同分割方法,在数据集PASCAL VOC、MSRC、Internet、iCoseg上超过最佳基线2.6%、7.7%、2.2%、2.9%。
(2)动作行为感知:基于人体骨架的动作识别方法,在RWF-2000数据集上暴力行为检测准确率达到89.3%,超过最佳基线8.7%;自监督3D骨架动作表示学习方法在数据集NTU60上预测准确率高达95.5%。
(3)机器人语音交互:自动鼓谱转录方法,在数据集IDMT-SMT-Drums、ENST-Drums上平均精准率、召回率、F1分数分别为0.854、0.858、0.836;基于注意力机制的说话人提取网络,在数据集aishell上尺度不变的信号失真比(SI-SDR)、信号失真比提升率(SDRi)、语音质量感知评估(PESQ)相较最佳基线分别提升1.16、1.47、0.05。
(4)多模态数据融合:基于多源图像深度融合网络的医学血管分割方法,在病理学数据集STARE上灵敏度(Sensitive)、特效度(Specificity)指标分别高达0.80、0.99;基于知识增强层次注意力机制的跨域知识迁移在线学习方法在数据集NUS-WIDE上平均错误率指标相对于最佳基线降低3.91%。
(5)模型压缩与加速:基于迭代层叠的知识迁移方法,在Kuaibao数据集上相较最佳基线训练效率提升3.2倍;水表表号自动识别轻量型模型,与最佳基线相比,模型压缩7倍,运行提效3倍。
项目完成时,技术就绪度为8级,发表学术论文28篇(SCI收录17篇,EI收录11篇);授权发明专利9项,授权实用新型专利6项,申请国内发明专利10项和PCT专利3项;获得软件著作权19项;培养硕士、博士共25名。
3. 技术的创造性与先进性:
(1)机器人视觉检测:研究了一种背景解耦数据增强方法,改变物体所处的背景环境,有效解耦物体实例和它所处的环境信息依赖;研究了基于注意力的引导滤波器机制,有效突出前景,降低了背景影响。
(2)动作行为感知:探索了如何从少量数据学习有效的表征能力和从多源异构数据对中建立不同物体之间的空间姿态差异联系;提出了通用物体的动作转换感知技术,有效提高了对高维空间物体姿态动作表征学习能力。
(3)机器人语音交互:探索了如何从混合语音中分离指定的人类声音技术,提出了一种基于对比学习的特定参考语音提取算法,提高了模型从原始语音中分离出目标语音的质量;探索了结合联合学习和自蒸馏的卷积神经网络的自动鼓转录方法,实现了原声架子鼓演奏行为实时转录和评判。
(4)多模态数据融合:探索了如何将不同数据源的信息进行对齐和整合,实现对数据内容的高效理解;提出基于最优传输来计算传输分类器权重,减少知识传输,有效整合多种数据模态。
(5)模型压缩与加速:提出了一种轻量化模型压缩方法,有效压缩了深度模型;探索了多尺度卷积技术,提出了一种轻量级拼接卷积网络,实现了嵌入式设备端的轻量化水表识别应用部署。
4. 技术的成熟程度,适用范围和安全性:项目完成时,技术就绪度达到8级,各项功能、性能指标在实际环境条件下测试并通过第三方测评;开发了智能机器人人机交互软件系统实例2项:打鼓机器人和语音降噪软件,完成了相关系统和软件产品维护说明书、相关文档和宣传册,形成了一套系统的多模态信息理解和融合的理论体系和基本方法,为机器人走向实用服务提供理论指导和技术保障;开发了智能服务机器人样机陪伴机器人和语音导购机器人,在陪伴示教、语音导购等2个领域进行应用示范。
5. 应用情况及存在问题:应用情况:项目研发的机器人视觉检测系统应用于京东方液晶显示面板智能制造生产线,提高了检测过程的自动化和智能化程度,有效降低了产品不良率;研发的虚拟换衣软件、音频降噪软件、暴力行为检测软件,应用于商业服务、安保巡检等场景;项目实施期内累计销售额达6716.55万元,累计新增利税1074.60万元。项目开发的陪伴教育机器人新产品,应用于广东省创意机器人大赛;开发的智能机器人人机交互软件系统打鼓机器人,应用于多届广州市中学生英才计划科技特训营活动,带来了显著的科普效益。存在问题:本项目已将机器视觉和人机交互理论方法应用于智能制造、智能安防、智慧教育等应用领域,后续将进一步把相关技术成果扩展到智慧医疗、智能芯片等重大需求领域,推动成果的深层次转化应用。
6. 历年获奖情况:(1)2020年广东省科技进步二等奖(项目成员为第一完成人);(2)2019年广东省特支计划青年拔尖人才(项目成员为获奖人);(3)2018年广东省计算机学会优秀论文一等奖(项目成员为第四完成人)。
|