成果名称: 面向特定主题网络媒体大数据的深度学习技术研究及应用
完成单位: 华南理工大学,东莞松科信息科技有限公司
主要人员: 吴庆耀,刘泽浩,闫玉光,杨冬立,谭明奎,朱金辉,吴汉瑞,韩超,国雍,徐庸辉,陈仁洁,刘新凯,曾晓清
介绍:

    1、课题来源与背景: 本项目总投入30万元,全部来源于广东省省级科技计划财政经费。 随着互联网信息技术的迅速发展,微博、微信、论坛以及社交网络等用户动态参与的信息交互平台已经成为重要的网络信息媒体。这些新媒体的信息产生、发布和传播与现实世界的人类活动、社会事件 紧密相关,其中蕴藏着海量的、高价值的信息和知识,从中识别出各个企业或政府部门所感兴趣的信息,即特定主题的网络媒体大数据的识别问题,可以帮助企业提高网络营销效率,为政府部门掌握舆情提供依据,具有重要的经济和社会价值。

    2、技术原理及性能指标: (1)主要研究内容 1)网络媒体数据特征提取 研究解决建立针对特定主题的语义词典和同义表达库,建立规则使之自动更新,解决网络媒体中的文本内容数据偏向口语化、特殊符号等包含着许多噪声、信息缺失和冗余等问题;并使用维度分解等技术减少网络媒体数据的高维、稀疏表达等特点带来的设备存储等问题。 2)大数据冗余清洗算法技术 建立在线学习方法,构建深度学习算法模型,使每次只处理一个样本点,有效解决网络媒体数据量大、更新快,传统的批处理面临需要反复对以“流”的形式到来的数据集进行处理的问题。 3)基于深度学习的特定主题数据流识别建模 基于时间递归神经网络算法,通过保存网络的内部状态,处理序列形式的数据流,采用算法中的长短期记忆模型,对数据流中的特定主题进行识别,来应对网络媒体数据具有非结构化、语言使用情景复杂、维度高规模大等特点。 4)面向舆情分析与企业营销的服务平台研究 研究采用大数据并行处理、在线学习和大数据挖掘、分析和统计方法等相结合的方法,建立面对舆情分析和企业营销的网络媒体数据分析模型和服务平台,为政府舆情分析和企业营销实现实时信息进行处理和分析。 (2)拟解决的关键问题及技术路线 1)如何提取网络媒体数据特征,减少冗余词项、特征维度。拟采用以下技术路线:建立词义词典,根据上下文信息,建立词项特征,计算词项的相似度,更新同义表达库;使用维度分解技术,将高维数据投影到低维空间,减少计算复杂度和设备存储。 2)如何利用在线学习方法,结合中文文本特征,处理序列形式的大规模高维数据。拟采用以下技术路线:利用离线数据训练深度学习模型,对中文文本特征进行学习,从数据流中提取语义特征;设计在线模型更新算法,提取在线文本特征,提高模型对数据流在线辨识能力。 3)如何利用深度学习在数据流中识别特定主题。拟采用以下技术路线:设计基于残差估计的新的时间递归神经网络结构,发现文本序列流中的时间依赖关系,从而提高识别精度;针对时间递归神经网络的特性,设计新的训练算法,提高收敛速度。

    3、技术的创造性与先进性: (1)通过研究高维数据的维度分解和大数据的在线学习方法,实现网络媒体数据特征提取和大数据冗余清洗; (2)建立高效地深度神经网络训练算法,实现对文本语言流的处理研究。 (3)实现特定主题网络媒体大数据的实时分析及反馈。

    4、技术的成熟程度,适用范围和安全性: 项目研究内容相关的研究工作包括网络媒体数据特征提取和大数据冗余清洗技术研究,基于深度学习的特定主题数据流识别建模研究和面向舆情分析与企业营销的服务平台研究。在线学习算法目前是国 内外研究的热点,其特点是能够处理增量计算;高维数据的特征提取算法能够减少设备存储空间,增加计算效率,比较有代表性的高维特征提取算法有Fastmap算法、Bourgain算法等;深度学习算法是近年来机器学习领域的一个研究热点,其中时间递归神经网络中的LSTM模型能够对数据流中的特定主题进行识别;舆情分析与企业营销服务平台既要满足批量处理的需求,又要在短时间内对特定主题的挖掘和分析做出快速响应,目前仍未见有应用研究。

    5、应用情况及存在的问题: 主要应用在以下三个方面: (1)网络媒体数据特征提取与大数据冗余清洗技术。建立了针对特定主题的语义词典和同义表达库,建立了规则使之自动更新,解决网络媒体中的文本内容数据偏向口语化、特殊符号等包含着许多噪声、信息缺失和冗余等问题;并使用维度分解等技术减少网络媒体数据的高维、稀疏表达等特点带来的设备存储等问题。大数据冗余清洗算法技术。建立在线学习方法,构建深度学习算法模型,使每次只处理一个样本点,有效解决网络媒体数据量大、更新快,传统的批处理面临需要反复对以“流”的形式到来的数据集进行处理的问题。 (2)基于深度学习的特定主题数据流识别建模。基于时间递归神经网络算法,通过保存网络的内部状态,处理序列形式的数据流,采用算法中的长短期记忆模型,对数据流中的特定主题进行识别,来应对网络媒体数据具有非结构化、语言使用情景复杂、维度高规模大等特点。 (3)面向舆情分析与企业营销的服务平台。研究采用大数据并行处理、在线学习和大数据挖掘、分析和统计方法等相结合的方法,建立面对舆情分析和企业营销的网络媒体数据分析模型和服务平台,为政府舆情分析和企业营销实现实时信息进行处理和分析。

     6、历年获奖情况: 无。

批准登记号:
登记日期: 2020-09-04
研究起止时间: 2017-02-01至2019-01-31
所属行业: 信息传输、软件和信息技术服务业
所属高新技术类别: 电子信息
评价单位名称: 广东省科学技术厅
评价日期: 2020-07-21