【目的】 更好地解决群聊话题纠缠的问题,减少稀疏文本特征对聚类的影响,实现对多类型消息混合的连续群聊信息的话题检测。【方法】 提出一种基于多策略的群聊话题检测技术,通过构建话题序列解决话题交叉,利用消息的用户、时间、类型等属性提升聚类效果。【结果】 本方法处理三份群聊记录样本的纯文本数据时的F值较对比算法分别提升2.9%、6.1%和3.0%,速度分别提高约27.6%、32.1%和47.1%。本方法还能处理传统算法无法应对的混合类型数据,且比处理对应的纯文本数据时的性能分别提升约29.4%、27.1%和22.5%。【局限】 对群聊消息文本特征的利用率不足,算法所设阈值过多。【结论】 本文方法能够在一定程度上提高群聊话题检测效果,并扩大了话题检测所能应对的消息类型的广度,提升了舆情分析效率。
【目的】 以科技论文中未来工作句集为入手点,研究学术创新构想话题自动生成方法,加速创新问题求解。【方法】 首先采用规则匹配与BERT相结合的方法从论文全文中抽取未来工作句集;然后通过相关领域论文集进行关联知识扩展计算,发现与未来研究方向相关的关键词、论文等,共同形成创新提要;再利用基于UniLM的文本生成模型自动生成创新构想话题。【结果】 经实证验证和专家评估,生成结果的整体创新性平均分为6.04分,整体兴趣度平均分为6.01分,呈正向评价。【局限】 基于UniLM的创新构想话题生成模型未嵌入先验语义知识以及没有使用大规模数据实验,生成创新构想话题通顺性及创新性还存在不足。【结论】 所提方法探索了学术创新构想话题自动生成的目标,为拓宽科技创新路径提供了新思路。
【目的】 实现社交媒体虚假新闻早期检测,遏制虚假信息的广泛传播。【方法】 在同时利用图像与文本特征的基础上,通过将图像映射为语义标签,设计了一种图像与文本内容语义一致性计算方法,构建虚假新闻检测模型,并采用虚假新闻检测标准数据集FakeNewsNet验证模型的性能。【结果】 融合新闻图像与文本语义一致性特征的全特征模型在PolitiFact数据上的检测F1值达到0.775,在GossipCop数据上的F1值达到0.879,说明该模型具有良好的检测效果。【局限】 由于现有图像语义标注模型标注能力的局限性,尚无法准确描述图像内容,所计算的语义一致性存在误差。【结论】 多模态特征融合能够有效提升虚假新闻检测性能,本文构建的新闻文本与图像语义一致性特征能够丰富和拓展虚假新闻检测依据。
【目的】 使用文本挖掘技术从西方媒体的新闻文本数据中提取中国的经济形象。【方法】 基于人类的认知图式分析了形象的文字呈现方式,提出从主题、观点、倾向三个层次来提取国家形象,进而提出相应的文本挖掘方法和流程。【结果】 从达沃斯论坛期间的西方媒体新闻中提取的中国经济形象可以概括为:充满活力、有巨大成就、为世界带来机遇和挑战、可能撼动世界格局的新兴发展中国家。【局限】 主题模型使用人工解释,会带来个体差异。【结论】 从主题、观点、倾向三个层次进行文本挖掘有利于把新闻数据和媒体形象联系起来,该方法对国家、地区、城市等媒体形象提取研究和实践也具有借鉴意义。
【目的】 针对现有模糊重叠社区划分算法执行效率较差和准确度较低的问题,提出一种基于节点向量表示的模糊社区划分算法。【方法】 使用由节点重要性引导的随机游走策略生成节点序列,将节点序列视作语料库中的句子,利用Skip-gram模型训练得到节点向量,并将高斯混合模型引入模糊社区划分算法FCM(Fuzzy c-Means)中实现多峰值节点数据拟合,通过最大化模块度得到最佳的社区数目。【结果】 相比经典的社区划分方法,该算法在真实网络Jazz和人工网络N1(mu=0.5)上的EQ值分别提高了7.0%和9.7%,能够更准确地划分出网络中的社区结构。【局限】 在向量的表示学习中仅考虑复杂网络的拓扑结构信息,而忽略了节点属性信息和边上标签信息。【结论】 基于节点向量表示的模糊重叠社区划分算法可以有效完成复杂网络的社区划分任务。
【目的】 针对在自然语言处理领域中高质量的标签数据较难获取的问题,设计基于多层次数据增强的半监督中文情感分析方法。【方法】 采用简单数据增强和反向翻译的文本增强技术获取大量无标签数据,通过对无标签数据计算一致性正则提取无标签数据的数据信号;对弱增强数据计算其预判标签,将强增强数据与预判标签一起构建监督训练信号,通过置信度阈值过滤使模型得出置信度高的预测结果。【结果】 在三个公开情感分析数据集上进行实验,在Waimai和Weibo数据集上仅使用1 000条有标签文档就可以分别获得超过BERT 2.311%和6.726%的性能提升。【局限】 实验均在公开通用语料上进行,未验证在垂直领域数据集上的效果。【结论】 所提方法充分挖掘了无标签数据的信息,可以缓解标签数据不易获取的问题,同时具有较强的预测稳定性。
【目的】 针对音乐信息检索中的声乐分类问题,将音频的统计特征和图像特征进行融合,探索效果更好的分类模型。【方法】 抽取音频信息的统计特征以及梅尔频谱图图像特征。将机器学习方法用于统计特征,并设计了一种多层卷积神经网络架构用于图像特征,将声乐分类问题转化为图像分类问题,最后提出一种融合统计特征和图像特征的深度学习方法。【结果】 在声乐分类任务上,基于图像特征的深度学习方法比机器学习方法F1值提高约6个百分点,基于特征融合的深度学习模型F1值可达到69%以上,超过基于图像特征的深度学习模型3.4个百分点。【局限】 实验数据量较小,未能完全发挥深度学习方法的优势。【结论】 梅尔频谱图采样参数的设置对深度模型实验结果有较大影响,本文提出的特征融合方法可以有效提升声乐分类性能。
【目的】 针对推荐系统的异构信息融合问题,提出融合标签和内容数据的矩阵分解方法TCMF,减小预测误差,克服评分数据稀疏问题,提升矩阵分解算法鲁棒性。【方法】 使用Embedding实现内容文本数据的结构化,使用卷积神经网络(CNN)提取深层次内容特征,利用深度神经网络(DNN)融合内容与标签信息得到综合特征,基于矩阵分解算法提出TCMF评分预测方法。在真实电影数据集上的实验进一步探究了不同特征融合方式、不同电影内容和正则化参数对算法预测性能的影响。【结果】 在MovieLens-20m数据集上的实验显示,TCMF降低了电影评分预测误差,实现的最低RMSE为0.829 5,最低MAE为0.618 9,相比于对比方法在RMSE和MAE上的最高降幅达到9.62%和14.17%。【局限】 由于缺少用户信息,TCMF在表征用户的个性化特征上有所欠缺。【结论】 融合异构的标签和内容信息不仅能够降低用户评分预测误差,而且可以提高预测算法的鲁棒性。
【目的】 针对在线健康社区疾病名称存在多种指称的问题,提出基于多特征融合的中文疾病名称归一化模型。【方法】 基于在线健康社区构建中文疾病名称归一化数据集;采用LSTM、GRU和CNN模型进行中英文对照实验,利用Word2Vec和GloVe生成外部语义特征向量,并通过CNN模型进行验证;最后在自注意力机制基础上,提出多特征融合的中文疾病名称归一化模型MFCF-CNN,更好地利用全局和局部语义特征。【结果】 实验表明,在中文数据集
【目的】 将类目式文档中的类目单元表示成语义特征AND-OR逻辑表达式,使类目文档实现语义化表示,为类目语义匹配、语义检索等应用提供语义化数据。【方法】 以类目单元描述/注释文本AND-OR逻辑语义标注数据为基础,利用UniLM模型,通过学习词性特征、显式AND-OR逻辑文本描述特征以及改进Beam Search搜索排序策略等方法构建Seq2Seq生成模型,解决类目单元内语义特征AND-OR逻辑表达式的生成问题。通过融合上下文层次语义,解决类目单元外部语义的扩展问题。【结果】 在人工标注的国际专利分类表数据上展开实验,结果评价得分为87.2分,比基准模型(BiLSTM-Attention)高11.5分。【局限】 适用于国际专利分类表中的类目数据特点,其泛化效果有待在其他领域数据中进一步验证。【结论】 所提类目单元语义表示方法在国际专利分类表中有较好表现,能够有效生成融合类目单元内部语义特征及其上下文层次语义特征的AND-OR逻辑表达式。
【目的】 针对民事一审裁判文书内容进行文本自动摘要,为裁判文书的用户提供简练可读、连贯通顺和准确高效的摘要文本。【方法】 提出一种面向裁判文书自动摘要的新方法,该方法由抽取式摘要和生成式摘要两个阶段构成。在第一阶段抽取式摘要中,在预训练模型的基础上加入膨胀残差门控卷积神经网络进行裁判文书关键句子抽取得到抽取式文摘;在第二阶段生成式摘要中,将抽取式文摘作为模型的输入,通过序列到序列模型生成最终的裁判文书摘要。【结果】 本文所提模型在裁判文书自动摘要实验中的ROUGE指标分别是50.31、36.60、48.86,较基准模型LEAD-3分别提高25.00、23.25、24.66。【局限】 将第一阶段得到的抽取式摘要作为第二阶段生成式模型的输入,存在模型的累计误差,模型的整体效果受到第一阶段抽取式模型的影响。【结论】 本文模型可以有效地应用在裁判文书自动摘要服务中,解决裁判文书信息过载问题,为裁判文书用户提供了一种快速阅读裁判文书、获取知识的新途径。
【目的】 优化已有的基于疾病知识图谱的自动问答系统,为公众提供一种准确率更高的疾病知识查询工具。【方法】 在疾病知识图谱构建基础上,采用AC多模式匹配算法和语义相似度计算获取疾病症状实体,通过人工标注和AC多模式匹配算法相结合实现用户问题分类,将匹配的词语封装成分类字典后转换成数据库查询语言,获取相关问题答案。【结果】 通过中文医学问答数据集中语料测试,本系统在回答新冠疫情相关疾病5类问题时的平均准确率达到86.0%,高于已有的疾病问答系统。【局限】 数据集中“检查”和“传染性”类数据缺失值较多,影响问答系统结果准确性。【结论】 优化已有的基于疾病知识图谱的自动问答系统,为疫情相关疾病知识查询提供一种有效的知识服务工具。
【目的】 基于主题跨库检索服务相关研究成果,集成优化Lingo3G算法并结合Solr打分规则,实现机构知识库的跨库知识整合和知识指纹服务。【方法】 分析用户的实际需求,构建知识整合分析与可视化功能框架,选择其中关键的技术和方法搭建平台,探索知识整合的可行性。【结果】 在机构知识库中研究计算知识指纹特征,以可视化的形式组织呈现知识指纹图谱,聚类实现与第三方数据库的跨库知识整合服务。【局限】 由于跨库检索的数据库结构和设计方法各不相同且很多数据库没有公开资源检索接口,还无法普遍解决跨库检索的局限性。【结论】 基于Lingo3G聚类算法的创新集成,可为机构知识库跨库检索提供一套有效的提高知识资源整合、挖掘知识服务能力的功能体系。