期刊首页 在线期刊 在线预览

在线预览


说明:最新在线预出版文章, 内容和格式将与印刷版一致(除了页码), 您可以通过doi直接引用。

Please wait a minute...
  • 全选
    |
  • 吕婉莹, 赵洁, 黄流深, 董振宁, 梁周扬

    【目的】使用特征分组和组合思想,前者在数据缺失情况下提供可替换特征进行信任评估,并降低组合搜索空间;后者有效降维,进一步缓解数据缺失导致信任评估困难的问题。【方法】基于Markov Blanket分析特征间的感知信任分辨能力关系,对特征分组,使组内特征分辨能力相似;基于变领域搜索方法,进行组内和组间搜索,完成特征组合。【结果】特征值缺失情况下,信任评估效果稳定,有效提供替补特征;信任特征维度降至1.7%,信任评估平均精度高于92%。【局限】仅讨论缓解数据缺失问题的方法,后续进一步讨论如何利用含缺失值数据的知识。【结论】融合特征分组和组合,提供高效的信任评估模型,从双方面缓解信任评估中数据缺失引致的难题。

  • 陈稳, 陈伟

    [目的]识别出多源数据中蕴含的新兴主题,建立融合计量指标多变量的LSTM模型以实现新兴主题热度的预测。

    [方法]首先,挖掘出基金项目、期刊论文、专利文献中的研究主题;其次,根据主题新颖性、成长性和持续性筛选出研究主题中的新兴主题;最后,设计主题热度指标,并融合基金金额、基金数量、论文篇均被引、专利IPC小类数量4个计量指标,基于LSTM模型实现对新兴主题研究热度的预测。

    [结果]以固体氧化物燃料电池领域为例,融合计量指标的多变量LSTM预测效果优于BP、KNN、SVM、单变量LSTM模型,其MAE(16.534)、RMSE(23.494)最小, R2(0.642)最高。

    [局限]在输入计量指标选择中,专利被引数量等指标由于很难获取每个时间窗口下具体数据而未被纳入。

    [结论]计量指标多变量的纳入优化了新兴主题热度预测模型的预测效果。


  • 胡吉明, 钱玮, 文鹏, 吕晓光

    [目的] 融合中文病历的结构功能信息,丰富病历文本的语义内涵,提升文本表示的准确性和后续文本挖掘效果。

    [方法] 依据中文病历结构功能特征,创新文本语义表示策略,使用BiLSTM-CRF模型实现基于结构的命名实体智能识别,在词向量层面引入实体及结构信息,经由TextCNN模型进一步提取局部上下文特征,得到文本语义内涵更为丰富的向量表示形式。

    [结果] 在命名实体识别实验中,基于结构的医疗实体识别精确率、召回率以及F值分别达93.20%、95.19%及94.19%;在文本表示的分类验证实验中,本文所提病历文本表示方法的分类准确率达到了92.12%。

    [局限] 需进一步加强对更多类型文本的验证,细化结构识别过程,使所提方法更好地应用于文本挖掘工作。

    [结论] 本文将病历结构功能信息引入病历文本表示工作,实证证明了其既能有效提高命名实体识别准确度,又能进一步丰富文本语义内涵和提升文本表示效果。

  • 杨洋, 江开忠, 原明君, 惠岚昕

    [目的] 针对传统LDA模型中主题数目需指定的问题,提出了一种面向新闻话题识别领域的融合语义与时序的自适应主题数目确定方法。

    [方法] 本文将语义和时序作为两个视图对新闻数据进行提取,得到对应的特征向量。再利用Co-DPSC算法对两个视图进行协同训练得到包含时序影响的语义特征矩阵,最后对矩阵降维处理后按行进行密度峰值聚类,其结果作为最优主题的个数。

    [结果] 实验结果表明考虑语义和时间因素来确定最优主题数其查准率和F值均有所提升,其中查准率提高了35.09%, F值提高了15.39%。

    [局限] 对关键词集进行聚类,关键词的获取方法一定程度上影响了聚类的效果和运行的时间。由于新闻数据需要文本和时间要素,对其他类型的数据有一定局限性。

    [结论] 实验证明,本文方法将新闻数据的时效性和内容结合起来考量新闻的类别,能在一定程度上提升最优主题数目选取的准确性。

  • 杨美芳, 杨波

    [目的]有效学习风险领域文本特征和上下文语义关联性,提升企业风险领域实体抽取的性能。[方法]提出基于笔画ELMo嵌入IDCNN-CRF的企业风险领域实体抽取模型。首先使用双向语言模型将大规模非结构化的企业风险领域数据预训练得到的笔画ELMo向量作为输入特征,然后将其送入IDCNN网络进行训练,再运用CRF对IDCNN的输出层进行处理,最后获得全局最优的企业风险领域实体序列标注。[结果]实验结果表明,该模型对企业风险领域实体抽取的F值为91.9%,相对于BiLSTM-CRF深度神经网络模型的抽取性能提升了2%,且测试速度快2.36倍。[局限]在基于笔画ELMo字向量的基础上充分融合额外文本特征能有效提升中文实体抽取的效果,但未考虑本模型扩展于更多领域实体抽取任务的普适性。[结论]本文给出了模型应用的具体流程,为企业风险领域实体语料库构建提供参考借鉴。

  • 李晓敏, 王昊, 李跃艳, 赵萌

    [目的]地名是人类社会发展到一定阶段的产物,地名在社会发展过程中不断发生演变,利用关联数据技术对地名沿革的演变过程进行研究,对地名更好地发挥文化传承作用具有积极意义。

    [方法]本文构建了中国地名演化知识库CGNE_Onto,制定演变类型强弱标志词识别历史沿革数据中的演变类型句,再利用BERT-BiLSTM-CRF模型识别演变类型句中的时间和地名实体,将识别出的时间和地名实体作为本体中的类构建本体知识库,同时从直接路径关系和间接路径关系角度对构建好的行政区划地名演化本体知识库进行可视化展示。并对各个朝代不同演变类型的数量以及形成原因进行了统计分析。

    [结果]实验结果表明,本文提出的模型能够多角度直观地展示地名演变情况,为地名数据的分析挖掘提供了一种新的思路。

    [局限]本文数据集规模较小造成演变特征词也有一定的局限。

    [结论]本文构建的地名演化知识库能够直观清晰地展现地名从古至今的演变情况,以及各个朝代演变类型的情况。

  • 赵蕊洁, 佟昕瑀, 刘小桦, 路永和

    [目的]为了提高医药实体识别的效果、实现医药新知识的挖掘和提高医药科技论文的利用率提出一种新的实体识别模型。

    [方法]构建了基于Att-BiLSTM-CRF的医药实体识别模型并在公开数据集GENIA Term Annotation Task和BioCreative II Gene Mention Tagging上分别对模型进行F1值、准确率测试,进而使用该模型对生物医药科技论文的摘要进行实体标注。

    [结果]实验结果证明,本文提出的模型优于其他基准模型,在两个数据集上的F1值分别为81.57%和84.23%、准确率分别为92.51%和97.85%,并且在数据不平衡的情况下更有优势。

    [局限]实体标注实验数据量和应用范围较为单一,可以进一步扩大。

    [结论]基于Att-BiLSTM-CRF的医药实体识别模型可以提高实体识别效果并实现医药新知识的挖掘。

  • 彭成, 张春霞, 张鑫, 郭倞涛, 牛振东

    【目的】为解决时序知识图谱推理方法存在的实体信息获取片面和缺乏不同时间戳对于待推理事件重要性度量的问题。【方法】本文提出了一种基于实体多元编码的时序知识图谱推理模型。实体多元编码旨在于引入三种实体特征编码,包括当前时间戳的实体切片特征编码、融合时间戳嵌入和实体静态特征的实体动态特征编码,以及历史时间步上相对稳定的实体片段特征编码。同时,设计时序注意力机制来学习不同时间戳内的局部结构信息对推理目标的重要性权重。【结果】本文时序知识图推理模型在数据集ICEWS14测试集上的实验结果为MRR:0.4704,Hits@1:40.31%,Hits@3:50.02%,Hits@10:59.98%,在ICEWS18测试集上实验结果为MRR:0.4385,Hits@1:37.55%,Hits@3:46.92%,Hits@10:56.85%,在YAGO测试集上实验结果为MRR:0.6564,Hits@1:63.07%,Hits@3:65.87%,Hits@10:68.37%。本文模型在这些评估指标上优于现有方法。【局限】本文方法在大规模数据集上运行速度较慢。【结论】本文方法捕获了时序知识图谱中包括实体切片特征、动态特征和片段特征的实体多元特征,所设计的时序注意力机制度量历史局部结构信息对推理的重要性,有效提升了时序知识图谱推理的性能。

  • 邓 露, 胡 珀, 李炫宏

    [目的] 将生物医学文本映射到生物医学领域超级叙词表以获得文本中包含的生物医学术语及其对应概念,并将术语和概念作为背景知识融入到文本摘要模型中,以提高文本摘要模型在生物医学文本上的摘要生成质量。

    [方法] 该方法先通过抽取式摘要技术获取文本的重要内容,然后结合生物医学领域知识库将文本重要内容中包含的术语与其对应的知识库概念一并抽取出来,作为背景知识融入到神经网络生成式摘要模型的注意力机制中,使模型在领域知识引导下既可聚焦文本内部的重要信息,又可抑制因外部信息引入而可能产生的噪音问题,显著改善摘要的生成质量。

    [结果] 在三个生物医学领域数据集上的实验结果验证了所提方法的有效性,本文所提模型PG-meta在三个数据集上的ROUGE均值达到31.06,比原PG模型ROUGE均值高1.51。

    [局限] 仍有待进一步探索不同的生物医学领域背景知识获取方式对于模型增强效果的影响。

    [结论] 所提方法可帮助模型更好的学习生物医学文本深层含义,提高摘要生成质量。


  • 曹喆, 郭慧兰, 吴江, 胡忠义

    [目的] 从技术-用户的互动视角,揭示用户的技术感知与元宇宙技术需求的差距,为元宇宙技术优化提供参考借鉴。

    [方法] 基于京东平台上64件VR产品的36720条评论信息,运用LDA主题建模与BERT情感分类的混合方法,构建关注度和喜爱度指标,定量分析用户对VR技术的感知程度,并结合产品客观属性和元宇宙技术需求展开对比分析。

    [结果] 从用户评论中提炼出VR产品的功能、品控、使用感受、营销和视听体验五个感知属性,用户在视听体验和营销两个属性上的感知程度分别为最高和最低;功能、使用感受、视听体验三个属性在元宇宙的沉浸体验、易接入性、互操作性和可扩展性等四个技术需求维度上具有高沉浸度、感官失调、多样连接、时空限制、多人互动、移动障碍、多功能设计、设备问题八种进退步表现。

    [局限] 样本的多元性与均衡性有待提升;未对其它类型的元宇宙技术设备进行拓展研究。

    [结论] 通过感知属性提炼、感知偏好识别和感知程度分析,发现当前VR产品能够满足元宇宙在沉浸体验方面的技术需求,但在易接入性、互操作性和可扩展性方面尚存提升空间;结合产品客观属性,本研究能够为元宇宙相关技术的优化提供参考。


  • 杨德芳, 唐莉

    [目的]负责任研究与创新是全球科技竞争与可持续发展的一个重要议题,本文从国际文献出发,分析负责任研究与创新领域的研究概况,知识基础和研究热点。[文献范围]本文以Web of Science三大核心数据库收录的657篇负责任研究与创新相关文献为研究样本。[方法]运用文献计量和可视化分析等方法,对负责任研究与创新领域的研究成果和研究热点进行数据挖掘。[结果]研究发现,荷兰和英国学者引领了负责任研究与创新领域,中国在该领域的国际发表于2014年,总发文量14篇。负责任研究与创新领域的研究建立在技术评估和预期治理,欧盟情境下的概念和特征以及概念思辨和强化等基础之上。研究热点主要聚焦于科学社会与治理,概念框架与实践,技术发展的伦理与价值,可持续性研究等四个方面。[局限]数据范围需进一步扩充,热点演化趋势需要进一步展开分析。[结论]研究呼吁,中国学者未来在负责任研究与创新领域的研究中在关注国际动态的同时,需与中国特有的研究问题和研究实践相结合,为我国新兴技术负责任发展保驾护航。

  • 张永伟, 刘婷, 刘畅, 吴冰欣, 俞敬松

    [目的]探究高效的大规模文本语料库句法信息检索方法。

    [方法]依据句法信息特点,将句法信息线性化索引,直接提供检索时条件匹配所需的各种信息,从而提升检索速度。

    [结果]使用2851万句《人民日报》语料进行实验,26个检索条件平均用时802.6毫秒,达到了大规模语料库检索系统对检索效率的要求。

    [局限]实验使用的检索条件数量较少,未使用更多的检索条件进行验证。

    [结论]本文方法有助于在大规模文本语料库中快速地检索词法信息、依存句法信息和成分句法信息。


  • 陈圆圆, 马静

    [目的]针对现有多模态讽刺检测模型中存在预测准确率不高、多模态特征难以融合等问题,本文设计一种SC-attention融合机制。

    [方法]采用CLIP和RoBERTa模型分别提取图片、图片属性和文本三种模态特征,经由SENet的注意力机制和Co-attention机制结合构成的SC-attention机制将多模态特征进行融合,以原始模态特征为引导,合理分配特征权重,最后输入至全连接层进行讽刺检测。

    [结果]实验结果表明基于SC-attention机制的多模态讽刺检测的准确率为93.71%,F1指标为 91.89%,该模型与采用同样数据集的模型相比,准确率提升了10.27%,F1值提升了11.5%。

    [局限]模型的泛化性需要在更多数据集上体现出来。

    [结论]本文所提出的SC-attention机制减少了信息冗余和特征损失,有效提高了多模态讽刺检测的准确率。


  • 曾闻, 王曰芬

    [目的]从识别指标信息的多元与不同赋权及排序算法组配的综合视角,结合大规模数据集的特点,研究核心专利组合识别方法的构建及其应用对比。[方法]通过交叉组配构建5种组合识别方法,选取6项专利特征信息,以人工智能领域为例,从整体与局部层次对比各方法的特征和应用情境。[结果]不同组合识别方法在各自不同的数据集与时间段应用时保持较高的一致性。同时不同方法识别的结果,随着要识别的核心专利数量增加而两两间重合率逐渐减少,例如方法一与方法四的核心专利重合率由80%降至47%。[局限]仅应用一个领域,组合识别方法应用的特点可进一步挖掘。[结论]所构建的5种组合识别方法,基于专利数据集的规模、分散程度、时间跨度和特征值表现及技术领域发展的差异,可分别应用到核心专利识别的不同结果需求与具体情境中。针对快速发展的人工智能领域,熵权法赋权结合灰色关联分析和熵权法赋权结合TOPSIS这两种方法识别效果更优。

  • 王代琳, 刘丽娜, 刘美玲, 刘亚秋

    [目的]针对现有的推荐算法多以根据图书的书名、关键字、摘要进行推荐,或根据读者的图书浏览行为挖掘读者兴趣偏好进行推荐,而忽略了读者对于图书的内容框架——目录的关注,为了解决现有方法缺乏表达读者对于图书目录的关注而导致推荐准确度不高的问题,本文提出一种基于图书目录注意力机制的读者偏好分析方法及其个性化推荐模型IABiLSTM。

    [方法]根据图书标题和目录内容提取出图书的语义特征:利用BiLSTM网络捕获文本的长距离依赖和语序上下文信息,使用双层Self-Attention机制增强图书目录特征更深层次的语义表达;分析读者历史浏览行为,使用兴趣函数拟合量化读者兴趣度;将图书的语义特征和读者兴趣度相结合生成读者偏好向量,计算候选图书语义特征向量和读者偏好向量的相似度来预测评分完成个性化图书推荐。

    [结果]模型分别在豆瓣读书和Amazon两个数据集上对MSE、Precision、Recall三项指标进行了考察,当N值为50时结果分别为1.14%和1.20%、89%和75%、85%和73%,优于对比模型,验证本文模型有效提升了图书推荐的准确度。

    [局限]模型仅在豆瓣读书和Amazon两个数据集上进行了验证,在其他数据集上的泛化性能有待进一步验证。

    [结论]本文通过提高对图书目录的注意力关注度和对读者历史浏览交互行为的分析,有效表达读者的兴趣偏好,为提高图书推荐的准确度做了重要贡献。本文所提模型不仅适用于基于图书内容和读者浏览行为隐形偏好挖掘的推荐任务,在其他常见的NLP任务中亦能提供重要的借鉴意义。

  • 赵鹏武, 李志义, 林小琦

    【目的】研究中文任务实体关系中动态语义信息的特征抽取和中文人物关系识别。【方法】采用公开的人物实体关系语料集,使用注意力机制+改进的卷积神经网络模型从训练数据中自动提取特征,从不同模型实体关系识别效率、不同关系标签实体关系抽取效果以及不同向量训练集实体关系抽取效率等多维度对实验结果进行对比和验证。【结果】实验结果表明:在中文人物关系抽取任务上,CNN+Attention模型的预测准确率和全局性能均优于SVM、LR、LSTM、BiLSTM以及CNN模型,并比抽取效果相对较优的BiLSTM模型准确率高0.9%,召回率高0.8%,F1值提升0.8%。【局限】仅使用单一的样本数据来源,未拓展多种数据来源渠道,样本数据集范围不够广。【结论】基于注意力机制的卷积神经网络,在中文人物关系抽取任务中能够有效地提升实体关系抽取的准确率和召回率。

  • 张治鹏, 毛煜升, 张李义

    [目的]挖掘在线预订平台评论中的观点原因,提出一个观点原因句分类模型(DERNIE-BiLSTM)。[方法]构建了一个数据量百万级别的酒店领域的评论语料库并人工标注一个数据集ORSC,将语料库额外加入ERNIE自有的预训练集中并通过预训练提取ORSC数据集的文本特征,利用BiLSTM模型融合特征并识别包含观点原因的评论。[结果] 在ORSC数据集上,DERNIE短分类准确率为0.9133, F1值为0.9120,经过BiLSTM融合特征后的准确率提升到0.9457, F1值提升到0.9462。 [局限]预训练语言模型对额外语料库数据量的要求大,对计算速度和效率会产生一定的影响。[结论]基于DERNIE-BiLSTM预训练模型的提取特征和融合的方法,能更精准的挖掘评论中的观点原因句。

  • 华 斌, 康月, 范林昊

    智能问答   文本挖掘   电子政务   政策知识建模   知识图谱   知识聚合

  • 胡忠义, 张硕果, 吴江

    [目的]缓解钓鱼网站识别中URL表征不充分的问题,构建一种基于URL多粒度特征融合的识别模型。

    [方法]分别基于独热编码和BERT深度表征URL的字符级和单词级特征,进而通过融合两种粒度的深度特征构建钓鱼网站识别模型。

    [结果]所构建的融合多粒度URL特征的识别模型在本文数据集上的准确率、召回率、F值以及ROC值分别达到了96.1%、0.98、0.97、0.97,比单一粒度的表征模型、基准分类器和以往方法具有更好的识别性能。

    [局限]除了URL特征表征,有待进一步融合包括URL页面内容在内的更多源特征。

    [结论]构建的模型可以更全面的深度表征URL特征,有效提升了钓鱼网站的识别准确性。


  • 曹丽娜, 张健, 陈进东, 樊辉

    [目的]针对中小微企业质量难以精准刻画的问题,开展基于深度学习的中小微企业综合质量画像技术研究。

    [方法]本文设计涵盖质量创新能力、过程质量控制、产品质量水平、经营质量与风险、财务质量等五个维度的中小微企业综合质量画像体系,构建多元化的综合质量画像技术,并重点针对质量抽检报告、用户评论等网络文本数据,提出基于深度学习方法的中小微企业综合质量画像构建技术。

    [结果]实证表明,在F值上,基于Bert预训练的模型对三类质量实体的识别效果较基准模型分别提高了4.66%、1.99%、4.25%,基于Word2Vec预训练的评论分类模型较传统TF-IDF模型提高了6.03%。

    [局限]限于数据的可获得性,更多企业质量相关维度的画像有待进一步优化和完善。

    [结论]深度学习技术扩大了企业质量画像的维度、提升了企业质量画像的准度,为企业质量服务机构的服务模式创新提供了技术支撑。

  • 曲宗希, 沙勇忠, 李雨桐

    [目的]预知重大传染病的发展趋势可提前制定应对措施,探索基于多机器学习的集合预测方法建立准确有效的传染病疫情预测模型。

    [方法]基于灰狼优化算法,搜索ANFIS、LSSVM和LSTM三种机器学习的最优权重组合,建立重大传染病集合预测模型。通过COVID-19疫情数据设计实验评估模型预测性能。

    [结果] ANFIS、LSSVM和LSTM分别适用于确诊、死亡和恢复病例情景;基于灰狼优化的集合预测模型在三种情景下的R2分别达到了0.987、0.993和0.987,相较于单项模型的平均RMSE分别降低了38.79%、64.40%和53.88%。

    [局限]模型需使用其他重大传染病疫情数据进一步验证。

    [结论]不同机器学习的预测表现各有所长,基于灰狼优化的集合预测模型能够有效融合多机器学习优势,从而获得稳定、精确的预测结果。

  • 高劲松, 张强, 李帅珂, 孙艳玲, 周树斌

    [目的]探究诗人在时空轨迹和情感维度的变化情况,为人文领域的知识发现提供新的研究视角。

    [应用背景]为提升当前数字人文研究过程的可视化效果及研究结果的可读性,通过应用本体技术和GIS技术来表达诗人的时空情感轨迹,为相关领域的学者提供新的研究思路和可视化的研究方法。

    [方法]以李白为例,构建诗人本体模型,对诗人的相关概念和关系进行知识建模,再利用GIS技术展示李白的时空情感轨迹变化,挖掘背后的隐性知识。

    [结果]李白的人生轨迹跨越了大半个中国,其中以到今南京轨迹次数为最。从空间角度看,当涂为李白“悲喜交加”地,南京为李白的“悲”地。从时间角度看,青年时期李白“喜”多于“悲”,中年时期“悲”多于“喜”,晚年时期“悲喜交加”。

    [结论]本文为研究诗人的时空情感轨迹提供了实践经验,为人文领域相关问题的研究提供了新思路和新方法。


  • 柳林林, 宫大庆, 张玉洁, 白如江

    [目的/意义]发现潜在技术机会对于促进科技进步有重要意义。本文将因果思想引入技术机会发现,提出从技术文本的因果知识中识别技术机会,并以电动汽车充电桩为例进行了实证研究。[方法/过程]提出因果对自动抽取、因果网络构建、技术机会匹配发现三步骤法。首先,利用规则匹配方法,基于因果触发词和规则模板,自动抽取出多源数据中蕴含的因果对,并以三元组结构表征;然后,构建包含技术要素的因果网络;同时,通过情感识别、需求词抽取等步骤来发现用户使用过程中的需求因素;最后,通过对因果网络进行链路预测,补全潜在因果关联,并与用户需求因素进行匹配,最终实现技术机会发现。[结果]分析发现,充电桩的电池性能和价格费用分别是提升技术性能和用户满意度的关键因素。通过对比2种算法,结果显示GraphSAGE比Node2Vec能更准确预测连边,能够有效识别充电桩的潜在技术机会。[局限]因果网络的稀疏性导致准确性还有待提高。[结论]本文提出的方法能够促进科学技术的创新机会识别,旨在发现潜在的不确定性问题,为进一步的技术优化和产业升级提供指导和参考。

  • 欧桂燕, 庞娜, 吴江

    [目的]考察影响专利审查周期的因素以探索中国人工智能领域专利审查周期背后的作用机理。[方法]本文以中国人工智能领域的78254件发明专利申请为研究对象,运用生存分析中的Kaplan-Meier方法与COX比例风险回归模型探索领域内的专利审查概况,并从专利客体特征以及专利主体特征出发探索显著影响该领域专利审查周期的因素。[结果]结果显示,中国人工智能领域发明专利审查过程中的平均生存期为32.81个月。其中权利要求数、IPC分类号数以及发明人数是专利审查周期的保护因素,对其延长具有促进作用;专利引文数是危险因素,专利引文数越多的专利获得授权所需时间越短。申请人类型中,高校及科研机构、以及机关团体与个人相比,均花费更短的专利审查时间。企业会降低专利申请-授权的风险率,其所需专利审查周期更长。[局限]专利审查周期与专利局的审查流程、专利审查员的个人特征具有密切联系,文章未能获取与之相关的更细粒度的数据来进行分析。[结论]为优化专利审查程序,缩短专利授权周期,本文提出可以进一步结合不同技术领域、申请主体特点建立多样化审查模式、加强专利审查过程中自动化技术使用以及设立分类审查标准提升整体专利审查效率等建议。

  • 张宛姝, 姚海涛, 汪雪锋

    [目的]以ESI高被引论文为研究对象,挖掘中国、美国、英国的学科布局特征。[方法]借鉴生物多样性的一般框架,融合细分学科与文本内容,构建学科多样性、学科均衡性、学科差异性指标,并以五年为时间窗口分析指标变化趋势,更为综合地对比学科布局特征。[结果]中国在社科、生物医学的学科多样性上,在工程学、数学、环境与生态学等的学科均衡性上,在计算机、地球、动植物学等的学科差异性上仍与美国、英国存在差距,部分指标呈现上升趋势。[局限]学科覆盖阈值有待探讨,未考虑作者国别位序对论文贡献度的差异。[结论]有助于为学科评估和完善学科布局提供新思路,具有借鉴意义。

  • 王琰, 胥美美, 童俞嘉, 苟欢, 蔡荣, 单治易, 安新颖

    [目的]利用机器学习对循环系统疾病死亡构建预测预警模型及评价,为疾病的预防提供参考。

    [方法]使用中国某地区2014-2018年循环系统疾病死亡数据进行分析,采用GAM、RF、XGBoost构建预测模型。分布滞后非线性模型计算累计滞后效应结果构建预警模型,进行模型评价。

    [结果]累计滞后效应发现持续低温高温、高日照时数、高环境污染物浓度会增加循环系统疾病死亡风险,累计七天的相对危险度分别为1.236、1.130、1.56、1.062、1.218、1.153、1.796。RF、XGBoost模型RMSE为4.979、5.341性能较好。年龄、性别、气温、日照时数、SO2、NO2、CO、O3、PM10、PM2.5浓度为筛选出的特征变量,将累计滞后效应筛选后的数据确定预警值预警效果较好。XGBoost预测结果的灵敏度、特异度、曲线下面积分别为0.948、0.939、0.941。

    [局限]缺乏伴随疾病独立数据和疾病发展进程数据。

    [结论]该地区死亡数增加与高年龄、男性、温度、日照时数、污染物浓度的升高有关。利用XGBoost模型构建的预测预警模型性能好,可为相关部门疾病的预防和干预提供参考价值。


  • 周宁, 靳高雅, 石雯茜

    [目的]提出融合神经网络与全局推理的实体共指消解模型,解决文本内实体信息复杂其指代信息具有不明确性且分布稀疏的问题,探索更有效的共指消解研究方法。[方法]本文首先利用神经网络模型抽取出文档中的实体和其前指词,其次结合句子的上下文信息进行全局推理,将此推理结果加入到神经网络模型中,从而提高实体共指消解的精确度。[结果] 在OntoNotes5.0数据集上进行的实体共指消解实验结果,验证了该文给出模型的有效性。融合神经网络与全局推理的实体共指消解算法能有效地提高共指消解性能和更好地理解文本语义信息,最终模型性能在CONLL评测标准下F1值达到74.76%。[局限]需加入更精确的知识推理。[结论]比较本模型与近几年其他的共指消解模型实验结果,证明了本模型的实用性与有效性。

  • 孟凡思, 钟寒, 施水才, 谢泽坤

    [目的]对三孩政策相关舆情在不同省份的区别进行分析研究。

    [应用背景]三孩政策舆情的分析往往将全网的三孩舆情视为一个整体,忽视了不同省份群体对三孩政策的诉求、关注点的不同;对三孩政策舆情的文本研究存在方法简单、文本来源单一的问题。

    [方法]首先从统计学角度基于时间序列分析三孩舆情热度。然后基于SVM方法对三孩舆情进行情感分析,发现负面舆情,基于CRF方法进行关键词提取,形成词云。对不同省份的三孩舆情文本展开研究,得到不同省份的三孩负面舆情词云。对比不同省份负面舆情关键词与不同省份的政治、经济统计数据,分析其中的联系。

    [结果]实验结果表明,三孩政策舆情热度高于同期政策类舆情。舆情以中性情感为主,占60.56%,积极情感为辅,占35.15%,存在少量负面舆情,占4.29%。不同省份的舆情关注点不同,这些差别与各省的政治经济生态差异是有关联性的。

    [结论]三孩政策的舆论引导和监督工作应当考虑不同省份的实际情况,针对人民关切的问题作出回应,及时跟进相关的配套措施。


  • 杨昊霖, 董永权, 陈华凤, 张国玺

    [目的]解决现有方法多数只侧重于多真值属性自身,缺少考虑辅助属性影响的问题,提高多真值发现的准确性。[方法]利用辅助属性计算数据源专业度和共识度,结合多真值属性值的活跃度得到数据源对冲突数据的支持度。通过调用已有真值发现方法获取真值伪标签,使用神经网络捕获数据源和冲突数据的复杂关系,最终推理出全部的真值。[结果]实验结果表明,与次优模型相比,在图书数据集上F1提升2%,在电影数据集上F1提升5%。[缺陷]本方法融合了反应对象特征的辅助属性,尚未探索其余辅助属性对多真值发现的影响。[结论]基于多真值属性与辅助属性融合的方法提高了多真值发现的准确性。

  • 俞琰, 朱晟忱

    专利关键词抽取;限定关系;权利要求;TextRank

  • 冯小东, 惠康欣

    【目的】针对社交媒体文本数据存在的语义稀疏及多元主体交互问题,探索有效的主题聚类方法。【方法】利用异构信息网络对社交媒体的用户和信息多元交互关系进行建模,使用词嵌入方法学习文本的向量表示作为初始输入特征,基于异构图神经网络实现信息的传播及融合,学习得到文本的表示向量并利用无监督聚类算法进行主题聚类。【结果】实验结果表明,在基准社交媒体数据集上,帖子和评论的聚类指标(NMI)分别达到0.83和0.86,优于传统的LDA主题模型或基于Word2Vec\Doc2Vec\GolVe等词或文本嵌入向量直接聚类的方法。【局限】由于数据的限制,模型并未对用户间社交关系及信息的多媒体内容进行建模。【结论】本文提出的方法通过对社交媒体多元交互关系的建模,能有效提高文本主题聚类的效果。

  • 唐娇, 张力生, 桑春艳

    [目的]在充分利用新闻文本内容、附加信息的基础上,探究用户的当前关注和稳定偏好,弥补现有新闻推荐方法在利用新闻内容信息和探索用户长、短期混合兴趣等方面的不足。

    [方法]构建了一种融合不同类型新闻信息的新闻表示模型,对新闻的标题、摘要、正文等文本内容,以及显式主题、潜在主题等附加信息进行了有效利用;在此基础之上,构建了一种可以刻画用户长、短期兴趣用户表示模型,探究了用户的当前关注和稳定偏好。

    [结果]在4项评价指标下,所提出模型在两个大规模新闻推荐数据集上的性能分别达到了69.51%、34.09%、37.25%、43.00%以及66.05%、30.93%、34.30%、40.46%,稳定超越了所比较的7个先进基准模型。

    [局限]本文对历史行为稀疏的用户考虑不足,后续可针对用户冷启动场景作出适当推荐。

    [结论]该方法利用先进的自然语言处理技术学习了信息量比较丰富的新闻和用户表示向量,其设计思路能有效提高新闻推荐的性能。


  • 黄学坚, 刘雨飏, 马廷淮

    [目的] 解决传统图神经网络的过平滑问题,实现图神经网络不同深度和不同邻居的权重自适应分配,提高学术论文分类的性能。

    [方法]提出一种基于多头注意力机制和残差网络结构的改进型图神经网络学术论文分类模型。首先,基于多头注意力机制学习文献间多种关联特征,实现不同邻居节点权重的自适应分配;然后,基于残差网络结构聚合模型每层节点的输出,为模型提供自适应性聚合半径的学习机制;最后,基于改进型图神经网络学习论文引用关系图中每个节点的特征表示,把该特征输入多层全连接网络中得到最终分类结果。

    [结果] 在大规模真实数据集上的实验结果表明,该模型的准确率达到了61%,比传统的GCN和Transformer模型的准确率分别高出4%和14%。

    [局限]对小类别样本和难于区分的样本的分类准确率不高。

    [结论]改进的图神经网络能够有效的避免过平滑问题,实现不同权重的自适应分配。

  • 贾明华, 王秀利

    [目的]通过量化金融风险逻辑关系来防控金融风险,同时处理金融事件词频量化不可靠问题。

    [方法]提出一种结合领域知识的基于BERT和互信息的金融风险逻辑关系量化分析方法,并在通用数据集COPA和金融领域数据集进行关系量化。

    [结果]基于BERT和互信息能够有效解决词频量化不可靠问题,该方法在金融风险逻辑关系量化的准确率达到80.1%,较基准模型提升了3.09~37.39%。

    [局限]仅考虑了金融领域的语料,在非金融等其他语料上的效果有待检验。

    [结论]该方法能够揭示金融风险事件的演化路径,提升金融风险逻辑关系量化的效果。

  • 游新冬, 袁梦龙, 张乐, 吕学强

    [目的]针对消费品领域中缺陷词识别任务精度不足问题,本文提出了基于义原与多特征融合的消费品领域缺陷词识别模型。

    [方法]模型输入为融合义原信息的分布式词向量,在此基础上添加词性特征和经过随机嵌入的词位置向量,以增添词向量所包含的信息;在卷积神经网络上去除了最大池化,增加卷积核输出的深度向量所包含的信息,为单词分类提供更充分的信息。

    [结果]实验结果表明,本文方法相较于仅添加词位置向量的卷积神经网络模型,在准确率、召回率和F1值上分别有2.1%、0.2%和1.2%的提升。

    [局限]不同场景下的相同表述的极性识别不足。

    [结论]通过消融实验证明,义原、词性以及去除池化层有助于领域词识别模型性能的提升。


  • 成全, 佘德昕

    [目的]通过融合病患体征信息与用药数据,利用图神经网络技术进行药物精准推荐研究,以期增强疾病诊疗过程中药物推荐的科学性与合理性。

    [方法]建立了基于图神经网络(Graph Neural Network,GNN)的“异常体征”与“药品”传递关系模型,设计了具有体征感知功能的药物精准推荐方案。通过构建“异常体征-病患-药品”异构图,采用R-GCN编码器学习具有体征感知的节点表示,通过设计基于体征感知交互的解码器,融合异常体征信息,实现对药物的精准推荐。

    [结果] 以MIMIC-Ⅲ数据集中三类疾病诊疗数据为对象开展实证研究。本研究设计的药物推荐方案较SVD、NeuMF、NGCF模型在Recall@20指标上分别提高了13.49%、12.36%、1.91%;在NDCG@20值上分别提升了16.69%、13.75%、8.22%。

    [局限]本研究所设计的药物推荐方案未考虑到病患药物使用随疾病发展时间的动态变化情况。

    [结论] 融合病患体征信息与用药数据的图神经网络药物推荐方法具有有效性和可行性,能够感知病患体征对用药的影响,这也为融合多维度信息开展药物精准推荐研究提供了基础。

  • 董文慧, 熊回香, 杜瑾, 王妞妞

    [目的]为帮助学者快速地找到合适的科研合作者,促进科研产出、增进学术交流。

    [方法]本文采用LDA主题模型、PageRank算法、社会网络分析法等方法,全面深入挖掘学者的自然属性、兴趣属性、能力属性、社交属性4个维度特征以构建学者画像,并基于学者偏好开展科研合作者推荐。

    [结果]从CNKI和CSSCI中获取图书情报领域14007篇文献、13292条引文数据及11869位作者验证本文所提模型,最终向目标学者推荐了20名研究兴趣相似及互补的潜在科研合作者。

    [局限]本文未能很好地解决冷启动问题,且在学者能力表征方面忽略了不同署名顺序的作者对论文的贡献度,在实证环节数据量选择有限。

    [结论]本模型可以有效地向目标学者推荐高权威度、高相关度,且科研生产力和社交关系等多方面特征均高度匹配的潜在科研合作者,具有较好地应用价值。

  • 施运梅, 袁博, 张乐, 吕学强

    [目的]针对“网络水军”发布的虚假评论信息在电商网站泛滥的问题,集成了一种面向中文电商网站评论的融合图像信息与文本语义的虚假评论检测方法(IMTS)。

    [方法]IMTS方法使用文本卷积神经网络(TextCNN)及Bert预训练模型分别对文本评论信息进行特征提取,并得到对应的特征向量。再融入评论者特征,通过拼接评论文本语义与评论者ID的输出特征,进一步加强模型对整体语义信息的捕捉。再将用户在评论中发布的图片利用残差网络(ResNet)进行特征抽取,获得对应的视觉特征,最后将文本特征与视觉特征进行多模态融合对虚假评论进行检测。

    [结果]IMTS方法在自建的多模态中文虚假评论数据集上,达到了96.36%的准确率,96.35%的召回率以及96.35%的F1值。

    [局限]限于计算能力,本文的数据集规模较小,且在文本处理阶段使用了Bert预训练模型,在大规模的数据计算情况下,时间成本较高。

    [结论]运用多模态思想以及特征融合方法来对虚假评论文本进行特征补充从而检测虚假评论是有效的,此方法可以有效提升虚假评论整体的检测精度。

  • 丁浩, 胡广伟, 王婷, 索炜

    [目的]提出一种基于时序漂移的潜在因子分解模型,捕捉用户兴趣趋势特征以提升推荐准确度。[方法]结合用户偏好的时序动态演化以及用户过去行为对当前行为的影响关系进行建模,通过构建辅助矩阵捕捉用户两个时期之间演变关系,引入时间影响因子平衡当前和过去行为的影响。[结果]在三个实验数据集中和基线方法对比测试,精确度最大提高40%,最少提高了3.75%,平均提高19.8%,说明本算法的具有有效性。[局限]由于兴趣漂移演变分析依赖用户历史数据,当历史数据量过于稀疏时需采用用户其它信息进行冷启动。[结论]通过实验比较,本文模型对兴趣波动特征的泛化能力更强、用户兴趣演变趋势分析和推荐更准确,有效提升企业推荐性能。

  • 陈东华, 张润彤

    [目的] 利用主题生成和多标签分类方法为疫苗安全性监测和公众舆情分析提供决策支持。

    [方法] 提出基于隐含狄利克雷分布的在线疫苗不良反应帖子主题生成方法,建立不同策略下基于多标签分类的疫苗帖子舆情主题识别方法并研究公众对疫苗的情感与用户行为关系。

    [结果] 融合情感词典与MedDRA词典能提高疫苗相关帖子情感识别精度高达15.17%。One-vs-Rest方法实现疫苗舆情主题识别精度达97.15%,而其他分类方法仅实现约80%精度。

    [局限] 社交平台上用户发布的疫苗不良反应相关帖子包含大量非标准术语,影响疫苗不良反应信息提取,需要融合医学术语集和多模态数据分析,进一步提高舆情主题的识别精度。

    [结论] 疫苗相关帖子主题建模及情感分析提高疫苗接种后用户舆情分析与辅助决策精度。