【目的】 分析并评述领域事件知识图谱构建的相关研究,为后续研究提供理论基础和实践指导。【文献范围】 利用Web of Science核心数据库和Google Scholar以“Event Graph”、“Event extraction”和“Event relation”等主题词进行检索,经过手工筛选获得代表性文献61篇。【方法】 采用文献调研方法系统梳理领域事件图谱在定义、构建流程、识别方法等方面的工作。总结了基于规则、基于特征学习以及基于神经网络三种事件抽取的方法,对事件抽取与事件关系抽取中的特征选择、模型架构以及实验结果等进行分析和对比。【结果】 借鉴通用图谱构建的方法,提出包括事件触发词识别、事件要素识别、事件关系识别以及事件存储等在内的领域事件图谱构建流程模型。从描述结构、领域限制、事件形式、推理能力和时序关系等角度阐明构建标准应具备的元素。在构建实践中,事件本体的借鉴和复用是必要选项,事件抽取采用神经网络方法是目前最优的选择。【局限】 由于标准数据集的缺失,事件关系抽取对比中未能采用统一的数据集进行量化比较。【结论】 提出从知识提升、迁移学习以及认知模型等三个视角开展该主题后继研究的建议。
【目的】 围绕“通过科学文献中有关知识主张的文本语言学特征,测度医学知识的不确定性”这一主题,阐述其理论基础、研究进展及其预期应用场景。【文献范围】 以同时包含“不确定”、“知识/知识单元”、“医学”三方面关键词为规则,以源作Representing Scientific Knowledge: The Role of Uncertainty设置引文追踪。综合采用关键词检索和引文检索,在中英文数据库检索并筛选文献,共筛选得到51篇。【方法】 对文献进行分类述评;对涉及的研究方法、数据来源、核心观点进行归纳梳理。【结果】 理论基础主要包括宏观层面的范式转移理论,以及微观层面的统计学理论,如贝叶斯因果网络。研究进展集中于三个方面:一是识别医学文献中表达不确定性的线索词与语句;二是细粒度、结构化表示医学知识对象;三是针对结构化医学知识测度其来源文本表述的不确定性程度。【局限】 对知识单元的讨论仅限以“数据-信息-知识-智慧”(Data-Information-Knowledge-Wisdom,DIKW)模型为基本范式的情报学、知识工程或人工智能领域。【结论】 医学知识不确定性测度是一个信息计量学与医学信息学交叉研究的新方向。不确定性及其时间演化间接反映知识主张的竞争强度、知识缺口的解决程度和知识确定性的概率,有望促进信息计量学向知识计量学深化,并拓展信息计量学在知识发现、科技评价和人工智能领域潜在的新应用。
【目的】 为促进科研人员间的交流合作,实现科研效率最大化,提出一种改进的翻译模型TransTopic,用于干细胞领域的科研合作预测研究。【方法】 TransTopic旨在将科研合作网络中的节点和边统一映射为低维向量。利用LDA主题模型抽取论文的主题分布特征,使用深度自编码器将主题特征编码为边向量,基于翻译机制得到节点向量,通过向量间的语义计算实现科研合作预测。【结果】 TransTopic在链接预测上的AUC(95.21%)和MeanRank(17.48)指标均表现最优,并且主题预测的准确率达到86.52%。【局限】 合作预测方法仅考虑了一步的翻译路径,并且作者的机构、研究兴趣和发文等级等多元信息没有得到充分的利用。【结论】 基于翻译模型的预测方法可以有效完成干细胞领域的科研合作预测工作。
【目的】 针对社会化问答平台场景,构建深度神经网络模型,改善查询推荐的效果。【方法】 以Yahoo Answers和Yahoo! L6为基础构建实验数据集,基于语义匹配矩阵、变长卷积层和多层感知机构建CNMNN神经网络模型,并与MQ2QC、IBLM、DRMM和MatchPyramid等基线进行了对比。【结果】 对比MQ2QC、IBLM、DRMM、MatchPyramid这4种现有方法的最优效果,CNMNN模型在nDCG@5、nDCG@10、nDCG@20、MRR和MAP等相关性评价指标上的提升率分别为45.0%、38.7%、33.4%、34.8%和52.9%,在α-nDCG@5、α-nDCG@10、α-nDCG@20、ERR-IA@5、ERR-IA@10和ERR-IA@20等多样性指标上的提升率分别为31.5%、23.6%、25.5%、38.1%、36.9%和30.7%。【局限】 尽管分析了多样性指标α-nDCG@k和ERR-IA@k,但是没有针对推荐结果提出进一步的多样化方法。【结论】 CNMNN模型不仅可以计算查询和自然语言问句在短语级别的语义相关性,还避免了层次卷积操作导致的特征信号压缩问题。
【目的】 基于LDA构建微博用户主题图谱,更准确、有效地识别微博用户主题群体特征并有针对性地识别意见领袖,对网络舆情进行有针对性的引导,降低舆情监控成本。【方法】 构建基于LDA的微博用户主题图谱过程模型,利用困惑度评价指标确定微博用户的最优主题数和主题分布;利用JS散度对微博用户的主题进行相似度度量,并将JS散度作为边权重构建主题图谱。以新浪微博“埃航空难”话题为例,进行用户群体主题偏好、主题用户群体特征以及主题用户意见领袖识别的讨论分析。【结果】 数据结果表明,基于LDA的微博用户主题图谱不仅可以利用微博用户的主题对其进行聚类,还可以准确定位每个主题下的意见领袖。【局限】 LDA的最优主题数的确定过程是一个超参数的寻优过程,缺少先验的确定方法,时间复杂度相对较高。【结论】 研究结果可为舆情监管部门识别不同主题群体的特征和意见领袖提供一定的指导。
【目的】 对只有少量标注的文本进行高效率的分类,提出一种新的半监督文本分类方法。【方法】 提出DW-TCI半监督文本分类方法,通过使用双通道的特征提取方式得到基分类器组的两组特征输入向量,并引入基于分歧的半监督分类方法和集成学习的思想,将无监督共识结果样本引入模型训练,最后通过等值加权投票法得到预测文本的分类结果。【结果】 在两个不同的数据集下,DW-TCI方法使用20%有标签样本训练时,分类精度分别达到92.32%和87.01%,对比其他半监督分类方法最少分别提升5.54%和5.65%。【局限】 使用的数据集数量较少,未在更多的数据集上进行验证。【结论】 DW-TCI方法可以大幅减少对训练样本的标注,为服务商进行高效的文本分类提供了有效支持。
【目的】 通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力。【方法】 在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作为基方法,在分层聚类中引入分话题向量完成话题聚类;提取标题高频词实现话题描述。【结果】 WTF-IDF方法在关键词抽取数为3时与TF-IDF方法相比F1值提升5.4%;基于WTF-IDF与分话题向量的分层聚类与分层TF-IDF的K-means聚类相比准确提升3.1%。【局限】 关键词抽取未考虑短语形式;分层聚类方法增加了算法时间复杂度。【结论】 本文提出的关键词抽取和分层聚类方法可以改善新闻热点话题检测效果,话题描述得到的话题短语也达到一定的代表性与可读性。
【目的】 构建基于迁移学习的社交网络图像隐私自动分类器,对用户进行合理的提示,避免用户无意间上传包含隐私信息的内容。【方法】 本文构建并标注了微博图像隐私分类数据集,采用深度迁移机器学习,尝试微调多种不同的图像预训练模型,对新浪微博图片是否包含隐私进行自动化分类。【结果】 以相同的数据量,通过与非迁移学习方式对比,迁移学习的准确率至少提升了30%。迁移学习方式下,大部分ResNet深度神经网络架构的准确率可以达到88%以上。其中,ResNet50拥有最高的召回率(94.31%)、准确率(90.80%)和F1值(91.11%),且测试耗时最短(148 s),综合权衡对比,是最为适合当前场景需求的模型架构。【局限】 标注的数据量相对偏少,可能没有囊括某些其他隐私类型。【结论】 本文验证了深度迁移学习在微博隐私图片分类领域的可行性,可以为社交媒体用户提供隐私曝露预警。构建的微博图片隐私分类数据集为后续研究提供了基础和参考对照标准。
【目的】 减少双语词典和大规模双语语料库的构建,提高专利文本语义的揭示和利用,从文本语义表示角度设计无监督的跨语言专利推荐方法,提高跨语言专利推荐效果和领域适用能力。【方法】 首先设计无监督跨语言词向量映射方法,通过线性变换将独立的中英专利词向量映射到统一语义向量空间,构建中英词语间的语义映射关系;然后利用平滑倒词频的词向量加权方法,形成基于跨语言专利词向量的专利文本语义表示方法,实现中英专利文本在同一向量空间中的语义表示;最后应用向量相似度计算指标,计算不同语言专利文本间的语义相似度,构建基于表示学习的无监督跨语言专利推荐方法,实现跨语言专利推荐。【结果】 在无线通信领域的实验中,无监督跨语言专利推荐方法的Top-1和Top-5推荐准确率分别达到55.63%和77.82%,较弱监督跨语言专利推荐方法分别提高了0.66%和1.45%,较基于机器翻译的跨语言专利推荐方法分别提高了4.29%和3.90%。【局限】 仅对特定领域中英专利进行推荐,尚需扩展领域和语言范围。【结论】 能够实现有效的中英跨语言专利推荐,并可扩展应用到其他领域和语种下的专利推荐中。
【目的】 利用专利知识图谱计算专利术语之间的相似度,从而计算专利文本之间的相似度以判断专利是否侵权。【方法】 利用已构建的新能源汽车专利的知识图谱,结合术语的概念层次结构、术语在知识图谱中的距离、术语的语义相似度以及术语的属性计算术语之间的相似度。【结果】 专利术语分类的准确率和召回率都在80%以上,相较于传统方法有明显提升。【局限】 人工构建概念层次结构树以及标注术语的分类,可能会存在部分的分类错误。【结论】 基于专利的知识图谱计算专利术语之间的相似度是可行的,使用分类的指标对方法进行评价时,指标的准确率达80%以上,对于后续的专利侵权检测研究具有很好的参考作用。
【目的】 针对当前文本分类任务中存在的训练数据匮乏以及模型泛化性能低等问题,在少样本环境下研究文本分类问题,提出一种少样本文本分类模型。【方法】 基于元学习中的分段训练机制将文本分类任务划分为多个子任务;为了捕捉每个子任务中文本的长效上下文信息,提出双向时间卷积网络;为了捕获辨别力更强的特征,联合双向时间卷积网络和注意力机制提出双向长效注意力网络;利用一种新的神经网络模型度量每个子任务中查询样本与支持集的相关性,从而实现少样本文本分类。【结果】 在ARSC数据集上进行实验,实验结果表明,在少样本环境下,该模型的分类准确率高达86.80%,比现有先进的少样本文本分类模型ROBUSTTC-FSL和Induction-Network-Routing的准确率分别提高了3.68%和1.17%。【局限】 仅针对短文本分类问题,对于篇幅较长的文本,其分类能力有限。【结论】 双向长效注意力网络克服了训练数据匮乏问题且充分捕获文本的语义信息,有效提高了少样本文本分类性能。
【目的】 为保护临床文本中的隐私信息,有效地从非结构化文本中识别受保护的健康信息(PHI),提出利用BiLSTM-CRF模型从临床记录中删除隐私信息的自动化方案。【方法】 选择一家区域卫生信息平台电子健康档案中的出院小结作为实验数据,根据《健康保险可携性与责任法案》(HIPAA)所规定的18项PHI结合实验数据特征确定7个PHI类别及其下包含的15个PHI类型。基于BiLSTM-CRF模型有效地从非结构化的临床记录中识别受保护的健康信息。【结果】 对所有实体类别识别的准确率、召回率以及F值分别达98.66%、99.36%以及99.01%,并对识别错误的标签进行总结分析。【局限】 结合语料特征对模型性能的优化有待完善,并且对于自动识别PHI后的临床文本质量未进行评估。【结论】 BiLSTM-CRF模型在不需要特征工程的情况下实现了命名实体自动化识别,有利于促进临床信息共享与利用。
【目的】 在标注语料匮乏的情况下,利用主动学习策略,探索科技文献信息抽取的有效解决方案。【方法】 设计一种融合主动学习的神经网络模型架构,将三种代表性的主动学习策略(MARGIN,NSE,MNLP)和新提出的LWP策略与神经网络信息抽取模型(CNN-BiLSTM-CRF)结合,研究适用于标注语料匮乏的任务驱动型信息抽取方法。【结果】 在主动学习引导下,仅选择性标注10%~30%数据,即可达到神经网络模型训练100%标注数据的效果,可大大降低标注语料库构建过程中的人力成本。【局限】 人工智能领域科技文献数据集规模小、噪声多,信息抽取模型的精确率低。【结论】 主动学习策略指导下的神经网络模型,大幅缩减了所需标注语料库的规模。对比4种主动学习策略发现:MNLP策略显著优于其他策略;MARGIN策略在初始迭代阶段表现优异且能辨别出低价值的实例;基于句长规范化的MNLP策略能促进模型的稳定性;LWP适用于语义标签占比大的数据集。