【目的】 对基于文献的知识发现(Literature-Based Discovery,LBD)近十年的文献进行综述,了解该主题的最新研究进展、发展趋势与面临的挑战。【文献范围】 在Web of Science、CNKI和百度学术中使用“literature based discovery”、“literature AND knowledge discovery”、“文献知识发现”、“文献AND知识挖掘”进行检索,限定文献发表时间为2010年-2020年,共筛选出72篇代表性文献进行述评。【方法】 从研究对象、方法技术、结果评估与典型应用4个方面对文献进行归纳梳理,并总结LBD的发展趋势与面临的挑战。【结果】 LBD发展呈现出研究对象复杂化、分析方法智能化、发现结果丰富化与应用服务实践化的趋势;LBD在多源异构数据融合、知识发现可解释性、结果有效性评估、多领域专家协同方面面临重大挑战。【局限】 主要基于文献对LBD新近进展进行综述,对LBD工具系统及产业界应用覆盖不够。【结论】 作为情报学、信息学、数据科学的交叉研究领域,LBD对挖掘跨学科领域隐性知识与提供高质量学科化知识服务具有重要意义,但真正实现支持潜在的科学新发现还存在诸多挑战。
【目的】 实时准确地了解信息检索领域的研究热点和演化趋势,为本领域的研究人员提供参考和帮助,对于加速与交叉学科的融合,促进信息检索技术的快速应用具有至关重要的作用。【方法】 以SIGIR年会2008-2019年的录用论文作为数据源。首先,采用LDA模型识别并生成主题;其次,根据文献与主题的相似度过滤边缘文献,并通过计算文献主题区分度进行文档多主题划分;接着,通过构建领域主题在时间序列上的演化路径,展示主题的上升、下降及稳定三种演化方式;最后,通过模块化社团结构发现,构建单一主题的细粒度演化路径,充分展示主题群落内部知识单元间的动态演化过程。【结果】 本文方法避免了边缘文献对领域主题识别和演化路径造成的干扰,文献多主题划分有助于揭示主题之间的交叉融合。研究发现,目前信息检索领域主要以用户为中心,检索模型不断优化,注重过滤和推荐,注重语义网技术,深度学习方法得到广泛应用,医疗健康等应用领域逐渐成为信息检索领域重点关注的内容。【局限】 设置阈值过滤边缘文献并进行文献多主题划分,具有一定的主观性。【结论】 智能化与信息化将逐渐成为一种常态,用户对信息检索的需求更加凸显。
【目的】 改善当下多数主题模型建模缺乏语境、可解释性弱、IPC结合不佳的问题。【方法】 提出语境增强概念及IPC语境增强Context-LDA模型,将文本下所有IPC与抽取词汇同时作为训练语料,通过Python进行主题建模,并与传统LDA模型比较泛化能力和主题表示能力。【结果】 基于38 354条石墨烯专利数据,不同场景下IPC语境增强Context-LDA模型困惑度值较低,多为100以下,泛化能力强;JS值高于传统LDA模型约0.1,主题辨识度更明显;IPC与主题词互相表征,主题可读性增强,且IPC平均位置在9.6/20,不会带来噪声。【局限】 尚未将IPC语境增强Context-LDA模型下的词汇表示从uni-gram向n-gram拓展。【结论】 主题模型对专利主题分析有着重要的支持作用,需要基于实际需求开发更多有效、精准的分析模型。
【目的】 基于网络舆情事件展开分析,确定其属性特征及分类。当出现新的网络舆情事件时,可提前预测该事件是否会发生反转,既能帮助政府及时调整舆论导向,又能防止政府媒体的公信力受到负面影响。【方法】 收集近5年发生的具有代表性的网络舆情事件,设计改进的SMOTE算法对事件数据集进行平衡分布处理,构建基于神经网络集成学习的舆情反转预测模型,并采用精确率、召回率等指标对模型的预测效果进行评估。选取2020年最新发生的网络舆情事件案例对提出的模型进行测试,进一步揭示所构建的反转预测模型的内在机制。【结果】 通过实证研究,构建的神经网络集成学习分类模型准确率达99%,F值和AUC值均为0.99,验证了模型的可行性和较强的泛化性能。【局限】 只选取舆情反转事件的部分特征进行研究,对未来发生的舆情反转事件表征不够全面。【结论】 所构建的舆情反转预测模型可以提前准确预测舆情事件是否会发生反转。
【目的】 应用多模态情感分析方法,从视频信息中挖掘表达者观点,进而分析用户的情感表达。【方法】 引入双模态和三模态两个层次的跨模态上下文信息帮助获取文本、视觉及语音三模态间的交互信息,并使用注意力机制过滤冗余信息,根据融合信息进行情感分析。【结果】 在MOSEI数据集上,情感分类的准确率和F1值分别达到80.27%和79.23%,较基准方法的最高值分别提高了0.47%和0.87%;回归分析的平均绝对误差降低为0.66。【局限】 MOSI数据集规模小,模型训练阶段出现过拟合现象,情感预测效果受限。【结论】 所提模型能够充分利用不同模态间的交互信息,有效提升多模态情感预测的准确性。
【目的】 基于情感距离视角,探究奖励式众筹项目的描述文本特征对用户投资决策行为的影响。【方法】 基于心理距离理论,定义投融资双方的文本情感距离及其三个维度。通过文本分析方法开发文本情感距离各维度的测度指标;构建文本情感距离对用户投资决策影响的计量模型,并通过Kickstarter众筹平台161 279个项目文本进行实证分析。【结果】 文本的积极情感倾向、文本亲和性与文本交互性对用户投资决策存在显著正向影响作用;文本的消极情感倾向对投资者决策存在显著负向影响作用;不同项目类别下,文本情感距离特征对用户投资决策行为的影响存在明显差异。【局限】 本研究未涉及其他众筹形式,研究结论在适用范围上存在局限;对语言的心理学和社会学等领域的定性研究在技术等方面尚存局限。【结论】 奖励式众筹融资者应重视项目文本描述的情感表达,着重展现积极的情感倾向与亲和性等特征;针对不同类别的项目,情感表达应有不同程度的侧重,以提高项目融资率。
【目的】 研究评论文本中专业评论家和普通观众表达情感的方式的差异,提高评论情感分类的准确率。【方法】 利用用户的专业类型辅助判断评论的情感极性,使用生成式对抗网络分析评论来自专业评论家还是普通观众,通过捕获两者在表达情感方式上的差异性,进一步提高评论情感分类的准确度。【结果】 实验证明,提出的基于生成式对抗网络和评论专业类型的情感分类模型GJOINT准确率达到0.836,比基准模型LSTM、BiLSTM分别提高了5.6%、4.4%。【局限】 实验数据集只选取电影评论数据集,在其他领域数据集上的有效性需要进一步验证。【结论】 提出的基于生成式对抗网络和评论专业类型的情感分类模型GJOINT能有效提高在线评论情感分类的效果。
【目的】 将词语的语义信息引入TextRank算法中,改进关键词抽取效果。【方法】 使用HowNet知识库提供的词语义原信息计算词语相似度,根据设定的相似度阈值构建语义词图和矩阵。之后将语义矩阵和共现矩阵加权,得到新的词节点转移概率矩阵。【结果】 改进后的算法在短文本上表现优于传统TextRank、TF-IDF和LDA,F值分别提高了6.6%、9.0%和10.3%;在长文本上表现逊于TF-IDF,与TextRank差别不大。【局限】 分词程序对复合词、新词和实体类名词识别效果较差,使算法抽取到残缺的关键词,导致F值降低。此外,义原相似度算法也可进一步改进。【结论】 结合语义的TextRank算法使关键词抽取过程兼顾词语共现及语义关系,为短文本关键词抽取提供了新思路。
【目的】 解决文献资源管理系统中中文论文学者同名问题。【方法】 在文献数据的基础上构建以“作者名+机构名”为标识的学者实体,利用学者实体的属性构建三个方面的6个相似度特征,分别采用主成分分析、直接赋值权重以及二者结合的方法融合特征,研究各融合方法消歧能力和各特征消歧效果。【结果】 主成分分析与以单个特征为单位的赋值权重相结合的融合方法,以及以单个方面为单位的赋值权重的融合方法能有效降低时间开销,在LIS测试集上F1值分别达到70.74%和70.42%,在经济学测试集上F1值分别达到81.90%和80.93%。【局限】 研究所使用的特征有限,均来源于论文的元数据描述,没有使用外部信息或挖掘文本内容。【结论】 所提特征融合方法可有效解决多特征融合时权重设置问题。
【目的】 针对用户类型多样性和推荐模型专一性的问题,提出基于用户行为自适应推荐模型。【方法】 通过构建三层协同结构来规范推荐过程。第一层对用户分类,形成不同推荐通道;第二层根据通道匹配经过改进的推荐子算法;第三层引入特征加权形成推荐池,并在其中筛选项目推荐给用户;最终实现自适应推荐。【结果】 与主流推荐模型进行对比,本文所提推荐模型的准确率、召回率、覆盖率、流行度分别是0.24、0.17、0.50、4.40,说明本文模型在各项指标上均有很好的表现。【局限】 推荐算法以显性的评分为基础,无法直接预测无评分数据的数据集,需要构造偏好模型预测出隐式数据的评分,再进行预测,故在实际应用中会有一定的局限性。【结论】 本文模型能够适应不同类型用户的偏好,并实现合理的推荐。
【目的】 针对期刊论文评议,设计一种审稿专家一致性评价方法。【方法】 同时考虑蕴含于评议数据中的专家知识与蕴含于发表文献的计量数据中的学术共同体知识,提出一种审稿专家一致性评价方法,基于《长江流域资源与环境》期刊评议数据与已发表论文的计量数据计算专家一致性指数,设计假设检验方法检验一致性更高的专家是否能对论文做出更为准确的评价。【结果】 检验结果表明高一致性专家能更有效地区分论文的学术共同体认可度(区分度为低一致性专家的两倍以上),且该能力随时间的推移可以得到保持。【局限】 本文的专家一致性指数无法替代期刊编辑进行专家选择,但可在期刊编辑选择审稿专家时为其提供客观的数据参考,以提高遴选效率与效果。【结论】 研究结果表明基于历史数据计算一致性指数并辅助审稿专家遴选具备可行性。
【目的】 基于知识元视角探索从异构数据中抽取和集成领域知识,丰富知识表示的语义信息。【方法】 优化现有的知识元语义描述模型,提出基于知识元语义描述模型的知识抽取与表示方法,并以信息检索领域为例开展应用。【结果】 从维基百科以及两本经典教材中抽取信息检索领域4 200条知识元和3 020个实体,支持知识元及其实体之间关系的查询。【局限】 知识元间语义关系的挖掘不够充分,知识抽取过程未能实现全自动。【结论】 在一定程度上突破现有研究中知识表示语义不丰富的局限,为领域知识服务提供新视角。
【目的】 提出一个用于多项选择机器阅读理解的多角度共同匹配模型,并探讨问题类型和答案长度对机器寻找正确答案的影响。【方法】 使用多角度匹配机制获得文章与问题和候选答案之间的相关性,用相关性与文章向量相乘得到问题和候选答案的向量表示。提取句子级和文档级的特征,基于这些特征选择出正确答案。基于问题类型和答案长度对数据进行分类,测试其精确度,并分析问题类型和答案长度对机器选择正确答案的影响。【结果】 本模型在RACE-M、RACE-H和RACE数据集上的准确率分别达到72.5%、63.1%和66.1%。【局限】 多角度匹配机制包含4种匹配策略和多个角度使得模型在交互层需要消耗大量的内存和时间。【结论】 多角度匹配机制能够更好地交互文章与问题和候选答案,模型的准确率更受到问题类型的影响,而不受答案长度的影响。