【目的】 探究基于深度学习方法的古籍分词词性一体化标注技术,构建覆盖多领域古籍的自动标注模型。【方法】 采用涵盖“经史子集”的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型。最终将模型应用于《史记》,并对《史记》中构成事件的4种基本词类(人名、地名、时间词、动词)进行整体统计与个例分析。【结果】 在语料涵盖历史、政论等多种领域且体裁多样的条件下,所构建的先秦典籍分词词性一体化标注模型在开放测试中分词准确率达到95.98%,词性标注准确率达到88.97%。在《史记》上的应用进一步证明了模型的稳定性和实用性。【局限】 通过绘制词类标注混淆热力图分析模型错标类型,发现因词类分布样本不均衡、部分词类句法特征相似、兼类等所造成的词性误标有待进一步解决。【结论】 将深度学习模型BERT应用于古汉语分词与词性标注,所构建的分词词性一体化标注模型适用于史籍、诗歌、典章制度等多领域的先秦典籍。
【目的】 促进食品安全监管,加强对食品安全突发事件的预测、预警和应急响应工作,方便相关专业科研人员开展拓展研究,以及向民众简明直观地呈现食品安全事件发展态势。【方法】 基于各大权威新闻网站上的食品安全事件新闻报道,经语料清洗、标注、组织构建了食品安全事件实体语料库,利用深度学习技术,对比分析Bi-LSTM、Bi-LSTM-CRF、IDCNN、IDCNN-CRF和BERT模型在食品安全事件实体语料库上的实体识别效果。【结果】 在十折交叉验证中,BERT模型表现最佳,最高F值达到81.39%,平均F值较IDCNN-CRF和Bi-LSTM-CRF模型分别提升5.50%和2.58%。基于Bi-LSTM-CRF模型,构建了食品安全事件实体一体化呈现平台。【局限】 对复合式行政区划地点实体的识别能力有待提升。【结论】 构建的语料库、模型及呈现平台能有效地为政策制定及食品行业监管提供参考建议。
【目的】 促进数字化古汉语的组织与利用,通过建立标注体系并构建层叠深度学习模型实现古汉语自动断句与标点,从而推动人文社科领域的发展。【方法】 以《四库全书》构成海量典籍的语料库,将自动断句与标点作为序列标注问题研究,确定层叠式的思路。通过构建BERT-LSTM-CRF模型得到未断句古文的自动断句结果,并将该结果作为新的特征,输入到多特征LSTM-CRF模型,迭代学习,最终给出标点标记。利用训练出的模型,在Django框架下搭建相应的应用平台。【结果】 实验结果表明,在大规模语料下,本文方法针对经、史、子、集4部自动断句与标点的调和平均值分别为86.41%与90.84%。【局限】 对于标点体系的处理有待细化。【结论】 所利用的模型显著提升任务效果,所搭建的应用平台实现是数字人文工程化的体现。
【目的】 引入深度学习词嵌入表示技术,帮助更好地从医学领域科技报告中发现主题之间的隐含关联,从而为进一步丰富和完善医学领域主题演化分析方法提供参考。 【方法】 利用基于单词和主题进行联合学习的主题词嵌入表示模型TWE(Topical Word Embeddings),以肿瘤学领域科技报告为数据源,对主题之间的潜在语义关联信息进行计算并用于主题演化分析。【结果】实验结果表明,在词嵌入表示主题演化中,展现出2006年和2007的部分主题分裂关联关系,以及2011年和2012年的部分主题融合关联关系。而这些TWE分裂和融合关联结果在传统LDA主题演化中都没有完全体现出来。传统LDA演化和词嵌入表示主题演化的最大的不同体现在2009年和2010年中,两者得到的相关关系是完全不同的。【局限】 一方面,受到中文领域科技报告数据采集的限制,样本量规模有限;另一方面,未针对其他医学领域研究主题对所提方法进行进一步验证。【结论】 基于主题词嵌入表示模型的主题挖掘及演化分析,能较好突出深度学习语义表示对主题关联的重要作用,并可在医学领域文本特别是科技报告中提供更好的主题演化分析结果。
【目的】 对关键词提取研究的主要方法、相关特征以及评价方法进行总结梳理,为后续的关键词提取研究提供借鉴。【文献范围】 以“Keyword Extraction”、“Keyword Generation”、“Keyphrase Extraction”、“Keyphrase Generation”、“关键词抽取”、“关键词生成”等检索式在Web of Science、DBLP、Engineering Index、Google Scholar、CNKI和万方等数据库进行检索,结合个人积累与文献溯源得到代表性文献89篇。【方法】 梳理关键词提取的发展脉络,从研究方法、相关特征与评价方法三个主要方面对关键词提取的相关研究进行深入分析与总结。【结果】 关键词提取方法随着机器学习技术的发展,逐步从特征驱动的模型转向数据驱动的模型,并面临数据标注、评价规范等问题。【局限】 更为关注关键词提取研究中主流的方法。【结论】 本文通过对关键词提取方法,尤其是关键词生成方法进行总结,阐明了关键词提取方法的研究重心从特征转向数据的趋势与原因,并指出现有关键词提取评价体系所存在的缺陷。
【目的】 分析并总结专利侵权检测的相关研究,为下一步研究提供理论基础和发展趋势。【文献范围】 利用知网和Bing Scholar以“专利侵权”、“Patent Infringement”、“专利相似度”和“Patent Similarity”等关键词进行检索,经过手工筛选获得代表性文献53篇。【方法】 总结基于聚类、基于向量空间模型、基于SAO(Subject-Action-Object)结构、基于深度学习和基于专利结构等专利侵权检测方法;在分析现有方法优缺点的基础上,总结优化专利侵权检测的方向。【结果】 专利侵权检测旨在从大量专利文献中检索出小批量的侵权风险较高的专利,从而减少需要人工进行专利侵权判定的专利数量。专利侵权检测通过计算专利间相似度来判断专利侵权的风险,相似度主要使用不同粒度的统计信息计算得到。【局限】 由于标准数据集的缺失,未能对专利侵权检测相关方法进行量化比较。【结论】 提出从引入预训练模型、融合专利不同组成部分计算相似度和构建高质量的专利侵权检测数据集等方向开展该主题后继研究的建议。
【目的】 解决海量篇级文献的存储与在线访问、大规模数据治理和服务性能低的问题,建设科技文献大数据平台。【方法】 以分布式技术为基础,分析科技大数据特点及服务导向,结合服务器、网络等硬件资源条件,采用共租部署策略,设计了“5+2”整体架构的科技文献大数据平台。【结果】 建成PB级科技文献大数据平台,数据存储量达到200TB,文献实体量达3.2亿条,实体关系量达60亿条,基于MapReduce的元数据处理性能提高3倍,形成了基于微服务的知识服务架构。【局限】 该平台未设计完整的流式处理流程,不能满足增量数据即时响应的需求。【结论】 本文建设的科技文献大数据平台已支撑中国科学院文献情报中心知识发现平台、慧科研等产品体系,取得较好的线上服务效果,提升了对科技文献数据的处理计算与服务能力。
【目的】 改进矩阵分解算法,融合近邻评论缓解评论稀疏,提高推荐准确性。【方法】 应用多层感知机改进矩阵分解算法以得到用户和商品的深层非线性特征;处理评论集并深度融合近邻特征与用户特征,表征更符合用户偏好的特征;基于所得特征预测评分进行推荐。【结果】 在亚马逊数据集上与其他深度模型进行对比实验,在准确率、召回率、归一化折损累计增益指标上最多可提升8.3%、22.8%、14.9%。【局限】 未考虑用户给出评论的时间因素,并且忽略可能存在虚假评论的情况。【结论】 改进的矩阵分解算法和融合近邻评论的方法可以有效提升推荐的准确性。
【目的】 提出融合网络表示学习和作者主题模型的科研合作预测方法。【方法】 基于经典网络表示学习方法计算得到作者节点的嵌入式向量表示,采用余弦相似度计算作者的结构相似性;基于作者主题模型计算得到作者的主题向量表征,采用Hellinger距离计算作者主题相似性。再将两种相似性方法进行线性特征融合,采用贝叶斯优化方法进行融合超参数选择。【结果】 用NIPS论文数据进行实证研究,经过贝叶斯参数选择后效果最好的node2vec+ATM模型,预测的AUC值达到0.927 1,比基准模型提高0.185 6,也优于现有的一些融合外部信息的表示学习模型。【局限】 仅考虑作者文章内容信息,没有将作者单位、地理位置等更多属性信息融入模型。【结论】 本文提出的融合模型考虑了结构与内容特征,能够得到比简单网络表示学习更好的合作预测效果。
【目的】 利用CRF模型处理序列标注问题的优势,通过将词性信息和CRF模型融入BiLSTM网络,实现期刊关键词的自动抽取。【方法】 将关键词抽取问题视为一个序列标注问题。对期刊文本进行分词和词性标注的预处理;对预处理后的文本使用Word2Vec模型进行Word Embedding向量化,获取字词的向量表达式;使用BiLSTM-CRF模型进行关键词的自动抽取。【结果】 使用融合词性的BiLSTM-CRF网络,在采集的知网期刊文本上进行实验,在简单关键词方面,准确率较原始的BiLSTM模型提升3%;在复杂关键词方面,准确率较原始的BiLSTM模型提升12%。【局限】 期刊关键词抽取模型无法准确抽取复杂关键词,需要针对复杂关键词层面进一步提升模型性能。【结论】 融合词性的BiLSTM-CRF模型与传统方法相比,具有较高的识别准确率,是一种有效的关键词抽取方法。
【目的】 针对传统LDA模型因新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题,提出一种在主题不平衡新闻文本数据集上的主题识别方法。【方法】 该方法基于传统LDA模型,结合独立性检测、方差检测和信息熵检测三种不同的特征检测方法来识别文本的主题。【结果】 在10 000篇新闻文本规模的数据集上实验验证,该方法相比传统的LDA主题识别方法,查全率提高了0.212 1、查准率提高了0.040 7,F1值提高了0.152 0。【局限】 由于新闻文本中新词较多,实验中使用的分词工具的分词准确率会降低,新闻文本主题识别的效果因对分词准确率的依赖而受到影响。【结论】 实验证明,所提方法能够在一定程度上解决LDA对新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题。
【目的】 根据美国政客在特定时间段内的推特文本数据分析其动态的政治情感极性变化,辅助情报分析人员判断美国政治走向和中美关系未来走势。【方法】 提出一种架构,结合多种深度学习模型,构建特定群体的专属推文数据集,得到情感极性多分类器,然后引入推文的时间特征,最终得到政客动态政治情感极性。【结果】 构建的美国政客推文数据集验证所提出的综合架构在此任务中的有效性,分类器验证集准确率达到80.66%,准确率相比传统人工神经网络方法提高8.07%。针对20名美国州长、参议员的情感极性判断,成功率为75%。针对个体的动态政治情感极性分析,可以为分析人员提供有效的帮助和情报支撑。【局限】 动态政治情感极性的分析依赖于数据集的定时更新和迭代,否则模型的准确率和有效性会随时间的变化而降低;政治情感极性所受的影响因素非常多,政客所发推文情感内容与其所代表的真实政治倾向可能有差异,会造成模型一定程度的误判。【结论】 本文方法有效地利用多种深度学习技术辅助情报分析人员从海量推特文本数据中获取较为准确的动态政治情感极性。