【目的】 探索信息在不同语言之间的映射关系,可以实现对域外舆情的有效监控,并对境内受众进行积极正面引导。【方法】 提出涵盖多来源的面向舆情分析与预警领域的跨语言知识图谱构建架构CLOpin,针对不同场景设计多个工具集处理跨语言的数据集,高效整合多种来源的数据,构建跨语言知识图谱CLKG(Cross-Lingual Knowledge Graph)以实现跨语言的舆情分析与预警。【结果】 CLKG与单一语言知识图谱相比,突发事件一小时内的知识完整度提升13.9%,且仅比后者24小时内的完整度低5.2%。【局限】 CLKG的构建受制于领域专家的稀缺,成为非通用语知识图谱建设的瓶颈。【结论】 在CLOpin架构中,不同来源的知识相互补充,对事件信息量的扩充效果显著,有利于准确把握舆情动态并据此做出预警。
【目的】 从海洋平台数据中过滤出用户需要的信息,并及时准确地推荐给用户。【方法】 通过基于内容的推荐算法和基于物品的协同过滤算法筛选候选集,采用并行MapReduce的方式提高系统对数据的并行挖掘能力;使用机器学习算法提高推荐候选准确度,实现精准匹配和个性化推荐的效果。【结果】 有效地根据用户点击的文章生成推荐列表,模型评估准确度为78.5%,均方根误差为0.22。【局限】 对用户特征以及文本特征还需深度挖掘;实验过程中多次使用分词工具,对其准确度有所依赖;模型训练算法还需优化。【结论】 本文模型能够在一定程度上满足用户的个性化推荐需求,可以为平台建设提供良好的支持。
【目的】 从外部数量特征和内部文本特征两个层面,构建科学的数理模型和内容预测模型,进而对热点研究主题演化趋势进行预测分析。【方法】 基于LDA模型进行主题识别并构建主题时间序列,结合均值与线性回归拟合确定热点主题;利用ARIMA模型和Word2Vec模型从主题强度和主题内容两个层面预测分析热点主题趋势。【结果】 对美国干细胞领域进行实证研究,筛选出造血干细胞移植技术、癌症干细胞和干细胞抑制作用、干细胞诱导分化、衍生配子技术、造血干细胞5个热点主题并预测其发展趋势。【局限】 基于Word2Vec模型对主题内容趋势进行分析主要以单个词汇为基础,解读过程中可能存在歧义。【结论】 与人工解读为主的主题趋势预测分析方法相比,本研究所提方法能在一定程度上提高预测分析的效率与科学性。
【目的】 提出用于学术文献的尺寸自适应模板匹配算法,快速构建大规模学术文献图表位置标注数据集。【方法】 PubMed Open Access数据集提供文献和图表的图片格式文件,解析文献内容,匹配文献页面和图表的图片格式文件,对页面和图表的图片格式文件进行特征提取,对特征点进行匹配,定位图表位置。【结果】 使用本文方法对测试数据集进行标注实验,精确率为98.87%,F1值为97.44%。【局限】 匹配文献页面和图表的图片格式文件的算法仅使用简单的关键词匹配方式,性能仍有提升空间。【结论】 本文算法能够快速地构造学术文献图表位置数据集,节省大量人力时间成本。
【目的】 生成两段文本之间具有对比关系的句子,为自动生成对比关系段落文本提供基础模型。【方法】 将对比关系句子生成任务看作是由两段文本组成的文本序列到两者之间对比关系文本序列的自动生成,设计一个基于Seq2Seq的深度学习模型,在字符向量的基础上融入对比特征对输入文本进行表示,Encoder层和Decoder都采用BiLSTM结构,同时在模型中引入Attention机制。【结果】 在人工标注的查新单及科技论文数据集上展开实验,采用BLEU作为生成效果评价指标,最后评价得分为12.1,比直接使用BiLSTM+Attention的基准模型得分高6.5。【局限】 由于人工标注对比关系句子的复杂性,实验所用的数据量有限。【结论】 该模型能够生成一定程度上可读并且具有对比关系的句子,可以作为对比关系段落文本生成的基础模型。
【目的】 为改善政府网站领导信箱传统人工转递方式存在的人力、时间成本较高以及工作人员负担较重等问题,研究网站来信的自动转递方法。【方法】 选择较有代表性的分类算法,包括朴素贝叶斯、决策树、随机森林以及多层神经网络,对北京、合肥和深圳的市长信箱文本数据进行对比实验,进而设计一套基于文本分类的政府网站信箱自动转递方法,并给出相应的应用建议。【结果】 神经网络算法在市长信箱文本的分类表现最优,宏平均精确度和召回率均达0.85以上,且所有微平均指标均达0.93以上;朴素贝叶斯算法次之;随机森林算法的宏平均精确度很高,但召回率较差;决策树算法的精确度和召回率都较一般。【局限】 未能兼顾来信数量不均衡对结果的影响,且实验时剔除了数据量过小的部门的来信数据,这在实际应用中可能会存在一定偏差。【结论】 本文设计的政府网站信箱自动转递方法能够优化领导信箱运作机制,对提升线上政民互动效率,降低人力及行政成本具有积极意义。
【目的】 以深度学习语言表征模型学习论文句子表达,以此为基础构建论文语步分类模型,提高分类效果。【方法】 采用基于深度学习预训练语言表征模型BERT,结合句子文中位置改进模型输入,以标注数据集进行迁移学习,获得句子级的嵌入表达,并以此输入神经网络分类器训练分类模型,实现论文语步分类。【结果】 基于公开数据集的实验结果表明,11类别分类任务中,总体准确率提高了29.7%,达到81.3%;在7类别核心语步分类任务中,准确率达到85.5%。【局限】 受限于实验环境,所提改进输入模型的预训练参数来源于原始的模型结构,迁移学习的参数对于新模型输入的适用程度可进一步探索。【结论】 该方法较传统的“特征构建+机器学习”分类器方法效果有大幅提高,较原始BERT模型亦有一定提高,且无须人工构建特征,模型不局限于特定语言,可应用于中文学术论文的语步分类任务,具有较大的实际应用潜力。
【目的】 自动分析网络虚拟学习社区的资源,解决信息过载选择困难问题。【方法】 本文提出一种基于“用户-文档-词汇”三维权重矩阵的超网络嵌入LDA模型,通过引入“用户-词汇”超网络分析,以超网络临近性信息修正LDA模型,加大超网络结构中连接紧密的词汇或用户在同一主题下的分配概率,提高主题凝聚性。【结果】 与传统社会网络分析的用户活跃程度不同,超网络嵌入LDA模型根据“用户-词汇”频度矩阵、“用户-主题”分布概率,发现论坛重要用户、核心主题以及两者的互动关系,分析用户兴趣偏好特征。【局限】 超网络分析技术目前并不成熟,本文加权无向超网络,未对虚拟学习社区的发帖回复等有向关系进一步深入研究。【结论】 超网络嵌入LDA模型是传统作者主题模型的改进,可以有效分析社区短文本主题,了解社区用户之间的互动主题关系,对参与社区学习者和论坛管理者都有重要意义。
【目的】 分析客户贷款信息基础上,抽取贷款客户特征并成像,利用卷积神经网络构建客户信用模型,提高客户网贷违约预测准确率。【方法】 基于Lending Club客户信用数据,将反映客户信息4个方面的特征变量相互连接综合成灰度图,建立基于卷积神经网络的客户信用评估模型。【结果】 实验结果表明,基于卷积神经网络的新模型在信用评估实验中特异度为99.4%,灵敏度为68.7%,G-mean值为82.7%,F1值为81.4%,AUC值为99.5%,与传统以特征处理为基础的信用评估模型相比均有显著提升。【局限】 仅对比分析有限的信用评估模型,未对不平衡数据的影响做进一步研究。【结论】 基于卷积神经网络的网贷客户信用评估模型,在客户违约特征信息提取和违约可能性的预测上具有良好性能。
【目的】 对学术数据库中研究主题的索引术语的质量进行测度并探究其分布特点。【方法】 从Web of Science、CNKI中采集来自人文、社会和自然科学领域的研究主题的索引术语,构建主题、领域和数据库层次的术语空间,将术语区分能力(Term Discriminative Capacity,TDC)作为术语质量评价指标,采用ANOVA分析方法探究不同数据库、领域的研究主题的术语质量分布特点。【结果】 不同领域的研究主题的术语质量在字段分布上均满足:“Abstract”>平均水平>“Keyword”;CNKI的“Title”(Web of Science的“Keyword Plus”)与平均水平相比在不同领域中有所差异,但均低于“Abstract”;Web of Science的“Title”与“Abstract”相比在不同领域中有所差异,但均高于平均水平。【局限】 研究主题不够丰富。【结论】 TDC测度方法具有稳定性和可靠性;通过探究研究主题的术语质量分布特点,可以为选择检索字段入口和提高术语质量提供方向与依据。
【目的】 将词向量和语义知识相结合,提高未登录词语义预测的准确性。【方法】 抓取含有未登录词网页的语料,利用Word2Vec等模型得到词语的分布式表示信息,再结合构词语义知识对候选词进行中心词和词性过滤,实现未登录词的语义预测。【结果】 在人民日报语料未登录词测试集上的实验结果表明,模型预测正确率可达87.5%,高于只使用词语内部知识的模型和只使用外部分布信息的词向量模型。【局限】 无法预测语义不透明的未登录词。【结论】 将携带词语外部信息的词向量与词语内部特征相结合,显著提高了未登录词语义预测的正确率,说明词语内、外部信息对于语义的组成有重要作用。
【目的】 通过挖掘文本特征寻找某医生的相似医生,以相似医生的特征为基础对医生进行标注,丰富对医生特征的描述。【方法】 利用Word2Vec词向量模型对医生的咨询文本、文章标题与咨询范围进行向量表示,在此基础上挖掘相似医生;进而分析挖掘的相似医生的特征,对标注的目标医生进行协同标注。【结果】 基于咨询文本、文章标题与咨询范围的医生标注结果,准确率分别为0.667、0.252与0.708,混合不同文本进行标注的准确率为1.000。【局限】 对文本语义特征的挖掘不够深入,以单一文本进行标注的准确率与召回率有待提高。【结论】 基于咨询文本产生的标签与患者即时需求较为紧密,基于文章标题产生的标签与医生兴趣具有较强联系,基于咨询范围与混合不同文本所得标签具有较高的准确率,从文本挖掘出发进行医生的协同标注能在一定程度上推荐合适的标签。
【目的】 利用情感分析技术对引用内容中包含的引用情感进行深层次地发掘和量化,为学术文献内在价值的发现提供更加科学的理论依据和数据支撑。【方法】 以知网中检索到的期刊论文为例,通过对施引文献中引用内容的细粒度情感分析和量化,对被引文献的内在学术价值进行深度挖掘,并提出基于引用情感量化的学术评价指标。【结果】 实验表明,基于引用情感的学术评价方法比传统的基于被引频次的方法,离散系数高0.12,斯皮尔曼相关系数达到0.981。【局限】 由于国内没有完整的全引文数据库,造成数据获取困难,实验样本量较小。【结论】 基于细粒度引用情感量化的学术评价方法具有较高的区分度,能更加有效地衡量文献的内在学术价值。