数据分析与知识发现

Select

唐琳, 郭崇慧, 陈静锋

数据分析与知识发现. 2020, 4(2-3): 1-17. https://doi.org/10.11925/infotech.2096-3467.2019.1059

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 梳理中文分词领域的关键问题、算法和模型,为研究人员提供理论基础和实践指导。【文献范围】 使用知网数据库、万方数据知识服务平台和计算机科学文献库DBLP检索中文分词相关文献,共选择109篇代表性文献进行综述。【方法】 归纳中文分词的发展历程及关键问题,分类总结中文分词的算法和模型,并详述近期的热点研究问题。【结果】 使用多个标注数据集的多准则分词模型是中文分词的研究难点,解决中文分词和自然语言处理其他子任务的多任务联合模型是当前研究的热点。【局限】 没有深入对比分析中文分词的无监督学习方法。【结论】 虽然现有的中文分词方法能在一定程度上满足诸多应用的需求,但是在大数据环境下多视角、多任务和多准则的联合模型研究仍存在挑战。

Select

基于深度融合特征的政务微博转发规模预测模型^*

徐月梅, 刘韫文, 蔡连侨

数据分析与知识发现. 2020, 4(2-3): 18-28. https://doi.org/10.11925/infotech.2096-3467.2019.0720

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 预测政务微博的转发规模,研究及评估影响政府微博传播规模的重要特征,把握政务微博的信息舆论走向。【方法】 针对政务微博的特点,提出一种深度融合特征的政务微博转发预测方案,引入卷积神经网络（CNN）和梯度提升决策树（GBDT）将发布者特征、时间特征及内容特征深度融合,预测政务微博的转发规模并对影响转发规模的特征进行重要性排序,找出影响政务微博转发规模的最重要特征。【结果】 引入文本语义特征显著提升了转发规模的预测准确率,所提模型将政务微博转发规模的预测准确率提升至0.933。特征重要性实验结果表明,文本语义特征在影响政务微博转发规模的所有特征中最为重要。【局限】 未考虑间接转发对整体转发规模的影响。【结论】 深度融合发布者特征、时间特征及内容特征的CNN+GBDT模型能够显著提高政务微博转发规模预测的准确率。

Select

网络舆情潜在热点主题识别研究^*

丁晟春, 俞沣洋, 李真

数据分析与知识发现. 2020, 4(2-3): 29-38. https://doi.org/10.11925/infotech.2096-3467.2019.0735

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 从网络舆情数据流中获取潜在热点主题,帮助政府与企业进行重点舆情监测与正确舆论引导。【方法】 对微博实时数据流进行增量式舆情主题检测,选取并量化能够区分主题热门与非热门的特征项,选择逻辑回归（Logistic Regression）与支持向量机（SVM）两种机器学习模型作为潜在热点主题预测的候选模型,通过模型训练与效果对比确定最佳的潜在热点主题识别模型。【结果】 Logistic Regression相比SVM更适合作为潜在热点主题识别模型,其召回率为0.89。【局限】 方法缺少在多样化社交媒体平台的应用。【结论】 本研究构建的模型能有效识别网络舆情潜在热点主题,为政府与企业的舆情监测与舆论引导提供帮助。

Select

基于混合采样与迁移学习的患者评论识别模型*

向菲, 谢耀谈

数据分析与知识发现. 2020, 4(2-3): 39-47. https://doi.org/10.11925/infotech.2096-3467.2019.0549

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对患者评论中的不均衡样本数据,提出一种基于混合采样与迁移学习的端到端的卷积神经网络模型。【方法】 采用混合采样与迁移学习的方法解决样本不均衡问题,并利用Word2Vec与卷积神经网络相结合的端到端深度学习架构对患者评论文本进行分布式表示、特征提取以及主题分类。【结果】 采用混合采样与迁移学习的主题识别模型相比,以SVM为代表的传统机器学习模型以及单一卷积神经网络模型在准确率、召回率以及F1值上有明显提升。【局限】 本研究的不均衡样本仅针对在线患者评论文本。【结论】 本研究提出的基于混合采样与迁移学习的患者评论识别模型在应对不均衡样本问题时能够有效提升患者评论识别效果。

Select

基于网络表示学习的作者重名消歧研究^*

余传明, 钟韵辞, 林奥琛, 安璐

数据分析与知识发现. 2020, 4(2-3): 48-59. https://doi.org/10.11925/infotech.2096-3467.2019.0644

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 消除文献系统中的作者重名歧义,以解决其导致的文献错误聚合问题。【方法】 通过结构化文献数据建立作者网络、文献网络以及作者-文献网络,融合不同网络表示学习方法获得文献节点表示,并采用无监督学习方法,将文献节点表示作为特征,使用层次凝聚聚类按照真实作者对文献进行正确划分。【结果】 在ArnetMiner、CiteSeerX和DBLP三组数据集上进行实证研究,本文方法在网络稀疏的情况下仍然具有较好的效果,Macro-F1值在次优模型基础上最高提升6%。【局限】 仅研究英文情境下的作者重名消歧。【结论】 基于网络表示学习的方法能够有效解决作者重名消歧问题,实验结果对于改进科研合作推荐、引文推荐以及知识网络相关研究具有重要意义。

Select

基于可视化的基金资助热点及其演化发现方法研究^*

陈挺, 王海名, 王小梅

数据分析与知识发现. 2020, 4(2-3): 60-67. https://doi.org/10.11925/infotech.2096-3467.2019.0677

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 设计基于可视化的基金资助热点发现方法,用于分析科研立项重点以及发现其演化过程。【方法】 基于NASA小企业研发计划基金申请书的文本特征,绘制连续时间窗口下基金资助图谱,通过识别图谱中项目密度分布较高的区域定位资助热点,并根据两期图谱中热点位置、内容变化分析研判资助热点演变趋势。【结果】 在两个时间窗口内,可明确区分出消亡的、持续的和新兴的资助热点及其演化过程。【局限】 分析方法中涉及文本特征提取、可视化与概率密度计算等多个步骤需要多次调优,热点与演化判断分析尚未形成计算指标,无法脱离领域专家的判读。【结论】 本文提出的基于可视化图谱的基金资助热点及其演化的发现方法,可直观地反映资助机构的资助布局热点变化情况,经领域专家判读与其认知相符,或可在科研管理与决策者审视宏观科研布局中起到辅助作用。

Select

基于多头自注意力神经网络的购物篮推荐方法*

倪维健, 郭浩宇, 刘彤, 曾庆田

数据分析与知识发现. 2020, 4(2-3): 68-77. https://doi.org/10.11925/infotech.2096-3467.2019.0728

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对用户一次购买多件物品的场景,为用户推荐下一次可能购买的多件物品。【方法】 基于多头自注意力神经网络设计一种新的购物篮推荐方法,该方法使用多头自注意力机制捕捉购物篮中不同物品的关系以及融合物品属性信息,并使用具有注意力的循环神经网络建模购物篮序列信息。【结果】 实验结果表明,本文方法优于传统推荐方法和现有基于深度学习的推荐方法,特别是在TaoBao数据集上F1值提升2%。【局限】 本文方法仅提升了推荐结果的准确性,是否能够提升多样性还需进一步验证。【结论】 多头自注意力能够更好地对购物篮进行建模,进而提升购物篮推荐效果。

Select

基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究^*

马建霞, 袁慧, 蒋翔

数据分析与知识发现. 2020, 4(2-3): 78-88. https://doi.org/10.11925/infotech.2096-3467.2019.0034

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 从文本中抽取脆弱生态治理技术、实施地、实施时间等命名实体,并分析相关态势。【方法】 利用Bi-LSTM+CRF结合基于特征的命名实体知识库对脆弱生态治理领域CNKI数据库中的相关文献进行脆弱生态治理技术、地名实体、时间实体的自动抽取和标记。【结果】 对于中文文献中生态治理技术相关实体的抽取,获得P值74.34%、R值64.04%和F1值68.81%。采用Bi-LSTM+CRF神经网络模型与单纯采用CRF相比,P值提高9.41%,F1值提高4.26%,R值基本持平。【局限】 依赖于中文分词工具的准确性;仅对相关的实体进行抽取,尚未抽取实体之间的关系。【结论】 Bi-LSTM+CRF结合基于特征的命名实体知识库抽取命名实体技术,可用于基于细粒度内容的资源环境情报分析。

Select

Word2Vec对海关报关商品文本特征降维效果分析^*

龚丽娟, 王昊, 张紫玄, 朱立平

数据分析与知识发现. 2020, 4(2-3): 89-100. https://doi.org/10.11925/infotech.2096-3467.2019.0613

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 对海关平台的高维报关商品特征实现有效降维,提高海关平台的工作效率。【方法】 以国内某海关4个月的商品文本作为语料,从词语相似度与相关度两个微观层面评估生成词向量的质量,并结合SVM算法将传统0-1矩阵、频次降维、信息增益方法与Word2Vec词向量进行对比,以探究其对海关商品文本特征的降维效果。【结果】 对于海关报关商品文本,Word2Vec词向量是一种较为理想的降维方法,且词向量维度为500时,分类效率最高,准确率为93.01%。【局限】 主要针对数据量最多的5大类别进行研究,尚未对其他类别的分类效果进一步探讨。【结论】 Word2Vec用于海关商品文本的降维效果较为理想,能够保证较高的准确率与数据的完整性,并显著降低特征维度。

Select

广东刀剪产业转型升级技术发展路径研究^*——基于专利TRIZ分析

胡勇军, 韦婷婷, 窦子欣, 黄芸茵, 梁锐成, 常会友

数据分析与知识发现. 2020, 4(2-3): 101-109. https://doi.org/10.11925/infotech.2096-3467.2019.0726

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 对广东省刀剪专利数据进行演化规律分析。【方法】 提出一种新“体用”归类体系,建立基于LDA的TRIZ特征主题模型,计算不同年份、主题下概率高的前n个词汇,并预测未来三年的TRIZ专利技术演化路径。【结果】 通过采用新“体用”归类体系指导的人工标注噪声显著下降,达到新手标注噪声低于10%的性能。在分析结果方面,发现广东刀剪产业前期专利主要集中在形体结构、运动方式改变、材质变化等TRIZ规则上,揭示了产业技术演化路径。【局限】 只对广东刀剪产业技术发展路径进行研究。【结论】 有效揭示广东刀剪产业技术发展趋势,对该产业转型升级发展路径提出建议。

Select

基于系统动力学的突发事件网络舆情传播研究：以“江苏响水爆炸事故”为例^*

邓建高, 张璇, 傅柱, 韦庆明

数据分析与知识发现. 2020, 4(2-3): 110-121. https://doi.org/10.11925/infotech.2096-3467.2019.0636

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探究突发事件网络舆情的传播规律,为政府部门引导和调控网络舆情提供理论依据。【方法】 以“江苏响水爆炸事故”为例,引入突发事件类型的特有变量,基于系统动力学理论构建突发事件网络舆情传播的系统动力学模型,采用Vensim软件对所构建模型进行仿真与分析;同时,将政府相关变量作为控制变量,深入探讨政府行为对网络舆情传播态势的影响。【结果】 在仿真实验结果中,网民微博发帖量和网媒新闻发布量两个主要变量的MAPE值分别为18%和27%,表明所构建仿真模型具有可行性和有效性,能够可靠地拟合网络舆情的传播趋势。通过参数优化调整,分别设置“政府危机处理力度”和“官方新闻透明度”变量上下浮动20%、“政府响应时间”推迟一天,其结果表明政府行为及处理方式对舆情传播影响效果最为显著。【局限】 部分数据来自调查问卷和专家打分,其结果可能存在偏差。【结论】 突发事件的网络舆情传播规律一般是先迅速上升到峰值,然后缓慢下降;政府的响应时间、政府危机处理力度及官方新闻透明度对舆情热度的影响分别为正相关、负相关及负相关。

Select

同类突发公共卫生事件微博话题共振研究^*

梁艳平, 安璐, 刘静

数据分析与知识发现. 2020, 4(2-3): 122-133. https://doi.org/10.11925/infotech.2096-3467.2019.0732

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探索同类突发公共卫生事件中微博用户在各话题类型上的共振规律。【方法】 以朗之万方程为基础构建突发公共卫生事件子话题的随机共振模型,以新浪微博上关于山东问题疫苗事件和长春长生狂犬病疫苗事件的微博数据为例,通过计算其话题因素、地域因素、态度值和话题热度,分析同类突发事件中微博话题共振规律。【结果】 在同类突发公共卫生事件中,事件进展、群众意见、政府回应等话题能够引起明显的话题共振,而知识科普与事后措施相关的微博话题则不能引起共振。【局限】 仅以微博为单一数据源对同类型关联事件中相关话题的共振规律进行研究,研究结论有待使用其他数据和多类型案例进一步验证。【结论】 同类突发公共卫生事件微博话题间存在共振现象,这一现象与相关微博数量、话题内容等因素有关。

Select

基于深度迁移学习的业务流程实例剩余执行时间预测方法^*

刘彤, 倪维健, 孙宇健, 曾庆田

数据分析与知识发现. 2020, 4(2-3): 134-142. https://doi.org/10.11925/infotech.2096-3467.2019.0721

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 预测正在执行中的业务流程实例的剩余执行时间,为业务流程优化提供决策支持。【方法】 提出一个业务流程实例剩余执行时间预测的深度迁移学习框架,该框架使用多层循环神经网络构建预测模型,并设计事件表示学习方法为神经网络提供预训练输入。【结果】 在5个公开真实数据集上进行实验,结果表明本文方法与现有最优的基于流程模型和深度学习的方法相比,预测误差平均降低约11%。【局限】 本文方法可解释性较差,这在一定程度上制约其现实应用场景。【结论】 本文提出的深度迁移学习框架和事件表示学习方法能有效提升业务流程实例剩余执行时间预测的准确性。

Select

中文术语粒度对其区分能力测度的影响分析*

熊欣, 王昊, 张海潮, 张宝隆

数据分析与知识发现. 2020, 4(2-3): 143-152. https://doi.org/10.11925/infotech.2096-3467.2019.0630

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 比较中文术语粒度对不同字段的术语区分能力（Term Discriminative Capacity, TDC）测度的影响。【方法】 将术语区分能力测度应用于题名、关键词、摘要和附加关键词的术语质量评估,在对照组和实验组中使用方差分析对不同学科、字段及术语粒度的TDC进行差异检测。【结果】 当关键词和附加关键词未经处理时,在TDC上的表现为：题名>摘要>附加关键词>关键词;当术语粒度为词时,附加关键词的表现提升,题名>附加关键词>摘要>关键词。【局限】 实验数据仅包含5个人文社会科学学科,样本代表性可能存在不足。【结论】 中文术语粒度和字段在术语区分能力测度上相互作用,各字段的术语粒度统一为词可降低字段因素的影响。

Select

一种融合患者咨询文本与决策机理的医生推荐算法^*

叶佳鑫, 熊回香, 蒋武轩

数据分析与知识发现. 2020, 4(2-3): 153-164. https://doi.org/10.11925/infotech.2096-3467.2019.0633

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 研究患者选择医生时的决策机理,构建融合患者决策机理的医生推荐方法,提升医生推荐的效果。【方法】 利用Word2Vec训练词向量模型计算患者与医生间基于文本的相似度,得到基于咨询文本的医生评分。以因子分析为基础,分析影响患者选择医生时的决策因素,得到基于患者决策机理的医生评分,融合两种评分实现医生推荐。【结果】 以“好大夫在线”上的相关数据为例对所提医生推荐算法进行实证研究,在进行医生推荐时同时考虑了患者与医生间的文本相似度与患者的决策因素,推荐的医生更为符合患者实际需求。【局限】 患者的历史决策行为有待进一步分析,在推荐时主要是面向单一患者进行推荐,时间成本较高。【结论】 本文所提方法适用于进行医生的精准推荐,能有效满足患者需求。

Select

基于游记文本的游客游览行程重构^*

高原, 施元磊, 张蕾, 曹天奕, 冯筠

数据分析与知识发现. 2020, 4(2-3): 165-172. https://doi.org/10.11925/infotech.2096-3467.2019.0640

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 基于大量的游记文本和景点信息,实现游客游览行程的重构。【方法】 结合TF-IDF和Word2Vec,提出一种基于文本相似度的命名实体识别方法识别景点;提出一种基于马尔可夫性、先验知识和空间特征的模型重构游客的游览行程。【结果】 本文所提景点识别方法的查全率达90.72%,查准率达89.65%,F值为0.9018,明显优于条件随机场方法,重构的游客游览行程与真实行程相似度达83.27%。【局限】 景点识别方法一定程度上依赖于景点信息库的完整性。【结论】 本文所提景点识别方法可自动化识别景点,且游览行程重构达到了较佳的效果。

Select

面向地域的网络话题识别方法^*

刘玉文, 王凯

数据分析与知识发现. 2020, 4(2-3): 173-181. https://doi.org/10.11925/infotech.2096-3467.2019.0643

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 挖掘网络话题的地域分布,为舆情管控和社会管理提供决策依据。【方法】 通过引入网络签到功能,将用户评论的位置参数引入到LDA模型中,提出一种面向地域的网络话题识别模型(Regional Oriented Latent Dirichlet Allocation, RO-LDA)。该模型将每个文本词都打上位置标签,联合建模文本、话题、位置和词汇,生成文本-话题、话题-特征词和（话题,地域）-位置三个分布矩阵。通过话题-特征词分布识别出网络话题,再通过(话题,地域)-位置分布识别出话题的流行区域。【结果】 在真实数据集上验证RO-LDA模型,F值达80.05%,高于其他对比模型。【局限】 文本位置标签的概化由人工设定,标签概化范围的大小对话题的地域识别精度具有一定程度的影响。【结论】 将位置参数和LDA模型融合,实现了话题地域特征识别,为话题的线下挖掘提供了新思路。

Select

基于语义关联规则的试题知识点标注及试题推荐^*

魏伟, 郭崇慧, 邢小宇

数据分析与知识发现. 2020, 4(2-3): 182-191. https://doi.org/10.11925/infotech.2096-3467.2019.0620

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 在线教育资源中存在大量未标注知识点的试题,探究对试题知识点进行自动标注。【方法】 通过引入文本语义概念,考虑待标注试题与学习规则之间的语义匹配程度,提出一种基于语义关联规则的试题知识点自动标注方法和基于知识点间关联特性的个性化试题推荐方法。【结果】 以部分初中数学和高中历史试题为实验语料,分别与朴素贝叶斯、K最近邻、随机森林以及支持向量机等经典分类方法进行实验对比,发现本文方法的标注准确度优于其他方法。【局限】 该方法对于试题的语义理解不够深入,使得整体的准确度仍然较低,与期望的标注准确度还有一定差距。【结论】 知识点自动标注方法和个性化试题推荐方法在现阶段以及未来的智能教学和自主学习方面具有一定的实际应用价值。

Select

考虑航线特征的机票价格预测方法研究^*

钟丽珍, 马敏书, 周长锋

数据分析与知识发现. 2020, 4(2-3): 192-199. https://doi.org/10.11925/infotech.2096-3467.2019.0522

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 对日均航班数较少且历史数据不完整甚至缺失的航线进行票价预测,辅助旅客进行购票时间决策。【方法】 借助多条航线的历史数据解决这类航线的票价预测问题。基于前人研究以及数据的可获得性,提取一批可能与机票价格波动相关的特征变量;对这些变量进行分类并利用控制变量的思想,逐步找出最合适的机票价格预测模型。【结果】 模型中包含与年度相关的变量（航程变量、航线的社会经济特征）时,其预测误差小于不包含的情况。【局限】 没有考虑中转航班等因素;没有研究居民可支配收入等特征变量;没有引入更多的预测算法和模型评价指标。【结论】 年度相关特征、两地间航程以及航线的社会经济特征均与机票价格波动相关。

Select

基于贝叶斯网络的静态话题追踪模型*

徐建民, 张丽青, 王苗

数据分析与知识发现. 2020, 4(2-3): 200-206. https://doi.org/10.11925/infotech.2096-3467.2019.0634

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 通过分析贝叶斯网络在话题追踪中的可行性,提出一种话题追踪新方法,以提高追踪性能和追踪效率。【方法】 将贝叶斯网络相关知识应用到话题追踪,分别构建贝叶斯网络话题追踪模型和扩展贝叶斯网络话题追踪模型。模型中节点表示术语、事件和话题,弧表示节点间关系,话题、事件和报道间的相似度利用推理加估计的方法得到。【结果】 在TDT4数据集上的实验结果表明,与向量空间话题模型相比,贝叶斯网络话题追踪模型的DET曲线在下方,追踪性能明显提高;扩展贝叶斯网络话题追踪模型较贝叶斯网络话题追踪模型,追踪性能提高1.7%。【局限】 扩展贝叶斯网络话题追踪模型是一种静态话题模型,但事件是随话题演化产生的,故扩展贝叶斯网络话题追踪模型性能的提升并不显著。【结论】 新模型能准确描述话题、事件和报道间的结构关系,概率推导效率高,可有效提升话题追踪的性能。

Select

一种基于CRF与ATAE-LSTM的细粒度情感分析方法^*

薛福亮, 刘丽芳

数据分析与知识发现. 2020, 4(2-3): 207-213. https://doi.org/10.11925/infotech.2096-3467.2019.0678

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 应用细粒度情感分析方法提取产品属性及情感,进而将属性词聚类到属性面,分析用户在产品属性面的情感。【方法】 通过CRF抽取产品属性词,利用基于注意力机制的长短期记忆网络做属性情感分析,最后基于Word2Vec将属性词聚集为属性面,并分析电商平台产品属性面的情感。【结果】 CRF抽取属性词的F1值为0.76,ATAE-LSTM属性情感分析的F1值为0.78。【局限】 只抽取显式属性词,对隐式属性词抽取效果较差;数据集偏小。【结论】 通过对属性词的抽取、情感分析以及属性面聚类,可较好地解释用户对产品的属性偏好。

Select

基于图书评论属性挖掘的群组推荐研究*

熊回香, 李晓敏, 李跃艳

数据分析与知识发现. 2020, 4(2-3): 214-222. https://doi.org/10.11925/infotech.2096-3467.2019.0649

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 利用用户、标签、图书三者之间的关系实现群组推荐。【方法】 通过用户-标签、图书-标签的标注关系,利用K-means算法进行用户聚类和图书聚类,形成用户群组和图书群组,并进行余弦相似度计算,从图书评论属性角度对不同图书类型进行对比,并对图书进行打分、排序和聚类,实现个性化推荐。以“豆瓣网”为例对模型进行验证。【结果】 基于图书评论属性挖掘的推荐模型能够为用户群组准确有效地推荐资源,推荐效果较好。【局限】 样本数据集有限,采集的用户以及图书数量较少。【结论】 结合图书评论属性挖掘的推荐模型对个性化推荐效果有一定的提升。

Select

基于文本数据的过滤式与嵌入式样本选择算法*

刘书瑞, 田继东, 陈普春, 赖立, 宋国杰

数据分析与知识发现. 2020, 4(2-3): 223-230. https://doi.org/10.11925/infotech.2096-3467.2019.0719

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 减少文本数据的训练数据量,缩短模型训练时间。【方法】 基于协方差估计,提出一种新的过滤式样本选择算法,并将数据的遗忘性研究成果应用到嵌入式样本选择算法中。【结果】 在中文阅读理解模型训练中,本文提出的算法至少可以减少模型训练时间50%。与经典的词频-逆文档频次算法相比,本文小批量协方差估计算法与遗忘算法在召回率、F评价指标上分别提升0.018、0.012与0.017、0.029。【局限】 训练数据减少,对模型的准确率评价指标有一定影响。【结论】 本文算法能减少模型的训练时间,提高评价指标,由于计算只与批次有关,故适用于大规模数据集的并行运算。

Select

基于分布式大数据技术的科学计量模块化分析平台构建研究^*

师洪波, 郭红梅, 岳婷, 钱力, 黄定余, 常志军

数据分析与知识发现. 2020, 4(2-3): 231-238. https://doi.org/10.11925/infotech.2096-3467.2019.0600

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 设计开发模块化计量指标分析平台,满足计量分析人员多维条件定制、实时高效计算的计量分析需求。【应用背景】 面对海量科学文献数据,传统关系数据库进行大数据量计量计算时效率较低,计算时间长,分布式大数据技术为实时性科学计量分析平台提供了技术基础。【方法】 设计计量指标管理模型及基于工作流的指标构建流程,将分析任务分解为多个可独立计算单元;基于分布式大数据ES索引、Redis集合计算、预计算指标等技术,将计算统计任务转化为倒排索引查询及集合运算等操作。【结果】 为用户提供标准化的指标选择构建流程、可动态扩展的弹性任务配置及准实时的指标计算支持。【结论】 以分布式大数据技术为基础,对计算任务抽象分装,实现了高效、通用的模块化分析平台,同时本研究也可为相关分析决策系统提供参考。

Select

一种基于领域语义关系图的短文本实时分析模型^*

田钟林, 吴旭, 颉夏青, 许晋, 陆月明

数据分析与知识发现. 2020, 4(2-3): 239-248. https://doi.org/10.11925/infotech.2096-3467.2019.0550

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 对网络社区相关舆情领域判别问题进行研究,提出基于领域语义关系图的短文本分析模型,弥补基于知识库和基于机器学习方法的不足,提高模型准确度和时效性。【方法】 以高校学生舆情领域为实验对象,从多源网络社区获取478 303篇文本数据,结合语义抽取规则,构建总计5 248节点、16 488条边的高校舆情领域语义关系图;并实现该图的自动扩展;同时,提出一种基于领域语义关系图的短文本分析模型,实现社区文本领域分析。【结果】 在文本领域相关性判别方面,本文模型准确度F值最高可达83.94%,相比同等环境中的支持向量机方法、朴素贝叶斯方法和基于深度学习卷积神经网络方法,准确度分别提升8.56%、5.97%、4.27%。【局限】 网络社区文本数据量有限;参数反馈机制不够完善。【结论】 与基于机器学习方法比较,本文模型准确度有所提升;时效方面,能够达到秒级别处理,实现实时分析。

选择文件类型/文献管理软件名称

选择包含的内容

2020年, 第4卷, 第2-3期　
刊出日期：2020-03-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2020年, 第4卷, 第2-3期 刊出日期：2020-03-25

2020年, 第4卷, 第2-3期　
刊出日期：2020-03-25