Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2021年, 第5卷, 第9期 刊出日期:2021-09-25   
    选择: 合并摘要
    研究论文
    基于置信学习的知识库错误检测方法研究*
    李文娜,张智雄
    数据分析与知识发现. 2021, 5 (9): 1-9.   DOI: 10.11925/infotech.2096-3467.2021.0179
    摘要   HTML ( 25 PDF(1240KB) ( 239 )  

    【目的】 解决知识库中存在的噪声数据问题,对基于置信学习的知识库错误检测方法进行探索。【方法】 利用TransE模型对知识库三元组进行向量表示,通过多层感知机模型进行错误检测识别,然后利用置信学习对样本集进行清洗,并通过多轮迭代训练,降低噪声数据对模型的影响。【结果】 所提方法在DBpedia数据集上,最优F1值达到0.736 4,优于对照组方法。【局限】 实验数据集中的噪声数据由人工产生,与真实噪声数据分布有一定差异,在更大规模知识库上的通用性有待考证。【结论】 探索了基于置信学习的知识库错误检测方法,通过置信学习降低了噪声数据的影响,从而在知识库错误检测任务中有较好性能。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于知识关联性的科研合作网络隐性知识扩散模型研究:以重大科技工程为例*
    鲁云蒙,刘铁忠
    数据分析与知识发现. 2021, 5 (9): 10-20.   DOI: 10.11925/infotech.2096-3467.2021.0275
    摘要   HTML ( 14 PDF(989KB) ( 198 )  

    【目的】 隐性知识是重大科技工程研发创新的重要资源,针对工程中隐性知识的关联性特征,研究多类相互关联的隐性知识同时扩散具有实践意义。【方法】 考虑知识关联性,提出科研团队间的知识距离评估方法,并构建了基于科研合作网络的隐性知识扩散模型,通过多主体仿真分析知识关联性和交互策略对隐性知识扩散的影响机理。【结果】 扩散初期,知识强关联下的知识扩散速度高于知识弱关联的情况,但随着时间增长,科研团队间知识量差距变小,知识结构相似性增加,知识关联性对知识扩散的影响逐渐弱化。科研团队间的知识交互策略对知识扩散影响较大。【局限】 隐性知识的载体网络是真实的科研合作网络,但其传播过程来源于模拟仿真。【结论】 分析了工程中相互关联的多类隐性知识扩散的动态过程与效果,并提出了促进隐性知识扩散与学习的建议。

    图表 | 参考文献 | 相关文章 | 多维度评价
    融合预训练模型文本特征的短文本分类方法*
    陈杰,马静,李晓峰
    数据分析与知识发现. 2021, 5 (9): 21-30.   DOI: 10.11925/infotech.2096-3467.2021.0282
    摘要   HTML ( 19 PDF(1106KB) ( 200 )  

    【目的】 综合运用不同预训练模型的词向量进行文本语义增强,解决基于Word2Vec、BERT等模型所表示的词向量存在先验知识缺失的问题,提升在新闻数据集上的分类效果。【方法】 以今日头条新闻公开数据集和THUCNews新闻数据集为实验对象,使用BERT、ERNIE模型通过领域预训练,分别提取上下文语义信息和实体、短语的先验知识信息;结合TextCNN模型生成高阶文本特征向量并进行特征融合,实现语义增强,进而提升短文本分类效果。【结果】 相较于传统的Word2Vec词向量表示,使用预训练词向量表示的分类算法模型准确率分别提升了6.37个百分点和3.50个百分点;相较于BERT和ERNIE词向量表示,融合BERT-ERNIE词向量表示的分类算法模型准确率分别提升1.98个百分点和1.51个百分点。【局限】 领域预训练采用的新闻领域语料有待进一步丰富。【结论】 所提方法能够对海量的短文本数据实现快速而准确的分类,对后续文本挖掘工作具有重要意义。

    图表 | 参考文献 | 相关文章 | 多维度评价
    融合关联信息的GCN文本分类模型构建及其应用研究*
    周泽聿,王昊,赵梓博,李跃艳,张小琴
    数据分析与知识发现. 2021, 5 (9): 31-41.   DOI: 10.11925/infotech.2096-3467.2021.0266
    摘要   HTML ( 6 PDF(1027KB) ( 188 )  

    【目的】 有效学习文本上下文语境和词语间的关联性,提升文本自动分类的性能。【方法】 提出一种融合关联信息的BERT-BiLSTM-SGCN(Similarity-GCN)长文本分类模型。首先,利用BERT得到待分类长文本的词向量初始特征,将其输入BiLSTM模型中捕获语义关系,并将其输出作为图卷积网络的节点表示,其中每个节点代表每个词特征;然后,使用词之间的相似值作为图卷积网络中的节点之间的边表示,并将结合得到的节点表示以构造图结构作为SGCN层表示;最后,将利用SGCN层得到的长文本表示输出至全连接层中得到最终的分类结果。【结果】 实验结果表明,针对知网中文文献主题多分类问题,模型分类准确率达到了0.834 09,均优于基准模型。【局限】 将文本数据处理成单标签进行多分类,未考虑到多标签的分类问题。【结论】 所提模型能够有效地对长文本数据进行建模,将BERT、BiLSTM和SGCN模型相结合,可以大大提高模型的分类性能。

    图表 | 参考文献 | 相关文章 | 多维度评价
    炸药配方设计知识图谱的构建与可视分析方法研究*
    周阳,李学俊,王冬磊,陈方,彭莉娟
    数据分析与知识发现. 2021, 5 (9): 42-53.   DOI: 10.11925/infotech.2096-3467.2021.0356
    摘要   HTML ( 15 PDF(3016KB) ( 219 )  

    【目的】 解决炸药设计过程中配方设计原则知识、组分关联知识及制备工艺知识难以便捷地获取和使用的问题。【应用背景】 将炸药配方设计过程中存储分散、类型复杂的知识进行有效的组织,并为研究人员提供面向设计流程的可视分析方法,能够帮助研究人员对领域知识的理解、使用和提取,进一步提高配方设计效率。【方法】 聚焦高聚物黏结炸药配方,利用自然语言处理技术对配方设计知识进行知识图谱构建。在此基础上,针对不同主题的知识图谱设计可视分析方法使炸药配方辅助设计知识得以快速使用。【结果】 炸药配方设计知识图谱实现了单质、混合炸药的属性、性能、实验数据以及计算公式、分子结构、设计原则、工艺方法等结构化和非结构化知识的关联表示。基于高聚物黏结炸药配方设计数据进行实证分析,结果表明研究人员可在较短的时间内获取到所需的配方设计知识。【结论】 所提方法为炸药配方设计中知识的便捷获取与使用提供了新的手段,为炸药配方设计的研究人员提供了直观、易用的辅助工具。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于机器学习的食源性疾病致病菌识别方法*
    王寒雪,崔文娟,周园春,杜一
    数据分析与知识发现. 2021, 5 (9): 54-62.   DOI: 10.11925/infotech.2096-3467.2020.1105
    摘要   HTML ( 15 PDF(1750KB) ( 210 )  

    【目的】 引入外部食品领域数据增强暴露食品的词向量表征,利用机器学习方法对食源性疾病致病菌进行识别。【方法】 通过从食源性疾病病例数据中提取出空间、时间、患者信息、暴露食品信息等作为食源性疾病致病菌识别的特征数据,并进一步利用融合领域知识的词向量表征等技术对食源性疾病暴露食品进行表征,使用XGBoost机器学习模型挖掘、学习特征之间的相关性,从而实现对几种重要的食源性疾病致病菌的识别。【结果】 通过融合领域数据的词向量表征方法,可以获得比基于通用语料的词向量模型更加准确的暴露食品词向量表征。对沙门氏菌、诺如病毒、致泻大肠埃希氏菌属、副溶血性弧菌4种重要的食源性疾病致病菌的识别能够达到68%的精确率和召回率,为食源性疾病致病菌的辅助诊疗提供帮助。【局限】 仅对4种主要食源性疾病致病菌进行分析。【结论】 相关的分析结果能够指导食源性疾病的管理、处置方案的制定,基于分析结果和机器学习方法的致病菌识别能为食源性疾病的临床辅助诊疗提供有益支持。

    图表 | 参考文献 | 相关文章 | 多维度评价
    古汉语实体关系联合抽取的标注方法*
    王一钒,李博,史话,苗威,姜斌
    数据分析与知识发现. 2021, 5 (9): 63-74.   DOI: 10.11925/infotech.2096-3467.2021.0460
    摘要   HTML ( 4 PDF(916KB) ( 156 )  

    【目的】 针对古汉语数据集标注规范研究缺失的现实,提出一套面向古汉语的实体关系标注方法。【方法】 通过对逻辑语义学、深度学习、历史学的有机融合,提出古汉语实体关系抽取数据集标注方法,由“关系配价标注”“命题逻辑标注”以及“单一关系存在”原则构成,适用于小样本学习。【结果】 利用Word Embedding-BiGRU-CRF端到端关系序列标注模型,在《史记》文本数据集上进行实验,在实体关系抽取与命题逻辑抽取任务上F1值分别达到42.02%与34.07%。【局限】 未使用BERT、ALBERT等预训练模型,而是选择了较为经典的Word2Vec模型完成词嵌入任务。从模型最终的结果来看,相关研究仍有较大的上升空间。【结论】 初步验证了标注方法与联合抽取模型的可行性,填补了面向古汉语实体关系抽取的研究空白。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于卷积神经网络的医学实体关系分类模型研究*
    范少萍,赵雨宣,安新颖,吴清强
    数据分析与知识发现. 2021, 5 (9): 75-84.   DOI: 10.11925/infotech.2096-3467.2021.0015
    摘要   HTML ( 11 PDF(1073KB) ( 147 )  

    【目的】 为提升关系分类模型性能,降低特征计算复杂性,提出一种融合多特征嵌入的卷积神经网络实体关系分类模型。【方法】 参考已有研究的主要嵌入特征,提出融合位置和词汇级特征嵌入的卷积神经网络实体关系分类模型,并给出特征的计算表示方法,上述特征无需复杂计算算法,提高了模型性能。【结果】 所提模型在生物医学领域语料库AIMed、GENIA和ChemProt上F1值分别为0.734 2、0.976 4和0.890 0,在GENIA和ChemProt上实现了当前最佳性能。【局限】 尚未融入生物医学领域先验知识等领域特色的特征。【结论】 融合多特征嵌入的卷积神经网络实体关系分类模型具有良好的分类效果,可为生物医学领域关系抽取和知识库研究提供参考。

    图表 | 参考文献 | 相关文章 | 多维度评价
    开放式创新社区领先用户识别——知识基础观视角*
    单晓红,王春稳,刘晓燕,韩晟熙,杨娟
    数据分析与知识发现. 2021, 5 (9): 85-96.   DOI: 10.11925/infotech.2096-3467.2021.0237
    摘要   HTML ( 9 PDF(1482KB) ( 161 )  

    【目的】 探索开放式创新社区中识别不同领域领先用户的方法,为企业解决获取外部知识资源的问题。【方法】 首先利用LDA提取用户主题构建用户知识二分网络,其次融合领先用户知识结构特征和传统个体属性特征,提出基于指数随机图模型的链路预测方法识别不同领域的领先用户,并以华为产品定义社区为例进行实证研究。【结果】 识别出华为社区内20个领先用户,平均链接概率都大于0.900,并且与传统链接预测方法相比,ERGM方法AUC最大,达到0.996 7;ARC最小,下降到0.013 2。【局限】 未考虑时间因素对用户知识的影响。【结论】 本研究丰富了领先用户识别角度和方法,为后续基于知识的领先用户识别研究奠定了基础。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于图卷积神经网络和依存句法分析的网民负面情感分析研究*
    范涛,王昊,吴鹏
    数据分析与知识发现. 2021, 5 (9): 97-106.   DOI: 10.11925/infotech.2096-3467.2021.0146
    摘要   HTML ( 7 PDF(1390KB) ( 211 )  

    【目的】 探索结合网络舆情文本的语义特征和依存结构信息进行网民负面情感分析研究。【方法】提出基于图卷积神经网络和依存句法分析的网民负面情感分析模型。模型结合双向长短期记忆网络和自注意力机制抽取文本特征作为依存句法图中的节点特征,应用图卷积神经网络对生成的节点特征和依存句法图对应的邻接矩阵进行训练学习,输出负面情感类别(愤怒、厌恶、恐惧和悲伤)。【结果】结合新冠疫情等网络舆情数据进行实证研究,并与相关基线模型作比较。实验结果表明,所提模型具有一定的优越性,在“恐惧”这一情感类别中,识别准确率达到 93.535 %【局限】 所提模型仅在网络舆情数据集中进行测试,未在公开数据集中进一步验证。【结论】依存句法结构信息的加入以及图卷积神经网络和注意力机制的应用能够有效提升模型的负面情感分析能力。

    图表 | 参考文献 | 相关文章 | 多维度评价
    前列腺癌预测模型对比研究*
    车宏鑫,王桐,王伟
    数据分析与知识发现. 2021, 5 (9): 107-114.   DOI: 10.11925/infotech.2096-3467.2020.1185
    摘要   HTML ( 9 PDF(1329KB) ( 144 )  

    【目的】 对比基于集成学习算法与非集成学习算法构建的前列腺癌预测模型性能,选出最优算法和重要风险因素。【方法】 基于KNN、决策树、支持向量机、BP神经网络4种非集成算法和AdaBoost、GradientBoost、XGBoost 三种集成算法构建前列腺癌预测模型并验证模型效能,识别前列腺癌风险因素。【结果】 非集成算法中决策树模型性能最优,准确率为0.933 3,F1分数为0.930 1,AUC为0.914 5;集成算法中XGBoost模型性能最优,准确率为0.957 3,F1分数为0.962 4,AUC为0.951 3。识别出总PSA、游离PSA等9个前列腺癌重要风险因素。【局限】 实验数据集有待扩充,构建模型的算法有待增加。【结论】 在前列腺癌预测模型性能和风险因素识别方面,集成学习算法整体上优于非集成学习算法。

    图表 | 参考文献 | 相关文章 | 多维度评价
    数据驱动的大型医院手术室运营预测与优化方法研究*
    陈东华,赵红梅,尚小溥,张润彤
    数据分析与知识发现. 2021, 5 (9): 115-128.   DOI: 10.11925/infotech.2096-3467.2020.1123
    摘要   HTML ( 12 PDF(1096KB) ( 143 )  

    【目的】 研究相关性分析、关联规则挖掘和时间序列预测方法在手术室运营预测与优化的应用。【方法】 基于50 000余例手术记录数据,分别提出手术指标相关性分析、手术室资源关联规则挖掘和手术量时间序列预测方法,并据此探讨大型医院手术室运营预测与优化策略。【结果】 75%的手术操作时长与其他手术指标呈强线性相关性。FP-Growth算法在最小置信度0.85下能获得可靠的手术室资源使用规律。利用周手术量时间序列提高至少37.5%的预测精确度。【局限】 所用的手术室运营数据没有与其他医疗信息系统的数据关联,限制了该方法应用在医院其他部门的运营优化。同时,该方法在不同的医院运营环境中还需要进一步检验。【结论】 所提方法为实现数据驱动的大型医院手术室运营预测与优化目标提供方法论指导。

    图表 | 参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn