数据分析与知识发现

数据分析与知识发现

2023年, 第7卷, 第9期　刊出日期：2023-09-25

选择:

合并摘要

导出引用管理器
EndNote Reference Manager ProCite BibTeX RefWorks

研究论文

Select

ChatGPT中文信息抽取能力测评——以三种典型的抽取任务为例^*

鲍彤, 章成志

数据分析与知识发现. 2023, 7 (9): 1-11. DOI: 10.11925/infotech.2096-3467.2023.0473

摘要

HTML ( 118 )

PDF(868KB) ( 790 )

【目的】评估ChatGPT在中文命名实体识别、关系抽取以及事件抽取等典型中文信息抽取任务中的性能，分析不同任务和领域ChatGPT的表现差异，给出ChatGPT中文场景下的使用建议。【方法】采用Prompt提示的方式，分别依据精确匹配和宽松匹配两种方式，测评ChatGPT在三个典型信息抽取任务、共7个数据集上的性能：在MSRA、Weibo、Resume和CCKS2019数据集评估ChatGPT的命名实体识别效果，并与GlyceBERT和ERNIE3.0模型对比；在FinRE和SanWen数据集测试ChatGPT与ERNIE3.0 Titan的关系抽取效果；在CCKS2020数据集测试ChatGPT与ERNIE3.0的事件抽取效果。【结果】ChatGPT在命名实体识别任务中的表现不及GlyceBERT和ERNIE3.0模型。在关系抽取任务中，ERNIE3.0 Titan优于ChatGPT。在事件抽取任务中，ChatGPT在宽松匹配下的表现优于ERNIE3.0。【局限】以Prompt提示的方式评估ChatGPT的性能表现存在主观性，不同的Prompt会产生效果差异。【结论】ChatGPT在典型的中文信息抽取任务上的表现还有很大改进空间，用户在使用过程中需选择合适的Prompt和问题。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于ChatGPT的多视角学术论文实体识别：性能测评与可用性研究^*

张颖怡, 章成志, 周毅, 陈必坤

数据分析与知识发现. 2023, 7 (9): 12-24. DOI: 10.11925/infotech.2096-3467.2023.0474

摘要

HTML ( 35 )

PDF(1911KB) ( 628 )

【目的】分析基于大规模语言模型的提示学习方法在学术论文实体识别任务上的可用性。【方法】以ChatGPT这一大规模语言模型为例，将ChatGPT视为实体识别工具、伪标签生成工具以及训练数据生成工具，从性能、价格和时间等维度出发分析以上三个视角下ChatGPT的可用性。【结果】三个视角下基于ChatGPT的方法的F1值高于少量样本训练得到的神经网络基线模型，比如实体识别工具视角的F1宏平均值超过10个学术论文人工标注摘要训练得到的模型21.4个百分点。基于ChatGPT的方法在不同学科领域的学术论文数据集上性能较稳定。【局限】仅在英文学术论文摘要数据集上展开实验，但中文与英文学术论文、学术论文摘要与全文存在逻辑结构和表述上的差异。【结论】当缺少人工标注数据时，将ChatGPT视为实体识别工具可从学术论文摘要中识别出部分实体，但识别结果需进一步过滤以应用到下游任务中。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

元宇宙的冷与热——融合BERT与动态主题模型的微博文本分析^*

贺超城, 黄茜, 李欣儒, 王春迎, 吴江

数据分析与知识发现. 2023, 7 (9): 25-38. DOI: 10.11925/infotech.2096-3467.2022.1128

摘要

HTML ( 43 )

PDF(3934KB) ( 501 )

【目的】直观、全面地刻画元宇宙概念所引发的舆情态势及其变迁，为元宇宙相关政策与产业规划提供借鉴。【方法】基于2021年9月-2023年2月元宇宙相关微博文本数据，采用BERT模型和DTM模型抽取其语义和主题特征，借助K-means算法实现主题聚类，解读元宇宙话题的演化规律。【结果】大众对元宇宙的关注焦点发轫于非同质化代币（Non-Fungible Token， NFT）和游戏，随着数字产业的资本炒作，进一步引发文娱产业的跟进以及实体产业的尝试。而ChatGPT的出现则引发了大众对元宇宙产业现状、技术创新和应用展望的进一步探讨。【局限】未结合外文数据（如Twitter）对比分析国内外对元宇宙话题关注点的侧重、趋势等方面的差异。【结论】本研究从定量与宏观的角度解读了元宇宙相关话题的社会关注度特征及演化规律，对正确引导元宇宙网络舆情走向、避免舆论泡沫等工作具有一定参考借鉴意义。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

面向金融知识图谱的动态关系预测方法研究^*

张志剑, 倪珍妮, 刘政昊, 夏苏迪

数据分析与知识发现. 2023, 7 (9): 39-50. DOI: 10.11925/infotech.2096-3467.2022.0921

摘要

HTML ( 13 )

PDF(1302KB) ( 482 )

【目的】提出一种数据驱动的动态关系预测方法，为金融知识图谱的快速更新方法研究提供新视角。【方法】根据监测列表和检索策略在互联网爬取相关信息，使用掩码语言建模任务构建数据集并训练模型；提取金融知识图谱的层级结构搭建神经网络的隐藏层，隐藏层所含的神经元表示命名实体，隐藏层之间使用关系矩阵连接，通过对连接矩阵更新实现对关系的动态预测。【结果】以“宝万之争”事件初期的两次股权变更为例，本文方法可以在不同时期快速捕捉金融图谱中对应实体间关系的变化，验证了方法的有效性。【局限】受限于自监督学习的特性，所预测的关系较为发散，仍需人工进行校准核验。【结论】本文所提方法在数据充分的情况下，无需人工标注即可获取实体间关系的变化，可以对金融知识图谱的关系进行高效持续的预测。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

结合类型感知注意力的少样本知识图谱补全^*

普祥和, 王红斌, 线岩团

数据分析与知识发现. 2023, 7 (9): 51-63. DOI: 10.11925/infotech.2096-3467.2022.0799

摘要

HTML ( 16 )

PDF(1516KB) ( 399 )

【目的】现有少样本知识图谱补全方法在处理复杂关系时不能很好地区分邻居重要性，导致实体预测性能不佳。考虑充分利用实体邻居信息，提高少样本知识图谱补全方法的性能。【方法】通过类型感知邻居编码器学习实体邻居中包含的隐含类型信息，得到类型感知注意力，增强实体表示；利用Transformer编码器捕获任务关系的不同含义；通过联合匹配原型网络聚合参考集得到参考集表示并进行实体预测。【结果】在NELL和Wiki两个公共数据集上进行实体预测任务，实验结果表明，MRR指标分别较Baseline方法提高了1.6和1.2个百分点。【局限】未对与实体相关性较低的邻居进行筛选，使类型感知注意力权重的分配受到噪声影响。【结论】本文方法能够通过学习更丰富的实体邻居信息来有效提高少样本知识图谱补全的性能。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

面向任务型对话的小样本语言理解模型研究^*

向卓元, 陈浩, 王倩, 李娜

数据分析与知识发现. 2023, 7 (9): 64-77. DOI: 10.11925/infotech.2096-3467.2022.0825

摘要

HTML ( 16 )

PDF(1251KB) ( 386 )

【目的】在没有充足标注数据支持模型学习的情况下将对话语言理解任务应用到领域更新频繁的对话系统中。【方法】提出基于信息增强的小样本对话语言理解联合模型（IAM-FSLU），利用小样本学习很好地解决了在新领域和跨领域下的意图种类及数量不同时，数据匮乏和模型适用性差的问题，同时构建了一种更有效的小样本意图识别和小样本槽位提取两个任务间的显式关系。【结果】联合建模与未联合建模模型相比，在1-shot设置下，槽位提取F1分数获得近30个百分点的提升，句准确率有近10个百分点的提升；在3-shot设置下，槽位提取F1分数获得近35个百分点的提升，句准确率有12~16个百分点的提升。【局限】从结果来看，IAM-FSLU在意图识别子任务上仍需要进一步提高性能，同时与隐式关系建模的模型相比，虽然在槽位提取任务上有很大提升，但句准确率提升效果有限。【结论】通过不同的小样本设置的对比实验验证IAM-FSLU的效果，结果表明IAM-FSLU整体效果均优于其他主流模型。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

融合异质网络与表示学习的科研合作预测方法研究^*

李慧, 刘莎, 胡耀华, 孟玮

数据分析与知识发现. 2023, 7 (9): 78-88. DOI: 10.11925/infotech.2096-3467.2022.0909

摘要

HTML ( 19 )

PDF(1272KB) ( 320 )

【目的】为促进科研人员之间的交流合作，提出一种融合异质网络与表示学习的科研合作预测方法。【方法】运用学者、机构、论文、期刊等信息构建异质科研合作网络，根据网络中包含的学者之间不同的共现关系，将该异质网络划分为三种同质共现网络，再进一步利用Node2Vec和Doc2Vec算法分别学习学者的网络结构特征向量和内容属性特征向量，并进行融合。最后通过计算学者向量之间的余弦相似度进行合作预测。【结果】采用Web of Science数据库中人工智能领域的论文数据进行对比实验，本文所提预测方法的AUC值和F1值分别达到0.987 9和0.942 4，优于基线方法。【局限】对学者内容特征的表示没有考虑到学者的研究主题。【结论】本文方法考虑了学者的结构和内容属性，并结合异质网络，融合了机构、论文、期刊等多方面信息，能够得到更好的合作预测效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于共词和Node2Vec表示学习的新兴技术识别方法^*

曹琨, 吴新年, 靳军宝, 郑玉荣, 付爽

数据分析与知识发现. 2023, 7 (9): 89-99. DOI: 10.11925/infotech.2096-3467.2022.1069

摘要

HTML ( 11 )

PDF(2269KB) ( 388 )

【目的】高效准确地识别新兴技术，帮助政府、企业等市场各参与主体及时洞察技术前沿并合理配置资源。【方法】本研究以细粒度的技术术语为研究对象，在考虑共词网络结构特征和语义表示的基础上，构建模型进行新兴术语的遴选和新兴分数的量化，并运用Node2Vec图表示学习算法对新兴术语的向量进行编码及语义表示，实现了新兴术语和新兴技术主题的识别。【结果】在数控机床领域进行实证研究，共识别出449个新兴术语以及4个新兴技术主题（机器人自动上下料系统、清洁高效切削加工技术、高速高精度数控加工中心、增减材复合制造技术），验证了所提方法的科学性和合理性。【局限】仅使用专利文献的数据，对其他多源异构文献数据及其中存在的引用、语义相似等其他网络关系利用不足。【结论】运用共词和Node2Vec图表示学习的方法可深入挖掘技术术语间共词网络结构特征和语义表示，实现了新兴技术的细粒度精准量化识别。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于多角度面部特征的文献阅读专注度研究^*

刘洋, 朱学芳

数据分析与知识发现. 2023, 7 (9): 100-113. DOI: 10.11925/infotech.2096-3467.2022.0854

摘要

HTML ( 11 )

PDF(2837KB) ( 305 )

【目的】文献阅读专注度目前大多采用人工方式或眼动跟踪方法进行评价，为实现专注度评价过程的自动化检测和实时反馈，本文将计算机视觉技术和专注度评价研究相结合，对智能技术在智慧知识服务中的应用研究也有意义。【方法】通过阅读者头部垂直方向和水平方向转动角度检测头部姿态；通过眼部以及嘴部的闭合度检测阅读者闭眼或打哈欠状态进而对疲劳度进行评分；并且依据阅读者的表情识别结果对情绪进行评分，之后应用模糊综合评价算法对相关因素进行权重确定和评分整合，获得阅读者在文献阅读过程中不同时刻的专注度状态。【结果】将该文献阅读专注度模型应用于实际阅读场景以评价头部倾斜、疲劳和消极情绪状态文献阅读专注度，获得的效果分别比正常状态低26.3%、25.2%和6.8%。【局限】当文献阅读视频出现面部特征模糊时，视觉识别技术检测精度不足，同时存在部分极端阅读实例有待优化。【结论】本文模型可以应用于多领域的下游任务中，既可以辅助阅读者及时调整文献阅读策略以提高阅读效率，也可以辅助图书馆等部门制定图书采购策略，进而减少图书资源浪费。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

融合SPO语义和句法信息的事件检测方法^*

何丽, 杨美华, 刘璐瑶

数据分析与知识发现. 2023, 7 (9): 114-124. DOI: 10.11925/infotech.2096-3467.2022.0918

摘要

HTML ( 11 )

PDF(2592KB) ( 276 )

【目的】利用SPO三元组语义信息和依存句法关系类型信息提升事件检测模型的性能。【方法】融合SPO三元组语义信息和依存句法关系类型信息构造事件检测模型EDMC3S。该模型以语句的依存句法树为基础生成SPO三元组和依存句法关系类型矩阵，使用多头注意力机制对SPO三元组进行语义特征强化，利用自注意力机制对不同的依存关系类型进行权重分配后，通过多阶图注意力聚合网络对语句的全局句法和语义特征进行提取，最后使用一个全连接层对SPO三元组语义特征和语句全局特征进行整合。【结果】在ACE2005数据集上的实验结果显示，EDMC3S事件检测模型在触发词识别与事件类型分类这两个子任务中获得了较好的分类性能。在P、R和F1值三个评价指标上触发词识别分别达到80.6%、82.4%和81.5%，事件类型分类分别达到78.7%、80.1%和79.4%。【局限】仅在ACE2005数据集上进行实验验证。【结论】SPO三元组语义特征和词之间依存句法关系类型的引入能够提升事件检测中的触发词识别和事件类型分类效果。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

不平衡数据背景下基于文本线索的公益众筹欺诈项目检测^*

徐晨, 张巍

数据分析与知识发现. 2023, 7 (9): 125-135. DOI: 10.11925/infotech.2096-3467.2022.0830

摘要

HTML ( 19 )

PDF(900KB) ( 334 )

【目的】针对公益众筹活动中存在的欺诈问题，建立有效的检测模型。【方法】从项目描述中提取认知负载、叙述视角、情感输出三个维度的文本线索，建立集成模型并通过重采样和阈值调整方法优化模型。【结果】随机降采样和Easy Ensemble两种重采样方法优化后的模型AUC值达到0.8以上。阈值调整方法的使用进一步提升了模型性能，提升最明显的Easy Ensemble类模型F1值平均提高0.279，最大提升幅度达195%。【局限】所提出的方法仅使用了项目描述的文本特征，没有考虑更多维度的项目特征。【结论】基于重采样和阈值调整方法的集成模型能够有效地识别欺诈众筹项目。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于多任务和迁移学习的中文医学文献实体识别研究^*

韩普, 顾亮, 叶东宇, 陈文祺

数据分析与知识发现. 2023, 7 (9): 136-145. DOI: 10.11925/infotech.2096-3467.2022.0812

摘要

HTML ( 20 )

PDF(1241KB) ( 414 )

【目的】利用迁移学习和多任务学习解决中文医学文献实体识别冷启动和边界定位难的问题，进一步提高识别准确性。【方法】提出一种基于迁移学习和多任务学习的中文医学文献实体识别方法，构建混合深度学习BERT-BiLSTM-IDCNN-CRF的医学文献实体识别模型，通过实例迁移、模型迁移和特征迁移丰富医学语义特征，利用多任务学习构建粗粒度三分类任务以辅助实体识别任务有效利用实体边界信息，最后引入自注意力机制和Highway网络捕获全局重要信息并优化深层网络训练，提出TLMT-BBIC-HS模型。【结果】TLMT-BBIC-HS模型在中文糖尿病医学文献数据集上F1值达92.98%，较基准模型BERT-BiLSTM-CRF和BERT-IDCNN-CRF分别提高15.99个百分点和16.44个百分点。【局限】未验证模型的领域适应性。【结论】TLMT-BBIC-HS模型可实现医学知识的迁移共享，更适用于中文医学文献实体识别任务，可为医疗健康信息抽取、知识图谱和问答系统构建提供有效支持。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

基于多源异构数据的中医药知识图谱构建与应用研究^*

翟东升, 娄莹, 阚慧敏, 何喜军, 梁国强, 马自飞

数据分析与知识发现. 2023, 7 (9): 146-158. DOI: 10.11925/infotech.2096-3467.2022.0893

摘要

HTML ( 40 )

PDF(2073KB) ( 383 )

【目的】基于多源异构数据构建中医药知识图谱，辅助研究人员进行中医药领域的创新研究。【方法】从IncoPat专利数据库获取中医药专利数据，从TCMSP、OMIM等数据库获取中药靶点、疾病等数据，利用深度学习信息联合抽取模型抽取中医药专利文本中的实体及关系，采用字符串匹配和词典等方式进行数据规范及实体对齐，进而基于所设计的中医药知识图谱本体结构完成知识图谱构建，在此基础上采用频次分析、关联规则Apriori算法对中药处方优化进行分析。【结果】本文所设计的本体结构共包含31种实体类型、48种语义关系，涵盖中医药领域专利中的解决方案、技术功效等特定实体；选取糖尿病肾病领域具体详解基于多源数据的中医药知识图谱构建及应用过程，验证了本文所构建知识图谱的有效性以及对处方优化提供中医药筛选范围的高效性。【局限】在专利文本信息抽取时，部分标注样本采用人工标注，耗费时间较长。【结论】以中医药专利数据为主、结合多源数据所构建的中医药知识图谱，能够为中医药领域创新研究提供数据支撑，该知识图谱不仅可以实现处方优化研究，也可用于中医药领域的多元研究。

图表 | 参考文献 | 相关文章 | 多维度评价