期刊首页 当期目录

2022年, 第6卷, 第2-3期 
刊出日期:2022-03-25
  

  • 全选
    |
    卷首语
  • 张晓林
    数据分析与知识发现. 2022, 6(2-3): 1-2. https://doi.org/10.11925/infotech.2096-3467.2022.0001
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 《数据分析与知识发现》编辑部
    数据分析与知识发现. 2022, 6(2-3): 3-6. https://doi.org/10.11925/infotech.2096-3467.2022.0002
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 专辑
  • 胡雅敏, 吴晓燕, 陈方
    数据分析与知识发现. 2022, 6(2-3): 7-17. https://doi.org/10.11925/infotech.2096-3467.2021.1066
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 梳理机器学习算法在技术术语识别中的应用现状与前景。【文献范围】 在WOS核心库和CNKI数据库中,以“technology term* recognition”、“技术术语识别”为检索词检索文献,并延伸阅读相关算法文献,共筛选62篇代表性文献进行述评。【方法】 类比命名实体识别研究,归纳机器学习在技术术语识别中的应用和区别,从算法分类、一般流程、现存问题和下游应用4个方面进行梳理,并展望未来的应用前景。【结果】 应用算法可分为单一的统计机器学习、单一深度学习和两者结合的混合算法,应用最广泛的是两者结合的混合算法,主流的模型代表是BiLSTM-CRF模型,迁移学习是未来重要的研究方向。【局限】 深度学习快速发展,混合模型不断涌现,所归纳的算法模型仅为应用较为广泛的算法,并未逐一列出。【结论】 现有方法仍然有诸多待优化研究的问题,应加强细粒度的实体识别、特征表示方法、评估方法和开源工具包等方面的研究。

  • 吕璐成, 周健, 王学昭, 刘细文
    数据分析与知识发现. 2022, 6(2-3): 18-32. https://doi.org/10.11925/infotech.2096-3467.2021.0908
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对开展技术演化分析时依赖主题间相似度计算和人工设定阈值判断窗口技术主题间关联关系的问题,进行方法研究。【方法】 构建基于双层主题模型的技术主题演化分析框架。分别采用基于LDA和基于NMF的双层主题模型识别动态主题,通过主题内一致性和差异度指标评价两种方法的技术主题识别效果,对比选定最优方法,从主题成长性和重要性方面进行技术主题演化分析。【结果】 通过在资源环境领域的应用研究发现,基于NMF的双层主题模型识别的动态主题具有更高的主题内语义一致性和主题间语义差异度,技术演化分析结果能够从《麻省理工科技评论》发布的突破性技术清单中得到验证。【局限】 仅研究了技术从出现到消亡的发展轨迹,未关注技术的分裂、衍生和融合。【结论】 所提方法能够利用特定时间段的文献数据,自动识别动态主题并对主题的演化轨迹进行分析,在科技情报分析工作中具有实际应用价值。

  • 张金柱, 韩永亮
    数据分析与知识发现. 2022, 6(2-3): 33-44. https://doi.org/10.11925/infotech.2096-3467.2021.0962
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 综合利用专利分类网络结构特征与文本语义特征,基于多种特征形成技术融合关系预测方法和价值评估方法。【方法】 区分专利与专利分类间的关联强度,构建专利分类共现网络,获取专利分类间的网络结构相似性特征,并根据关联强度赋予专利分类以专利文本,利用文本表示学习方法得到其文本语义相似性特征。根据网络结构特征和文本语义特征构建专利分类间多种相似性指标,融合多种指标构成特征向量,利用随机森林模型学习不同指标的权重和贡献,计算技术融合概率,排序得到候选技术融合关系集合。基于专利分类引用网络特征和文献计量特征,从影响力和成长潜力出发,提出领域技术价值、商业价值和战略价值评估指标,利用被引数加以验证,最后用所得方法评估技术融合关系,获取高价值技术融合关系。【结果】 本文方法的TopK预测准确率比单一特征至少提高20%;评测得到的前10对高价值技术融合关系与真实排名相差极小,平均绝对误差仅为3.2。【局限】 选取的数据库存在数据项不统一的问题;只尝试了单一的随机森林方法,未对其他前沿方法进行验证。【结论】 专利分类关联强度能够提高网络分析预测方法的预测效果,同时多特征融合方法相较于单一特征预测方法,能够提高技术融合关系预测效果;另一方面,本文的价值评估方法能够有效实现高价值技术融合关系价值的筛选。

  • 刘小玲, 谭宗颖
    数据分析与知识发现. 2022, 6(2-3): 45-54. https://doi.org/10.11925/infotech.2096-3467.2021.1086
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 合理、有效、准确地划分技术主题具有重要意义,本文旨在融合专利的多个属性改善技术主题划分效果。【方法】 分别基于专利的文本内容、引用关系和分类信息构建专利文本向量、专利引文向量和专利分类向量,综合三者得到基于多属性融合的专利向量,在此基础上通过专利聚类获得技术主题。【结果】 与基于一个或两个属性的专利向量表示方法相比,基于专利多属性融合的方法在不同层级的IPC分类和不同数量的样本集上均表现出更高的专利分类准确率、召回率和F1值,对专利相似度的测度更加准确,间接证明了基于专利多属性融合的技术主题划分方法更具优势。【局限】 利用专利自动分类实验而非直接方法评价技术主题划分效果。【结论】 基于专利多属性融合的技术主题划分方法能够综合专利不同属性对技术主题的表征能力,提高专利相似性测度和技术主题划分的准确性。

  • 周云泽, 闵超
    数据分析与知识发现. 2022, 6(2-3): 55-66. https://doi.org/10.11925/infotech.2096-3467.2021.0926
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出一种多源数据下,通过共享语义空间对技术主题进行表征的新兴技术识别方法,并探究方法的有效性。【方法】 使用LDA主题模型识别多源数据主题,用Word2Vec模型基于主题代表词汇及其权重,将主题表示为向量,进而进行主题合并。使用主题强度、主题新颖度指标判别新兴主题。【结果】 在具体的自动驾驶汽车实证领域,共识别出了驾驶主体切换、行驶轨迹选择与控制、变道安全、运动估计及风险规避、汽车结构设计、感知环境技术、通信技术及通信安全等7个新兴技术。【局限】 未来将探讨如何更客观地确定阈值,以及细化主题的粒度。【结论】 运用LDA主题模型与共享语义空间,可以在多源数据下识别出新兴技术主题,优化现有的识别方法。

  • 李纲, 张霁, 毛进
    数据分析与知识发现. 2022, 6(2-3): 67-79. https://doi.org/10.11925/infotech.2096-3467.2021.0952
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为有效支撑突发事件画像,融合文本信息对社交媒体图像进行分类。【方法】 分析基于社交媒体的突发事件画像基本流程,并面向突发事件画像描述维度需求设计了具有双层结构的图像分类体系,进而提出一种融合图像和文本多模态语义的图像分类深度学习模型UCTM(UniModal and CrossModal Transformer Model),在“台风山竹”事件数据集上开展对比实验,并构建了示例画像。【结果】 融合多模态信息的UCTM模型MAP指标比单模态分类方法和双线性融合方法高0.021以上;在应对信息(准备)和应对信息(救援)两个类别上,两阶段层次化分类策略的F1值比直接分类策略分别高0.017和0.018。【局限】 模型未考虑图文语义不一致的情况,实验涉及的突发事件类型较为单一。【结论】 本文方法能够丰富突发事件画像维度和内容,有助于提升突发事件态势感知的精确性和全面性。

  • 王若佳, 严承希, 郭凤英, 王继民
    数据分析与知识发现. 2022, 6(2-3): 80-92. https://doi.org/10.11925/infotech.2096-3467.2021.1062
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 对在线健康社区用户进行精准画像并准确预测其在社区中的参与情况,有助于社区管理者早期识别流失用户,并做出个性化挽留措施。【方法】 构建多维度用户画像标签体系,采用统计分析、社会网络分析、自然语言处理技术、LDA主题聚类实现指标计算与可视化;将用户画像标签数据作为用户流失预测的模型输入,构建了基于滑动窗口的用户流失实时预测模型。【结果】 以华夏中医论坛的真实数据进行实证研究,为9 918个用户生成了多维度画像标签,构建并比较多种机器学习算法对用户流失的预测效果,结果显示Gradient Boosting算法效果最佳,F1值达到88.77%。【局限】 未在更多在线健康社区中应用,用户数据量较少。【结论】 本研究提出了一种依据用户在线交互行为特征实现多维度用户画像标签计算的方法,并验证了用户画像在用户流失预测中的应用可行性。

  • 钱旦敏, 曾婷婷, 常侍艺
    数据分析与知识发现. 2022, 6(2-3): 93-104. https://doi.org/10.11925/infotech.2096-3467.2021.0946
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 探索突发公共卫生事件下在线健康社区发展态势,构建基于TOPSIS熵权法帖子热度评价模型,并运用用户画像定义用户角色。【方法】 对丁香园论坛中疫情相关的帖子进行爬取,获得4 972条有效数据,运用TOPSIS熵权法对帖子热度进行排序,然后采用因子分析法降维,最后基于K-means聚类构建用户画像。【结果】 在疫情期间,丁香园用户发帖集中于考研、新闻热点、心情驿站、预防医学4大版块;利用用户画像将用户分为高影响力用户、专业型用户、长期用户、高产量用户、高潜力用户、机构类用户、强互动型用户等7大类。【局限】 由于丁香园网站只显示爬取的最新的14页网页数据,导致构建的数据集规模较小,且尚未进行不同在线健康社区的横向比较。【结论】 精准的用户定位有助于了解用户群体间的差异、准确把握突发公共卫生事件下用户的具体需求,从而为社区在类似事件下开展工作提供更多依据和建议。

  • 徐月梅, 樊祖薇, 曹晗
    数据分析与知识发现. 2022, 6(2-3): 105-116. https://doi.org/10.11925/infotech.2096-3467.2021.0912
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 将文本分类算法根据不同分类任务的特征进行动态调整,使文本分类算法的性能与任务特征紧密相关。【方法】 提出一种基于标签的注意力权重学习,通过标签嵌入的方法同时对文本语义的词向量和文本的TF-IDF分类矩阵进行学习,为文本中的单词赋予不同的权重提取与分类任务更相关的特征,改进文本的注意力权重学习。【结果】 所提方法相比现有的LSTMAtt、LEAM和SelfAtt方法在准确率上平均提高了3.78%、5.43%和11.78%,并通过可视化结果分析验证所提方法的文本分类性能。【局限】 未比较不同词向量表示对文本分类任务的性能影响。【结论】 为多任务文本分类算法的设计提出了有效的改进和优化方案。

  • 余传明, 林虹君, 张贞港
    数据分析与知识发现. 2022, 6(2-3): 117-128. https://doi.org/10.11925/infotech.2096-3467.2021.0965
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 利用命名实体识别与事件检测任务之间的相关性,同时提升命名实体识别和事件检测模型的性能。【方法】 提出基于多任务学习的实体和事件联合抽取模型MDL-J3E,该模型分为共享层、私有层和解码层。其中,共享层生成通用特征;私有层由命名实体识别部分和事件检测部分组成,在通用特征的基础上分别提取两个子任务的私有特征;解码层将子任务的特征解码输出为符合约束规则的标签序列。【结果】 在ACE2005数据集上开展实证研究,所提模型在命名实体识别任务上的F1值为84.15%,在事件检测任务上的F1值为70.96%。【局限】 未将多任务模型应用到更多的信息抽取场景中。【结论】 与单任务模型相比,多任务模型在命名实体识别任务和事件检测任务中具有更好的效果。

  • 佟昕瑀, 赵蕊洁, 路永和
    数据分析与知识发现. 2022, 6(2-3): 129-137. https://doi.org/10.11925/infotech.2096-3467.2021.0930
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提高专利自动分类效果,准确地为专利申请书匹配适合的一个或多个IPC分类号。【方法】 构建了大规模中文专利数据集(CNPatents),选取IPC分类号中的前4位作为分类标签,使用BERT、RoBERTa和RBT3模型进行训练和测试。【结果】 实验结果表明,在含有600多个类别的分类任务中,最好的模型分类准确率为0.756,Micro-F1值为0.597;经过高频标签筛选后,准确率提升到0.912,Micro-F1值提升到0.717。【局限】 作为训练集的专利文本存在数据不平衡的状况,对训练集进行高频标签筛选仍未完全解决该问题,需要进一步扩大专利数据集规模。【结论】 实现了多标签专利的自动分类,并通过高频标签筛选进一步提升了模型的分类效果。

  • 王晓庆, 陈东
    数据分析与知识发现. 2022, 6(2-3): 138-150. https://doi.org/10.11925/infotech.2096-3467.2021.0967
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 分析各区块链内重点资源配置间的相互作用机理,强化区域经济区块链的建设与经济的协同发展。【方法】 基于区块链内资源配置要素分析和系统动力学研究理论与方法,通过理论研究分析区块链内各项重要资源要素间的因果关系,结合Vensim软件系统模拟,分析区块链内产业链、创新链、人才链、资金链的运行规律和相关性及敏感性。【结果】 (1)由敏感性分析可知,产业链=资金链>人才链>创新链;(2)产业链方面,2030年为关键节点;(3)资金链方面,2021年-2025年为关键时间段;(4)人才链方面,2025年-2035年为关键时间段;(5)创新链方面,全时段为关键节点。【局限】 对于“五链”的影响因素选择较为简单粗糙,对其作用机理研究尚不透彻,仅是从一些直观的影响因素着手,通过数据收集,建立系统动力学模型,实现有限程度的预测分析。【结论】 本文方法能够为资源协同配置结果预测提供方法论指导。

  • 岳铁骐, 傅友斐, 徐健
    数据分析与知识发现. 2022, 6(2-3): 151-166. https://doi.org/10.11925/infotech.2096-3467.2021.0947
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 面向网络招聘广告提出一个完整、系统的岗位人才需求分析的框架,并基于框架对我国互联网行业人才需求进行分析。【方法】 采集互联网行业招聘广告,构建LDA模型以实现岗位需求的主题挖掘与分类,利用Word2Vec模型与依存句法分析得到主题词-程度词词表并构建主题本体。【结果】 实证分析发现互联网行业岗位主要分布于我国的东南沿海与一线城市,计算机技术和个人素质能力是互联网行业最为看重的两项主题能力,不同类别的岗位对人才的能力需求差异较大;并基于框架构建了对不同岗位需求的量化评价。【局限】 校园招聘的数据样本较少,导致分析结果与实际情况存在偏差;构建LDA模型时分词不够完善,某些主题代表性不强。【结论】 实证分析表明岗位人才需求分析框架对人才市场需求和岗位能力要求的分析是有效的,并依据分析结果提出了制定职业规划、提高培养计划灵活性等建议。

  • 张卫, 王昊, 陈玥彤, 范涛, 邓三鸿
    数据分析与知识发现. 2022, 6(2-3): 167-183. https://doi.org/10.11925/infotech.2096-3467.2021.1020
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 识别中文成语情感隐喻,构建融合字面外在事物(源域知识)以及隐喻使用者内在态度或情感(目标域知识)的成语知识图谱。【方法】 提出一套融合迁移学习和文本增强的成语情感隐喻知识识别方案。首先,爬取成语及其外在事物类别获取外部知识;随后,迁移情感词典获取学习语料,将成语集和情感词典匹配到的成语用于第一轮迁移学习,将情感词典中除首轮测试集的所有情感词作为训练集进行第二轮迁移;引入汉语知识增强文本数据克服成语隐喻特征所导致的弱情感语义,对比BERT嵌入的[CLS]与平均池化方案,采取主流深度学习模型进行验证;归纳最优模型对未匹配的成语进行层次分类并将其与匹配到的合并获得成语内部知识。【结果】 平均池化的准确率相较[CLS]提升4.69个百分点,加入成语释义使准确率提升超过13个百分点;第二轮迁移的各级情感精度多在80%以上,原先语料规模较小的情感类别提升最高可达6.25个百分点。【局限】 受限于部分情感类别语料数量,分类精度有待提升。【结论】 本文方案能够有效识别成语的情感隐喻知识,内外知识的关联为成语知识服务打下了基础。

  • 刘政昊, 钱宇星, 衣天龙, 吕华揆
    数据分析与知识发现. 2022, 6(2-3): 184-201. https://doi.org/10.11925/infotech.2096-3467.2021.0609
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 基于知识关联的研究视角构建领域知识图谱发现行业特征和相关股票,为投资者的组合交易决策提供新的视角和依据。【方法】 首先构建以股票数据为核心的种子知识图谱,对非结构化的文本数据基于FinBERT预训练模型进行实体抽取和关系分类形成三元组,并将二者进行知识融合完成金融证券知识图谱构建;然后基于图谱利用链路预测、相似度计算等图数据挖掘算法发现相关股票及其隐含特征,并通过统计学方法进行初步验证。【结果】 构建了具有111 845个实体和163 370个关系的金融证券知识图谱,基于图谱分析了与“东北证券”相似度最高的10支跨行业相关股票,并结合“四环生物”案例分析股票间潜在的非线性相关关系。【局限】 所构建的知识图谱仅考虑了所属行业、股东持股等静态信息对股票相关性的影响。【结论】 金融证券领域知识图谱的构建和相关股票发现为投资者制定有效的投资组合策略,为股票趋势预测提供强有力的分析思路和数据支持。

  • 程子佳, 陈翀
    数据分析与知识发现. 2022, 6(2-3): 202-211. https://doi.org/10.11925/infotech.2096-3467.2021.1057
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为改善人们查找并理解科普信息的方式,构建基于流行性疾病知识图谱的问答系统,重点改进对用户问题的理解,以及对答案内容的组织,降低科普受众理解专业知识的门槛。【方法】 基于多种健康信息源总结用户查询需求,采用AC多模式识别算法与BERT模型结合理解问句,将问句要素映射到结构化查询语句中,从预先整合构建的流行性疾病知识图谱获取答案,对答案内容进行富媒体组织,并以Flask框架和多种JS样式实现前端交互展示。【结果】 系统在问答测试中平均准确率达到90%,表明系统在受限域的科普信息服务中具有一定实用性。【局限】 流行病领域知识来源限于AMiner平台提供的公开数据集,所能支持的问答范围和问题类型有待扩充。【结论】 从语义层面优化问句理解模块,并通过富媒体答案组织帮助大众理解专业知识,这种做法有利于增强科普效果。

  • 侯党, 傅湘玲, 高嵩峰, 彭雷, 王友军, 宋美琦
    数据分析与知识发现. 2022, 6(2-3): 212-221. https://doi.org/10.11925/infotech.2096-3467.2021.0948
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 通过构建企业知识图谱,深入挖掘企业在生产经营过程中与其他企业之间产生的各类关联关系,为企业的风险预警、价值评估等方向提供新思路。【应用背景】 企业在生产经营过程中产生的关联关系种类繁多且数量庞大,导致有价值的关联关系信息隐蔽在其中。针对传统分析方法效率低下的问题,提出利用知识图谱构建企业关系网络,有效挖掘隐藏的企业关联关系。【方法】 利用结构化的企业数据表构建企业知识图谱,并在此基础上实现企业之间的关联路径、企业实际控制人、企业所属集团的关联关系挖掘算法。【结果】 构建的知识图谱包含140多万个包括公司和个人两种的实体,300多万条包括股权、担保、高管、投资等9种类型的关系。在图的路径和搜索算法基础上,实现了企业关联路径查询、实际控制人发现和所属集团发现的关联关系挖掘算法。【结论】 提出了构建企业知识图谱的方法,以及基于图搜索的路径规划算法挖掘隐藏的企业关联关系的方法,为企业关联关系挖掘提出新方向。

  • 聂卉, 吴晓燕, 林芸
    数据分析与知识发现. 2022, 6(2-3): 222-232. https://doi.org/10.11925/infotech.2096-3467.2021.0883
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 通过挖掘抑郁症患者的在线问诊记录来深入了解该病患群体。【方法】 采集“好大夫在线”的抑郁症问诊记录,利用词向量构建病患模型,通过K-means算法实现病症群组划分,运用t-SNE、热图、词云等技术可视化各群组的结构及相互关系,分析其情绪心理、社交和行为上的差异,并通过LDA主题建模法凝练各群组诊疗需求。【结果】 研究汇聚了6个抑郁症群组,不同群组在情绪心理、社交关系、行为表现上各具特点。同时提炼出抑郁症病患的三种诊疗需求模式:迫切希望了解是否应线下就医、多方位咨询以及询问药物治疗。【局限】 对群组进行特征差异分析时,每个维度下的关键词选择基于词性分析和人工梳理,存在一定偏差。【结论】 对用户在线问诊记录的挖掘是了解抑郁症患者的有效途径。研究采用的策略与方法可推广至其他疾病领域,为在线医疗平台建设提供全方位支持。

  • 张云秋, 李博诚, 陈妍
    数据分析与知识发现. 2022, 6(2-3): 233-241. https://doi.org/10.11925/infotech.2096-3467.2021.0954
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出一种面向不平衡数据的电子病历自动分类方法,以进一步提高临床电子病历分类性能。【方法】 利用MC-BERT增强电子病历的语义表示,并设计了相应的深度神经网络框架以提高模型的语义提取能力,最终利用类别数量比例、梯度协调机制和类别相似度从样本数量不平衡和样本分类难度不平衡两个角度设计了新的损失函数。【结果】 通过真实电子病历数据集进行实证和对比实验,本文方法的精确率、宏平均F1值、微平均F1值分别为81.37%、65.89%、81.47%,优于前人提出的分类方法。【局限】 仅针对单一临床科室的病历进行了实证研究。【结论】 面向不平衡数据的电子病历自动分类方法可以有效地提高电子病历分类性能。

  • 张云秋, 汪洋, 李博诚
    数据分析与知识发现. 2022, 6(2-3): 242-250. https://doi.org/10.11925/infotech.2096-3467.2021.0951
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出基于RoBERTa-wwm动态融合的实体识别模型,提高中文电子病历实体识别效果。【方法】 将预训练语言模型RoBERTa-wwm各Transformer层生成的语义表示进行动态融合后,输入双向长短时记忆网络和条件随机场模块完成电子病历中的实体识别。【结果】 在“2017全国知识图谱与语义计算大会(CCKS2017)”数据集与自主标注的电子病历数据集上F1值分别达到94.08%和90.08%,在RoBERTa-wwm-BiLSTM-CRF模型的基础上提高了0.23%与0.39%。【局限】 本文所采用的RoBERTa-wwm基于非医学语料完成预训练过程。【结论】 语义层的动态融合能更好利用各编码层的不同信息,提升下游实体识别任务效果。

  • 张芳丛, 秦秋莉, 姜勇, 庄润涛
    数据分析与知识发现. 2022, 6(2-3): 251-262. https://doi.org/10.11925/infotech.2096-3467.2021.0910
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决中文电子病历实体识别中存在的一词多义、词识别不全等问题。【方法】 采用深度学习模型RoBERTa-WWM-BiLSTM-CRF,改善中文电子病历的命名实体识别的效果并用4组实验进行对比,分析不同模型对中文电子病历实体识别的效果的影响。【结果】 所提模型的实体识别效果F1值达到了0.890 8。【局限】 使用的数据集规模较小,部分科室实体识别效果较一般,如呼吸科F1值仅为0.811 1。【结论】 通过实验表明RoBERTa-WWM-BiLSTM-CRF模型更适用于中文电子病历命名实体识别任务,有效解决了中文电子病历命名实体识别中存在的一词多义和词识别不全的问题。

  • 傅柱, 丁玮珂, 关鹏, 丁绪辉
    数据分析与知识发现. 2022, 6(2-3): 263-273. https://doi.org/10.11925/infotech.2096-3467.2021.0921
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 从细粒度角度深化外文专利文献的全文特征描述,提出一种基于知识元的外文专利文献知识描述框架。【方法】 以美国专利和欧洲专利作为外文专利代表,对比分析中外专利文献之间的差异;在分析外文专利文献内容结构的基础上,利用知识元从外部特征和内容特征两个角度对外文专利文献全文特征进行细粒度知识描述,构建外文专利文献知识描述框架,分析知识描述框架内容组成的语义关系。【结果】 提出的知识描述框架包含8种核心知识元及其描述规则,揭示了专利文献与知识元之间的4种语义关系以及不同知识元之间的5种语义关系。【局限】 提出的知识描述框架的适应性有待加强。【结论】 基于知识元的外文专利知识描述框架能够细粒度描述外文专利文献的全文知识特征,揭示知识特征之间的语义关系,为专利文献的知识组织、知识挖掘和知识服务提供新思路。

  • 易新河, 杨鹏, 文益民
    数据分析与知识发现. 2022, 6(2-3): 274-288. https://doi.org/10.11925/infotech.2096-3467.2021.0963
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 利用在线招聘文档,准确分析用人单位需求,为解决劳动力供需失配提供技术支持。【方法】 提出一种基于跨域迁移学习的专业技能词识别方法(CDTL-PSE)。CDTL-PSE将专业技能词的识别任务当作序列标注任务,首先将SIGHAN语料库分解为三个源域,利用插入在Bi-LSTM层和CRF层之间的域自适应层来有效实现从各个源域到目标域的跨域迁移学习;然后采用参数迁移法训练每个子模型;最后通过多数投票获得标签序列的预测结果。【结果】 在自建在线招聘文档数据集上,相对于基线方法,使用交替训练的具有Bi-LSTM域自适应层的CDTL-PSE的F1值提高0.91%,能减少50%左右的标记样本。【局限】 模型的可解释性有待进一步改善。【结论】 CDTL-PSE能有效实现对技能词的自动抽取,还可有效缓解目标域标注样本的不足。

  • 丁晟春, 游伟静, 王小英
    数据分析与知识发现. 2022, 6(2-3): 289-297. https://doi.org/10.11925/infotech.2096-3467.2021.0969
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决军事领域基于依存句法关系只能抽取单名词武器装备属性词的问题。【方法】 分析描述武器装备技术和性能属性文本的特征,编写正则表达式获取属性值,再基于依存句法分析抽取属性词,最后依据词性将属性词补全。【结果】 在军事新闻数据集上进行实验,开源属性词抽取的准确率和召回率分别达到91.53%和72.78%;属性词补全的准确率高达96.95%,且每种类别属性词的准确率均高于90%。【局限】 武器装备除了有技术和性能属性,还有所属国家、服役状态等基础属性,而本研究并未涉及。【结论】 实验结果表明,本文所提基于词性补全属性词的方法是可行且高效的,应用此方法能够获得含义更加明确的属性词。

  • 郭航程, 何彦青, 兰天, 吴振峰, 董诚
    数据分析与知识发现. 2022, 6(2-3): 298-307. https://doi.org/10.11925/infotech.2096-3467.2021.0973
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 致力于自动识别科技论文摘要中的语步功能信息,明确论文的研究目的、研究方法、研究结果和研究结论,有助于快速获取文献主要内容,实现智能化语义检索。【方法】 提出基于Paragraph-BERT-CRF神经网络架构的摘要语步识别模型,能够充分利用摘要文本中的篇章上下文信息,同时考虑了注意力机制和语步标签序列内部的转移关系。【结果】 基于94 456条科技论文摘要数据集进行方法实证,Paragraph-BERT-CRF的加权平均精确率为97.45%、加权平均召回率为97.44%、加权平均F1值为97.44%。通过对比CRF、BiLSTM、BiLSTM-CRF、BERT、BERT-CRF、Paragraph-BERT等模型的消融实验结果,验证了本文方法的有效性。【局限】 Paragraph-BERT-CRF模型仅使用了基础BERT-base预训练语言模型,模型参数有待进一步优化,更多预训练语言模型在语步功能信息识别中的应用有待研究。【结论】 引入注意力机制和篇章上下文信息,能有效提升模型的预测效果,达到摘要语步信息识别的功能。

  • 韦婷婷, 江涛, 郑舒玲, 张建桃
    数据分析与知识发现. 2022, 6(2-3): 308-317. https://doi.org/10.11925/infotech.2096-3467.2021.0972
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 构建一种能够更加准确地抽取中文专利关键词的方法,解决传统方法难以发现低频、长尾关键词的问题。【方法】 提出一种融合长短期记忆神经网络和逻辑回归模型的候选关键词抽取方法,进一步构建重组过滤规则,实现目标关键词抽取。【结果】 实验结果表明,所提方法在所有关键词、低频关键词、长尾关键词、低频长尾关键词的抽取准确率比其他方法分别提高了5、24、11、26个百分点。【局限】 所提方法通过设定阈值实现关键词的分类,对阈值附近点的词语划分仍不够精确。【结论】 融合长短期记忆神经网络和逻辑回归模型获取候选关键词,并基于重组过滤规则提取目标关键词,能够有效发现专利文本中的低频、长字符组成的关键术语,为专利文本分析等任务提供一定的参考价值。

  • 王永生, 王昊, 虞为, 周泽聿
    数据分析与知识发现. 2022, 6(2-3): 318-328. https://doi.org/10.11925/infotech.2096-3467.2021.0922
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 在方志信息资源领域内开展关系抽取研究,探究方志文本中蕴含的地域文化传统。【方法】 从文本结构和文本内容两个角度探讨关系抽取方法。文本结构上使用规则模板和词句特征的方法从原始文本中提取人物关系记录,并构建不同粒度的人物关系类别;文本内容上引入远程监督的方法进一步提取人物关系记录;最后引入BERT+Bi-GRU+ATT和BERT+FC深度学习模型将人物关系抽取任务转化为人物关系的多标签分类任务,并通过对关系标签修正的方式弱化远程监督引入的噪声对模型精度所产生的影响。【结果】 基于多角度融合提出的关系抽取方法具有自动化程度高、关系记录提取率高的特征。深度学习BERT+FC模型在不同类别上F1值的提升幅度可达1%~27%;不同关系类别间表现出一定的亲和性,但类别本质不同;标签修正后的“强共现关系”F1值提高3%。【局限】 仅探究了地方志中人物实体间关系,未拓展研究方志文本中其他实体间关系。【结论】 基于多角度融合的方法提供了一套方志文本同类型实体关系抽取研究流程,引入深度学习模型增强了关系抽取方法的可移植性。

  • 范涛, 王昊, 李跃艳, 邓三鸿
    数据分析与知识发现. 2022, 6(2-3): 329-337. https://doi.org/10.11925/infotech.2096-3467.2021.0911
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对当前非遗图片分类不足的问题,提出结合非遗图片和文本描述,以多模态融合的方式进行非遗图片分类研究。【方法】 构建基于多模态融合的非遗图片分类模型(Image Classification Model with Multimodal Fusion,ICMMF),其主要由用于非遗图片视觉语义特征抽取的微调深度预训练模型、对文本特征进行抽取的BERT模型、融合视觉语义特征和文本描述特征的多模态融合层和预测类别输出层组成。【结果】 以国家级非遗项目——年画为例,对我国四大年画(绵竹年画、杨柳青年画、杨家埠年画及桃花坞年画)进行分类。将ICMMF模型在建立的数据集中进行实证,实验结果表明,对图片深度预训练模型中的卷积层进行微调,能够改善非遗图片的视觉语义特征,分类的F1值最高达72.028%。在同基线模型的对比中,ICMMF模型表现最优,F1值达77.574%。【局限】 ICMMF模型仅在年画数据集上进行了测试,未在更广泛的非遗项目中进行验证。【结论】 结合文本描述,以多模态的方式进行非遗图片分类,能够有效提升模型的分类性能;同时,对图片深度预训练模型中的卷积层进行微调,能够改善抽取的视觉语义特征。

  • 周泽聿, 王昊, 张小琴, 范涛, 任秋彤
    数据分析与知识发现. 2022, 6(2-3): 338-347. https://doi.org/10.11925/infotech.2096-3467.2021.0909
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 将人工智能方法引入数字人文领域中,探讨如何解决中华传统刺绣图像分类背景下刺绣数据集较小、图像特征表示不足以及识别准确率不高等问题,为非物质文化遗产数字保护智能化提供方法支撑。【方法】 将深度学习技术运用到刺绣图像上,利用图像处理技术提取其相应的特征,采用迁移学习的方法,对Xception模型进行微调改进,进而提出一种基于Xception-TD的中华传统刺绣分类模型,并探讨全连接层的数量与维度以及dropout取值对模型性能的影响。【结果】 实验结果表明,针对中华传统刺绣分类的问题,通过微调的方法,发现提高全连接层数量以及增大全连接层维度可以得到更好的刺绣图像特征表示并产生更好的效果。基于Xception-TD中华传统刺绣模型准确率达到0.968 63,均优于基准模型。在进一步刺绣多分类的问题上,准确率也均优于基准模型。【局限】 本文数据集仅来源于百度图片与少量人工标记,数据来源不够丰富。【结论】 基于迁移学习,并结合微调能够有效提升刺绣分类的准确率。

  • 徐选华, 黄丽
    数据分析与知识发现. 2022, 6(2-3): 348-363. https://doi.org/10.11925/infotech.2096-3467.2021.0941
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出一种信息融合方法以更全面地描述决策专家之间的复杂关系,并将其有效应用于大群体应急决策中。【方法】 结合信息融合、复杂网络分析等方法,综合决策意见与信任信息捕获专家群体的复杂关系并构建关联网络,基于该网络实现群体聚类、专家权重求解和个性化共识达成。【结果】 实现了复杂关系的可视化及其在大群体应急决策中的融合运用。案例分析表明,本方法在考虑专家意愿的同时,使得共识调整成本较传统方法降低约47%,共识效率提升40%。【局限】 除信任及专家意见外,专家复杂关系还可从其他维度获取;信任需要专家额外提供。【结论】 本研究丰富了群体关系的内涵,为社会网络环境下利用复杂关系支撑大群体决策提供了创新思路。

  • 商容轩, 张斌, 米加宁
    数据分析与知识发现. 2022, 6(2-3): 364-375. https://doi.org/10.11925/infotech.2096-3467.2021.0945
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 提出一种基于双向循环神经网络(Bidirectional Recurrent Neural Network,BRNN)的端到端方面级情感分析方法,实现了对政务APP评论的细粒度情感分析。【方法】 通过搭建一个包含双层BRNN结构以及三个功能模块的神经网络,分别对政务APP评论文本的边界与情感倾向进行识别,同时完成方面实体的抽取。【结果】 本文所搭建的基于BRNN的E2E-ALSA模型,具有优秀的拟合与泛化能力,其精确率、召回率与F1值均达到0.93以上。【局限】 该模型仅能对显性方面实体进行联合抽取,评论文本的隐性方面抽取仍然需要独立进行;数据集偏小。【结论】 通过对政务APP评论文本进行方面实体与情感的联合抽取,可以较好地识别与解释用户对于移动政务系统的情感需求与被满足情况,更精准地挖掘移动政务工作痛点。

  • 李保珍, 陈科
    数据分析与知识发现. 2022, 6(2-3): 376-384. https://doi.org/10.11925/infotech.2096-3467.2021.0964
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对现有虚假新闻分类算法的不足,提出一种多视角证据融合的虚假新闻分类模型,用以解决传统单视角下虚假新闻分类的片面性证据和不准确性分类等问题。【方法】 引入主观逻辑模型,以及不同视角下分类的不确定性测度,基于Dempster-Shafer证据理论,利用不同的权值融合多视角下的证据,得到总体的证据与分类的不确定性测度。【结果】 基于两个公开数据集的实验结果表明,所提模型的准确性和F1值比传统虚假新闻分类模型均有较显著的提高。【局限】 多视角证据融合之后存在一定的噪声,有时会影响实验结果的准确性。【结论】 多视角证据融合途径可有效提高虚假新闻甄别的准确性和鲁棒性。

  • 吴金红, 穆克亮
    数据分析与知识发现. 2022, 6(2-3): 385-395. https://doi.org/10.11925/infotech.2096-3467.2021.0949
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 通过基于机器学习的模型计算国际期刊的预警值,预测国际期刊质量变化趋势,为提醒科研人员审慎选择成果发表平台,帮助有关决策部门审查期刊质量提供智能化手段。【方法】 构建期刊影响力强度、期刊影响力时效性、期刊特性、作者来源等4个维度的预警期刊指标体系,采用Pearson相关系数与XGBoost特征重要值相结合的方法进行特征的筛选,并对筛选后的特征进行时序性特征拓展,考虑学科差异性,在以医学类、工程科技类期刊为代表的标注数据集上通过XGBoost、SVM、逻辑回归以及Stacking融合等模型实现国际期刊异常行为识别和比较,最后基于XGBoost信息增益得到特征重要性排序。【结果】 在医学类、工程科技类期刊上三种样本方案的研究结果表明,特征筛选后虽然会提升模型泛化性,但会轻微降低预警性能;特征筛选并拓展后能够提高期刊预警模型精度;自引率和投稿命中率等指标对模型具有较大贡献。【局限】 限于数据实际获取情况,涉及学科范围较小且训练数据偏少,未加入论文处理费相关的期刊特征。【结论】 构建的国际期刊异常行为预警模型适用于多学科环境,可以辅助机构和专家进行更有针对性的预警决策,提供了一种新的期刊质量管理方法。

  • 王楠, 李海荣, 谭舒孺
    数据分析与知识发现. 2022, 6(2-3): 396-408. https://doi.org/10.11925/infotech.2096-3467.2021.0800
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 当新的舆情事件出现时,准确高效地预测出该事件是否会发生反转。【方法】 首先,根据舆情反转事件反转点前的演化特点及演化过程构建事件特征;其次,通过设计聚类中心数自动寻优过程提出改进的KE-SMOTE算法,对正负样本分布悬殊的事件集合进行均衡处理;再次,基于均衡处理后的事件集构建以神经网络为基础的集成学习分类模型,实现舆情反转预测;最后,选取2021年发生的30个热点舆情事件对所构建的模型进行验证,并对预测结果与真实结果不符的事件逐一分析错误原因,同时对于如何避免舆情反转现象提出相应的对策建议。【结果】 本文构建的集成学习分类模型在测试集上的预测准确率为99.7%,同时,较高的召回率显示所有反转事件均被预测正确,与舆情反转预测任务的要求相符。【局限】 随着舆情反转事件从发生到反转之间的时长越来越短,可以获取的数据集也越来越少,所提出的特征和模型是否依然有效值得深入研究。【结论】 所构建的基于改进KE-SMOTE算法的舆情反转预测模型可以在事件发生初期较为精准地识别出舆情反转事件。