数据分析与知识发现

Select

石磊, 李树青, 蒋明锋, 张志旺, 王愈

数据分析与知识发现. 2023, 7(6): 1-14. https://doi.org/10.11925/infotech.2096-3467.2022.0605

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为缓解推荐系统中显式评分数据广泛存在的数据稀疏性和用户选择偏差问题，提出一种基于无趣项注入的评分数据填充模型。【方法】 基于条件生成对抗网络框架构建通用的评分数据填充模型，使用去噪自编码器作为生成器以捕捉交互背后的非线性潜在因素并提高模型的鲁棒性。针对选择偏差问题，基于用户时点可见性挖掘无趣项，并通过修改掩膜机制注入模型中生成符合用户真实评分分布的数据。【结果】 在MovieLens和Amazon CD数据集上的实验结果表明，经过数据填充后，ItemCF、BiasSVD和AutoRec算法的推荐精度平均提升了3倍以上。【局限】 数据生成依赖于评分数据，无法有效应用于评分数据极度稀疏的冷启动场景。【结论】 所提模型能够有效缓解数据稀疏性并消除选择偏差，显著提高现有协同过滤方法在推荐任务中的性能。

Select

基于图神经网络的技术识别链接预测方法研究

许鑫, 李倩, 姚占雷

数据分析与知识发现. 2023, 7(6): 15-25. https://doi.org/10.11925/infotech.2096-3467.2022.0361

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 通过融合了时间特征的专利IPC共现网络，训练图神经网络模型实现链接预测方法，为技术发现和知识供给提供参考。【方法】 采集“隐私保护”专利数据构建专利IPC共现网络，构建节点的时间分布、时间稳定性和时间关注度特征，训练GraphSAGE模型，得到IPC节点表示及其之间的链接预测得分，为技术机会挖掘提供辅助和支持。【结果】 基于图神经网络模型的链接预测方法相对于基于节点相似性的传统链接预测方法以及图游走算法Node2Vec在AUC指标上提升约30%。【局限】 图神经网络作为深度学习模型在训练耗时上存在一定劣势。【结论】 基于图神经网络的链接预测方法具有较高的预测精度，结合时间特征后能够捕捉节点的动态特征，为技术发现等任务提供有价值的参考。

Select

融合深度学习和知识图谱的类型可控问句生成模型构建及验证

汪晓凤, 孙雨洁, 王华珍, 张恒彰

数据分析与知识发现. 2023, 7(6): 26-37. https://doi.org/10.11925/infotech.2096-3467.2022.1000

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 自动生成问句，减轻人工提问（或出题）的工作量，消除合作出题带来的问句难度不可控和维度不全面的问题，鼓励学习者利用智能问句进行深度阅读理解。【方法】 基于Transformer的知识图谱的问句生成模型，自动生成类型可控的问句。将知识图谱输入类型可控问句生成（TCQG）模型的Graph Transformer模块中进行图表示学习获得子图向量，然后基于相似度获取每个子图对应的匹配外部问句，再将4MAT问题类型参数和匹配外部问句输入到BiLSTM网络中进行特征学习得到外部增强向量，最后将子图向量和外部增强向量输入到TCQG模型的指针生成网络中实现问句生成。【结果】 TCQG模型通过Graph Transformer能更好地对知识图谱进行表示学习，在一跳三元组数据集评测中BLEU值为39.62，在是何问句的评测中BLEU值为38.63，均高于基线模型。【局限】 受问题类型的限制，并不能穷举出人类语言中的所有问句类型；此外，并未涉及问句所匹配的应答，因此在现实应用场景中，仍有一定限制。【结论】 本研究对生成教学场景中所需的类型多样、语义知识丰富和语言表达自然的问句具有促进作用。

Select

科学数据引用识别方法研究

周佳茵, 钱庆, 唐明坤, 吴思竹

数据分析与知识发现. 2023, 7(6): 38-49. https://doi.org/10.11925/infotech.2096-3467.2022.0662

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 分析现有数据引用实践中的引用特征，归纳数据引用识别方法，总结数据引用识别的研究现状和未来发展方向。【方法】 将现有数据引用识别方法归为基于规则识别、有监督机器学习算法和半监督机器学习算法三类，并对各方法的原理、特点、现存问题、性能效果、适用范围等方面进行概括分析。【结果】 目前相关技术集中在有监督机器学习算法，结合数据引用行为识别和数据引用元素抽取的识别方法是未来的研究方向。【局限】 主要从整体上归纳数据引用特征以及现有的数据引用识别算法，未深入阐述具体算法的技术细节。【结论】 目前数据引用识别研究仍存在领域局限、方法单一、未充分考虑数据引用特征等问题，有待进一步优化。

Select

基于冰山模型的科研人员学术专长识别方法研究

宋培彦, 龙晨翔, 李怡然, 倪雪宁

数据分析与知识发现. 2023, 7(6): 50-60. https://doi.org/10.11925/infotech.2096-3467.2022.0542

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 以数据和算法为基础对科研人员学术专长进行自动识别，从而为科研项目评审、人才评价等多种应用提供支撑。【方法】 首先，采用“冰山模型”理论描述科研人员学术专长，“冰山”可见部分揭示科研人员擅长领域和方向，识别科研人员核心竞争力和主攻方向；“冰山”以下部分识别科研人员相对擅长或具有“比较优势”的专长。进而，通过标签表征科研人员学术专长，利用LDA和BERT机器学习技术对科研人员学术标签进行抽取、聚类并生成矩阵，最终提出并计算科研人员的“自身专注指数”和“同行相对指数”两个量化指标，反映科研人员的主要研究领域及其在科学共同体的相对位序。【结果】 以20名科研人员为例，共生成8 985组标签词及其对应权值，以细粒度对科研人员学术专长进行描述；并基于领域-人员矩阵（40×20）完成自身专注指数和同行相对指数计算。结果表明，所提方法可以较准确地反映科研人员擅长的细分研究领域及其在科学共同体的相对位序，从而实现科研人员学术专长识别。【局限】 后续有待加入时间因素，以更好地反映科研人员学术专长的时序演变特征。【结论】 所提方法的优点在于：一方面，“冰山模型”可以有效解释科研人员“做什么”和“做得怎么样”，为标签抽取和指数设计奠定理论依据并提高解释力；另一方面，提出了可量化比较的专长指数计算方法，实现细粒度、精准化、动态化的人才专长揭示。

Select

基于改进多头注意力机制的专利文本摘要生成研究

施国良, 周抒, 王云峰, 施春江, 刘亮

数据分析与知识发现. 2023, 7(6): 61-72. https://doi.org/10.11925/infotech.2096-3467.2022.0530

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决专利文本摘要生成中专利文本输入结构单一导致的摘要生成单一偏向性问题，以及摘要生成整体上的重复生成、不够简洁流畅、原始信息丢失等问题，提升专利文本摘要生成的质量。【方法】 设计基于改进多头注意力机制的专利文本摘要生成模型IMHAM（Improved Multi-Head Attention Mechanism）。首先，针对结构单一问题，在专利的文本逻辑结构基础上设计两种基于余弦相似度的算法，选出最重要的专利文档；其次，设计一种具有多头注意力机制的序列至序列结构模型，更好地学习专利文本的特征表达；同时，在编码器层与解码器层增加自注意力层，修改注意力函数，解决重复生成的问题；最后，加入改进的指针网络结构解决原始信息丢失的问题。【结果】 在公开的专利文本数据集上，所提模型相较于MedWriter基线模型，评价指标Rouge-1、Rouge-2、Rouge-L分别高出3.3%、2.4%、5.5%。【局限】 所提模型更适用于专利这种有多种结构的文档，对于单一的文档结构无法发挥最重要文档算法的选择效果。【结论】 对于类似具有多文档结构的文本，所提模型在摘要生成领域的质量提升具有良好的泛化能力，同时生成的摘要具有较好的流畅性。

Select

基于图卷积网络的藏文新闻文本分类

胥桂仙, 张子欣, 于绍娜, 董玉双, 田媛

数据分析与知识发现. 2023, 7(6): 73-85. https://doi.org/10.11925/infotech.2096-3467.2022.0453

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对藏文预训练知识缺少的现状，利用藏文音节和文档的构造关系，提出基于图卷积网络的藏文新闻文本分类方法。【方法】 基于音节-音节关系和音节-文档关系为藏文新闻语料库构建文本图，然后使用音节和文档的独热表示进行初始化，在训练集文档类别标签的监督下，使用图卷积网络联合学习音节和文档的嵌入，最后将文本分类问题转化为节点分类问题。【结果】 图卷积网络在藏文新闻正文文本分类任务上准确率达到70.44%，相比于基线模型高出8.96~20.66个百分点；在藏文新闻标题文本上准确率达到61.94%，比基线模型高出6.61~26.05个百分点。同时，图卷积网络相比引入预训练音节嵌入的SVM、CNN和少数民族语言预训练模型CINO在准确率上高出0.73~15.1个百分点，在正文上的准确率相比Word2Vec+LSTM方法高出15.65个百分点。【局限】 仍依赖于有标注数据集，但藏文的有监督文本相对稀缺。【结论】 图卷积网络在藏文新闻文本分类任务上具有有效性，能够解决藏文新闻文本信息杂乱的问题，有助于对各类别藏文新闻文本数据进行挖掘。

Select

一种基于模板提示学习的事件抽取方法

陈诺, 李旭晖

数据分析与知识发现. 2023, 7(6): 86-98. https://doi.org/10.11925/infotech.2096-3467.2022.0495

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对现有基于标注和基于文本生成的事件抽取模型存在的不足，提出一种使用自动构造模板引出预训练语言模型知识的事件联合抽取模型。【方法】 基于事件提示符设计模板自动构造策略以生成统一的提示模板，在编码层为事件提示符引入事件提示编码层，而后接入预训练的BART模型捕捉句子的语义信息，并生成对应的预测序列，从预测序列中提取对应事件类型的触发词和论元，实现事件触发词和论元的联合抽取。【结果】 在包含复杂事件信息文本的事件数据集中，事件触发词抽取和事件论元抽取的F₁值分别达到77.67%和65.06%，相较于最优的基准方法分别提升了2.43和1.62个百分点。【局限】 模型仅局限于句子级文本，且仅在编码层对提示符进行调优。【结论】 本文模型基于提示符调优，能够在减少模板构建成本的同时保持相同甚至更优的性能，并且能够识别具有复杂事件信息的文本，有效提升了事件元素多标签分类的效果。

Select

融入术语与层级信息的专利关键短语抽取方法研究

俞琰, 王丽, 郑斯煜

数据分析与知识发现. 2023, 7(6): 99-112. https://doi.org/10.11925/infotech.2096-3467.2020.0577

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对图模型方法在专利关键短语抽取过程中偏向于选取长关键短语并忽略短语所在位置的问题，提出融入术语度与层级信息的专利关键短语抽取方法，提高专利关键短语抽取的准确性。【方法】 基于传统的图模型方法，提出一种新的术语度指标，以衡量候选关键短语的术语信息；根据专利文献特征，将专利划分为若干层级，提出层级权重指标，以度量候选关键短语位置信息。【结果】 融入术语信息，专利关键短语抽取方法F值相对提高7.615%（纳米）、11.515%（图像识别）、9.813%（芯片）和8.839 %（液晶显示）。融入层级信息，专利关键短语抽取方法F值相对提高9.880%（纳米）、6.929%（图像识别）、6.099%（芯片）和5.576%（液晶显示）。【局限】 基于词性规则的候选关键短语选取方法会产生较多的噪声。【结论】 利用术语度与层次信息的专利关键短语抽取方法能够有效提高专利关键短语抽取的准确性。

Select

基于代价敏感学习的不平衡虚假评论处理模型

刘美玲, 尚玥, 赵铁军, 周继云

数据分析与知识发现. 2023, 7(6): 113-122. https://doi.org/10.11925/infotech.2096-3467.2022.0442

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 增强虚假评论识别任务中模型对文本深层语义信息的学习能力，并解决虚假评论识别任务中存在的严重的数据不平衡问题。【方法】 基于数据本身的用户行为特征与文本特征进行类间可分性计算自动学习代价敏感矩阵，增强模型对不平衡数据的学习能力；同时利用BERT在文本编码方面的能力进一步优化模型。【结果】 在YelpCHI数据集上进行实验，对比现有先进方法（En-HGAN），本文模型的F1值提升了约18个百分点，AUC值提升了约12个百分点。【局限】 未将所提模型应用到更多的研究领域中。【结论】 将用户行为特征与评论文本特征看作虚假评论类与真实类之间的特征集合进行类别可分性计算能够有效提高模型对虚假评论识别的性能。

Select

基于深度学习的学生课堂专注度测评方法

王楠, 王淇

数据分析与知识发现. 2023, 7(6): 123-133. https://doi.org/10.11925/infotech.2096-3467.2022.0485

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 通过构建有效的专注度表情数据集及设计学生课堂专注度联合评价模型，解决现有学生专注度测评方法存在的缺乏相关表情数据集及模型准确率不高的问题。【方法】 基于真实的在线课堂场景进行数据采集，构建适合专注度识别的表情数据集W-AttLe，设计改良的VGG模型对数据集进行评估及专注度表情识别；将表情得分与正脸得分结合构建学生课堂专注度的联合评价模型，计算被检测学生的实际课堂专注度水平得分。【结果】 在专注度表情识别上，通过调参优化步骤对识别表情的网络结构进行调整和验证，结果表明所构建的VGG16+Dense+Dropout（lr=1e-5）改良模型在4种对比模型架构中的准确率最高，达到92%以上；在专注度评价上，联合专注度得分较专注度表情单一指标得分对学生专注度的评测更为精准。【局限】 在训练模型的过程中没有设计更多的消融研究，未探究更深层次的神经网络。【结论】 构建的W-AttLe人脸数据集适用于判别学生课堂专注度；提出的联合专注度评价模型弥补了单一指标模型的不足；提出的知识点测试与理解度自测结合的加权测试方案对联合专注度模型进行了有效验证。

Select

股吧关注网络与股票市场的关联性分析

李雨露, 赵吉昌

数据分析与知识发现. 2023, 7(6): 134-147. https://doi.org/10.11925/infotech.2096-3467.2022.0482

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探究股吧用户关注网络中用户的股票偏好及其社交结构与股票市场的关联性。【方法】 采用统计分析的方法对股吧用户偏好进行观察，采用复杂网络分析方法对用户关注网络的结构特征进行度量，采用关联性分析的方法建立模型，研究网络结构与股票价格波动的相关性并进行显著性检验。【结果】 股吧用户关注网络中存在关注关系的用户在股票偏好上更相似（K-S test~0.235， p~0），网络的结构会影响信息的传播结果，进而与股票价格的相似波动关联，其中网络效率这一结构变量的系数显著为负（p~0.01）。相关结果暗示关注网络传播信息的能力越强，股票价格的波动将越独立于其他股票和市场平均水平的波动，增加关注网络传播信息的能力可减少股价共同振荡。【局限】 缺乏对不同社交平台数据的实验验证和分析比较。【结论】 本文研究方法和结果可以为市场监管和投资者的投资行为提供一定的启示。

Select

基于患者相似性分析的药物推荐深度学习模型研究

吴佳伦, 张若楠, 康武林, 袁普卫

数据分析与知识发现. 2023, 7(6): 148-160. https://doi.org/10.11925/infotech.2096-3467.2022.0535

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 研究一种通过解析结构化时序医疗健康数据、分析患者相似性以准确预测药物组合的深度学习模型。【方法】 通过两种注意力机制解析结构化时序数据以学习全面的患者表示，通过计算患者相似性丰富患者表示，最终将药物推荐问题转化为多标签学习问题。【结果】 在MIMIC-III数据集上进行实验，相较于现有最优药物推荐模型，所提模型的DDI率降低了1.09个百分点，同时所提模型的Jaccard相似性、PRAUC和F1值分别提升了2.38、1.40和1.08个百分点。【局限】 模型尚未融入生物医学等具有领域特色的先验知识；未深究数据本身存在的噪声及其在临床应用可能出现的问题。【结论】 所提模型能够准确学习全面的患者表示，并提升药物推荐任务的安全性和准确性。

选择文件类型/文献管理软件名称

选择包含的内容

2023年, 第7卷, 第6期　
刊出日期：2023-06-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2023年, 第7卷, 第6期 刊出日期：2023-06-25

2023年, 第7卷, 第6期　
刊出日期：2023-06-25