数据分析与知识发现

Select

王学昭, 王燕鹏, 赵萍, 陈芳, 陈小莉

数据分析与知识发现. 2023, 7(5): 1-9. https://doi.org/10.11925/infotech.2096-3467.2023.0421

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 提出场景化智慧数据驱动的情报研究模式，并通过若干实例进行初步验证。【方法】 建立“科技决策需求场景（S）-场景化数据（D_X）-解决方案场景（S）”的量化表征模型（SDS），通过科技决策需求场景化、场景化数据建设、可选解决方案生成三个步骤实现场景化智慧数据驱动的情报研究。【结果】 该研究模型的两个应用案例支撑了新兴和颠覆性技术遴选、科技前沿态势感知、科研项目选题评估、俄乌冲突态势感知等具体决策场景和问题，得到相关科技决策者和管理者的认可。【局限】 囿于现有智能技术的准度和精度，数据场景化过程的自动化程度、证据链形成过程中智能技术与情报基础理论方法结合深度有待提高。【结论】 场景化智慧数据驱动的情报研究模式促进了情报结论的广度和深度升级，实现了情报工作的效率和速度升级，验证了场景化智慧数据的可复用性和可移植性，可为未来面向科技决策的情报研究和服务提供理念思想和实施路径的参考和借鉴。

Select

基础研究资助导向识别及演化分析：以NSF为例

韦华楠, 雷鸣, 汪雪锋, 余音

数据分析与知识发现. 2023, 7(5): 10-20. https://doi.org/10.11925/infotech.2096-3467.2022.0627

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 对美国资助的基础研究项目的资助导向进行识别及演化分析，为完善我国科学基金资助布局提供建议。【方法】 在文献梳理基础上，从基本信息、合作特征、项目特征、产出特征4个维度确定资助导向识别的特征体系，将机器学习模型作为识别模型，并进行相应的演化分析。【结果】 带有RBF核的支持向量机模型识别效果更好。合成生物学案例分析表明：NSF兼顾“自由探索”和“需求导向”；“自由探索”的基础研究贯穿始终；“需求导向”的基础研究前期较少，随着领域的发展逐渐增多；两种资助导向的基础研究变化发展和学科发展阶段及国家战略政策十分相关。【局限】 仅选择一个领域开展案例分析，代表性不足；仅以NSF项目数据表征，没有包含NIH、FDA等数据，数据源的全面性有待加强。【结论】 本研究是对基础研究资助导向识别的一次有益探索，通过对NSF资助的合成生物学项目进行资助导向识别与分析，能够为中国NSFC的资助布局提供建议，促进中国基础研究的协调发展。

Select

基于多模态深度学习的酒店股票预测

刘洋, 张雯, 胡毅, 毛进, 黄菲

数据分析与知识发现. 2023, 7(5): 21-32. https://doi.org/10.11925/infotech.2096-3467.2022.0538

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 基于多模态深度学习方法，通过分析旅游评论中消费者情绪，预测酒店股票的价格走势。【方法】 构建多模态的深度学习模型，首先进行多模态信息的编码，通过LSTM和图神经网络提取文本与图片中的交互信息，最后进行酒店股票的预测。【结果】 结合Yelp的旅游评论数据进行实证研究，并与相关基线模型作比较。实验结果表明，本文提出的多模态模型具有优越性，股票预测的平均准确率达到59.10%。【局限】 仅在Yelp网站的4个酒店的数据集上进行模型测试，未在其他旅游平台上进一步验证。【结论】 所提模型能够充分提取不同模态间的交互信息，有效提升酒店股票预测的准确性。

Select

基于多数据源融合的创业板上市公司财务造假异常检测

李爱华, 王迪文, 续维佳, 李子沫, 姚思涵

数据分析与知识发现. 2023, 7(5): 33-47. https://doi.org/10.11925/infotech.2096-3467.2022.0585

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 研究创业板上市公司财务造假检测识别问题，构建异常检测模型对公司财务欺诈进行检测和识别。【方法】 构建基于数据融合的财务造假异常检测框架，在数据层融合结构化和文本数据、财务及非财务信息的多源异构数据并构造特征，在信息层组合不同的采样和集成分类模型，在知识层融合领域现状构造模型评价指标。【结果】 非平衡处理后模型各项评价指标优于未处理的结果，优化后SMOTE+ENN+LightGBM模型的F_β达到0.773 8。此外，包含多种类型特征的检测结果优于仅包含单类特征的检测结果。【局限】 本文方法主要用于发掘市场中可疑的财务造假公司，无法区分和判断具体的造假类别。【结论】 非平衡处理有利于提升模型对异常样本的识别能力，融合多源异构数据对财务造假的识别有积极作用，为监管部门检测上市公司财务造假提供了参考。

Select

基于学术知识图谱及主题特征嵌入的论文推荐方法

李锴君, 牛振东, 时恺泽, 邱萍

数据分析与知识发现. 2023, 7(5): 48-59. https://doi.org/10.11925/infotech.2096-3467.2022.0424

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 提出一种融合多特征的论文推荐方法，为研究者提供精准的论文推荐服务。【方法】 本文设计了一个特征提取框架，分别从学术论文知识图谱中提取实体关系特征和主题文本特征并融合。为提升高维度融合特征的学习效果，基于知识嵌入的编码-解码模型提出一种论文推荐方法。【结果】 在DBLP-v11数据集上的实验结果表明，所提模型在查准率和MRR上相比次优模型分别提高8.9和2.9个百分点。【局限】 本文的图谱特征学习方法没有考虑实体在现实环境下的权重。【结论】 论文推荐任务的结果证明了所提方法在学习高维度特征中的有效性，对后续研究具有借鉴意义。

Select

基于多标签标注学习的城市画像文本分类方法研究

叶光辉, 李松烨, 宋孝英

数据分析与知识发现. 2023, 7(5): 60-70. https://doi.org/10.11925/infotech.2096-3467.2022.0673

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对当前城市画像领域数据计算面临的相关文本非结构化、长短不一、主题非单一化等问题，研究利用机器学习技术，分析获取社交长文本的多标签，为城市画像文本分析和其他相关分析提供新的思路。【方法】 从知乎平台获取有关城市印象的社交文本，对文本进行分句和降噪处理，结合已有的城市画像标注框架，对部分文本进行人工标注，采用支持向量机分类模型、卷积神经网络模型、朴素贝叶斯模型行训练，并对三种模型的结果进行对比分析。通过效果最优模型得到所有长文本的全部标签，使用ML-kNN多标注学习模型进行训练得到多标签社交文本分类模型。【结果】 在单标签文本分类模型方面，支持向量机分类模型整体效果最优，对于短文本标注准确率达0.690 0。使用ML-kNN构建多标签文本分类模型，准确率最高达到0.810 3，平均汉明损失为0.035 3。【局限】 没有充分考虑文本前后关联对主题分类的影响。【结论】 基于社交长文本数据，利用ML-kNN多标签学习算法，构建长文本多标签分类模型，能够有效实现城市画像社交长文本的多标签识别。

Select

基于相似特征和关系图优化的姓名消歧

崔焕庆, 杨峻铸, 宋玮情

数据分析与知识发现. 2023, 7(5): 71-80. https://doi.org/10.11925/infotech.2096-3467.2022.0576

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 充分利用学术文献的特征信息和关系信息解决作者姓名消歧问题。【方法】 提出了一种特征信息嵌入和关系图优化相结合的姓名消歧方法。首先基于文本信息提取文献特征，通过表示学习得到文献的嵌入向量，然后挖掘文献之间的关系信息并分析关系强弱，构建4个关系图以优化每篇文献嵌入向量，最后使用凝聚层次聚类算法得到消歧结果。【结果】 在AMiner-na数据集上的实验结果表明，本文方法得到的F1分数平均值为68.78%，相比次优方法提升了1.81个百分点。【局限】 注重所有作者的平均消歧效果，部分作者消歧效果有待提高。【结论】 本文方法能够充分利用文献关系信息，综合特征信息有效地提升作者姓名消歧的效果。

Select

基于分层语义特征学习模型的微博谣言事件检测

黄学坚, 马廷淮, 王根生

数据分析与知识发现. 2023, 7(5): 81-91. https://doi.org/10.11925/infotech.2096-3467.2022.0613

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 提高微博谣言事件检测的准确率和时效性。【方法】 提出一种基于分层语义特征学习模型的微博谣言事件检测方法。首先，基于BERT预训练模型抽取事件中单条文本信息的语义特征；其次，基于时间域对事件传播数据进行动态划分，利用卷积神经网络挖掘各时间域中的文本集合的语义相关性特征；然后，把各时间域内的语义相关性特征输入深层双向门控循环神经网络，学习事件传播过程中的深层语义时序特征；最后，融合Attention机制使模型更加关注于语义时序特征中具有谣言特征的部分。【结果】 在Weibo公开数据集上的实验结果表明，该模型的检测准确率达到95.39%，检测时延在12h以内。【局限】 模型需要一定数量的转发评论信息，事件热度不够时检测效果不突出。【结论】 分层语义特征学习模型实现了从局部语义到全局语义的学习过程，提升了微博谣言事件检测的性能。

Select

基于语言学知识增强的自监督式图卷积网络的事件关系抽取方法

徐康, 余胜男, 陈蕾, 王传栋

数据分析与知识发现. 2023, 7(5): 92-104. https://doi.org/10.11925/infotech.2096-3467.2022.0602

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决事件关系抽取中因缺少大规模高质量的标注数据以及事件关系复杂的语言表达模式而导致的现有方法难以捕获结构化事件知识的问题。【方法】 提出一种基于语言学知识增强的自监督式图卷积网络模型，利用预训练BERT模型编码文本特征，将其输入图卷积网络中学习词之间的句法依存关系以增强文本表示，引入多头注意力机制对不同依赖特征加以区分，再利用分段最大池化操作提取结构信息，然后组合多个段的池化结果作为事件对的关系特征，使用关系特征进行自适应聚类生成伪类别标签，并将其作为自监督信息，通过迭代的自监督训练模式优化事件关系特征。【结果】 在TACRED和FewRel数据集上进行实验，B³-F1相较于最好的基线模型分别提高了2.1和1.2个百分点。【局限】 该模型将句法依存树当作无向图处理，未考虑边的方向和依赖边的标签信息。【结论】 本文所提基于语言学知识增强的自监督式图卷积网络模型能有效增强文本的表征效果，为缺少标注数据的事件关系抽取提供了一种自监督学习框架。

Select

基于模态内相似性与语义保留的深度跨模态哈希

李天煜, 刘立波

数据分析与知识发现. 2023, 7(5): 105-115. https://doi.org/10.11925/infotech.2096-3467.2022.0536

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决现有大多数跨模态哈希方法在相似性度量时仅考虑模态间相似性，且无法充分利用标签语义信息，从而忽略了异构数据细节并导致语义信息丢失的问题。【方法】 首先对来自图像和文本的数据分别采用欧氏距离和谷本系数度量其模态内相似性；接着采用二者加权值度量模态间相似性以充分利用异构数据细节信息；之后通过保留数据标签的语义信息来提高哈希码的判别性，防止语义信息丢失；最后，对生成的哈希码计算量化损失并施加哈希位平衡约束，进一步提升哈希码质量。【结果】 与11种方法进行对比，在MIR-Flickr25k数据集中文检图和图检文任务上哈希码长度为64位时，mAP最高分别提升了9.5和5.8个百分点，在NUS-WIDE数据集中则最高分别提升了4.7和1.1个百分点。【局限】 模型训练时依赖标签信息，在无监督和半监督情况下性能下降。【结论】 所提方法能保留异构数据细节信息并防止语义信息丢失，有效提升了模型检索性能。

Select

基于KNN和深度高斯混合模型的边界过采样方法

张海宾, 肖涵, 易灿灿, 袁锐

数据分析与知识发现. 2023, 7(5): 116-122. https://doi.org/10.11925/infotech.2096-3467.2022.0609

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对数据不平衡导致的分类器偏向问题，提出一种基于K-最近邻（KNN）算法和深度高斯混合模型（DGMM）的边界过采样方法。【方法】 首先，采用KNN算法获得训练集中的边界少数类样本；其次，构建该区域少数类样本的DGMM，并反向应用DGMM生成符合训练集中边界少数类样本分布特征的过采样数据；最后，采用3σ准则剔除噪声样本，循环执行直到生成的样本不存在异常值。【结果】 所提方法获得的AUC和G均值的最大提升幅度分别为8.62%和12.99%，对应的平均提升幅度分别为3.51%和4.93%。【局限】 DGMM的参数优化方法需进一步完善。【结论】 所提方法可以更好地处理数据不平衡问题。

Select

融入词性的医疗命名实体识别研究

本妍妍, 庞雪芹

数据分析与知识发现. 2023, 7(5): 123-132. https://doi.org/10.11925/infotech.2096-3467.2022.0547

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对命名实体边界识别困难问题，融入词信息以改进在线问诊记录中临床关键特征的识别与推断。【方法】 基于MacBERT与条件随机场构建模型，对词位置和词性等词信息进行位置“软”嵌入，利用说话者角色嵌入引入对话文本信息。同时，引入加权多分类交叉熵解决实体类别不均衡问题。【结果】 在春雨医生互联网在线问诊记录上开展实证研究，本文模型在命名实体识别任务上的F₁值为74.35%，相比直接利用MacBERT模型提高近2个百分点。【局限】 未设计专门对中文分词的模型。【结论】 与直接利用MacBERT模型建模相比，融入词信息等更多维度特征能有效提升模型的识别能力。

Select

基于PCHD-TabNet的十年冠心病预测

蒋林甫, 袁贞明, 张邢炜, 姜华强, 孙晓燕

数据分析与知识发现. 2023, 7(5): 133-144. https://doi.org/10.11925/infotech.2096-3467.2022.0603

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 准确预测人们患冠心病的风险，分析不同因素对冠心病影响的重要程度，以便医生及时干预，有效帮助患者预防以及治疗冠心病。【方法】 提出一种基于注意力可解释表格学习神经网络的冠心病预测框架（PCHD-TabNet），并且使用自监督学习帮助模型加速收敛并保持稳定性。【结果】 PCHD-TabNet整体效果优于其他模型，且数据集的AUC达到0.72。【局限】 弗雷明汉数据集的特征都是常规体检数据，如果有更好的临床数据，预测效果也许会有进一步的提升。【结论】 所提方法提高了模型的性能，并且也优于其他传统模型，为冠心病预测提供了一种高效的方法，并为类似的数据挖掘任务提供了参考。

Select

基于在线评论的顾客满意度研究——以健康监测穿戴产品为例

林伟振, 刘洪伟, 陈燕君, 温展明, 易闽琦

数据分析与知识发现. 2023, 7(5): 145-154. https://doi.org/10.11925/infotech.2096-3467.2022.0420

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 识别顾客群体对健康监测穿戴产品的关注维度及其对满意度的影响，启发商家优化产品并提升服务。【方法】 采用知名购物网站亚马逊的11 349条在线评论数据作为语料，使用LDA模型识别顾客满意维度，结合机器学习算法建构满意度模型。【结果】 以多层感知器（MLP）建构的满意度模型预测效果最佳（F1=0.653 4），顾客对产品的关注集中于功能属性、服务属性、质量属性、价值属性、易用属性、社交属性、效用属性等7个综合属性的13个产品维度。功能属性是顾客群体最关注的产品属性，而社交属性、质量属性和服务属性能给顾客满意度带来消极影响，应是商家进行产品优化与服务提升的优先方向。【局限】 未考虑评论真实性。【结论】 得到顾客对产品的关注维度、满意度影响方面与改进次序，为商家提供深刻管理启示。

选择文件类型/文献管理软件名称

选择包含的内容

2023年, 第7卷, 第5期　
刊出日期：2023-05-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2023年, 第7卷, 第5期 刊出日期：2023-05-25

2023年, 第7卷, 第5期　
刊出日期：2023-05-25