【目的】 通过研究专利技术转移类型分布特点与演化规律,为科技创新活动提供决策参考。【方法】 根据专利转让的输入与输出构建专利技术转移信息数据库,划分时间阶段并构建网络,选取专利特征值构建转移范围和转移深度指标并基于战略坐标图界定技术转移类型,结合Markov链方法分析不同时段的类型分布与演化趋向。【结果】 我国AI专利技术转移类型中Ⅲ型最为普遍,Ⅰ型高度聚集于长、珠三角地区,多数省市遵循由Ⅲ型到Ⅱ型到Ⅰ型的发展规律,技术转移类型随时间推移维持概率高,尤其Ⅰ型维持概率达100%,类型间跨级跃迁减少。【局限】 仅选取两个维度指标研究技术转移类型,未来可采用多维度指标进行分析。【结论】 研究得出的技术转移特征及类型演化规律可为政府与企业制定有针对性的专利转移转化政策与策略提供参考。
【目的】 以短视频广告的观众属性为视角,提取观众的心理属性和人口统计属性变量,探索其对观众参与的影响。【方法】 以自我效能理论为基础,利用数据挖掘和深度学习方法构造观众心理属性和人口统计属性变量,通过回归模型分析这些变量对观众参与的影响以及产品类型的调节作用。【结果】 观众对广告披露感知、消极热评占比、女性占比以及Z世代、中间年龄层和中老年观众占比对观众参与均有不同程度的影响;产品类型对主效应均有调节作用。【局限】 观众参与指标比较单一,可以通过获取观众的观看和购买数据进一步扩充。【结论】 观众的心理属性和人口统计属性变量均显著影响观众参与,并且受产品类型的调节。
【目的】 针对会话推荐系统中的用户兴趣焦点精确捕获和噪音消除问题,提出一种基于面向重复性构建超图和面向共现性重构排名的会话推荐方法。【方法】 通过数据分析发现重复项目隐含更高的会话内聚性,提出会话内基于重复项目的动态超边构造方法。在位置信息的基础上融合全局共现信息,进行位置信息排名重构。最后,为缓解数据稀疏问题,引入全局范围内的会话间协同信息注入模块。【结果】 为验证本文模型的有效性,在三个基准数据集上进行实验。相较于次优模型,在Diginetica数据集上,P@20提升1.09%,MRR@20提升0.63%;在Tmall数据集上,P@20提升8.41%,MRR@20提升6.29%;在RetailRocket数据集上,P@20提升2.91%,MRR@20提升1%。【局限】 模型性能仍然受数据稀疏的影响。【结论】 本文方法优于基准模型,具备良好的推荐效果。
【目的】 对患者的时序数据和体征数据进行挖掘分析,为患者提供准确安全的用药方案参考,为医生提供有效的用药决策支持。【方法】 提出一个融合时序与体征数据的药物组合推荐模型。首先,利用Transformer模型、卷积神经网络和时间感知方法分别挖掘患者的时序数据;其次,利用知识图谱和图卷积神经网络技术挖掘患者的体征数据;最后,将不良药物的相互作用信息融入推荐过程中,为患者推荐安全有效的用药方案。【结果】 以MIMIC-III数据集中的多次入院患者作为对象开展实证研究。较GRAM、G-BERT、TAHDNet等模型,本文模型在Jaccard系数上分别提升了14.0%、6.6%、3.7%,F1值分别提升了9.3%、4.4%、1.2%,DDI率指标达到最低。【局限】 虽然考虑了患者的异常体征,但并未考虑患者异常体征的具体数值。【结论】 通过融合分析患者时序数据和体征数据,有利于药物推荐模型更加准确地学习患者病情特征,有助于为患者推荐更加准确的用药方案。在推荐中考虑不良药物相互作用信息有助于为患者推荐更加安全的用药方案。
【目的】 针对知识图谱嵌入模型学习过程中,由于数据规模增长带来的实体采样质量不高、正负样本分布欠均衡等问题,提出一种融合子采样与负采样的自适应知识图谱嵌入模型(SSF)。【方法】 首先,引入K均值聚类算法,基于实体感知负采样策略,选取与正样本高度相关的负样本,缓解样本稀疏性和采样质量问题;其次,采用多维子采样策略,通过动态调整正负样本比例,优化样本数据集结构,确保样本类别分布均衡;最后,搭建门控网络,通过计算数据集词频,模型能够自适应选择Freq和Uniq采样函数,提升输出实体与关系嵌入的准确性。【结果】 在FB15K-237和WNRR18数据集上进行对比实验,SSF模型在MRR指标上相较于基线模型最高提升了10.7个百分点。【局限】 由于负采样策略的计算复杂度较高,未能全面分析SSF模型的复杂度和效率。【结论】 SSF模型充分融合了子采样与负采样策略的优点,在MR、MRR、Hit@N三个指标上均优于基线模型,能够提升知识图谱嵌入质量和模型泛化能力。
【目的】 解决知识图谱中由于关系稀疏性和隐藏关系难以利用而导致的认知局限问题。【方法】 提出一种基于图注意力网络的全局邻域感知知识图谱推理模型(GAGAT),通过引入介数中心性作为隐式结构信息,结合关系语义信息,构建层次注意力机制,增强链路预测的准确率和可解释性。【结果】 在FB15K-237、WN18RR数据集上,GAGAT在Hits@3指标上较ComplEx分别高出26.5个百分点和5个百分点,较CompGCN分别高出15个百分点和1.6个百分点,较SD-GAT均高出1个百分点,证明了其在捕获隐式关系和复杂语义上的优势。【局限】 仅以介数中心性作为隐式结构信息和关系语义信息进行融合推理,未探讨其他隐式结构特征在推理中的作用。【结论】 GAGAT模型通过融合隐式结构信息和关系语义信息,进一步挖掘知识图谱中的隐藏关系,有效提升知识图谱链路预测的准确性和可解释性,为提升智能系统的认知决策能力提供了坚实的支撑。
【目的】 针对当前抑郁程度情感分析模型未能充分考虑到患者极端化表达的问题,提出一种面向极端化表达的抑郁程度情感分析模型CWFD-A。【方法】 结合Jieba和RoBERTa提取文本的字符级和词语级特征,将不同粒度的特征融合,输入BiLSTM得到文本不同位置的情感信息;然后使用多头注意力为文本各部分分配权重,使模型更准确地捕捉与抑郁情感相关的信息;最后通过全连接层并使用Softmax函数进行归一化,输出预测结果。【结果】 在中文抑郁文本句子语料库上的准确率、召回率、F1分数和精确率为84.14%、61.09%、62.90%和64.81%,在数据集ZFCD上的准确率、召回率、F1分数和精确率为93.59%、82.55%、85.37%和88.38%。【局限】 在进行抑郁程度情感分析时只结合了文本信息,没有涉及图片、音频、视频等其他模态信息。【结论】 CWFD-A模型能够准确识别抑郁症领域词语、程度副词等,结合多粒度特征信息,有效捕捉文本深层语义,提高了抑郁程度情感分析的准确率。
【目的】 为充分挖掘隐喻中隐含的语义信息,并准确捕捉隐喻与字面意义间的语义差异,提升隐喻识别效果,提出一种基于语义图表征和对比学习的隐喻识别方法。【方法】 首先,利用图卷积神经网络(GCN)提取与依存词对相关的上下文语义信息,实现上下文语义图表征。其次,构建基于隐喻认知的语义网络,采用GraphSage和元路径技术,学习网络中潜在的概念语义关联,实现隐喻认知语义网络的图表征。最后,通过双向交叉注意力机制和多视图融合模块融合不同方面的特征,并采用监督对比学习从样本相似性和域的不一致性两个角度捕捉隐喻与字面意义之间的相似性和差异性,提高分类器对隐喻的判别性能。【结果】 在标记级任务中,MOH-X和TroFi数据集上的F1值较次优模型分别提升了0.6和1.9个百分点。在关系级任务中,MOH-X、TSV、TroFi数据集上的F1值较次优模型分别提升了0.6、1.0、2.7个百分点,达到了目前最优水平。【局限】 在生成隐喻认知语义网络的过程中,会受到词语歧义的影响。【结论】 所提方法能够有效捕捉与隐喻相关的潜在语义特征,并且充分建模隐喻与字面意义之间的语义差异。
【目的】 提升电力通信系统故障文本的关系抽取性能,针对领域特点,提出一种考虑本体信息的多层次图卷积文档级关系抽取模型。【方法】 首先,使用字级别嵌入对故障文本进行编码;其次,构造句级别和实体级文档图,通过卷积聚合实体级、句子级与文档级的语义信息;最后,根据本体概念模型设计“本体-本体”边构造方法,加入“预测实体对是否符合本体约束”的辅助任务,提升模型性能。【结果】 在自建的电力通信网故障文本数据集上进行消融实验和对比实验。实验结果表明:所提模型表现最优,F1、Ign_F1、Accuracy值分别达到97.22%、95.17%、97.97%。【局限】 需进一步验证模型的泛化能力。【结论】 所提模型适用于电力通信网故障知识图谱的关系抽取任务,较现有模型具有更好的抽取效果。
【目的】 在少标注样本的条件下对专利文本中的关键技术信息进行命名实体识别。【方法】 利用大语言模型具备丰富的通用知识和强大的语义理解能力的特点,提出一套利用提示模板从专利文本中识别命名实体的方法框架。【结果】 本文以硬盘驱动器磁头专利标注数据集TFH-2020为例展开实证分析,实验结果显示,在大语言模型的少样本学习能力下,命名实体的识别效果达到69%(F1值),当使用有监督微调方法时,其识别效果则下降至54%(F1值),这与大语言模型在通用文本上的命名实体识别表现正好相反。【局限】 所提方法虽然极大降低了数据标注成本,但和利用大量标注数据的当前最佳深度学习方法相比,在性能上还存在一定差距,同时提示模板的设计和优化方法、大批量指令集的快速生成技术等还有待进一步提升。【结论】 相比使用随机样本选择策略,使用相似度样本选择策略的大语言模型的命名实体识别效果从29%提升至69%(以F1值测度),这显示出样本选择策略在专利命名实体识别任务中对大语言模型的性能影响极大,提示模板处于该任务的核心地位,不仅决定着识别效果的优劣,也决定着优化方法的选择。
【目的】 基于大语言模型技术进行法律文本的自动摘要,解决传统方法长文本处理能力弱、摘要逻辑性不强等问题。【方法】 提出一种基于大语言模型微调的法律文本自动摘要方法。首先,构建一套法律文本摘要指令数据集。其次,探索指令增强和结果增强两种数据增强方式。最后,对预训练模型进行领域化微调,并对结果进行多维度评价。【结果】 在CAIL2020司法摘要数据集上,本文方法在ROUGE-1、ROUGE-2和ROUGE-L的F1指标上分别比最好的基准结果增长13.8、21.3和7.4个百分点。在人工评估和智能评估方面的结果也进一步证明了本文方法在各个维度的有效性。【局限】 在处理专业术语密集和逻辑结构复杂的法律文本时,生成的摘要在细节和法律条款的准确性上仍存在不足。【结论】 基于大语言模型微调可有效提升法律文本的摘要水平。
【目的】 自动生成带参考文献的结构化综述,辅助科研用户快速了解某一领域科研知识。【方法】 选取NSTL平台7万篇论文,对摘要进行语步识别,构建语料库。通过大模型生成与人工修改构建3 000条综述数据,对GLM3-6B模型微调训练。通过将语料库转换成高维向量,利用索引存储向量,再向量检索实现LangChain外挂知识库。为弥补专有名词检索不佳的缺陷,混合BM25检索并重排序,提高检索精度。【结果】 通过微调训练模型和混合检索框架构建综述生成系统,BLEU和Rouge-L得分提高了109.64%和40.22%,人工评估真实性得分提高62.17%。【局限】 受计算资源限制,本地模型参数规模较小,生成能力有待提高。【结论】 利用检索增强生成技术发挥大模型的优势,不仅可以生成高质量的文献综述,也为生成内容提供循证溯源,辅助科研人员智能阅读。
【目的】 总结国内外科学数据推荐的研究现状,为促进科学数据共享研究提供理论基础。【文献范围】 在CNKI、WOS、Google Scholar中使用“科学数据推荐”“科学数据集推荐”“Scientific data recommendation”“Scientific dataset recommendation”等关键词进行检索,并结合主题筛选和追溯法,筛选出71篇代表性文献。【方法】 基于文献调研与归纳总结方法,分别从推荐模型、结果评价、未来展望三方面对相关研究进行综述与评述。【结果】 科学数据推荐对于促进数据共享至关重要。已有研究可分为基于内容过滤、基于协同过滤、基于图模型和基于混合过滤的科学数据推荐。然而,现有研究缺乏对科学数据多源异构信息的综合利用,以及用户隐私保护的相关研究。此外,在可解释性研究和推荐结果的评测方面也存在不足。【局限】 由于科学数据类型存在多样性,并未将所有研究逐一列出。【结论】 融合多源异构信息的推荐、推荐可解释性、用户隐私保护以及推荐效果评测将是科学数据推荐领域的未来研究方向。
【目的】 解决手动睡眠分期方法耗时烦琐和现有自动睡眠分期模型训练时间长、识别效果不佳等问题,提升睡眠分期预测的准确性和鲁棒性。【方法】 设计基于离散小波和残差收缩网络的睡眠分期模型(WaveSleep)。首先,使用离散小波变换对原始脑电信号数据进行分解,然后通过两个不同尺寸的卷积神经网络进行多分辨率的特征提取。接着,使用深度残差收缩网络对特征在通道层面的相互依赖关系进行建模。最后将部署了多头注意力的时间上下文编码器用于有效捕捉特征中的时间依赖关系。【结果】 所提模型在三个公共睡眠数据集上的分类准确率分别达到85.4%、81.9%和84.4%,与最优基线模型相比分别提高1.0、0.6、0.2个百分点。【局限】 所提模型在类别不平衡的数据集上准确率提升有限。【结论】 WaveSleep模型能够有效提升睡眠分期预测的效率和准确性,并且具有显著的鲁棒性。
【目的】 从多标签的角度提高用户对于敦煌壁画的图像检索效率,设计面向敦煌壁画的多标签图像检索模型(DNHMIR)。【方法】 首先,搜集敦煌壁画图像并从主题和内容的角度进行多标签标注;其次,通过DenseNet提取图像特征,结合哈希进行压缩编码;然后,结合标签信息利用余弦相似度进行图像匹配,并按照相似度大小排序;最后,使用HyP2损失函数对模型哈希码生成进行评估与优化。【结果】 基于DenseNet哈希的多标签图像检索模型在构建的敦煌壁画多标签数据集上取得了较好的检索效果,mAP@7000达到0.884,相比于基线模型至少提高了0.044。【局限】 图像特征映射为哈希编码会导致部分图像信息丢失,且忽略了用户群体间的认知差异。【结论】 本文面向敦煌壁画构建的DNHMIR模型能够准确检索到多标签图像,降低了存储空间和检索时间,提高了敦煌壁画的检索效率。
【目的】 提出一种医学出版物推荐模型,运用跨模态信息提高推荐的准确率。【方法】 首先利用医学术语系统将标签内容标准化,将图文标签进行配对,再利用配对的语义标签通过对比学习将图像与文本之间的特征语义进行对齐,进而基于对齐的特征语义构建跨模态交叉注意力机制,并通过用户对不同模态兴趣权重预测用户对出版物的偏好。【结果】 在两个出版物数据集上与三种最新的多模态基线模型进行对比实验,模型的精确率平均为62.79%,F1值平均为53.62%,NDCG平均为61.17%,各指标结果总体优于基线模型。【局限】 对于仅包含单一模态的预训练数据可能需要额外的冷启动方法。【结论】 所提模型跨模态信息特征的融合能力强,可以有效缓解不同模态间语义鸿沟问题,提高医学出版物推荐的准确率。
【目的】 解决传统LDA模型在短文本,尤其是中医药论文摘要中专业术语较多,主题术语的可解释性较差的问题,提出一种融合粗糙数据推理改进的LDA模型(I-LDA)。【方法】 使用融合粗糙数据推理的TextRank算法,提取出最具代表性的关键词。通过构建特定领域的字典,提高领域词汇权重。结合粗糙数据推理扩大主题词选词范围。【结果】 I-LDA模型在主题连贯性和主题间距离方面,相较于传统LDA模型,分别提升了约5.6个百分点和1.8个百分点。【局限】 由于中医药论文摘要文本中的专业词汇较多,实验中预设的词典可能无法全面覆盖所有相关术语,从而影响模型在主题建模中的表现。【结论】 I-LDA模型在中医药论文摘要的主题建模中表现较优,且识别的主题更具代表性和专业性。
【目的】 针对难以准确捕捉学者研究兴趣的问题,提出一种融合论文内容与引用特征的学者研究兴趣发现方法,并据此构建基于学术知识图谱与随机游走算法的论文推荐模型。【方法】 使用预训练文本嵌入模型与引文网络学习已发表论文的向量表示,基于相似性理论挖掘学者研究兴趣;运用知识图谱嵌入、有偏随机游走与注意力机制等深度学习技术计算学者对论文感兴趣的概率,最后生成论文推荐列表。【结果】 在DBLPv14数据集上的实验结果表明,所提模型相较于基线模型在F1值与MRR指标上最多分别提升0.041和0.031,各指标结果总体优于基线模型。【局限】 所提模型未考虑到实体和关系上的属性对推荐性能的影响。【结论】 所提模型考虑了论文内容与引用特征,能够有效反映学者的研究兴趣,提高论文推荐准确性。
【目的】 利用影响因素挖掘生物医学文献中疾病与疾病之间的关系,为疾病关联分析提供新视角。【方法】 基于影响因素在共病管理上的重要作用,通过依存分析完成疾病-影响因素实体关系抽取,结合复杂网络分析技术进行疾病社区发现,构建基于影响因素的疾病关联模型,并使用中华医学期刊全文数据库的部分数据进行验证。【结果】 基于影响因素的疾病关联模型构建了105个疾病节点、453个影响因素节点和2 067条边的加权网络,发现影响因素介导的9个内部关联紧密的疾病社区,进而实现疾病关联分析。【局限】 复杂长句的疾病-影响因素获取效能较低,降低疾病关联的数量。【结论】 模型能够获取更细粒度的疾病-影响因素关系,具有更好的代表性和可解释性,可以为疾病关联分析和共病共管提供新的研究思路。
【目的】 充分挖掘ID特征中蕴含的深层信息,提出一种基于ID特征的深度交互与自注意力融合推荐模型DFM-ID。【方法】 提出一个ID特征深度学习框架,设计三种特征交互层与基于自注意力机制的融合模块,对ID特征进行低阶与高阶交互,并基于自注意力生成ID深层特征。【结果】 在三个公开数据集上进行实验,结果表明集成DFM-ID的模型在准确率、精确率、AUC和F1值评估指标上相较于基线模型,分别增长了16.03%、14.10%、20.97%和8.68%。【局限】 实验数据同质性较高,模型在一定程度上泛化能力不足。【结论】 所提模型能充分利用ID特征间的复杂关联和深层信息,有效提升推荐准确性。
【目的】 跟踪在线学习者的学习进度和知识状态,以便提供个性化的学习支持服务。【方法】 提出一种细粒度学习能力增强的可解释知识追踪模型,从知识和细粒度学习能力两方面进行学习者认知建模,通过添加失误率参数改进项目反应理论,进而完成学习者下一时刻答题结果的预测,并提供可解释性。【结果】 在三个公开数据集的实验表明,本文提出的知识追踪模型在AUC指标上相较于大部分基线方法,至少提升2%左右。【局限】 本文方法从增加学习因素的角度提升知识追踪模型的可解释性,但在提升基于深度学习的知识追踪模型可解释性方面需要进一步验证。【结论】 本文提出的知识追踪模型不仅在预测性能上有很大提升,而且能够从多个角度刻画学习者认知模型和预测过程,提高了知识追踪模型的可解释性。
【目的】 跟踪和观测突发事件舆情流转特征,辅助实现舆情导控和共景治理。【方法】 利用案例研究法,提出突发事件舆情宏观流转域框架;利用社会网络分析法,辅以实证研究和自然语言处理技术深入分析微观视角下舆情在主体、客体、载体各维度间的流转规律,结合突发公共卫生事件数据进行验证性分析。【结果】 从宏观角度看,舆情在网络空间、物理空间和心理空间流转,为理解和量化公众行为和反应提供跨学科的分析框架;从微观角度看,舆情在多元群体、多元媒体、多元事件、多元平台层面流转,分别呈现出同质化扩散与异质化穿越效应、场域共鸣与场域逸散效应、共时性和历时性效应、放大共振与回响差异效应。【局限】 未考虑社会网络情感的动态变化。【结论】 从宏观和微观两种视角总结舆情跨域流转规律,为舆情传播研究提供新的思路。
【目的】 解决谣言数据信息量有限和关联常识信息缺乏的问题,提高谣言识别的准确性。【方法】 提出一种多分支图卷积推理网络(MGCIN),将双向图卷积网络与常识推理模块相结合,二者通过独立产生分类标签实现共同决策。【结果】 在Twitter15、Twitter16和PHEME三个公开数据集上进行实验,结果显示所提模型优于多数基线模型,准确率分别达到87.8%、89.8%和77.6%,并具有优秀的谣言早期检测性能。【局限】 谣言数据相关的背景和常识信息的多模态化仍需深入研究。【结论】 本文模型能够较好地模拟人类的思维过程,有效融合了文本特征、传播特征和常识信息,为谣言检测研究提供了新的思路和方法。
【目的】 提高社交媒体网络谣言检测准确率,减少网络谣言对于社会稳定的潜在威胁。【方法】 提出一种融合动态传播和神经霍克斯过程的谣言检测模型。按照推文传播时间线划分传播子图并构建子图嵌入,将嵌入序列输入全局动态演化编码模块,叠加时间编码后形成加权序列,进而输入神经霍克斯过程模块计算连续条件强度函数,描述传播自激励现象,同时经平均池化后输入前馈神经网络进行谣言检测。此外,采用多任务学习模块计算两类输出的整体损失,指导模型训练。【结果】 模型在公开数据集Twitter15和Twitter16上的准确率分别达到85.6%和86.6%,优于其他主流基线模型,并具有较好的谣言早期检测性能。【局限】 仅使用文本数据和时间属性信息,未考虑推文图片、用户属性等特征。【结论】 编码推文传播的动态性信息和自激励现象有利于提升谣言检测效果。
【目的】 梳理文本数据增强的方法与体系,揭示其发展现状与趋势。【文献范围】 以“textual data augmentation”“text augmentation”“文本数据增强”和“文本增强”为关键词在Web of Science、Google Scholar和中国知网等数据库检索,筛选出代表性文献88篇。【方法】 从操作对象、实现方式、生成结果多样性等角度总结文本增强方法,在此基础上对各种方法的颗粒度、优缺点、适用场景等进行详细对比。【结果】 文本增强方法可以划分为基于文本空间和基于向量空间的增强方法,前者直观可解释,但可能会破坏文本的整体语义;后者能够直接操纵深层的语义特征,但计算复杂度更高。现有的增强方法往往需要依赖启发式规则和任务信息等外部支持,深度学习算法的引入能够提升生成数据的新颖性和多样性。【局限】 主要对已有方法的技术细节及性能特质进行结构化分析,未量化地统计平台工具的开发情况。基于筛选后的文献进行综述分析,尚未涵盖文本增强方法的全部应用场景。【结论】 未来应进一步探讨和完善文本数据增强方法的测评指标,通过提示工程提高增强方法在不同下游任务中的稳健性,利用检索增强生成和图神经网络应对长文本、低资源挑战,激发文本增强技术在自然语言处理领域的应用潜力。
【目的】 通过调研和梳理文献,总结考虑知识特征的序列推荐方法。【文献范围】 以“Sequential Recommendation*Knowledge”和“序列推荐*知识”作为高级检索词在Web of Science、DBLP、谷歌学术、中国知网等数据库中进行文献检索,最终筛选出97篇文献进行评述,在筛选过程中,还特别关注了具体章节的核心内容,确保所选文献满足研究需要。【方法】 利用文献调研的方法,从研究框架、现实应用与评价、未来研究趋势三个方面对知识特征的序列推荐方法进行归纳与梳理。【结果】 针对知识特征在序列推荐中的应用,构建“知识特征表达-时间知识增强-融合知识特征的序列推荐算法”的研究框架,从“数据集-评价指标-基线模型”三个方面深入分析现有评价资源的不足,并对未来研究进行展望。【局限】 鉴于知识特征在序列推荐领域的重要性日益凸显,本文评述了考虑知识特征的序列推荐方法的相关研究。但由于研究领域广泛、文献众多,未能涵盖所有相关研究。【结论】 考虑知识特征的序列推荐算法提高了推荐的准确性,多模态知识特征的融入有助于深入了解用户需求。
【目的】 优化城市旅游流挖掘研究,克服现有基于游记文本的游客行程重构方法中存在的景点识别不准确、景点游览顺序失真的问题。【方法】 提出一种基于大语言模型的游客行程重构方法,并结合社会网络分析方法探索城市旅游流网络结构特征。【结果】 所提游客行程重构方法的景点识别平均查准率达94.00%,平均查全率达87.78%,明显优于基于统计的条件随机场方法,重构的游客行程与真实行程相似度达到了83.81%。【局限】 游客行程重构效果一定程度上依赖于大语言模型的提示词(Prompt)的训练效果。【结论】 以西安市为例,将所得结论与公众认知及现有研究成果进行对比,表明所提游客行程重构方法具有较高的准确性与通用性,有效支撑了旅游流网络结构挖掘研究。
【目的】 提高医疗保险欺诈风险识别中团伙欺诈检测的准确率,增强医疗保障基金安全。【方法】 本文提出一种融合注意力机制和图神经网络的医疗保险团伙欺诈风险识别方法。首先,利用嵌入方法将索赔转化为高维向量,得到索赔静态特征,再通过注意力机制对重要欺诈因子赋予更大的权重,从而增强模型对索赔中关键欺诈因子的识别能力;然后,基于被保险人动态行为特征生成关系图,利用图神经网络捕获关系图中蕴含的邻接信息,并与索赔静态特征融合,在高维空间中挖掘由团伙欺诈引起的动态异常行为,最终输出索赔的欺诈概率。【结果】 在中国某医疗保险机构20 000名参保人员的183万条医疗索赔数据上的实验结果表明,所提方法召回率和准确率达到了91.08%和90.66%,F1均值为0.69,优于其他经典方法。【局限】 仅融合被保险人动态行为特征进行医疗保险欺诈风险识别,在后续研究中将考虑结合医生和药店等多主体因素,进一步提升模型的准确率。【结论】 融合被保险人动态行为可以补充索赔的静态特征信息,增加对医疗保险团伙欺诈行为的关注,提高模型识别的准确率。
【目的】 利用解耦技术缓解过度平滑并构建深度图网络学习文本隐藏特征,同时采用注意力扩散机制增强图网络的长距离交互能力,以提升法律文本细粒度分类效果。【方法】 提出基于深度注意力扩散图神经网络的法律文本细粒度分类模型FLGNN。首先使用预训练模型BERT作为嵌入层获取长距离语义特征,接着构建文本有向图通过深度图网络捕获文本全局图信息和隐藏特征,最后利用特征融合和节点级注意力机制优化文本特征并进行分类任务。【结果】 模型在来自北大法宝数据库的PKULawData数据集上Acc达94.85%,较BERT、DADGNN和RCNN等基线模型分别提升了1.15、3.44和1.72个百分点;在法律合同文本数据集JSCLawData上Acc达90.91%,较BERT、DADGNN和RCNN等基线模型分别提升了1.35、4.19和4.10个百分点。【局限】 模型在其他领域的适用性需要进一步探究。【结论】 FLGNN模型能捕获法律文本的全局图信息并挖掘深层语义信息,进一步提升了法律文本细粒度分类效果,可为法律领域智能化管理和人工智能提供有效支撑。
【目的】 从评论文本中挖掘人格信息,提升虚假新闻检测模型的效率和准确性。【方法】 BERT模型学习新闻与评论文本特征,基于BERT模型训练的人格预测模型学习评论用户的大五人格特征,使用新闻与评论文本特征和人格特征预测真假新闻。【结果】 在部分微博公开数据集上进行实验,结果显示人格特征的加入能够提升虚假新闻检测的准确率(+1.96%,90.76%)和F1值(+1.51%,90.60%)。【局限】 使用人格预测模型需要一定数量的评论文本,并且模型的可解释性还需要进一步提升。【结论】 评论用户的人格特征能够有效提升虚假新闻的识别准确率和F1值。