【目的】 总结注意力机制在自然语言处理领域的衍化及应用规律。【文献范围】 以“attention”和“注意力”为检索词,分别检索WoS、The ACM Digital Library、arXiv以及中国知网,时间跨度限定为2015年1月至2019年10月,制定标准人工筛选自然语言处理领域的文献,最终获得68篇相关文献。【方法】 在深入分析文献的基础上,归纳注意力机制的通用形式,梳理其衍生类型,并基于数据对其在自然语言处理任务中的应用情况进行述评。【结果】 注意力机制在自然语言处理中的应用集中于序列标注、文本分类、推理以及生成式任务,且任务和注意力机制的类型之间存在一定的适配规律。【局限】 部分注意力机制和任务间的适配结论是通过模型整体表现数据间接得出的,不同注意力机制间的性能差异有待进一步研究。【结论】 注意力机制的研究切实推进了自然语言处理的发展,但其作用机理尚未明了,提高其可解释性并使之更加接近人类的真实注意力是未来的研究方向。
【目的】 理清网络在线信任影响因素,洞察信任者与被信任者需求,发掘内外部环境的影响差异,解释各影响因子的作用效应,精准提升用户信任度。【文献范围】 在Web of Science、CNKI等数据库中分别以“online trust”、 “network trust”、“system trust”和“在线信任”、“网络信任”、“系统信任”等关键词进行检索,通过筛选共获得代表性文献91篇。【方法】 回顾网络在线信任发展历程与概念内涵, 系统梳理该领域主要影响因素指标。【结果】 当前研究热点集中于信任者特征、被信任对象特征、技术平台、外部环境等4项影响因素及影响效应,以及新兴技术对在线信任的影响与重构。其主题演化趋势同信任理论与信息技术相结合的发展脉络密切相关。【局限】 仅将影响因素和评价指标作为探讨核心,未涉及相关领域其他方面。【结论】 分析当前研究情境维度及呈现特征,该领域未来仍具有较大探索空间,可尝试从理论模型、研究方法、研究视角等层面持续优化。
【目的】 利用中国金融数据,以股权结构为切入点构建金融知识图谱,为金融研究工作提供新思路。【应用背景】 针对现有金融研究主要分析债权数据的现状,通过可视化金融股权数据,为监管机构及研究人员提供工作着力点。【方法】 运用股权数据,从知识关联出发,通过对金融机构间持股关系、持股比例分析,构建中国金融股权知识图谱,在此基础上实现金融机构间关系可视化。【结果】 生成的知识图谱包含4 586万余个节点,14 574万余关系,可以进行实体及其之间关系的查询,还能够进行穿透式查询三层。【结论】 本研究从股权角度出发对金融网络进行研究,在一定程度上突破现有研究集中于债权的局限,为金融工作提供新方向。
【目的】 将同一篇引文文献的不同表达形式进行归一,实现期刊引文数据规范控制与管理,减轻引文失范造成的数据质量问题。【方法】 以期刊引文数据库建设为目标场景,根据参考文献著录标准分析期刊引文数据的核心特征,基于决策树方法和准确率指标获取有效特征子集并指定决策规则执行优先顺序,生成多特征融合的自动数据处理策略。【结果】 选取CBMCI的10 000条期刊引文样本数据集和10 000条验证数据集进行验证,本文方法进行期刊引文归一规范的准确率分别达99.72%、98.70%。【局限】 仅探讨了中文期刊引文失范数据的处理,尚未考虑其他语种和类型的引文。【结论】 该处理策略能够高效自动化地开展大规模期刊引文数据的归一规范,减少人工干预,特征融合的思路也适用于建立其他类型引文归一规范时的自动处理策略。
【目的】 针对先行表述复杂、指代词语义不明的问题,探索更有效的指代消解方法。【方法】 采用端到端的框架,使用打分排序法识别指代关系。先对文本段中的连续词序列进行“提及”打分,判断是否为“提及”;然后利用筛选出的候选“提及”对指代关系打分。其中词序列建模采用动态语义注意力机制,引入更匹配当前指代关系的外部词语义,并使用内部注意力编码,突出先行表述中与指代词关联的部分;综合两部分打分排序得到识别结果。【结果】 在基于OntoNotes5.0语料库的CoNLL-2012共享任务英语数据上进行实验,同参数情况下,准确率、召回率、F1值分别比基准模型提高2.02%、0.42%、1.14%。【局限】 外部语义表征的来源语料不够丰富,有待补充。训练语料皆为新闻、脱口秀或者网络日志等通用文本,可考虑加入科技文献语料,构造更为丰富的指代情境,并评估模型在各种指代情境下的表现。【结论】 动态语义注意力模块可在构建词序列表示时注入更有利于当前指代关系识别的语义特征,动态的、有选择性的外部语义注入更有利于指代关系的识别。
【目的】 基于依存关系嵌入设计多种单词表示,获取单词的潜在语义特征,提高条件随机场对评论中商品属性的抽取能力。【方法】 提出一种基于依存关系嵌入与条件随机场的商品属性抽取方法。基于单词属性、单词依存关系及其词嵌入形式构建三类单词语义信息,包括:基本语义信息、结构语义信息和类别语义信息;结合三类语义信息与条件随机场模型抽取商品的属性。【结果】 与不加入语义信息相比,融合三类语义信息的方法在准确率上提高3.97%;与已有的代表性模型相比,本文方法在F1值上最多提高7.65%。【局限】 情感词和属性关系紧密,未对评论中属性和情感词之间的关系进行深入挖掘。【结论】 本文方法能够有效地抽取商品评论数据的属性,为基于属性的细粒度情感分析奠定良好的基础。
【目的】 在文献层和词汇层之间加入主题层,研究一种新的词汇相似度计算方法。【方法】 阐述基于形式概念分析(FCA)的主题定义和表示模型,将词汇项映射到主题层级,提出一种基于主题相似度定量刻画词汇相似度的计算方法。【结果】 以信息检索领域为例,以SIGIR会议2006-2016年收录的论文数据为样本进行评测,结果表明本文方法的精确率与召回率比FastText方法有显著提高,最大提升幅度分别达到30%和21%。【局限】 该方法依赖文献关键特征词抽取的质量。【结论】 基于形式概念分析的词汇相似度计算方法有效利用了词汇对应的主题语义关系,能更好地反映词语之间的关联性。
【目的】 量化中药成分的相似性,并探索建立中药寒热药性的判别模型与方法。【方法】 依据“物质成分相似的中药,其药性也相似”的理论,通过紫外图谱表征中药成分。利用已有的61味中药的紫外图谱数据集,根据中药药性数据的高维、复杂性和多元性,通过距离度量学习算法学习马氏距离度量紫外图谱的相似性,结合集成学习中的多数投票算法,构建符合中医药特色的中药寒热药性预测识别模型。通过交叉验证、外推预测等方式评价模型。【结果】 基于紫外图谱相似性度量的预测模型,石油醚溶剂下,交叉验证和外推预测的ROC曲线下的面积分别为0.883、0.866,交叉验证和外推预测的准确率分别为0.754、0.776,多溶剂综合分析下,交叉验证和外推预测的准确率分别为0.672、0.686。【局限】 中药化学成分提取的复杂性造成本研究的数据量较小。【结论】 本文构建的预测模型对石油醚溶剂下的紫外图谱数据识别效果最好;与经典模型相比较,本文模型具有更好的预测稳定性和外推性;经实验验证,预测模型可行有效。
【目的】 针对跨模态检索中存在的语义鸿沟问题,将异构的多模态数据特征同构化,提升跨模态检索精度。【方法】 基于多模态数据间的高阶语义相关性,联合多模态数据的标注信息和结构信息,将不同模态的数据转化为可直接进行检索的同构数据。【结果】 在Wiki、NUS-WIDE和XMedia三个公开数据集上进行验证,本文方法的MAP平均值较CCA、JGRHML、SCM、JFSSL这4种方法中的最高值分别提高0.111 3、0.091 0和0.185 0。【局限】 该方法对半监督和无监督数据未能取得很好效果。【结论】 本文考虑了标注信息的高阶语义相关性和多模态数据之间的结构信息,有效提高了跨模态检索精度。
【目的】 为用户提供旅游景点的个性化推荐,解决因旅游信息过载而导致的用户决策效率下降的问题。【方法】 提出基于用户相似度、景点热度和时间上下文的旅游景点个性化推荐算法SPT,并利用从“携程网”获取的真实旅游数据集对比验证了SPT算法和多种传统推荐算法的实际推荐性能。同时本文提出基于“分段用户群”的训练集构建方法,通过实验对比验证了该方法对不同推荐算法性能的影响。【结果】 实验结果表明,SPT算法相较于传统推荐算法在准确率(43.38%)、召回率(61.08%)、覆盖率(64.71%)和流行度(3.832)等指标上均表现出更好的性能。利用基于“分段用户群”的方法进一步提高了景点推荐的准确性和有效性,准确率和召回率分别达到43.75%和61.59%。【局限】 算法无法为新用户寻找相似用户集,为其推荐基于时间的热门景点列表解决冷启动问题;“分段用户群”方法需进一步在多种不同数据集上检验其适用范围和性能。【结论】 所提方法提升了景点推荐效果,有利于提高用户决策效率和满足用户个性化需求。
【目的】 针对学习者学习过程中出现的信息过载问题,构建一个基于学习情况的个性化学习推荐模型LS-PLRM,为学习者推荐个性化学习方案。【方法】 在LS-PLRM中,提出一种应用三个学习情况因子改进相似度计算的PAD-CF协同过滤算法,结合知识地图与知识点度中心性实现知识点推荐度的计算与标注,最终生成个性化学习方案。【结果】 对于F值,LS-PLRM比Pearson-CF、Edurank、CF-SPM等学习推荐模型分别提高6.24%、2.68%和1.98%。对于得分提升率,LS-PLRM比上述模型分别提高3.85%、2.39%和1.41%。【局限】 未考虑多种复杂的学习情况影响因素,预测知识点得分的准确性有待提高。【结论】 个性化学习推荐模型LS-PLRM具有较高的实践应用意义。
【目的】 解决景点实体识别中标注数据难以获取的问题。【方法】 提出一种改进的知识迁移景点实体识别算法,通过对人民日报的数据集进行关键词、句子以及可扩展能力三种级别的实验评估扩展数据集。【结果】 实验结果表明,本文方法在仅使用少量标注数据时,其准确率相比使用全部标注数据的模型提高1.62%。【局限】 对样本扩展能力考虑的特征较少,可能影响模型效果。【结论】 解决了景点实体识别中严重依赖标注数据质量的问题,为旅游自动化推荐提供技术支持。