【目的】 调研国内外使用深度学习技术抽取科技文献知识单元的相关研究成果。【文献范围】 以“知识单元”“深度学习”等为关键词在Web of Science、Google Scholar和CNKI等数据库进行文献检索,人工整理筛选得到71篇具有代表性的文献进行综述。【方法】 梳理科技文献知识单元的相关概念并总结科技文献知识单元的特点,从科技文献知识单元特点出发,归纳基于深度学习技术的科技文献知识单元抽取的研究成果。【结果】 目前使用的抽取方法,在本质上都是基于词粒度知识单元或句粒度知识单元。科技文献知识单元抽取过程中的深度学习过程实际上是对词粒度知识单元和句粒度知识单元所具有的不同特点进行学习和捕获,这也是使用深度学习方法抽取科技文献知识单元的关键。【局限】 以筛选得到的样本文献为基础进行综述,未能全面反映本领域的成果。【结论】 深度学习技术在知识单元抽取中的应用提高了抽取的准确性、覆盖性和鲁棒性,未来的相关研究不仅要考虑科技文献的文本结构化信息,更需要理解其内部知识内容和内在逻辑。
【目的】 通过文献调研梳理总结基于科学论文和技术专利的潜在知识发现方法,总结研究不足和未来发展方向。【文献范围】 以Patents and Papers,Science and Technology,Knowledge Discovery,专利和论文,科学和技术,知识发现等为关键词分别在Web of Science、Springer Link和CNKI等学术平台检索文献,筛选出75篇具有代表性的文献进行综述。【方法】 在科学-技术关联关系的基础上,从数据关联、主体关联、主题关联以及多维度关联4方面对文献进行归纳梳理。【结果】 现有研究方法存在不足,包括识别语料的数据来源具有局限性且异构数据源的不规范性;识别方法的潜在知识发现语义性不足、粒度较粗;基于论文和专利的知识体系和测度指标不完善;识别结果缺乏全面性、动态性、探索性。【局限】 主要选取部分代表性文献进行综述,深入阐述不够深刻;在内容分析层面上,科学-技术关联关系的多策略综合分析方法是目前的热点研究,本文对此方法分析系统性不足;对检索得出的代表性综述文献的选择具有一定的主观性。【结论】 在未来的研究中要整合多源数据库资源并规范化异构数据,增强识别方法的语义分析能力和细化识别粒度,完善知识组织体系并丰富测度指标,加强对潜在知识发现动态演变的研究。
【目的】 基于特征测度方法和PhraseLDA模型,对领域学科交叉主题进行识别。【方法】 通过主题的学科交叉特征分析,构建学科交叉主题测度指标体系,结合PhraseLDA模型识别领域学科交叉主题,最后在纳米技术的农业环境应用领域进行实证研究。【结果】 客观识别出纳米技术的农业环境应用领域包括催化剂制备、土壤生物修复等交叉主题24个,相较于传统识别方法,交叉主题识别率提升71.40%,细粒度主题识别率提升42.86%。【局限】 PhraseLDA主题模型的主题数量和学科交叉主题识别指标等阈值是经过反复计算调试而设定,因此,本文方法对相关阈值设定的合理性存在一定依赖性。【结论】 本文方法可有效识别领域中的学科交叉主题,为相关领域开展科学决策和科技创新研究提供辅助参考。
【目的】 构建数据集及算法识别城市轨道交通中的异常乘车行为(偷窃、乞讨卖艺及未授权派发广告等)。【方法】 通过构建时空矩阵将乘客的时空轨迹精炼至时空特征图中,在不提升复杂度的同时保留全部出行记录;将时空特征图作为输入,建立基于注意力机制以及图卷积神经网络的算法框架,提取出乘客的关键轨迹模式特征,进而从常规客流中识别出异常乘车行为。【结果】 实验结果表明本文方法有效,精准度达到93.10%,召回率达到95.30%,F1达到94.19%,较基线模型各评估指标均提升超过3个百分点。【局限】 如何扩充数据集样本数量以及假阳性对常规乘客的冒犯问题有待解决,无法识别常更换智能卡的异常乘客。【结论】 本文实现了一个样本规模更大、工作量更小的异常乘车行为数据集构建方法,一个可以准确识别异常乘车行为的深度学习时空特征提取方法。本文模型可以为轨道交通系统提供准确识别异常乘车行为的工具。
【目的】 为降低轨迹热点挖掘的时空复杂度,针对不同的轨迹数据特征,分别提出基于N度路径表连接、基于N度路径表遍历和基于图数据库的轨迹热点挖掘算法。【方法】 如果轨迹数据不存在明显的图结构,基于N度路径表连接和基于N度路径表遍历的算法根据轨迹数据分布是否密集,选择连接或遍历的方式对路径表进行多次迭代,从而得到轨迹热点。如果轨迹数据明显存在图结构,基于图数据库的算法在图数据库中做遍历搜索和剪枝优化,从而得到轨迹热点。【结果】 在ChoroChronos开源真实数据集上展开实验。在时间复杂度上,基于图数据库的轨迹热点挖掘算法与表现最好的对比算法相比,运行时间减少1/4。在空间复杂度上,基于N度路径表连接和基于N度路径表遍历的算法与表现最好的对比算法相比,占用内存空间减少2/3。【局限】 未考虑轨迹序列包含的时序特征,未在更广泛的数据集上展开实验。【结论】 与其他的轨迹热点挖掘对比算法相比,本文算法能够有效降低时空复杂度。
【目的】 通过合理选择关键的疾病风险变量,使疾病预测模型兼顾计算效率和预测精度,为公共卫生相关部门实现疾病高效预警提供参考。【方法】 使用基于集成学习的随机森林和XGBoost模型学习高维的疾病风险变量数据进行疾病预测,使两种模型自主选择对其预测作出贡献的疾病风险变量子集。为使随机森林和XGBoost模型选择出具有高预测精度的关键变量子集,从最大程度提升模型泛化能力的角度出发,深入分析两种模型的集成方式,通过针对性的超参数调整,利用交叉验证,不断迭代随机森林模型的袋外数据误判率均值,收敛XGBoost模型在不同子训练集上的损失曲线,为两种模型分别提出独特的模型优化方案,释放其疾病预测性能。【结果】 在老年抑郁焦虑患病数据集上的实验表明,优化后随机森林和优化后XGBoost模型具有非常优异且接近的疾病预测性能,分别实现了88.6%和89.7%的预测准确率,以及0.936和0.940的AUC。但通过优化后模型的特征选择,XGBoost模型的结构更为简单高效,从54个老年抑郁焦虑风险变量中选择较少的17个关键变量,且实现了较好的疾病预测效果,准确率为85.8%,AUC为0.917。【局限】 未使用最新老年队列数据进行实验;需进一步检验模型在复杂异构数据环境中的适应性。【结论】 优化后XGBoost模型的特征选择效果更好,可提高疾病预警效率,为公共卫生管理提供决策支持。
【目的】 基于在线评论构建游客满意度分析框架,为乡村旅游的可持续发展提供新的研究视角。【方法】 围绕游客对景区的评论数据,构建基于IPA模型的游客满意度分析框架,采用无监督方法抽取游客对于景区的细粒度属性观点,并基于SnowNLP和XGBoost分别评估游客对不同属性的感知情感及感知重要性,进而采用IPA模型对景区属性的满意度进行分析。【结果】 实证分析表明,所构建的满意度分析框架可以识别出用户观点,并分析不同属性的满意度。其中,案例地宏村景区的优势属性包括自然风光和娱乐,可作为景区重点宣传内容,而消费感知、商业化以及旅游服务属于重点改进属性,此外,客流量、餐饮、基础设施以及景区管理作为低优先级发展选项,在资源充足的情况下可进行有序改进。【局限】 实验数据集在评分上存在数据不均衡问题。【结论】 根据案例地游客满意度分析结果,探讨了促进景区可持续发展的管理和营销策略,为旅游领域相关问题提供了新思路。
【目的】 针对由于忽略歧义词的动态极性而导致情感分析有误的问题,有效识别具有经济学特征的情感歧义词并提取其搭配词,解决该领域歧义词适配性问题。【方法】 以动态财经新闻信息为研究对象,计算短语中词汇正负情感值以识别提取歧义种子词,通过关联规则、点互信息等算法挖掘其强相关搭配词,标注搭配词对情感极性后构建歧义搭配词典,从动态维度对实时更新的新闻文本进行情感挖掘测评。【结果】 实证结果表明,加入歧义搭配词典后对财经信息文本情感分析的准确率为89.62%,召回率为87.52%,F1值为88.57%,较未加入歧义搭配词典分别提高5.79、15.89和10.84个百分点。【局限】 在利用情感歧义搭配词典进行文本情感挖掘过程中,存在设置种子词与其搭配词检索字符间隔较远而未被有效识别的情况。【结论】 本文构建的歧义搭配词典有效扩充了经济学领域情感词典,在细粒度和深度上对领域情感词典进行完善及优化,显著提升了领域文本情感挖掘的准确性。
【目的】 采用数字化手段实现中国民歌情感的自动识别,探索民歌情感脉络特征及波动模式。【方法】 基于音乐领域通用的Hevner情感模型,引入外部汉语知识对情感词进行语义增强,通过语义距离计算实现人工标注标签的自动映射;构建多模态多情感识别模型MMERM,融合歌词与音频特征实现情感自动标注;将模型迁移至片段歌曲情感识别任务,识别民歌情感变化,对情感脉络特征与波动模式进行统计分析与可视化。【结果】 在情感识别方面,语义增强与映射有效提升了标签语义的集中性与区分度,MMERM在粗细粒度歌曲上均有较好表现,粗粒度歌曲上识别精度达82.29%;在规律分析方面,民歌首尾情感脉络呈现[轻盈]→[悲伤,神圣]的变化趋势,波动模式与西方音乐存在明显差异。【局限】 民歌信息不足,未对不同时空下的民歌情感特征进行分析。【结论】 本文提出的研究方案从数字人文视角为传统音乐领域提供了新的研究范式。
【目的】 研究资源稀少语言中预训练模型的表现,为构建藏语知识图谱、语义检索提供帮助。【方法】 本研究采集人民网、人民网藏文版等新闻网站中藏族传统节日的汉藏双语文本数据,并比较多种预训练语言模型与词向量在汉藏双语情景下对命名实体识别任务的表现,同时分析了命名实体识别模型的两种特征处理层(BiLSTM层与CRF层)对实验结果的影响。【结果】 实验结果表明:相较于词向量,汉语以及藏语的预训练语言模型在该任务上的F1性能分别提升0.010 8及0.059 0。特别是在实体数量较少的情景下,预训练模型相比词向量可提取更多的文本信息,并且训练时间缩短40%。【局限】 藏语数据与汉语数据并非平行语料,且藏语数据中的实体数量少于汉语数据。【结论】 预训练语言模型不仅在汉语文本领域有显著效果,在藏语这种资源稀少的语种也能取得很好的表现。
【目的】 为缓解历史数据稀疏以及类别偏好与项目时效因素对推荐算法性能的影响,提高推荐精度。【方法】 采用哈夫曼编码融合类别偏好和项目时效因素的评分数据;求解用户、项目评分相似矩阵,并由DeepWalk模型挖掘其潜在特征向量;融合用户、项目特征向量,并由极限学习机预测项目评分。【结果】 在MovieLens和Yahoo!R3数据集上,随着训练集比例的增加,预测精度最高分别达95.52%和98.01%,运行时间仅分别为19.93 s和22.21 s,较性能次优的XGB-CF算法的预测精度分别提高0.84和2.10个百分点,运行时间分别缩短7.92 s和9.79 s。【局限】 算法未考虑用户评论的文本信息及多元化的项目类别。【结论】 所提算法较对比算法具有更高的预测精度,可用于个性化推荐。
【目的】 将协同过滤方法应用到文献推荐领域,融入用户余弦相似度网络中Motif结构反映出的高阶相似特征,提高推荐的质量。【方法】 通过用户收藏文献的行为信息和文献间的引用关系构建用户对文献的偏好数据;在基于用户-文献收藏行为信息的用户余弦相似度网络中,利用网络中的子图——Motif结构捕获高阶相似度;最后将用户余弦相似度和基于Motif结构的高阶相似度融入矩阵分解推荐算法中,预测用户对文献的偏好。【结果】 相较于传统的矩阵分解推荐算法,本文算法在RMSE和MAE指标上分别降低0.0482和0.0379。【局限】 未考虑文献的时间衰减性。【结论】 本文算法降低了用户偏好预测误差,提高了推荐质量。
【目的】 构建儿童读物层级多标签分类模型,实现对儿童读物的自动化分类,以引导儿童读者选择适合自身发展情况的读物。【方法】 将分级阅读的理念具化成儿童读物层级分类标签体系,采用深度学习技术构建ERNIE-HAM模型,并将其应用于儿童读物的层级多标签文本分类。【结果】 通过对比4种预训练模型,ERNIE-HAM模型在儿童读物层级分类的第二层级、第三层级分类中具有较好的表现;对比单层级算法,层级算法在第二层级和第三层级的