数据分析与知识发现

Select

陆伟, 罗梦奇, 丁恒, 李信

数据分析与知识发现. 2018, 2(5): 1-10. https://doi.org/10.11925/infotech.2096-3467.2018.0052

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 利用用户对图像标注的标签提出用户标签框架, 并通过用户标签框架总结深度学习自动标注图像的不足。【方法】 统计分析从Flickr上下载的大约100万张图像数据集中的用户标签, 抽取高频词进行用户标签框架匹配。将用户标签与ImageNet数据库标签进行对比总结。对含有高频词的图像使用MXNet深度学习算法进行标注, 分析标注结果。【结果】 当前深度学习自动标注, 在图像背景知识、总体描述以及人类感官描述等方面还存在缺陷。【局限】数据集的范围需要扩大, 深度学习算法的种类需要增加。【结论】 自动标注图像的发展, 需要建立图像信息与背景知识、描述等的联系; 并且深度学习未来发展还需要赋予计算机逻辑推理以及情境感知的能力。

Select

中文专利文献中连续符号串的语义识别

王雪颖, 王昊, 张紫玄

数据分析与知识发现. 2018, 2(5): 11-22. https://doi.org/10.11925/infotech.2096-3467.2017.1065

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 解决汉语文档中连续字符串的语义识别问题。【方法】 使用钢铁冶金领域专利文献中已识别语义的部分符号串作为学习语料, 利用基础特征、汉字特征、符号串特征进行测试, 根据实验结果确定最佳模型。使用最佳模型, 对规则未能判别语义的符号串展开测试。【结果】 将测试结果与人工判别的真实角色进行比对, 发现Y的P值最小为98.15%, 最大为99.62%, N的P值最小为96.87%, 最大为99.34%; Y的R值最小为96.56%, 最大为99.04%, N的R值最小为98.73%, 最大为99.67%; Y的F1值最小为97.71%, 最大为99.33%; N的F1值最小为97.98%, 最大为99.42%, 可以看出识别效果较为理想。【局限】受学习语料规模的影响和研究时间的限制, 未能将已识别角色的语料加入样本中学习。【结论】 该模型在中文专利文献中连续符号串的语义判别方面具有较高的可行性、有效性和可移植性, 为英文文献中符号串的语义判别提供思路。

Select

众包社区中基于敏感性分析的用户偏好挖掘模型及实验

张亭亭, 赵宇翔, 朱庆华

数据分析与知识发现. 2018, 2(5): 23-31. https://doi.org/10.11925/infotech.2096-3467.2017.1218

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 对众包社区中用户及任务特征进行分析, 识别出众包用户的潜在兴趣偏好。【方法】在现有研究的基础上, 本文运用敏感性分析方法研究了众包用户对各任务属性特征的敏感性程度, 并结合二部图原理构建相应的众包用户潜在偏好挖掘模型, 挖掘出众包用户行为规律中所包含的隐性偏好信息, 并通过实验分析说明了该模型的有效性。【结果】本文提出的模型可以有效识别众包用户对于Books、Software、Music等属性特征的敏感性程度, 并挖掘出用户对于Pyrex Oblong Roaster、Oxford、Cashback等任务的潜在偏好, 预测其选择倾向。较传统协同过滤算法相比, 具有更小的MAE值。【局限】 本文偏好挖掘模型仅从竞赛型众包环境中的用户角度出发, 尚未考虑到协作型众包中不同用户的兴趣特征间的互补。【结论】本文模型不仅能够全面准确理解众包用户兴趣偏好, 还能挖掘众包用户潜在的偏好信息, 使得众包任务的分配更具有针对性, 从而增加众包任务分配的准确性。

Select

基于文献的科研事件表示与语义链接研究

王佳琪, 张均胜, 乔晓东

数据分析与知识发现. 2018, 2(5): 32-39. https://doi.org/10.11925/infotech.2096-3467.2017.1328

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 为满足大数据时代科研工作者快速获取科技情报、把握科技发展趋势的需求, 提出一种基于文献的科研事件表示方法, 以期实现多种资源类型关联的科研信息融合网络分析。【方法】 通过综合科技文献的元数据和文本内容信息分析, 集成科技文献的内在特征和外在特征, 形成科研事件的定义与表示方法, 建立科研事件之间的语义链接以形成科研事件网络。【结果】 详细阐述科研事件语义链接推理规则, 从时序和引用关系两个角度构建形成科研事件链。【局限】基于海量科技文献构建大规模科研事件网络, 需进一步梳理完善科研事件语义链接建立、推理及一致性检查规则。【结论】 科研事件网络从事件角度描述科技文献对应的科研活动及其语义关联, 有助于开展基于事件的科技情报分析和信息检索应用。

Select

基于自主学习的专业领域文本DBLC分词模型

冯国明, 张晓冬, 刘素辉

数据分析与知识发现. 2018, 2(5): 40-47. https://doi.org/10.11925/infotech.2096-3467.2017.1302

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】 提出将词典、统计、深度学习三者有机结合的DBLC模型, 并编程实现。获取中国管理案例库中的部分案例作为专业领域语料, 将其他几种已有分词模型作为对比对象进行实验与分析。【结果】 通过实验得到各模型在实验语料上的分词效果, DBLC模型在各评价指标上均优于其他模型, 分词准确率达到96.3%。【局限】未对原词典词与新词做区别处理, 没有考虑词典的存储结构问题, 模型计算时间复杂度较高。【结论】 本文提出的DBLC模型提高了专业领域文本的分词准确度, 且该模型分词准确率与词典规模正相关。

Select

一种基于概念向量空间的文本相似度计算方法

李琳, 李辉

数据分析与知识发现. 2018, 2(5): 48-58. https://doi.org/10.11925/infotech.2096-3467.2018.0007

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 将文本建模为一个概念向量空间, 提出一种该模型下的文本相似度计算方法。【方法】 对文本进行依存句法分析, 提取关键概念词, 利用词嵌入方法构造表示文本的向量空间; 提出一种向量空间之间的相似度定量刻画文本间的相似程度; 采用标准测试集对短文本的相似度进行评测, 并利用该相似度实现一种面向长文本的文本分类算法。【结果】 实验结果表明定义在概念向量空间上的相似度可以有效评估文本间的语义相似性, 在长文本的文档分类数据集上达到92%以上的分类准确率。【局限】该算法依赖于依存语法的分析效果和词嵌入向量的质量。【结论】 将语言学知识与词嵌入技术有机结合, 可以有效衡量文本间的相似度, 具有较低的计算复杂度, 能够广泛应用于文档分类和聚类、自动问答系统等应用。

Select

基于改进的果蝇优化算法的文本特征选择优化模型

温廷新, 李洋子, 孙静霜

数据分析与知识发现. 2018, 2(5): 59-69. https://doi.org/10.11925/infotech.2096-3467.2017.1119

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 降低文本特征向量空间的维度, 提高文本分类准确率。【方法】 提出一种基于改进果蝇优化算法的文本特征选择优化新模型——IFOATFSO模型, 该模型引入分类准确率方差, 监控模型收敛程度; 引入模拟退火机制及遗传算法的交叉算子、轮盘赌选择法, 加深全局搜索, 提高种群多样性。【结果】 在CHI方法基础上应用IFOATFSO模型优化特征选择, 大幅度地降低特征维度, 提高文本分类准确率, 最大提高幅度能够达到10.5%。【局限】IFOATFSO模型优化英文文本特征效果略逊于优化中文文本特征效果。【结论】 IFOATFSO模型优化特征选择一定程度上可以改进文本分类效果。

Select

一种基于离散增量的项目相似性度量方法

王永, 王永东, 郭慧芳, 周玉敏

数据分析与知识发现. 2018, 2(5): 70-76. https://doi.org/10.11925/infotech.2096-3467.2017.1019

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 缓解典型的项目相似性度量方法必须使用共同评分、在高度稀疏数据环境中预测精度较低等问题。【方法】 引入生物信息科学领域的离散增量, 将其构造为相异系数, 利用项目评分值的频数及其分布计算项目相似度, 克服依赖于共同评分的局限性, 改善数据稀疏性的问题; 同时结合项目属性信息, 提高度量结果的合理性与准确性。【结果】 相比于其他典型算法, 本文算法的RMSE降低了2.56%, F1值提高了3.88%。【局限】推荐多样性可能不足。【结论】 本文算法对于冷启动问题亦有更好的表现, 因此, 具有良好的应用潜力。

Select

网络评论情感可视化技术方法及工具研究

杨斯楠, 徐健, 叶萍萍

数据分析与知识发现. 2018, 2(5): 77-87. https://doi.org/10.11925/infotech.2096-3467.2017.1316

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 总结分析当前网络评论情感可视化的主要技术方法及其工具, 探讨其发展的主要趋势。【方法】 在对近年相关文献进行调研的基础上, 根据网络评论情感分析可视化技术方法的特点, 进行归纳总结; 从交互性和定制特征, 对可视化工具进行分类和应用特点分析。【结果】 将网络评论情感可视化技术方法归纳为: 基于文本内容的情感可视化、基于时空的情感可视化和基于文本主题的情感可视化。将可视化工具总结为静态、交互式以及支持编程三种类型。【结论】 本文对网络评论情感可视化技术方法及其工具进行归纳、总结和分类, 阐述了网络评论情感可视化发展的三个主要趋势, 以期为情感可视化和相关研究及可视化工具的选择提供参考。

Select

基于CDISC标准的多源临床研究数据整合关键技术与实现

齐惠颖, 郭建光

数据分析与知识发现. 2018, 2(5): 88-93. https://doi.org/10.11925/infotech.2096-3467.2017.1321

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 探索基于CDISC标准整合多源临床研究数据的方法。【应用背景】 基于CDISC整合临床研究数据, 简化研究者向药监部门递交数据的程序, 加速新药投入市场的过程, 同时也有利于不同研究之间数据的共享。【方法】 基于CDISC的CDASH数据标准设计CRF, 通过ODM标准将电子病历数据映射到CRF中并和临床实验数据统一整合到EDC系统, 最终转换为标准SDTM格式的数据库。【结果】 将位于不用系统中的临床研究数据统一整合成符合CDISC标准的数据库。【结论】 解决电子病历数据和临床实验数据的整合问题, 避免数据的重复录入, 提高临床研究的效率。

Select

面向位置的多样性兴趣新闻推荐研究

花凌锋, 杨高明, 王修君

数据分析与知识发现. 2018, 2(5): 94-104. https://doi.org/10.11925/infotech.2096-3467.2017.1009

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】 针对基于位置的混合推荐方法存在的相似度算法准确率低下和系统已有用户新位置冷启动问题, 提出面向位置的多样性兴趣新闻推荐方法(DLR)。【方法】 使用聚类算法对用户历史行为数据的位置标签进行聚类分析, 再利用LDA模型和基于三维用户相似度算法的协同过滤技术为每个聚类位置分别建立一个偏好模型。【结果】 推荐时通过GPS获取当前位置信息并确定相应的偏好模型, 在此基础上生成两个偏好列表, 分别截取偏好列表的Top-n, 组成推荐新闻集。当用户处于新位置时, 使用基于降维相似度算法的协同过滤技术生成推荐列表并截取Top-n, 生成多样性推荐新闻集。【局限】未能解决系统新用户的冷启动问题。【结论】 DLR方法在新闻推荐的多样性和准确性上均有明显提升, 提高了用户的阅读满意度。

选择文件类型/文献管理软件名称

选择包含的内容

2018年, 第2卷, 第5期　
刊出日期：2018-05-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2018年, 第2卷, 第5期 刊出日期：2018-05-25

2018年, 第2卷, 第5期　
刊出日期：2018-05-25