数据分析与知识发现

Select

郑建程, 张晓林, 赵艳, 吴振新, 尹高磊, 肖曼, 陈秀娟

数据分析与知识发现. 2016, 32(12): 1-8. https://doi.org/10.11925/infotech.1003-3513.2016.12.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】分析数字文献资源长期保存的可持续性挑战, 推进长期保存服务的可持续建设。【方法】系统分析国内外相关文献, 梳理长期保存可持续性框架, 分析可信赖认证和经济支持等问题体系, 分析整理可信赖性认证实施机制和长期保存经济投入实施机制。【结果】提出数字文献资源长期保存的可持续支撑机制建设具体建议。【局限】对数字文献资源长期保存经济支持模式和相关研究只做了简要概述, 有待更深入展开论述。【结论】数字文献资源长期保存的可持续性包括格式可持续性、系统可持续性和服务可持续性, 服务可持续性涉及管理、经济和政治可持续性要求, 并提出加强长期保存可持续性建设的具体建议。

Select

基于语义相似度的文本聚类研究

毕强, 刘健, 鲍玉来

数据分析与知识发现. 2016, 32(12): 9-16. https://doi.org/10.11925/infotech.1003-3513.2016.12.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题, 并进一步改善文本聚类质量, 提出基于语义相似度的文本聚类方法。【方法】通过《同义词词林扩展版》计算词语的语义相似度并得到文本语义相似度矩阵, 根据文本语义相似度矩阵进行谱聚类, 将文本聚集为文本簇。【结果】利用复旦大学文本语料库与搜狗文本语料库中的文本资源作为数据来源分别对传统聚类算法与本文提出的算法进行实验, 结果表明, 当聚类个数为10时, 本文算法的准确率最高, 并且Purity值高于传统聚类算法的Purity值。【局限】《同义词词林扩展版》中包含的领域术语不完整, 部分相似度计算结果需要手工进行调整。【结论】该方法考虑了词语间语义关系, 充分挖掘文本主体潜在信息, 并且改善了聚类质量, 为文本聚类和推荐提供了一条新途径。

Select

共词网络LDA模型的中文文本主题分析: 以交通法学文献(2000-2016)为例

马红, 蔡永明

数据分析与知识发现. 2016, 32(12): 17-26. https://doi.org/10.11925/infotech.1003-3513.2016.12.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过结合传统LDA模型的概率主题抽取方法和共词网络分析发现文献词汇间的联系结构的两者优势, 降低由少量文献产生的高频词汇的干扰, 提高主题凝聚性。【方法】在交通法学文献摘要文本主题分析中, 加入文献的关键词作为分词复合词典, 提高语义识别度; 提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word Analysis), 在传统LDA模型的基础上加入共词网络分析, 以共词网络拓扑结构参数作为权重控制词汇主题分配(采用介数中心度), 优先提取同时具有高共现性(中介性)和高频率的词汇。【结果】CA-LDA模型可以得到多篇文献同时共现的高频词汇, 这样产生的重点词汇表对主题分析更有意义。该算法的结果不仅仅反映词频概率, 同时也能从词汇关联上发现枢纽词汇, 更深入理解该领域的研究热点。【局限】CA-LDA模型主题数目K的取值采用混淆度标准交叉验证获得, 如果在实际分析中K值太大, 不利于文献主题的分类整理, 未来研究需要对该结果进一步处理来凝聚主题。【结论】本文将该模型应用于交通法学研究领域热点主题分析, 在处理大规模文献数据中取得较好效果。相关研究可以拓展应用于各种领域的大规模文献数据自动化处理中。

Select

词向量与LDA相融合的短文本分类方法

张群, 王红军, 王伦文

数据分析与知识发现. 2016, 32(12): 27-35. https://doi.org/10.11925/infotech.1003-3513.2016.12.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】针对短文本主题聚焦性差以及严重的特征稀疏问题, 设计一种基于词向量与LDA主题模型相融合的短文本分类方法。【方法】从“词”粒度及“文本”粒度层面同时对短文本进行精细语义建模, 首先基于Word2Vec训练词向量并通过相加平均法合成“词”粒度层面的短文本向量, 基于吉布斯采样法训练LDA主题模型并根据主题概率最大原则对短文本进行特征扩展, 然后基于词向量相似度计算扩展特征权重得到“文本”粒度层面的短文本向量, 最后通过向量拼接构建词向量与LDA相融合的短文本表示模型, 在此基础上通过最近邻分类算法完成短文本分类。【结果】相比传统的基于向量空间模型、基于词向量、基于LDA主题模型这三种基于单一模型的分类方法, 词向量与LDA相融合的分类方法准确率、召回率、F₁值均有提升, 分别至少提升3.7%, 4.1%和3.9%。【局限】仅应用于最近邻分类器, 尚未推广应用到朴素贝叶斯和支持向量机等多种不同的分类器。【结论】基于词向量与LDA相融合的短文本表示模型进行分类, 能有效克服短文本的主题聚焦性差及特征稀疏性问题, 提高短文本分类性能。

Select

基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法

朱丹浩, 杨蕾, 王东波

数据分析与知识发现. 2016, 32(12): 36-43. https://doi.org/10.11925/infotech.1003-3513.2016.12.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】中文机构名结构复杂、罕见词多, 识别难度大, 对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network, RNN)方法, 面向中文汉字和词的特点, 重新定义了机构名标注的输入和输出, 提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准, 本文提出的字级别模型在中文机构名识别的准确率、召回率和F值均有明显提高, 其中F值提高了1.54%。在包含罕见词时提高更为明显, F值提高了11.05%。【局限】在解码时直接使用了贪心策略, 易于陷入局部最优, 如果使用条件随机场算法进行建模可能获取全局最优结果。【结论】本文方法构架简单, 能利用到汉字级别的特征来进行建模, 比只使用词特征取得了更好的结果。

Select

一种基于相对相似性提高推荐总体多样性的协同过滤算法

姜书浩, 张立毅, 张志鑫

数据分析与知识发现. 2016, 32(12): 44-49. https://doi.org/10.11925/infotech.1003-3513.2016.12.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】以提高推荐系统的总体多样性为出发点, 解决因为用户评分数据分布不均和稀疏造成的误差从而影响推荐精确性和多样性问题。【方法】根据用户间共同评分项目的数量, 通过加权计算得出相对相似性指数, 修正相似性计算方法, 进而优化预测评分算法, 在保证推荐精确性的前提下提高总体多样性, 提升企业的长尾营销效果。【结果】实验结果表明, 当评分阈值为3.5, 最近邻数目为20时, 本文方法在MovieLens数据集上的计算结果相对于采用传统的余弦相似性计算结果, 总体多样性提高了114, 精确性提高了6.5%。【局限】仅适用于基于最近邻的协同过滤算法, 并不涉及其他推荐技术。【结论】该方法有效地提高了推荐的总体多样性, 获得推荐精确性和总体多样性用户相对满意度都较高的推荐结果。

Select

基于关联规则的文本主题深度挖掘应用研究

阮光册, 夏磊

数据分析与知识发现. 2016, 32(12): 50-56. https://doi.org/10.11925/infotech.1003-3513.2016.12.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】准确理解文本信息中潜在的知识关联, 丰富文本知识挖掘的方法。【方法】将主题模型和关联规则相结合, 运用LDA主题模型抽取文本中的主题集合, 在实现文本降维的同时, 实现文本在语义空间的表达; 通过关联规则进一步挖掘文本中主题的语义关联。【结果】设置合理的支持度和置信度阈值, 可以有效地挖掘文本中潜在知识的关联, 实现对文本的深入“理解”。【局限】数据预处理过程中, 用户自定义词典的设计会对实验结果产生一定的影响。【结论】提出一种非结构化文本信息潜在语义关联挖掘的新思路, 改善了针对文本信息知识发现的效果。

Select

电力大数据驱动的新能源项目投资效益#br# 评价研究——以Y市电网公司SG-ERP系统为例

高骞, 杨旸, 胡广伟, 徐超, 沈高锋, 赵健

数据分析与知识发现. 2016, 32(12): 57-65. https://doi.org/10.11925/infotech.1003-3513.2016.12.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为满足电网公司针对新能源项目投资进行管控的需要, 尝试基于电网公司内部大数据, 建立面向新能源项目投资效益评价的数据抽取方法和评价指标体系。【方法】基于电网公司SG-ERP系统架构, 构建面向大数据应用的数据管理体系, 提出基于Golden Gate的评价数据抽取方法, 建立覆盖项目经济、社会、环境效益, 及项目决策期、建设期和运营期的全过程评价指标体系, 并辅以Delphi法进行验证。【结果】通过实证得到指标变异系数权重和Y市电网公司2015年新能源项目投资的经济、社会和环境效益得分。【局限】量化评价指标时采取的分类标准可进一步细化。【结论】本研究方案可实现电力新能源项目投资效益全过程的评价, 数据抽取方法、评价指标体系和权重算法具有一定的推广价值。

Select

基于图形数据库的专利语义知识库构建技术研究

翟东升, 刘鹤, 张杰, 蔡力伟

数据分析与知识发现. 2016, 32(12): 66-75. https://doi.org/10.11925/infotech.1003-3513.2016.12.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】针对德温特专利数据设计并实现语义完整、性能良好的专利语义知识库。【应用背景】专利语义知识库用于存储专利数据以及各项数据之间存在的语义关系, 使得人们可以通过语义关系对专利进行检索。【方法】通过分析德温特专利数据所含及其之间的语义关系, 改进基于本体的专利语义表示方法, 提出基于属性图模型的德温特专利图数据模型, 并使用Neo4j图形数据库存储实例化的专利数据。【结果】以云计算技术为例, 构建专利语义知识库, 该知识库保证了语义信息完整, 在较大数据量的情况下, 查询速度可达到传统关系型数据库的5.35倍。【结论】基于图形数据库的专利语义知识库有着信息完整、语义清晰、性能良好等特点, 是一种稳定且高效的专利数据组织与存储方式。

Select

基于半脆弱水印的图博档视频资源内容认证策略研究

朱光, 丰米宁

数据分析与知识发现. 2016, 32(12): 76-84. https://doi.org/10.11925/infotech.1003-3513.2016.12.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】设计大数据环境下安全性和实时性更好的半脆弱水印算法, 保护图博档视频资源的真实性和完整性。【应用背景】保证视频资源对常规视频操作的鲁棒性, 满足图博档视频资源内容认证的实时性需求。【方法】运用量化调制的方法嵌入二值水印图像进行版权验证, 在视频关键帧中嵌入索引水印检测帧间篡改, 对视频帧的最低有效位进行异或运算生成认证水印检测帧内篡改。【结果】水印算法可以对视频资源进行有效的版权验证和内容认证, 透明性较好, 对于常规视频操作具有较强的鲁棒性, PSNR保持在33以上。篡改定位时间5s左右, 具有良好的实时性。【结论】本研究有助于图博档视频资源的真实性和完整性保护, 促进大数据环境下图博档信息资源共享和服务融合。

Select

社交媒体舆情信息传播效果影响因素研究——以新浪微博“8.12天津爆炸”事件为例

廖海涵, 王曰芬

数据分析与知识发现. 2016, 32(12): 85-93. https://doi.org/10.11925/infotech.1003-3513.2016.12.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】研究社交媒体舆情信息传播规律和信息传播效果影响因素, 为政府管理实践和相关决策提供参考依据。【方法】结合5W传播模式和议程设置理论对信息传播因素提出假设, 采用相关性分析进行验证。【结果】研究发现传播群体中意见领袖群体对传播效果影响最大, 微博发布者属性与传播效果存在正相关关系, 信息传播数量与传播效果成负相关关系。【局限】由于受到时间、技术等限制, 只选择单一话题在单一时间内的传播情况做了实证分析。【结论】对政府机构、新闻媒体、大型企业等管理者了解舆情传播影响情况及舆情信息影响因素探索研究具有重要意义。

选择文件类型/文献管理软件名称

选择包含的内容

2016年, 第32卷, 第12期　
刊出日期：2016-12-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2016年, 第32卷, 第12期 刊出日期：2016-12-25

2016年, 第32卷, 第12期　
刊出日期：2016-12-25