Please wait a minute...
Advanced Search
  • 数据分析与知识发现
      2016年, 第32卷, 第11期 刊出日期:2016-11-25   
    选择: 合并摘要
    综述评介
    国内网络反恐研究的现状、问题和展望*
    黄炜,余辉,李岳峰
    现代图书情报技术. 2016, 32 (11): 1-10.   DOI: 10.11925/infotech.1003-3513.2016.11.01
    摘要   HTML   PDF (657KB)

    目的】总结国内网络反恐研究的现状, 发现不足并提出未来应对方向。【文献范围】以“网络反恐”为主题在中国知网、万方数据、Web of Science、ScienceDirect、Engineering Village数据库中选取自2002年以来的期刊、图书文献共60篇。【方法】通过文献统计分析方法, 分别从反恐数据分析、舆论传播、预警与处置三个方面分析网络反恐问题。【结果】国内网络反恐研究的现状是以恐怖数据的收集和分析为基础, 通过涉恐言论、舆情分析实现网络反恐, 存在反恐大数据分析能力不足、非文本数据匹配技术不成熟、网络反恐相关法律和教育需进一步完善的问题。【局限】文献资料来源以学术期刊和图书为主, 对于实际反恐中资料的收集不够充分。【结论】网络反恐的相关研究还处于发展阶段, 需要从技术、管理和法规等多方面协调共同开展, 相关的宣传和执行力度均应加强, 特别要加快与大数据技术的整合。

    图表 | 参考文献 | 支撑数据 | 相关文章 | 多维度评价
    研究论文
    面向光伏项目投资风险的大数据监测指标甄选研究*——以Solarbao平台为例
    杨旸,林辉,胡广伟
    现代图书情报技术. 2016, 32 (11): 11-19.   DOI: 10.11925/infotech.1003-3513.2016.11.02
    摘要   HTML   PDF (828KB)

    目的】在构建光伏项目投资风险监测模型的过程中, 为了甄选面向互联网金融平台的大数据应用监测指标, 尝试提出系统的甄选方案并结合实际案例进行验证。【方法】应用大数据监测模型, 整合Solarbao平台多源异构数据, 以专家判断为项目投资风险分析依据, 运用CHAID决策树归纳多维监测指标组合, 并运用R-Q型因子分析方法提炼识别投资风险的关键指标。【结果】得到8条监测光伏项目投资风险的指标组合和10项识别投资风险的关键指标。【局限】R-Q型因子分析中的专业指标有待进一步细分并形成动态更新机制。【结论】该甄选方案能够满足大数据监测模型对指标采集的要求, 对投资者评估光伏项目风险、平台筛选合适项目以及监管部门排查该领域系统性风险具有借鉴意义。

    图表 | 参考文献 | 相关文章 | 多维度评价
    基于LDA挖掘计算机科学文献的研究主题
    杨海霞,高宝俊,孙含林
    现代图书情报技术. 2016, 32 (11): 20-26.   DOI: 10.11925/infotech.1003-3513.2016.11.03
    摘要   HTML   PDF (737KB)

    目的】运用文本挖掘技术自动从海量科技文献中提取研究主题并探测其研究趋势。【方法】以《中文核心期刊要目总览(2014年版))—“TP自动化技术、计算机技术”栏目前10种期刊刊载的计算机科学类(Computer Science)文献为研究对象, 借助LDA主题模型, 考虑科技文献的发表时间信息, 挖掘出典型话题, 并根据主题强度分析主题的演化趋势。【结果】18个研究话题中有7个主题强度上升的主题和6个主题强度下降的主题。【局限】仅分析了国内计算机领域的前10种期刊, 期刊范围不够大, 也未考虑国外计算机领域的期刊文献。【结论】该方法能够深入挖掘计算机领域期刊文献的话题, 帮助从事该领域研究的学者了解主题的演化趋势并寻找新兴研究主题。

    图表 | 参考文献 | 相关文章 | 多维度评价
    作者身份识别中不规范文本特征选择方法的研究*
    郭旭,祁瑞华
    现代图书情报技术. 2016, 32 (11): 27-33.   DOI: 10.11925/infotech.1003-3513.2016.11.04
    摘要   HTML   PDF (388KB)

    目的】从不规范文本中提取特征, 识别网络文本作者身份。【方法】提出两种在不规范文本中提取特征的方法: 利用在Jaccard系数的基础上定义的不规范文本相似度M; 利用不规范文本在文本中出现的次数。【结果】两种特征的识别正确率分别达到85.1%和80.2%, 加入这两种特征后, 传统的基于统计值特征的分类器识别正确率分别提高5.8%和4%。【局限】只考虑到网络文本在词汇层面的不规范性, 并没有针对更高层面的特性进行研究, 如句法层面、结构层面。【结论】本文提出的特征提取方法, 可以有效地提取不规范文本特征, 有助于作者身份识别系统识别正确率的提升。

    图表 | 参考文献 | 相关文章 | 多维度评价
    查询专指度对检索效果的影响研究
    任珂,陆伟,丁恒
    现代图书情报技术. 2016, 32 (11): 34-43.   DOI: 10.11925/infotech.1003-3513.2016.11.05
    摘要   HTML   PDF (1741KB)

    目的】针对不同查询专指度语句的检索效果进行全面分析, 为改善搜索引擎性能、提高用户检索体验提供借鉴。【方法】基于TREC Web Track查询语句, 人工构建查询专指度标注集, 选用语言模型狄利克雷平滑、语言模型线性插值平滑和BM25三种模型, 以常用的信息检索评价指标为基准, 探讨查询专指度强弱对检索效果在不同层次上的影响。【结果】在最靠前的几条检索结果中, 强弱专指度查询语句的检索效果差异最大, 强专指度的检索效果要明显好于弱专指度。【局限】仅在TREC数据集上进行实验测试, 还需在其他数据集上进一步检验。【结论】搜索引擎在专指度这一维度下, 应重点关注最靠前的几条检索结果的准确性, 以此为切入点改善检索模型。

    图表 | 参考文献 | 支撑数据 | 相关文章 | 多维度评价
    基于产品评论的消费者情感波动分析模型构建及实证研究*
    林园园,战洪飞,余军合,李长江,张凡
    现代图书情报技术. 2016, 32 (11): 44-53.   DOI: 10.11925/infotech.1003-3513.2016.11.06
    摘要   HTML   PDF (1573KB)

    目的】基于网络产品评论信息构建消费者的情感波动分析模型。【方法】该分析模型以文本挖掘技术理论为基础, 运用产品评论挖掘技术和情感分析技术, 在情感分析的同时充分考虑不同类型连词对句子情感倾向性的影响, 并采用相应的权值计算方法。【结果】从京东和中关村在线抓取某款手机从2013年11月到2015年1月这段时间内产品评论信息并进行分析, 验证了该模型的有效性。【局限】在分析消费者情感波动主要影响因素方面, 该分析模型主要考虑相邻时间段内产品特征词个数的变化以及产品特征词在评论信息中出现次数的变化这两个维度, 其他维度并未涉及。【结论】该模型有效地分析了消费者在一段时间内的情感波动趋势, 以及产生情感波动的因素, 能够为企业决策提供一定的参考。

    图表 | 参考文献 | 相关文章 | 多维度评价
    高被引论文的在线使用与分享研究*——基于ALMs的实证分析
    匡登辉
    现代图书情报技术. 2016, 32 (11): 54-63.   DOI: 10.11925/infotech.1003-3513.2016.11.07
    摘要   HTML   PDF (2549KB)

    目的】以SCI高被引论文为实证分析对象, 通过分析论文的引用频次与在线使用、分享的相关性及表现, 验证Altmetrics指标在揭示优质文献方面的有效性。【方法】通过匹配DOI, 将高被引论文的引文数据与ALMs组合, 对论文的引用频次与在线使用、分享数据进行Spearman相关性检验, 并对PLOS系列期刊的在线使用与分享情况逐一分析。【结果】研究表明: 引用次数与论文的在线分享Figshare呈弱正相关(r = 0.081, p = 0.01); 与CiteULike标引量呈中度相关(r = 0.252, p = 0.01); 与Mendeley使用量的相关性最大(r = 0.376, p = 0.01)。部分期刊的Mendeley使用量在一定程度上揭示了高影响力文献。【局限】只针对特定学科PLOS系列期刊, 因此数据的全面性存在一定的欠缺, 得出的结论能否推而广之, 有待于进一步研究。【结论】论文的高被引与其对应的在线使用与分享的相关度不高, 显示出在线使用(Mendeley, CiteULike)与分享(Figshare)的数据在揭示高影响力文献方面存在一定的不足。

    图表 | 参考文献 | 相关文章 | 多维度评价
    靶向技术创新网络演化测度方法研究
    翟东升,王猛,张杰,孙武
    现代图书情报技术. 2016, 32 (11): 64-75.   DOI: 10.11925/infotech.1003-3513.2016.11.08
    摘要   HTML   PDF (666KB)

    目的】利用专利数据对靶向技术创新网络进行量化分析, 从多个视角对技术创新网络的演化过程进行测度分析。【方法】以靶向技术创新网络为研究对象, 从德温特专利数据库中检索靶向技术专利数据, 利用动态网络分析方法与专利数据相结合, 将动态网络分析指标应用到技术创新网络分析中, 构建基于专利动态网络的技术创新演化测度体系。【结果】分析技术创新网络的4个测度对象, 根据网络指标的变化从微观层次展现靶向技术的发展演化趋势和技术热点。【局限】技术创新网络评价测度指标不够丰富, 对指标的研究不够深入。【结论】该方法能够有效全面地测度技术创新网络演化趋势和技术热点。

    图表 | 参考文献 | 支撑数据 | 相关文章 | 多维度评价
    应用论文
    DPaper: 一种面向语义出版的结构化论文写作工具设计与实现
    乐小虬,王子璇,张晓林,何远标,付常雷,许丽媛
    现代图书情报技术. 2016, 32 (11): 76-81.   DOI: 10.11925/infotech.1003-3513.2016.11.09
    摘要   HTML   PDF (2635KB)

    目的】面向语义出版构建论文写作工具, 在论文写作阶段实现内容结构化、对象化, 使得一篇论文即是一个系统, 论文可运行、可交互、可体验。【方法】采用数字对象和数字模板技术将论文内容(元数据、章节、数据、富媒体等)分解成不同类型数字对象, 数字对象间采用模板进行组织, 通过事件触发机制实现交互, 采用HTML5网页形式进行编辑和呈现并存储为XML结构化文档包。【结果】DPaper结构化论文写作工具已上线, 提供从素材收集(云笔记)、数字对象制作、自动标引参考文献、按期刊版式呈现到Word文档格式转换等一系列功能, 论文内容实现对象化和部分语义化。【局限】与常规论文编辑器相比, 数字对象编辑器功能还不完善, 还不能创建公式、图形等对象, 排版的灵活性不足。【结论】利用DPaper写作工具可以在写作阶段由作者构建出满足语义出版应用需求的结构化论文。

    图表 | 参考文献 | 相关文章 | 多维度评价
    科技查新中检索词智能抽取系统的设计与实现*
    王培霞,余海,陈力,王永吉
    现代图书情报技术. 2016, 32 (11): 82-93.   DOI: 10.11925/infotech.1003-3513.2016.11.10
    摘要   HTML   PDF (655KB)

    目的】解决科技查新领域检索词选择时的主观性强、手工工作量大、不规范、费时费力的问题。【应用背景】为了实现检索词抽取过程的自动化、智能化、规范化, 本文提出利用科技查新过程检出的实时相关语料作为领域知识的来源, 并对语料组成类型与关键词抽取效果之间的关系进行讨论。【方法】通过关键词抽取、领域特征扩展相结合的递进式迭代抽取方式实现科技查新领域检索词的智能抽取。【结果】通过与实际查新案例所采用的检索词对比, 发现使用本方法两次迭代后抽取10个检索词, 召回率达到80%。【结论】基于查新过程中检出文献构成的动态相关语料进行检索词的迭代抽取有助于快速、准确锁定绝大部分检索词, 提高检索的效率和效果。

    图表 | 参考文献 | 相关文章 | 多维度评价
    蒙古文音乐领域的语义检索初探*
    鲍玉来,毕强
    现代图书情报技术. 2016, 32 (11): 94-100.   DOI: 10.11925/infotech.1003-3513.2016.11.11
    摘要   HTML   PDF (1457KB)

    目的】在蒙古文信息资源急剧增长的背景下, 探索将基于本体的语义检索应用到蒙古文领域, 提高蒙古文信息资源检索效果。【方法】利用本体技术重视推理、互联的优势, 借助语义解析与推理工具Jena的规则推理引擎, 设计并实现了基于蒙古文音乐领域本体的蒙古文语义检索系统。【结果】相较于关键词匹配检索, 语义检索系统查全率达到95.6%、查准率达到93.2%, 明显高于关键词匹配检索。【局限】仅以蒙古族多声部音乐为研究对象, 实验对象数据有限, 检索具有一定的局限性。【结论】对基于蒙古文领域本体的语义检索进行了完整的研究, 为蒙古文语义网应用研究打下良好的理论和技术基础。

    图表 | 参考文献 | 相关文章 | 多维度评价
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn