期刊首页 当期目录

2017年, 第1卷, 第1期 
刊出日期:2017-01-25
  

  • 全选
    |
    主编寄语
  • 张晓林
    数据分析与知识发现. 2017, 1(1): 1-2. https://doi.org/10.11925/infotech.2096-3467.2017.01.01
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 综述评介
  • 张晓娟, 韩毅
    数据分析与知识发现. 2017, 1(1): 3-15. https://doi.org/10.11925/infotech.2096-3467.2017.01.02
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】总结国内外时态信息检索研究现状, 以期为相关学者更好地把握时态信息检索研究问题提供理论基础。【文献范围】在Google Scholar中分别以检索式“Temporal Information”与“时态信息”且不限定时间范围地进行文献检索,获得部分相关文献后,再结合追溯法最终得到92篇相关文献。【方法】基于文献调研与归纳总结方法,分别从文档中时态信息抽取、查询中时态信息识别和时间感知排序三方面对时态信息检索的相关研究进行综述与评述。【结果】研究发现时态信息检索研究存在着如下问题和挑战:国外对时态检索研究比较多,而国内的相关研究甚少; 利用表征时间信息的实体与事件演化信息识别文档关注时间的相关研究不足; 缺乏对非周期变化查询的意图预测; 时态信息检索模型实验的可重复性有待提高。【局限】未对该领域的文档采集、文档索引以及相关应用进行文献综述。【结论】构建标准化的评测数据集以及无参数时态信息检索模型将是时态信息检索领域的未来方向研究。

  • 研究论文
  • 谢秀芳, 张晓林
    数据分析与知识发现. 2017, 1(1): 16-25. https://doi.org/10.11925/infotech.2096-3467.2017.01.03
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】实现针对科技路线图内容的知识发现研究, 预测未来科技长期发展趋势。【方法】基于采用“抽取-同步-分类”的文本挖掘方法构建的科技路线图信息库, 集成分析全球科技发展需求和趋势, 对比分析各国发展路线和措施, 并以可再生能源领域为案例进行实证研究。【结果】利用开源工具Timeflow、Gephi等对实证研究结果进行可视化, 按时间序列从多个角度呈现了可再生能源领域到2050年的发展态势及各国的战略规划。【局限】综合利用了多种方法工具, 自动化程度有待提高, 个性化功能有待完善。【结论】该研究方案能够快速获取科技路线图中的核心信息, 提高情报获取效率。

  • 黄名选
    数据分析与知识发现. 2017, 1(1): 26-36. https://doi.org/10.11925/infotech.2096-3467.2017.01.04
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】针对跨语言信息检索存在的查询漂移问题, 提出一种融合用户点击下载行为与矩阵加权关联模式挖掘的印尼中跨语言信息检索模型。【方法】将矩阵加权关联模式挖掘、查询扩展以及用户点击下载行为集成应用到印尼中跨语言信息检索模型, 给出模型实现的关键技术, 即面向跨语言信息检索的矩阵加权关联模式挖掘算法、跨语言查询扩展模型以及印尼中跨语言信息检索算法。【结果】在 NTCIR-5 CLIR数据集上的实验结果表明, 该检索模型的R_prec、p@10和p@20值均达到单语言检索基准的60%以上, 比跨语言检索基准提高37%以上, 比现有基于伪相关反馈的跨语言检索算法提高28%以上。【局限】该模型实验在基于向量空间模型的跨语言检索系统中进行, 需要探讨和研究在实际搜索引擎中的具体应用。【结论】该模型能有效地减少跨语言检索中的查询漂移问题, 提高和改善印尼中跨语言检索性能, 对长查询的检索效果更好, 有较好的实际应用价值。

  • 刘建华, 王颖, 张智雄, 李传席
    数据分析与知识发现. 2017, 1(1): 37-46. https://doi.org/10.11925/infotech.2096-3467.2017.01.05
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】拓展以物种为中心的植物物种多样性抽取框架, 探索实现语义知识抽取方法。【方法】结合当前生物多样性抽取的主流研究, 以物种为中心, 设计包含多种实体及实体间关系的知识抽取框架, 利用已有的众多专业数据库, 设计并实现相应的识别方法。【结果】设计以物种为核心的知识抽取框架, 探索实现多种实体及实体间关系的语义知识抽取方法, 拓展植物物种多样性领域抽取内容和思路。【局限】实体识别的完整性和准确性受底层知识库影响较大, 且实体间关系的类型局限于共现、上下位类、语法关系几类, 还需进一步研究。【结论】本研究拓展了植物物种多样性抽取内容和思路, 可有效支持语义检索、科学计算。

  • 姜霖, 王东波
    数据分析与知识发现. 2017, 1(1): 47-54. https://doi.org/10.11925/infotech.2096-3467.2017.01.06
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】在总结当前引文元数据抽取方法的基础上, 结合语义学知识和机器学习方法, 对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象, 通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中, 本文方法取得了较高的准确率和召回率, 特别是针对引文中含有多种语言和缩写的现象, 具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验结果表明, 此方法在引文元数据的自动发现和标注上具有良好的效果, 并能很大程度地提高方法的适用性和容错率。

  • 侯剑华, 郭爽
    数据分析与知识发现. 2017, 1(1): 55-63. https://doi.org/10.11925/infotech.2096-3467.2017.01.07
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】基于技术系统特性, 提出技术熵分析方法。通过专利文献数据, 对新兴技术的发展演化进行动态、有效的监测, 验证技术熵分析方法的效度。【方法】在基于专利的技术系统中构建多维度技术熵专利模型。以碳捕集技术为例, 从宏观和微观两个层面进行技术监测和评价分析。【结果】证实了技术熵分析方法的有效性。我国碳捕集技术经历了技术萌芽、低速发展、高速跃升等阶段, 虽尚未成熟, 但已经进入至关重要的发展阶段; 技术研发以高校为主, 研究大多集中于吸收和吸附材料等。【局限】样本数据的选择有待改进, 存在干扰数据。【结论】技术熵方法是从技术系统的视角分析技术领域的演化趋势的一种科学有效的分析方法, 为技术演化、技术评价、技术预见等问题及相关技术管理问题提供了一种可行的分析工具。

  • 吴丹, 陆柳杏
    数据分析与知识发现. 2017, 1(1): 64-72. https://doi.org/10.11925/infotech.2096-3467.2017.01.08
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】研究大学生使用不同尺寸的手机屏幕和阅读类APP对学术文献阅读效率的影响。【方法】通过问卷调查法、访谈法和实验法分析用户阅读学术文献的时间、理解率与记忆率。【结果】手机屏幕尺寸对阅读时间有影响, 对阅读理解率与阅读记忆率无显著影响; APP的用户体验对阅读理解率有影响, 对阅读时间与阅读记忆率无显著影响。【局限】实验用户类型和数量有限, 阅读理解率与记忆率的测评方式不够客观。【结论】屏幕大小和阅读类APP影响着阅读效率的不同方面, 优化移动阅读工具及APP的用户体验, 可提高用户的阅读效率。

  • 应用论文
  • 吴志强, 祝忠明, 刘巍, 张旺强, 姚晓娜
    数据分析与知识发现. 2017, 1(1): 73-80. https://doi.org/10.11925/infotech.2096-3467.2017.01.09
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】根据机构知识库功能的扩展需求, 研究三维模型检索和展示技术, 设计并实现基于内容的三维模型检索以及Web3D展示与交互功能。【方法】在台湾大学开源的三维模型检索算法的基础上, 改用离屏渲染的方法获取模型的正交投影, 提取三维模型特征, 采用Java3D生成三维模型缩略图, 使用Three.js实现三维模型Web在线展示与交互。【结果】用户可通过提交三维模型URL或上传的方式, 检索三维模型, 在三维模型浏览页面可通过鼠标对模型进行旋转、缩放操作以详细查看。【局限】模型检索的结果和效率可满足当前的基本需求, 但模型的查全率和查准率还有待进一步提高, 需要持续关注三维模型检索相关技术, 优化和补充三维模型检索功能。【结论】将该模型应用于CSpace系统后, 可有效扩展三维模型的支持能力, 为用户提供更为多样的三维模型检索和应用方式。

  • 齐云飞, 赵宇翔, 朱庆华
    数据分析与知识发现. 2017, 1(1): 81-90. https://doi.org/10.11925/infotech.2096-3467.2017.01.10
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】提出一种具有语义发现功能的移动视觉搜索方法, 实现数字图书馆视觉资源内容和语义信息的全搜索。【方法】采用BIBFRAME、关联数据和图像处理技术获取视觉资源的语义信息和特征信息, 通过关联数据对特征信息和语义信息进行关联, 实现移动视觉搜索和语义搜索的融合。【结果】实验结果表明, 系统较好地实现了对视觉资源内容和语义的搜索, 弥补了传统移动视觉搜索在语义方面的不足。【局限】系统在检索效率上还存在不足, 特征处理算法和SPARQL检索过程还需要进一步优化。【结论】本文提出的移动视觉搜索系统能够较好地实现视觉资源内容和语义的关联与搜索, 为数字图书馆语义信息发掘和服务模式创新提供了一种新的方式。

  • 路永和, 陈景煌
    数据分析与知识发现. 2017, 1(1): 91-101. https://doi.org/10.11925/infotech.2096-3467.2017.01.11
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    目的】由于文本数据存在许多与分类不相关的冗余词项, 引入混合蛙跳算法进行特征选择优化, 提高分类准确率。【方法】分别使用CHI和IG预选出不同维度的特征集合, 再引入改进后的混合蛙跳算法对预选特征集合进行二次优选, 每只青蛙的位置代表一种特征选择规则, 将分类准确率作为算法的适应度函数。SVM和KNN分类器用于实验中分类准确率的计算。【结果】引入改进后的蛙跳算法比CHI和IG能得到更好的分类效果,最大提升幅度达到12%。【局限】在少部分特征维度下出现过拟合现象。【结论】采用特征词预选和改进后的蛙跳算法相结合的特征选择优化方法可以有效排除部分噪声特征项的干扰, 从而提高文本分类准确率。