数据分析与知识发现

Select

高松,王洪伟,冯罡,王伟

现代图书情报技术. 2016, 32(10): 1-12. https://doi.org/10.11925/infotech.1003-3513.2016.10.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】对比较观点挖掘和相关研究的主流研究方法和步骤进行综述, 为相关领域的未来研究提供指导。【文献范围】从WoS, Google Scholar, CNKI中以“比较观点(Comparative Opinion)”、“比较句识别(Comparative Sentence)”、“比较关系(Comparative Relation)”等为检索词筛选获得55篇相关文献。【方法】基于文献调研, 介绍比较范畴的划分、比较句识别、比较关系抽取和比较观点情感分析等研究进展。【结果】由于有限的序列规则, 比较观点的识别难以进一步提高, 对隐形比较观点的识别研究鲜有提及, 并且现有的抽取技术难以很好地提取比较要素。此外, 比较观点缺乏细粒度的情感分析。【局限】缺乏对现有比较观点识别方法的对比分析。【结论】本文提出的研究框架可以为未来进一步研究提供参考。此外, 未来的工作重点应关注通过比较观点识别追踪潜在竞争对手, 分析产品竞争力, 以及提供不同商品的对比分析等。

Select

面向情报研究的文本语义挖掘方法述评

赵冬晓,王效岳,白如江,刘自强

现代图书情报技术. 2016, 32(10): 13-24. https://doi.org/10.11925/infotech.1003-3513.2016.10.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】对主要的文本语义挖掘方法及其在情报研究中的应用进行综述分析。【文献范围】集中选择近10年国内外主流的文本语义挖掘方法在情报研究领域的应用以及少数此前的代表性研究和文本语义挖掘方法的进展研究。【方法】分别概括介绍词、句子和篇章粒度的文本语义挖掘方法、算法, 并通过主题演化和技术挖掘领域的实际应用进行方法剖析。【结果】文本语义挖掘方法与传统的情报分析方法相比, 主要弥补了两个缺陷: 侧重于分析结构化的数据, 无法处理多种异构的数据源; 分析停留在统计语法层面, 没有深入到文本的语义信息。【局限】仅对主流的文本语义挖掘方法以及在科学研究领域的应用进行综述分析, 研究不全面。【结论】文本语义挖掘方法弥补了传统情报分析方法的不足, 是情报研究方法的重要发展方向, 随着方法的成熟, 下一步研究重点是外部语义资源的丰富。

Select

评价知识本体研究与规则实现

周红照,侯敏,滕永林

现代图书情报技术. 2016, 32(10): 25-32. https://doi.org/10.11925/infotech.1003-3513.2016.10.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】建立一套集评价句识别、倾向性判定、评价对象抽取于一体的评价分析智能系统。【方法】对中文评价知识本体进行研究, 基于本体研究成果建立评价分析规则库, 实现基于词典规则的评价分析智能系统CUCsas。【结果】以第7届中文倾向性分析评测(COAE2015)发布的50 000篇微博(共计133 201个句子)为实验数据, 系统评价句识别及倾向性判定的正确率、召回率和F值分别为0.83、0.70、0.76, 而评价对象抽取的结果较差。【局限】系统尚缺少评价新词发现和领域词典自动构建模块。【结论】初步建立起一套实用化的评价分析智能系统。

Select

动态热门话题的“特征词条本体”自动构建与进化研究

马静,何雪枫,简旭文

现代图书情报技术. 2016, 32(10): 33-41. https://doi.org/10.11925/infotech.1003-3513.2016.10.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】设计一种“特征词条本体”的自动构建及进化算法。【应用背景】热门话题产生的时间和话题演化往往是快速的, 且涉及领域广泛, 而现有的本体自动构建研究局限于具体领域的知识表达, 无法有效地对这种动态热门话题进行本体语义支持, 也不能进行有效跟踪与优化。【方法】通过对热门话题中关键事件的内容分析并由特征词组合而成的“特征词条本体”来描述热门话题的方法, 设计一种快速自动生成“特征词条本体”的算法; 在初始本体指导下, 利用话题跟踪结果进行“特征词条本体”进化算法的设计, 以满足不断更新的话题语义表述需求。【结果】针对热门话题“魏则西百度推广事件”, 使用爬虫工具采集11 174条新浪微博作为语料库进行实验, 抽取生成拥有7 421个特征词条、39个特征词节点、781个特征词关系的初始本体, 基于话题跟踪结果进化为拥有24 564个特征词条, 67个特征词节点, 1 818个特征词关系的进化本体, 其漏报率、误报率、损耗代价分别为0.1261, 0.0964, 0.5985, 优于TF-IDF算法。【结论】“特征词条本体”的表述方式明显比单个词汇的本体表述准确率高, 且语义相似度更容易计算, 比较符合动态热门话题的快速语义处理。

Select

文献-作者二分网络中基于路径组合的合著关系预测研究

张金柱,王小梅,韩涛

现代图书情报技术. 2016, 32(10): 42-49. https://doi.org/10.11925/infotech.1003-3513.2016.10.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】降低文献-作者二分网络在投影为合著网络过程中的信息丢失影响, 形成适应特定二分网络的合著关系预测指标和方法, 提高预测准确率和结果可解释性。【方法】首先构建文献-作者二分网络及其投影合著网络; 接着抽取二分网络中的二阶路径和三阶路径表示作者间的关联关系; 最后利用逻辑回归方法学习不同路径对于合著关系预测的贡献, 由此形成文献-作者二分网络中基于路径组合的合著关系预测指标。【结果】在图书情报领域的实验证实, 文献-作者二分网络在投影为合著网络过程中存在较大的信息丢失, 并以合著关系预测准确率变化进行定量计算; 逻辑回归方法适合学习不同路径对于合著关系预测的贡献, 由此形成的路径组合指标准确率远远高出其他指标, 并且预测结果更易解释。【局限】其他的多阶路径尚未引入到该模型中, 方法通用性还需在其他领域进行验证。【结论】合著关系预测应直接在文献-作者二分网络上进行, 以降低投影过程中的信息丢失影响; 文献-作者二分网络上的路径组合指标是合著关系预测的最优指标; 该方法可扩展应用到其他类型的二分网络中, 如专利-发明人二分网络。

Select

基于参与者共现分析的博文聚类研究

龚凯乐,成颖,孙建军

现代图书情报技术. 2016, 32(10): 50-58. https://doi.org/10.11925/infotech.1003-3513.2016.10.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】将博文参与者共现作为特征, 探析其在博文聚类中的价值。【方法】两步聚类: 构建不同博文参与者的共现矩阵并转化为相关矩阵, 采用近邻传播(Affinity Propagation, AP)算法完成第一步聚类; 将AP聚类结果的质心作为初始聚类中心, 对词项进行位置加权, 利用K-means算法完成博文内容的第二步聚类。【结果】综合博文参与者共现与词项位置加权的聚类算法平均准确率与纯度分别达到0.66和0.57, 显著优于对比实验。【局限】本研究的主要贡献是引入参与者共现作为特征改进博文聚类效果, 对于该特征甚少的博文聚类价值有限。【结论】整合词项与博文参与者特征的博文聚类显著地提高了聚类质量, 两步法聚类也为K-means算法初始聚类中心的选择提供了可行的解决方案。

Select

基于流形学习的新闻主题关系构建和演化研究

徐月梅,李杨,梁野,蔡连侨

现代图书情报技术. 2016, 32(10): 59-69. https://doi.org/10.11925/infotech.1003-3513.2016.10.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过对以互联网为媒介的新闻报道的主题演化研究, 分析新闻主题的产生、发展和演变过程, 把握媒体舆论方向。【方法】引入流形学习构建全局时间跨度的新闻主题关联关系, 挖掘由LDA主题模型识别得到的各个时间窗口的高维主题向量间的关系, 在低维平面上实现主题聚类和相互关联的可视化, 提出利用社会网络理论指标分析主题的演化结果。【结果】利用2015年美国有线电视新闻网对中国的新闻报道进行主题关系构建和演化, 结果表明该方法能够发现主题在全局时间跨度的演化趋势。【局限】时间窗口长度对主题演化的效果和可变时间窗口长度机制没有涉及。【结论】新闻主题演化分析方法能够在低维可视平面上描绘主题在全局时间跨度的演化, 避免主题由于相邻时间窗口关联失效而导致全局演化路径的断裂。

Select

面向在线社交网络用户生成内容的饮食话题发现研究

张晓勇,周清清,章成志

现代图书情报技术. 2016, 32(10): 70-80. https://doi.org/10.11925/infotech.1003-3513.2016.10.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】通过大规模文本聚类技术进行话题检测, 并自动拣选优质话题。【方法】以新浪微博上与饮食相关的微博内容为数据源, 结合文本聚类与深度学习知识进行话题检测。通过匹配微博发布的月份, 将微博划分为四季微博; 使用向量空间模型和文本聚类方法, 对不同季节的微博进行话题检测, 获得候选话题; 结合深度学习知识, 提出主题覆盖率概念, 用以自动评价话题质量, 去除低质量话题。【结果】基于主题覆盖率的话题筛选结果符合人工拣选预期, 抽取获得主题覆盖率高于0.5的优质话题。【局限】话题检测质量的评价主要以定性评价为主。【结论】通过计算主题覆盖率来自动选择优质话题, 该方法效率高, 通用性强, 获得的话题便于理解, 较好地揭示了四季中饮食微博的话题分布。

Select

采用异常检测的技术机会识别方法研究

翟东升,郭程,张杰,李登杰

现代图书情报技术. 2016, 32(10): 81-90. https://doi.org/10.11925/infotech.1003-3513.2016.10.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为探索一种准确而及时地识别技术机会的方法, 提出一种基于异常检测技术识别技术机会的框架。【方法】通过构建相似度矩阵进行多维尺度分析, 基于多种异常点检测算法识别出潜在技术机会专利, 结合TRIZ的技术系统进化法则从潜在技术机会专利中挖掘出技术机会。【结果】获取激光光刻技术2000年-2015年的德温特专利数据, 对该领域不同阶段的技术机会进行识别, 分析结果显示, 通过此框架识别出的前两个阶段的技术机会就是下一阶段的主流技术, 同时, 改进后的极紫外光刻技术可能成为下一代激光光刻领域的主流技术之一。【局限】利用TRIZ判定技术机会存在一定的主观性, 识别准确度有待进一步提高。【结论】基于异常检测的技术机会识别方法可以有效地识别出技术机会, 有助于提高识别技术机会的及时性。

Select

结合多种特征的CRF模型用于化学物质-疾病命名实体识别

隋明爽,崔雷

现代图书情报技术. 2016, 32(10): 91-97. https://doi.org/10.11925/infotech.1003-3513.2016.10.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】建立结合多种特征的条件随机场模型, 探索从大型生物医学文本中同时自动提取化学物质和疾病实体的方法。【方法】结合命名实体识别特征, 包括词法特征、领域知识特征、词典匹配特征和无监督学习特征等, 比较不同特征对命名实体识别的效果, 并优化模型。【结果】CRF模型纳入词法特征、词典匹配特征、无监督学习特征和部分领域知识特征, 化学物质识别准确率97.33%、召回率80.76%、F值88.27%, 疾病实体识别准确率为84.20%、召回率为81.96%、F值为83.07%。【局限】同时识别化学物质和疾病实体可能存在互相干扰, 删除的部分领域特征可能含有有用信息。【结论】本研究可为生物医学命名实体识别的特征选择提供参考, 同时仍需优化特征以获得更好的识别效果。

Select

专题专利预警平台建设方案研究与实践

王丽,丁迎杰,吴鸣

现代图书情报技术. 2016, 32(10): 98-104. https://doi.org/10.11925/infotech.1003-3513.2016.10.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】制定专题专利预警平台建设方案, 为长期的专题跟踪预警分析、专题数据再利用等工作提供一种解决途径。【方法】平台集成开源代码平台和工具(DSpace、OpenRefine、ECharts、VOSviewer等), 实现对专题数据的存储、跟踪、分类、清洗、分析、管理等功能。【结果】选择极紫外光刻技术专题进行应用实践, 测试并解决实践过程中的细节问题, 验证专题专利预警平台的可行性和有效性。【局限】目前的专题专利预警平台数据处理全自动化、数据分析指标化、内容挖掘的关联实现等方面需要进一步优化。【结论】专题专利预警平台所实现的功能, 对于在技术研发生命周期内进行技术专利及时跟踪预警并分类管理有着现实的意义。

Select

基于量化调制水印的图博档视频资源版权保护策略研究

朱光,丰米宁

现代图书情报技术. 2016, 32(10): 105-111. https://doi.org/10.11925/infotech.1003-3513.2016.10.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】设计网络环境下透明性和实时性更好的视频水印算法, 保护图博档(图书馆、博物馆、档案馆)视频资源的版权。【应用背景】保证视频资源的视觉效果, 满足图博档视频资源版权保护的实时性需求。【方法】定义8位水印图像的像素值为索引信息, 交替嵌入索引信息和水印信息, 对水印图像进行Arnold置乱, 运用量化调制的方法将置乱后的水印信息嵌入密钥随机选择的视频区域中。【结果】基于量化调制的视频水印算法可以对视频资源进行有效的版权验证和鉴别, 透明性较好, 对于视频操作具有较强的鲁棒性, 相关系数保持在0.8以上。水印提取时间3s左右, 具有良好的实时性。【结论】本研究有助于图博档视频资源的版权保护, 促进大数据环境下图博档信息资源共享和服务融合。

选择文件类型/文献管理软件名称

选择包含的内容

2016年, 第32卷, 第10期　
刊出日期：2016-10-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2016年, 第32卷, 第10期 刊出日期：2016-10-25

2016年, 第32卷, 第10期　
刊出日期：2016-10-25