数据分析与知识发现

Select

吴丹, 毕仁敏

现代图书情报技术. 2016, 32(2): 1-8. https://doi.org/10.11925/infotech.1003-3513.2016.02.01

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】发掘桌面搜索的优势, 为移动搜索的完善提供借鉴。【方法】通过用户搜索实验, 对比分析用户移动搜索与桌面搜索行为的差异。【结果】用户移动搜索与桌面搜索行为在搜索平台、搜索信息种类、搜索场合、搜索过程、用户体验、搜索准确率、用户满意度等方面存在差异。【局限】实验人群和数量有限, 实验过程中存在不可避免的误差。【结论】移动搜索和桌面搜索各具优缺点, 可取长补短, 桌面搜索优势更大, 可为移动搜索的完善提供借鉴。

Select

采用连续词袋模型(CBOW)的领域术语自动抽取研究

姜霖,王东波

现代图书情报技术. 2016, 32(2): 9-15. https://doi.org/10.11925/infotech.1003-3513.2016.02.02

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】更准确便捷地完成术语词汇的自动抽取。【方法】利用CBOW模型计算构成术语的各个词部件的向量空间模型。通过词向量之间的余弦相似度衡量术语词汇内部各个词部件的关联度。利用PageRank算法计算候选词汇的领域代表性并排序, 通过阈值的设定, 抽取出更为具有领域代表性的术语词汇。【结果】在以自然语言处理领域内的论文摘要作为数据集的实验中取得较高的准确率和召回率。【局限】测试的数据训练集偏小, 而数据集的训练效果直接影响实验的效果。【结论】实验结果表明利用CBOW模型完成术语的抽取工作是一个较为合理、可行的方法。

Select

中文评论产品特征与观点抽取方法研究

孟园, 王洪伟

现代图书情报技术. 2016, 32(2): 16-24. https://doi.org/10.11925/infotech.1003-3513.2016.02.03

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】针对中文在线评论产品特征与观点抽取问题, 提出一种基于置信度排序模型的抽取方法。【方法】在改进HITS算法基础上, 综合考虑候选特征观点词的关联关系和语义关系构建置信度排序模型, 提取并过滤特征观点词。【结果】和基准模型相比, 本文方法对中文语料的产品特征和观点抽取能达到较高准确率和召回率。【局限】仅针对产品显性特征抽取, 没有考虑隐性特征的识别与抽取。【结论】利用特征词和观点词的双向增强关系和语义关系, 可以有效抽取产品特征观点; 情感极性过滤对提升观点词抽取准确率有较大作用。

Select

面向搜索引擎查询日志的领域术语自动识别方法^*

刘彤,倪维健,柳梅

现代图书情报技术. 2016, 32(2): 25-33. https://doi.org/10.11925/infotech.1003-3513.2016.02.04

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为弥补传统基于静态领域语料的领域术语识别方法的不足, 提出一种从搜索引擎查询日志中自动识别领域术语的新方法。【方法】使用四部图对查询日志进行抽象描述, 并在其上应用流形排序算法得到所有候选术语关于领域度的排序, 取排在前列的术语作为领域术语。【结果】在真实搜索引擎的查询日志上实验证实本文方法具有更好的领域术语识别效果, 在Precision@n指标上比基准方法提升约20%。【局限】识别到的领域术语的覆盖面部分依赖于领域专家选取的初始查询词, 这对领域专家的经验提出一定要求。【结论】该方法无需事先准备大规模领域语料以及大量的人工标注, 即可构建高质量的领域术语集合, 具有较高的实用价值。

Select

基于统计和特征相结合的查询纠错方法研究

段建勇,关晓龙

现代图书情报技术. 2016, 32(2): 34-42. https://doi.org/10.11925/infotech.1003-3513.2016.02.05

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

目的提高搜索引擎查询纠错过程中的准确率和召回率, 改善用户的检索体验。方法提出一种基于统计和特征相结合的查询纠错模型, 建立混淆集生成模型, 将用户输入的查询关键字生成其对应的混淆集; 建立混淆集排序模型, 对混淆集中的词条进行排序, 选出混淆集中最佳的词条与用户输入的查询关键字对照, 以此达到查错纠错的目的。结果实验结果证明该模型在搜索引擎查询时具有较好的效果, 测试集在110k时的准确率和召回率分别达到92.2%和95%, 相对于N-gram纠错模型准确率和召回率分别提高13.6%和8.3%。【局限】该模型中混淆集的生成规则有限、模型的训练需要大量的计算。结论本模型能够提高搜索引擎查询的准确率及效率, 改善用户的检索体验。

Select

面向企业微博的客户细分框架

陈东沂,周子程,蒋盛益,王连喜,吴佳林

现代图书情报技术. 2016, 32(2): 43-51. https://doi.org/10.11925/infotech.1003-3513.2016.02.06

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为有效解决微博客户特性的表示问题, 以更好地实施企业微博客户细分。【方法】借助微博平台上客户的个人和社会关系特性, 利用客户及其好友的自定义标签表示客户的特性, 采用基于非负矩阵分解的文本聚类方法, 提出一种面向企业微博的客户细分框架。【结果】实验结果表明, 基于非负矩阵分解的方法取得约86.130%的asw指标平均值, 远远超出基于K-means和层次聚类的方法。【局限】只通过融合微博客户个人及其关注好友的标签表示微博客户特性的方法不能够全面刻画客户特征。【结论】能够为企业微博客户细分中的客户特性的表示、细分、评价及结果可视化等问题提供参考和借鉴。

Select

O2O服务用户分类的潜在类别分析与应用

刘平峰,王贝,雷洁

现代图书情报技术. 2016, 32(2): 52-58. https://doi.org/10.11925/infotech.1003-3513.2016.02.07

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】实现O2O(Online to Offline)模式下较为客观精准的用户分类, 对不同用户群体制定相应的服务策略。【方法】设计基于潜在类别分析(LCA)的O2O用户分类模型, 使用LCA方法对用户进行分类, 以餐饮团购O2O为例验证LCA方法应用于O2O用户分类的简单高效性。【结果】将用户分为潜力型、忠诚好奇型、谨慎型和挑剔型4类, 针对不同的用户类型, 分析其潜在特征和潜在群体类型, 并据此提出相关营销策略。【局限】对用户特征使用二分类方法, 人为对源数据进行处理, 在进行二分类时分界线的选定具有主观性。【结论】LCA可以实现O2O用户分类及精准营销, 扩展了潜在类别模型的应用范围。

Select

基于《知网》的多种类型文献混合自动分类研究

李湘东,刘康,丁丛,高凡

现代图书情报技术. 2016, 32(2): 59-66. https://doi.org/10.11925/infotech.1003-3513.2016.02.08

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】解决由于不同类型文献而产生的特征不匹配等问题, 提高待分类文本的分类效果。【方法】使用与待分类文本属于不同文献类型的文本作为语料库的训练集, 引入第三方资源《知网》进行语义特征扩展。【结果】利用该方法在网页、图书、非学术性期刊、学术性期刊4种类型文献上进行分类实验, 与未经过扩展的分类方法相比, 分类准确率提高1.2%至11.0%。【局限】未对每一种文献类型都使用公开语料进行测试, 因此本文方法的通用性和实验结果的客观性有待进一步检验。【结论】实验结果表明, 该方法具有一定的可行性和实用性, 在不同程度上可以消除不同类型文献之间的语义差异, 从语料库构建和特征扩展两个途径提高文本自动分类的分类效果。

Select

面向中文图书评论的情感词典构建方法研究

郭顺利,张向先

现代图书情报技术. 2016, 32(2): 67-74. https://doi.org/10.11925/infotech.1003-3513.2016.02.09

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】探讨中文图书评论情感词典构建方法, 以便进行用户图书评论的情感分析。【方法】参照相关研究将用户情感分为7类, 对采集到的语料库进行分词, 结合基础情感词典得到中文图书评论的情感词集, 选取各类情感种子词; 利用改进的SO-PMI算法和同义词词林扩展方法判别词语的情感类别; 以实际的图书评论作为语料进行实验验证。【结果】提出一种中文图书评论的情感词典构建方法, 其平均准确率、平均召回率及F1的均值分别为0.90、0.83和0.85。【局限】语料库小, 样本范围具有一定的局限性。【结论】实验结果表明本文方法具有较高的有效性和可靠性, 能够有效地进行用户图书评论的情感分析。

Select

利用开放语义资源丰富个人名称规范数据——基于FOAF的方案设计

郝嘉树

现代图书情报技术. 2016, 32(2): 75-82. https://doi.org/10.11925/infotech.1003-3513.2016.02.10

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】我国规范数据质量差且维护效率低下, 需探索低成本高效率的信息源获取模式, 丰富个人名称规范数据。【方法】分别从语义资源数量和类型的有效性, 高效维护的评价指标易获取、自动化程度、维护速度和开放资源可信度三个方面论证用语义资源维护名称规范的可行性, 同时以FOAF为例设计实现方案。【结果】制定了获取语义资源的限制条件、接口方式和收割规则策略, 给出发现、整合资源的RDF谓词以及开发包和软件两种实现技术, 设计丰富名称规范数据的自动多重匹配算法和映射表。【局限】只提供实现流程及方案, 没有付诸实施; 语义资源获取后的存储方式、提取处理方法只是框架设计, 没有给出详细的实现技术。【结论】可以将与个人相关的开放语义资源自动匹配, 丰富本地名称规范数据。

Select

基于电子病历利用支持向量机构建疾病预测模型——以重度急性胰腺炎早期预警为例

张晔,张晗,尹玢璨,赵玉虹

现代图书情报技术. 2016, 32(2): 83-89. https://doi.org/10.11925/infotech.1003-3513.2016.02.11

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】为构建疾病预测模型, 以重度急性胰腺炎早期预警为例, 提出一种基于支持向量机的疾病预测模型构建方法。【方法】基于支持向量机LIBSVM3.11, 采用优化后的径向基核函数产生的分类器, 同时结合统计学单因素及多因素Logistic回归分析方法, 进行特征变量选取, 提出一种简单易行的重度急性胰腺炎早期预警模型。【结果】所构建重度急性胰腺炎预警模型准确率达70.37%。最终纳入模型变量包括白细胞计数、血清钙离子、血清脂肪酶、收缩压、舒张压及胸腔积液。【局限】样本量有限, 主要采用支持向量机构建疾病预测模型, 未来可建立系统, 突出临床应用价值。【结论】支持向量机可构建疾病预测的最优模型, 进一步建立系统, 辅助临床决策。

Select

基于地理坐标的微博事件检测与分析

李进华,安仲杰

现代图书情报技术. 2016, 32(2): 90-101. https://doi.org/10.11925/infotech.1003-3513.2016.02.12

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】利用数据挖掘算法, 从海量繁杂的微博数据中检测出有价值的事件信息。【方法】针对国内具有代表性的微博网站, 通过使用微博网络开放接口高效收集带有地理坐标的微博数据。使用K-means、KNN和决策树三种数据挖掘算法, 根据微博数据的发布数、转发数、评论数、用户活跃度和移动强度5个指标构建微博的地理规律性特征。将日常地区性的微博数据特征与该地区微博特征的地理规律性进行比较, 从而检测出该区域是否有事件发生。【结果】以2015年4月15日、16日的微博数据作为测试语料, 使用文中提出的微博事件检测框架, 成功检测到“北京沙尘暴”事件。【局限】在抽取微博地理规律性特征时, 采用的样本数据偏少, 一定程度上影响了事件检测框架的效果。【结论】基于地理坐标的微博事件检测框架是切实有效的, 分析出的事件信息不仅可以帮助用户获取感兴趣的事件资讯, 而且可以协助政府部门进行舆情管控和行政决策。

Select

基于位置感知的图书馆主动信息服务系统设计

邓志文,都平平,穆亚凤

现代图书情报技术. 2016, 32(2): 102-110. https://doi.org/10.11925/infotech.1003-3513.2016.02.13

摘要 ( ) PDF全文 ( ) HTML ( )

可视化

【目的】建设具有位置感知的智慧型图书馆, 为读者提供即时信息服务。【应用背景】读者在图书馆的不同位置对服务的要求不一样, 同时在同一位置不同类型读者对服务的期望也不同, 系统要能够预测读者即时需求并提供主动服务。【方法】设计一种基于位置感知的主动信息差异服务系统体系框架, 采用WiFi和GPS定位技术实现对读者的无缝位置感知, 并根据读者角色分类生成差异信息实时推送给读者。【结果】读者通过安装APP端能在图书馆不同位置得到不同的服务信息。【结论】位置服务为图书馆预测用户即时需求, 改善用户体验提供了一种有效途径。

选择文件类型/文献管理软件名称

选择包含的内容

2016年, 第32卷, 第2期　
刊出日期：2016-02-25

模态框（Modal）标题

选择文件类型/文献管理软件名称

选择包含的内容

检索词推荐：

2016年, 第32卷, 第2期 刊出日期：2016-02-25

2016年, 第32卷, 第2期　
刊出日期：2016-02-25