【目的】通过研究《现代图书情报技术》近10年的发文特征, 分析其特点与发展趋势, 为今后发展提供建议。【方法】分别检索《现代图书情报技术》以及CNKI、万方、WOS数据库中相似期刊近10年的文献, 比较发文的外部特征和内部特征。【结果】与其他期刊相比, 《现代图书情报技术》具有明显的特点, 所发的技术方法类研究论文对图书情报领域的支持作用显著。【局限】仅根据关键词计算出主题, 没有以文献全文为依据。【结论】在信息技术驱动的研究热潮下, 《现代图书情报技术》应该保持自身特点, 抓住现有机会, 在图书情报技术研究领域保持优势, 推动图书情报技术研究与应用的发展。
【目的】探讨目前针对书目、题录信息以及新闻网页、博客等新兴媒体开展的数字文本自动分类研究中存在的主要问题和可能的解决方向。【文献范围】基于机器学习方法的自动分类研究领域中, 关于特征语义转换、特征扩展和加权策略等方面的主要研究成果及相关文献。【方法】按照主要研究、关键技术、现有成果水平和今后发展方向等方面进行分析归纳。【结果】针对特征语义转换、特征扩展和加权策略等研究领域, 分析问题的现象和原因, 指出当前研究在文本语义表示、各种知识库的利用等方面存在的不足。【局限】没有涉及分类过程中分类算法等其他比较成熟的研究领域。【结论】今后可以从向量空间模型与概率主题模型相结合、利用各种外部知识库并提高概念相似度计算能力、结合多种加权策略构建复合加权表示模型等方向开展分类研究, 以提高数字文本自动分类的性能。
【目的】探讨协同创新环境下知识型团队的交互对团队绩效的影响。【方法】采用多智能体建模仿真方法, 从知识管理微观层面构建知识供需系统, 将时间成本和资金成本作为工作绩效的评价指标, 基于Python NetworkX实现该系统。【结果】大规模的组织在降低创新成本上比小规模的组织有优势; 无标度结构的组织完成任务耗时长并且成本高; 组织中个体的连接邻域数增加并没有单调地提升组织的创新效率, 当平均领域数超过某个阈值后创新成本开始增加。【局限】未考虑人与人之间的互动在协同创新中的优化设置。【结论】基于多智能体建模的知识供需系统从微观层面对知识型团队的知识整合过程进行模拟, 有助于认识团队内部知识的管理, 为组织提升知识利用效率, 降低创新成本提供新的视角。
【目的】利用分布式语义关联计算词衔接关系, 解决目前词汇链构建时存在的词间关系探测深度不够等问题, 提高词汇链构建质量。【方法】对词汇链构建的技术方法进行归纳, 利用WordNet词典关系来计算文本中语言单元的语义关联, 利用分布式记忆模型来计算语言单元之间的潜在语义关系, 将这两种语义关系结合起来实现词汇链文本表示模型的构建。同时在理论研究的基础之上选择医学领域科技论文进行对比实验。【结果】在文本主题描述方面, 本文方法的词汇链构建结果要优于非贪婪算法, 算法耗时与非贪婪算法相当。【局限】算法耗时较长; 没有完整考虑词衔接关系; 只在对医学领域科技文献的主题识别中验证了该方法的有效性, 还需要在更多领域进行证明。【结论】分布式语义关联可以识别潜在语义, 对使用多元短语构建词汇链也有较大的帮助, 能有效地增强词汇链构建效果。
【目的】有效确定科技情报分析中LDA主题模型的最优主题数目。【方法】利用主题相似度度量潜在主题之间的差异, 同时结合困惑度提出一种确定LDA最优主题数目的方法, 该方法既考虑主题抽取效果同时也考虑模型对新文档的泛化能力。【结果】获取国内新能源领域的科技文献作为数据集, 实证结果表明本文提出的最优LDA主题数确定方法与单纯使用困惑度相比, 具有更高的主题抽取查准率(91.67%)、F值(86.27%)及科技文献推荐精度(71.25%)。【局限】未针对其他类型的数据集进行新方法的验证, 如微博短文本、XML文档等。【结论】本文方法能够有效地从科技文献数据集中抽取辨识度较高的主题, 并能够提高科技文献推荐效果。
【目的】探测Web2.0时代下, 不同类型旅行者对不同档次酒店提供的产品或服务的偏好差异。【方法】将酒店划分为豪华型酒店和经济型酒店, 将旅行者划分为5种旅行类型, 分析不同旅行者对豪华型酒店和经济型酒店的评分模式, 并借助结构主题模型(Structure Topic Model, STM)对酒店在线评论文本进行细致分析, 挖掘在线评论话题, 分析各个旅行类型的旅行者对不同档次酒店提供的服务偏好差异。【结果】实验结果表明: 5种旅行类型下, 旅行者对豪华型酒店的平均评分均高于对经济型酒店的平均评分; 各类旅行者, 对不同档次酒店所提供的产品或服务存在偏好差异。【局限】实验数据不够充分; 忽略了诸如性别、年龄等因素对在线评论的数值评分和文本内容的影响。【结论】分析不同类型旅行者对不同档次酒店的偏好差异, 有助于酒店管理者制定服务供应策略, 有助于消费者制定购买决策。
【目的】通过对社交网站平台用户行为的分析, 发现社会化小众群体中的核心用户, 为社会化资源推荐服务提供参考。【方法】收集豆瓣读书用户的1 208个标签, 对排名前100位的标签建立标签共现矩阵, 分析用户的K-核网络结构, 研究用户的K-核塌缩序列的波动情况。【结果】与度数中心度、最小K-核深度值等方法相比, 基于K-核塌缩序列方法发现了新的社会化小众群体中的核心用户。【局限】样本数据规模较小且局限于某领域, 排序问题不能得到很好的解决, 需要进一步改进K-核分析方法。【结论】本研究有利于社交网站平台的管理者制定或改进新的资源推荐策略, 从而促进社交网站平台更好地发展。
【目的】改进基于用户的协同过滤算法以缓解因数据稀疏、用户共同评分稀少所导致的问题, 进而提高评分预测的精度。【方法】提出结合用户打分时间发现具有相似打分行为的用户, 并将用户评分方差相似性融入到相似度的计算中, 使得目标用户在最近邻的选取上更加合理。【结果】实验结果表明, 相较基于用户的协同过滤算法, 新算法的平均绝对误差降低约2%, 在一定程度上改善了推荐系统的推荐效果。【局限】该算法仅在MovieLens数据集上进行了实验测试, 还需要在其他数据集上进行检验。【结论】本文算法能够有效地提高推荐精度, 具有一定的可行性和现实意义。
【目的】解决传统数字文献资源内容服务推荐中无法充分挖掘资源语义信息等问题。【方法】通过设定本体推理规则对用户查询关键词进行语义扩展, 提出一种新的语义相似度计算方法计算文献资源内容相似度。按照相似度大小对搜索结果进行排序, 将排名较高的文献推荐给目标用户。【结果】实验结果证明, 该方法能够较准确地计算语义相似度, 并能够对用户需求进行有效推荐。【局限】缺少对数字资源的大规模采集, 实验案例较少。【结论】该方法充分挖掘数字文献资源的语义信息并进行有效推荐, 为数字资源内容服务推荐提供一种新思路。
【目的】利用Word2Vec深度学习技术从面向大众的健康信息中寻找疾病关联, 解决非医学人士通常不了解多种疾病之间存在的关联, 从而影响到健康信息搜寻中的全面性和有效性的问题。【方法】由专家选取30个常见疾病主题, 从高质量医学新闻网站上采集对应疾病的文档, 运用Word2Vec技术对各疾病的相关文档构造词向量, 计算向量距离判断疾病关联。通过与专家评分的相关分析衡量判断结果的准确性。【结果】最优情况下, Word2Vec得到的结果与专家评分相关系数达到0.635。通过对比不同的算法模型、优化方法、数据规模及重要参数对结果的影响, 发现Skip-Gram模型结合负样本数为20的Negative Sampling优化方法在大规模数据集上的实验结果最优。【局限】疾病主题选取宽泛时, 影响Word2Vec判断准确性, 本文的疾病主题选取粒度有待改善。【结论】利用Word2Vec技术在面向大众的健康信息源中也可以探测疾病关联, 其有效性表明该技术可用于改善大众的健康信息搜寻的个性化服务。
【目的】实现年鉴指标数据的结构化存储, 完成年鉴数据的更新录入。【应用背景】年鉴预处理平台是将年鉴数据统一整理、审核、上传的C/S工具平台, 采用VC++为主要编程语言, 为年鉴数据库建设提供数据基础。【方法】双向模式匹配处理是在WM模式算法基础上进行改进, 利用分词技术对录入指标进行信息元提取、采用存储过程实现模式集合的筛减、信息双向匹配保证匹配的准确高效。【结果】通过对实验数据录入的匹配结果进行分析, 发现双向模式匹配有较高指标匹配率和正确率。【结论】双向匹配算法能满足年鉴录入的需求, 提高了年鉴数据预处理工作的效率。
【目的】创建基于移动校园平台的移动图书馆应用, 使读者能够便捷地获取图书馆的信息和服务, 进而拓展图书馆服务渠道。【应用背景】随着智慧校园建设的深入, 各高校纷纷建设移动校园平台, 为图书馆拓展服务渠道带来新的契机, 然而却鲜有高校涉足此领域。【方法】通过对现有图书馆业务系统开放接口、接口扩展的方法, 向移动图书馆用户提供相关业务的查询与办理, 并借助微哨的平台化功能、API接口, 提供完善的移动图书馆服务。【结果】开发基于微哨平台的移动图书馆微门户, 实现用户身份验证、资源检索、我的图书馆、信息展示、信息推送等功能。【结论】基于微哨的移动校园平台构建移动图书馆, 符合当前高校移动校园建设的趋势, 可被广泛应用。