【目的】对商品检索中的购物任务进行识别, 并对多任务会话行为特征进行分析。【方法】利用淘宝商品分类体系以及自建的商品词表, 根据商品检索的检索式进行购物任务识别, 数据集为2 754个用户的19 704个检索会话。【结果】影响每个购物任务所用检索式数的因素包括商品分面、数量的多少以及描述难易程度; 有主要任务和次要任务之分的多任务会话中, 任务之间的关系更为紧密。【局限】购物任务识别方法有待完善, 只以检索式作为研究对象无法全面反映用户行为特征。【结论】本研究可以帮助理解购物中的商品检索行为, 并为设计更好的商品推荐算法、预测用户购物过程、行为等提供依据。
【目的】通过对语义社会网络的建模, 讨论如何识别对舆论传播演化起核心作用的关键节点。【方法】引入超网络理论对微博语义社会网络进行理论建模, 使用情感本体以及LDA话题模型对数据实现节点量化, 提出超边排序算法对用户节点进行计算和排序从而获取关键节点。【结果】利用真实微博网络数据编程实现超网络模型的构建和量化, 通过结果分析证明本文的关键节点识别方法在实际应用场景中的有效性和准确性。【局限】关键节点识别方法的实时应用效果和对识别关键节点后如何有效引导和干预机制未能全面涉及。【结论】本文的关键节点识别方法能够挖掘出微博网络的关键节点, 为政府对网络舆情监管和引导提供一种解决方案, 减少负面内容和消极舆论对互联网健康发展的影响。
【目的】探索微博用户标签与其发布微博主题之间的潜在关系, 为微博类应用平台的主题发现以及用户标签自动推荐服务提供参考。【方法】利用爬虫程序抓取“自然语言处理”领域新浪微博用户信息及微博, 对抓取的微博内容进行分词并对用户标签进行语义扩充, 运用编辑距离算法将标签集与用户的微博内容进行匹配。【结果】对匹配结果进行抽样分析, 发现新浪微博平台上, 学术领域微博用户标签和用户所发微博内容具有一定的相关度。【局限】仅对学术领域和新浪微博进行相关研究, 研究领域和应用平台有待进一步扩展。【结论】微博标签推荐系统可以将用户微博内容作为标签推荐的重要数据来源, 为用户提供更有针对性的个性化标签; 同时, 在对微博内容进行主题抽取和分析时, 可以借助微博用户标签优化分析结果。
【目的】利用维基百科知识库生成自由文本的层次语义路径。【方法】针对维基百科的中文导出数据, 构建层次结构的树状图; 进而通过显性语义分析将自由文本表示为文章概念向量, 通过文章-类别关联关系将文本映射到树状图中构成种子类别节点, 再通过种子节点开始的信息扩散和自顶向下的路径选择与优化, 生成层次路径。【结果】首条层次路径的平均相关度在测试集上达到54.10%, 前20条路径整体上按相关度降序排序。【局限】未分析显性概念向量在保留不同概念数量时对生成路径质量的影响。【结论】基于维基百科知识库所生成的层次路径结果能够反映文本的主要语义信息。
【目的】探索基于两种相似度矩阵的专利引文耦合分析方法以识别研究前沿。【方法】基于原始观测值和余弦距离两种相似度算法, 建立专利相似度矩阵, 利用社会网络分析得到研究前沿簇, 并进行簇类命名, 从而得到研究前沿。并利用Innography数据库的脑机接口领域专利对以上方法进行案例研究。【结果】发现两种相似度矩阵中, 基于原始观测值算法得到6个研究前沿簇, 涉及6类BCI研究内容; 基于余弦距离算法得到9个研究前沿簇, 涉及8类BCI研究内容, 两者的FID重合率均为43%。【局限】本文侧重于两种算法的结果, 即研究前沿数量、重合度和内容进行比较, 缺少对于算法本身特性的比较。【结论】基于这两种相似度算法的引文耦合法均可识别出领域的研究前沿, 余弦距离相似度算法能识别出更多数量的研究前沿, 且比基于原始观测值相似度算法的识别结果更全面。
【目的】利用关联数据的机器可读、语义表示、关联描述和网络资源属性的优势, 弥补学术资源网信息组织的不足, 为相似文献发现提供支持。【方法】采用潜在语义分析方法计算学术资源网发布的文献的总体相似度, 通过层次聚类方法确定相似度阈值进行相似度筛选, 生成文档关系矩阵, 在此基础上利用动态文档技术构造学术资源网关联数据以支持关联文献语义检索。【结果】初步实现具有相似文献查询功能的学术资源网关联数据, 用于便捷地获得与任何一篇文献高度相关的文献, 有助于高效地发现相似文献。【局限】仅从统计学角度实现学术资源网中相似文献的发现, 对于利用文档集知识体系、语义内涵和组织方式等进行深度的相似文献发现有待进一步研究。【结论】潜在语义分析方法计算文献相似度可有效发现相似文档, 将相似文献关联记录在关联数据中, 支持语义检索获得精确的相似文献, 并能够大幅缩减实时相似性计算的延迟。
【目的】通过对电子病历中重要文本进行语义分析, 提取辅助临床治疗方案选择的决策知识, 实现电子病历的临床决策支持功能。【方法】使用词典和统计相结合的分词算法, 对训练样本中出院记录文本进行分词处理, 从中提取临床术语及治疗方案, 并对其进行潜在语义分析, 找出临床术语与治疗方案之间的潜在语义联系, 建立胃癌治疗方案辅助选择的潜在语义模型。【结果】利用测试样本对语义模型进行测试, 在三维语义空间内, 发现1 000份测试样本中有605份可以从临床症状的描述准确地推算出其所对应的治疗方案, 正确率为60.5%。【局限】仅以出院记录文本为研究对象, 没有对其他病历文本进行分词处理。【结论】潜在语义分析方法能够有效地处理临床文本, 辅助医生的临床决策, 对于电子病历的开发应用具有重要意义。
【目的】利用互动问答社区——百度知道的知识共享、更新及时的优势, 弥补维护大规模地理隶属关系资源库开销大的不足, 并通过百度知道自动补全缺陷地理位置实体。【方法】对缺陷地理位置实体转化为所属区域问题, 并通过百度知道进行检索; 根据检索结果提取特征, 计算该地理位置实体属于各个区域的得分, 并构建缺陷地理位置实体的所属区域特征向量; 利用规则对缺陷地理位置实体进行完整化处理, 实现地理位置实体完整性表示。【结果】在完整化微博城市投诉文本中的缺陷地理位置实体时, 该方法的综合精确率达到92.51%。【局限】对零地理位置实体无法完整表示。【结论】该方法对缺陷地理位置实体完整化是有效的、可行的。
【目的】识别论文标题中的研究对象属性实例, 试图利用少量标注样本, 最大限度地提高研究对象识别的准确率。【方法】分析科技文献中研究对象的语法特征, 利用少量样本基于条件随机场序列标注算法, 对研究对象进行识别和抽取, 并引入基于未标注数据的主动学习的迭代标引体系, 提高研究对象识别的准确率。【结果】能够高效利用未标注数据, 并最大限度地提高研究对象识别的准确率, 标注准确率达到78.3%。【局限】算法运行效率有待进一步优化。【结论】对科技文献中研究对象属性实例具有较好的识别效果, 为进一步挖掘科技文献中的知识体系和结构打下基础。
【目的】研究建立网络外包环境下的任务知识需求模型构建方法。【应用背景】将任务所需的知识模型构建方法应用于网络外包平台中, 为任务和人才的在线匹配进行服务。【方法】设计专家系统框架, 构建任务的描述模型, 进而分别基于推理规则和文本分析技术对任务进行解析, 以量化方式获取任务的知识需求。【结果】通过案例验证该系统框架的建模方法具有良好的效果, 能够准确地获取网络外包任务的知识需求模型。【结论】本研究设计的任务知识需求建模方法能够为网络外包的任务和人才匹配打下基础。
【目的】针对科研团队中分散的科研数据缺乏有效存储、管理, 无法复用的问题, 研发专门的数据知识库管理系统TeamDR。【应用背景】TeamDR是支撑课题组等科研团队用户完成科研数据组织、存储、管理及协作共享的便捷Web应用工具; 它采用Java为主要编程语言, 提供注册即可用的云服务版和本地安装版两个版本。【方法】针对科研多数据类型组织管理问题, 设计动态元数据内容模板, 同时为保证数据存储容量的可伸缩性、查询性能达到较高水平, 采用MongoDB作为存储设计。【结果】TeamDR实现了科研团队数据存储与管理方面的重要功能: 如动态元数据模板、分级共享控制、元数据全文检索等, 试用反馈表明它满足了用户在数据存储管理方面的迫切需求。【结论】TeamDR系统可以有效解决团队科研数据存储与管理、共享与协作、发现与关联方面的迫切基本需求。但在功能便捷性、完备性、扩展性方面存在进一步加强的空间。
【目的】促进高校图书馆数字资源的合理建设、科学管理和高效利用。【应用背景】IPv6的推广和万兆校园网的普及给网络数据采集造成困难。【方法】提出一种网络设备端口镜像设计方法, 在数字资源利用分析系统采集数据前进行IPv4及IPv6网络数据过滤。【结果】实际部署一个支持IPv4/IPv6双栈及万兆网络的数字资源利用分析系统。【结论】使图书馆数字资源利用分析系统适应双栈高速的校园网网络环境。
【目的】促成微信线上读者与线下图书馆之间的闭环, 优化线下图书馆用户体验, 提升图书馆服务效率。【应用背景】图书馆近场服务主要基于传统的电子展板展示、人体解说等实体服务, 几乎没有基于线上的引导资源。【方法】以微信为平台, 结合蓝牙硬件设备iBeacon以及HTML5页面, 实现北京市委党校图书馆近场服务的设计与开发。【结果】实现不同服务场景提供不同近场服务, 读者参与度与满意度较高, 并且大大提高图书馆微信公众号的关注度。【结论】近场服务给读者带来全新的用户体验, 读者更有意愿主动了解图书馆的相关资源并与之互动。