[目的]探究社群类型和任务难度对协同信息检索行为的影响.[方法]基于模拟实验, 采用问卷调查法、Web日志收集法和访谈法采集数据, 使用统计分析法和内容分析法分析数据.[结果]社群类型方面, 社群比非社群在协同信息检索中有更多的推荐行为; 在检索式构造上不依赖于检索系统; 协作方式更为多样化; 对任务相关知识的认知方面具有明显优势.但是, 专业社群与兴趣社群之间几乎在任何方面都没有显著差异.任务难度差异仅体现在直接输入检索式的方式上, 对是否能完成任务的信心具有较大影响.[局限]实验研究的是现实社群, 还应加强对虚拟社群以及其他类型社群的研究.[结论]社群类型和任务难度对协同信息检索行为在不同方面产生了不同程度的影响, 社群因素的影响比任务因素的影响大.社群与非社群的协同信息检索行为差异较大, 但专业社群与兴趣社群则差异不显著.
[目的]对网络用户行为的有关数据进行统计、分析, 为进一步提高搜索引擎的性能提供依据.[方法]分析用户搜索词特点; 对搜索引擎返回用户搜索结果进行分析; 借用熵的概念, 对用户的点击情况进行量化分析.[结果]在所有用户记录中, 无空格搜索占93.66%, 其中83.59%的用户使用较长搜索词串; 用户确定性点击达到64.26%; 71.26%的用户查看了前三个返回结果.[局限]搜索用户的规模在一定程度上影响分析结果.[结论]实验结果表明, 用户点击的可靠性与确定性密切相关, 搜索引擎对较长搜索词的关键词定位存在一定缺陷.
[目的]对常用的Altmetrics工具进行比较, 分析各自的优势与不足.[应用背景]Altmetrics是一种基于社会网络的学术影响力评价方法, 该方法利用Altmetrics工具即时收集多样化学术成果在社交网络中的关注度, 评价研究成果的影响力.[方法]通过查阅相关文献, 分别从评价策略、涵盖数据源、评价指标、数据收集发布等方面对4种国外常用的Altmetrics工具进行分析和比较.[结果]发现4种工具面向不同用户群体, 不同工具在支持评价对象、选择底层数据、选定评价指标等方面都有所不同, 用户需根据自身需求选择相应工具.[结论]有助于研究人员了解Altmetrics工具, 对其发展过程中面临的问题提出建议, 为相关学者利用Altmetrics指标进行研究提供参考.
[目的]因用户可应用的云服务数量呈指数级增长, 进而产生云服务发现和选择相关问题.[方法]语义检索技术采取信息检索、语义分析和信息融合等方法提高云服务检索效率, 并结合本体技术保持检索内容的准确性和一致性, 实现用户基于关键词发现和选择云服务.[结果]实现对云服务的语义表示和标注, 根据标注结果进行术语抽取, 采用向量值创建语义索引, 利用语义搜索引擎计算索引与关键字之间的相似度, 得出关键字与文本之间的相似度.[局限]语义检索系统中部分模块涉及的相关算法仍有待深入研究, 本文从整体性研究语义检索系统, 各模块仅应用基本算法, 没有涉及算法改良.[结论]经过实证评估分析, 本体技术应用于语义检索系统能够有效提高云服务检索精准度, 特别适用于非结构化信息检索, 但需要保持本体与语义变化的一致性.
[目的]对获取的双语语料进行分类, 对分类后的双语语料进行句子对齐处理, 生成领域平行语料.[方法]利用基于SVM算法的文本分类器对获取的中英双语语料进行分类.使用长度法和词汇法相结合的句子对齐工具对分类后的语料进行句子对齐工作, 为提高句子对齐的正确率, 利用人工对齐的中英平行语料计算中英文句子长度参数, 结合中英双语词典, 获取高质量的专业领域平行语料.[结果]使用该方法, 对每个领域语料进行句子对齐后, 取得95.45%的句子对齐正确率.计算得到的句子平均长度比为1.7777, 方差为1.2640.[局限]由于双语语料的初始对齐程度比较好, 因此句子对齐正确率可能不具有普遍代表性.[结论]从实验结果看, 该方法是有效的, 能够获取质量令人满意的领域平行语料.
[目的]面向在线商品评论, 通过探索"产品特征-观点"对应关系的识别方法, 抽取商品特征标签, 凝练评论精华.在网络资讯良莠混杂的环境下, 帮助用户有效获得有价值的资讯.[方法]引入依存语法关系, 对评论模板实现自动分类、过滤、泛化并形成模板库.基于模板库和外部词典提取特征标签, 同时确立候选标签的筛选过滤机制.[结果]面向真实的网络评论集, 本文方法的性能优于单纯过滤与泛化的抽取方法.F值最优达到56.5%, 调整参数后, 准确率达到65%.[局限]需要在特征抽取前依据评论语句质量进行前期过滤, 考虑特征词库的自动化获取, 在模板形成过程中, 还需添加更多的句法关系, 进一步提高特征标签的抽取准确度.[结论]单纯依据句法模板频率进行模板过滤的方法有提升空间.特征抽取过程考虑模板的长度特征, 设定抽取窗口, 对特征标签进行筛选、合并特征能获取更好的抽取结果.
[目的]从多角度对中外自然语言处理的发展进行对比分析.[方法]对5 582篇来自CNKI、10 348篇来自Web of Science、5 573篇来自与自然语言处理相关的重大国际会议文献, 采用词频统计法、共现分析法相结合的方法, 利用知识图谱呈现统计结果.[结果]统计结果表明, 中外对自然语言处理的研究表现出极大的相似性, 研究内容都集中在信息抽取、人工智能、信息检索、机器翻译、机器学习等领域.[局限]检索主题词的选取、数据清洗时的主观性给研究带来误差.[结论]对国内自然语言处理的发展提出建议.
[目的]实现各种情报分析工具和流程的有效整合.[应用背景]复杂、复合的情报分析工作往往需要利用分布、异构的多种分析工具和数据资源, 需要建立可靠和灵活的机制实现这些工具的无缝集成.[方法]研究基于OSGi的情报分析服务整体架构, 设计插件服务的模型与插件服务的配置方案, 制定插件服务的集成机制.[结果]实现模块化、动态化管理多个情报工具的世界科技态势监测分析服务平台.[结论]基于OSGi的科技情报分析集成服务框架, 可灵活支持科技情报分析服务需求, 同时对第三方情报分析工具以及情报分析算法的封装与集成提供了技术支持.
[目的]人名在搜索日志中大量存在, 搜索日志中人名识别研究有助于提高搜索引擎的检索效果.[方法]提出一种搜索日志中识别中文人名的方法, 首先分析日志中人名的内部组成结构以及外部上下文信息, 提取7个特征, 选用合适的特征模板, 应用条件随机场模型初步识别人名.然后针对CRFs未能识别的人名其所在查询串字间组合共现频次较低的规律, 设计贝叶斯条件概率计算公式筛选更多的人名.[结果]在搜狗日志中进行实验, 开放测试结果准确率达到95%, F值达到91%.[局限]需要人工标注一定规模的训练语料.[结论]实验结果表明, 该方法对于搜索日志中的人名识别是行之有效的.
[目的]研究考虑次近邻影响的微博舆论观点演化模型.[方法]采用有向BA无标度网络模拟微博用户关系网络, 设计近邻和次近邻影响下的用户观点演化规则.通过实验仿真有无次近邻影响下、不同评论概率和转发概率下的微博舆论观点演化过程.[结果]考虑到次近邻对观点演化过程的影响, 会缩短微博用户达成共识所用的时间.评论行为会延长微博舆论观点演化的弛豫时间, 而转发行为则会缩短微博舆论观点演化的弛豫时间.[局限]本模型重点突出考虑次近邻对微博舆论观点演化的影响, 未能考虑到社会环境等其他影响因素.[结论]考虑次近邻影响的微博舆论观点演化模型可以更为真实地刻画微博舆论观点的演化过程, 仿真结果揭示出微博具有短时间内聚集民意的作用, 极易造成舆论压力.
[目的]通过图书馆微信公众号向读者及馆员实时地通报馆情.[应用背景]读者在入馆之前很难了解馆情, 馆员的资源维护任务日益繁重, 而微信深受读者的关注, 成为通报馆情的重要渠道.[方法]利用微信公众平台提供的接口, 连接图书馆的各类业务系统与平台, 结合模拟HTTP请求、读者身份鉴权、定时发送消息等技术和方法, 将各类馆情发送给读者和管理员.[结果]实现了读者点击菜单返回馆情消息、点击消息链接返回数据统计与分析详情页面、回复查询命令字检测网络资源的可用性状态等功能.[结论]馆情通报服务能够方便读者实时地了解馆情, 提升图书馆管理与服务绩效与质量.
[目的]通过探索关键词-分类号的对应关系, 为对照系统的建立打下基础.[应用背景]辅助不熟悉分类号的论文作者进行论文标引, 同时协助用户结合关键词和分类号完成更精确的检索.[方法]对构建的关键词-分类号矩阵进行奇异值分解, 得到关键词、分类号的三维语义坐标, 再根据查询提问式的向量表示与分类号坐标进行相关度计算并降序排序.[结果]相比单个、三个及三个以上关键词, 两个关键词与分类号的对应关系有较好效果.在100对包含两个关键词的词组中, 有91对能够确定至少一个相关的分类号, 准确率达到91%.[结论]两个关键词与分类号的对应关系结果较为理想, 为构建对照系统打下良好基础.
[目的]解决微信公众平台与图书馆业务系统及移动图书馆的整合问题.[应用背景]单一业务服务系统受众人数有限, 开放性不足, 信息推送服务形式不能满足读者的需求.[方法]利用微信公众平台丰富的API接口, 使用Java语言, 实现微信公众平台与图书馆业务系统及移动图书馆的数据集成.[结果]实现西安交通大学图书馆微信服务平台图文推送、快讯浏览、搜索整合、读者身份绑定、读者借阅信息查询、建议意见实时解答等服务.[结论]丰富微信平台的资源和功能, 提高读者访问量.