[目的]了解中国用户对arXiv预印本平台的认知、使用情况以及对arXiv发展的意见建议。[方法]基于国内9家高校及科研机构的教师、研究人员和研究生群体的问卷调查,获得510份调查数据,并运用SPSS等分析工具对调查数据进行分析。[结果]结果表明,中国科研人员对arXiv的认知程度还不是很高,但熟悉arXiv的中国科研人员已认识到在arXiv上发布论文是占据成果首发权和征求同行意见的重要手段。[局限]在调查取样上仅限于中国arXiv服务工作组的成员单位,非成员单位的arXiv用户没有纳入。[结论]为了让arXiv能够更多地惠及中国科研、中国arXiv服务工作组需要采取更为积极的行动、加快推动arXiv在中国更广泛深入的应用。
[目的]通过科技知识组织体系共享服务平台的服务接口建设,有效帮助我国科技信息服务行业实现标引的语义化规范化流程、语义检索与浏览、知识关联与推理发现等服务。[应用背景]采用标准的接口规范构建开放接口是实现科技知识组织体系STKOS对外服务的重要途径之一。[方法]基于科技知识组织体系STKOS引擎API,提出开放查询和推理接口模块化设计方案和接口规范设计。[结果]在接口实现的基础上,通过各类接口方法集的模块化组合调用实现分类聚类、资源标引、智能检索三种典型的应用场景。[结论]通过对STKO S开放查询和推理接口的应用、达到利用科技知识组织体系提升第三方信息系统知识服务能力的目标。
[目的]研究中图法与DDC类目自动映射的问题,通过实现两者的互操作以达到集成检索、浏览和下载跨语言、跨地区的信息资源的目的。[方法]基于人工匹配映射的数据,研究基于特征集、类目匹配规则、类目关系、书目记录的语义匹配算法。[结果]实验证明,将近80%的类目与人工映射结果的数据相同,一定程度上提高了自动映射的准确性。[局限]仅基于人工映射经验提出基于特征同集的类目相似度计算,尚未实现语义层面的精确计算。实验数据局限在理学类目领域,未对其他领域的类目特征详细研究。[结论]综合考虑类目的含义受类名、类目注释、主题同、上下位关系等多种因素影响而提出的自动映射算法,相比当前主要考虑单一方面的要素而言,具有客观性和全面性。
[目的]调整训练集分布的不均衡性,以提高科学分类体系下数字资源文本的分类性能。[方法]提出基于粒划分和LDA相结合的新方法B-LDA,首先根据划分准则对训练集进行分割,实现粒度空间的转换,然后采用概率主题模型(LDA)对文本建模,利用类全局语义信息生成新文本,从而使训练集达到分布均衡。[结果]仿真实验结果表明:随着特征项数的变化,在不同偏斜程度训练集上F1值有2.7%至9.9%不等的提升。[局限]由于语料库规模的限制,构造训练集进行实验时,只涉及部分偏斜情况;此外,实验随机选取的两个类别的可分性会对新方法的分类性能造成影响。[结论]该方法可有效提高以图书书目信息、期刊题录信息、网页等数字资源为文本内容的分布偏斜训练集的分类性能。
[目的]通过在小样本量下基于机器学习算法实现文摘语句的自动分类,以此实现学术文摘结构的自动识别。[方法]设计多种学术文摘的文本表示特征,利用自然语言处理技术实现特征的自动提取,以此指导朴素贝叶斯、支持向量机模型进行训练,并利用训练模型自动识别文摘结构。[结果]实验证明该方法较之于同类方法能够在较少训练语料下实现较好的识别准确率。[局限]由于文摘中“方法”类别语句缺乏固定的类别特征同与核心动同,导致算法对该类别语句识别准确率较低。[结论]所提方法是一种小样本量情况下行之有效的学术文摘结构自动识别方法。
[目的]通过将单一文档内部的结构信息和文档整体的主题信息融合到一起进行关键同抽取。[方法]利用LDA对文档集进行主题建模和候选关键同的主题影响力计算,进而对TextRank算法进行改进,将候选关键同的重要性按照主题影响力和邻接关系进行非均匀传递,并构建新的概率转移矩阵用于同图迭代计算和关键同抽取。[结果]实现LDA与TextRank的有效融合,当数据集呈现较强的主题分布时,可以显著改善关键同抽取效果。[局限]融合方法需要进行代价较高的多文档主题分析。[结论]关键同既与文档本身相关,也与文档所在的文档集合相关、二者结合是改进关键同抽取结果的有效途径。
[目的]在伪相关反馈过程中,利用主题标引对查询结果进行重排序。[方法]借助语言模型方法,挖掘主题同与用户查询关系,将用户查询表达为主题同的概率分布,并建立主题同语言模型,进而判断主题同在文档中的权重。在此基础上,重新计算初次查询结果文档分值,进行查询重排序。[结果]本文方法能够较好地为主题同建立语言模型表示,挖掘得到主题同在文档中的权重,重排序结果相较于初次检索具有普遍性能提升。[局限]未比较挖掘主题同与文档关系的不同方法;未在不同规模、不同语言数据集中实验。[结论]挖掘主题同与用户查询关系、主题同与文档关系、进行查询重排序、能够提升查询精确度。
[目的]基于自组织映射与径向基函数神经网络对协同过滤推荐方法进行改进,提高推荐质量。[应用背景]针对协同过滤推荐方法存在的稀疏性问题,利用神经网络对缺失评价数据进行预测补值,在此基础上提出一种新的提高推荐精度的解决思路。[方法]基于稀疏用户评分矩阵,应用自组织映射神经网络对相似用户进行预聚类,利用同一聚类簇内用户的相似性进一步应用径向基函数对稀疏的用户评分矩阵进行补值处理,得到消除稀疏性后的完全评价矩阵,最后基于完全评价矩阵应用协同过滤技术实施推荐。[结果]通过平均绝对误差与F-Measure两个指标进行实验评价,结果表明该方法与其他主流推荐方法相比,无论在推荐精度还是推荐相关性上都更为有效。[局限]本文提出的方法仅在MovieLens公开数据集上进行实验测试,还需在其他数据集上进一步检验。[结论]在一定程度上解决了协同过滤推荐存在的稀疏性问题,同时对冷启动与可扩展性问题的解决具有较好的指导意义。
[目的]探索Folksonomy中标签语义距离的可视化及测度,为进一步研究优化关联标签导航算法奠定基础。[应用背景]针对语义距离可视化方法弱化关联标签导航行为中主题漂移,提高BibSonomy等Folksonomy网站知识服务表现。[方法]以BibSonomy网站真实数据为研究对象,设计测试标签集筛选及语义距离测量算法,借助有值图谱将最终结果可视化。[结果]测试标签集中存在近语义标签和远语义标签之分,并且影响着关联标签导航行为中主题漂移程度。[结论]语义可视化能帮助用户直观地区分关联标签集的语义属性,提高标签导航表现。
[目的]为了更好地分析大众标注的语义关系,以层次可视化的方式增强用户感知。[应用背景]大众标注可以从普通用户的角度很好地反映网络资源的意义。层次信息可视化技术作为一种有效的表现抽象信息的工具,被广泛应用于辅助用户认知和分析层次数据集。[方法]提出五元组描述大众标注的语义的方法,借用归类方法使大众标注具有层次关系,基于层次结构提出信息可视化方法,用于显示大众标注集。[结果]实验表明,该方法可以清晰直观地揭示大众标注的层次关系,改善平面布局,而其他语义关系存储在大众标注节点中,不直接十扰用户感知。[结论]该方法简单有效、能够从优化整体布局的角度可视化层次信息、增强用户感知能力。
[目的]对搭载第三方电子商务平台的网商信用度进行分析。[方法]通过德尔菲法确立网商信用度评价指标体系权值;运用中文分同技术及情感同极性识别方法对用户评价进行量化;运用灰色关联分析方法对获取的数据进行信用度得分计算。[结果]通过用户对网商信用度的评价,得出网商信用度在非常好、较好、一般及较差4个等级的用户评价隶属度,进而反映出网商的信用度。[结论]通过对用户的在线评价进行分析,针对用户评论信息存在的小样本性、信息内容的不完整性,选择灰色关联分析方法,提出能够针对网商的信用度制定一个较为合理可行的评价方法。该评价方法能够在相对统一的标准下自动对用户评价内容进行量化,并在计算结果中体现不同评价区间的用户群体分布。
[目的]系统揭示科研领域关键同网络在整体层面、节点层面的共性结构特征,为后续研究提供依据。[方法]以多个领域为对象,对比分析其关键同网络与随机网络、小世界网络、无标度网络参数,拟合其指标分布、指标间相关性特征。[结果]关键同网络度序列呈负幂律分布、具有极高平均聚类系数和较短平均路径长度;其同频、节点的度数、中介中心性、特征向量中心性、三元闭包数之间呈线性正相关,节点的聚类系数与度数呈反比。[局限]三个实验领域均从图情学科中选择,未与其他学科进行对比。[结论]科研领域关键同网络是一种特殊的、具有小世界效应、模块性、层次性和高度向心性的无标度网络;以网络指标提取领域知识点有其局限性、网络的层次结构值得发掘、网络的结构和演化模型需考虑以模块为增长单元。
[目的]针对网络“水军”所引发的网络信息失真问题,提出“水军”探测方法,从宏观上探测出“水军”。[应用背景]对网络上电影、音乐、书籍等的在线评分进行统计分析,识别出存在“水军”刷分现象的对象。[方法]从宏观上提出基于正态分布拟合的静态探测方法及基于时间序列法的动态探测方法进行“水军”探测,并设计反映某一天评论数量相对于总体情况波动的“水军”强度指标。[结果]对“显瓣电影网”2012年的近千部电影进行探测,将结果与部分媒体曝光的存在“水军’,情况的电影进行相互印证,证明上述方法的探测效果。[结论]“水军”静态及动态探测相结合的方法可以对网络上存在的“水军”现象进行探测,但也存在评分数据量不足影响探测效果的局限等。
[目的]为更有效地在中文短信文本信息流((SMS Text Message Flow, SM F)中进行多话题的分类提取,提出一种基于SM_ F特点的话题分类抽取方法SM_F_ HTo[方法]将SM_F分割成多个短信文本子集SM_Fi,通过层次的狄利克雷过程信息抽取与TF-IDF相结合,建立短信文本向量集上多个概率分布,采用吉布斯抽样并结合特征同属于临时话题的概率进行SM_F话题分类抽取。[结果]实验结果表明,SM_ F_ HT在困惑度和对数似然比方面优越于模型CCLDA和CCMixo[局限]在短信文本预处理和特征同的抽取方面,还需进一步优化算法和提高数据质量。[结论]提出的SM_F_HT方法对SM_F的多话题分类抽取是有效的。
[目的]为降低专家检索过程中的噪声并提升用户满意度,提出构建用户主导下的专家检索可信度评测机制。[方法]在BIR模型基础上,阐述评测机制运行需要遵循的原则和假设,围绕专家特征设置参数,依次设计前后端可信度评测机制。[结果]以学术专家检索为例,说明后端可信度评测通过求解最佳专家特征向量目长来降低检索噪声,前端可信度评测将用户相关性反馈作为检索路径选择的必要参照。[局限]前端可信度评测不适用于用户提问较长的情形;后端可信度评测对专家信息组织方式要求高。[结论]综合两种可信度评测机制,该机制可提升专家检索关联资源的广度和用户参与的深度。
[目的]在英汉跨语言票日窃文档中检索翻译对应内容。[方法]基于双语同典进行相似分析,合并整理同典以提高同语级匹配的准确率和效率,利用整体同频分布、匹配位置特征等解决歧义和多重匹配问题,根据同的对应情况、同的位置信息等综合加权计算句子及段落的相似度。[结果]在真实翻译语料上的实验结果表明,检索的准确率为0.841,召回率为0.748 0[局限]未登录同的翻译关系不易根据同典判定。[结论]基于双语同典检索跨语言相似内容的方法简单易行、适用面广。
[目的]通过设计和开发清华大学图书馆智能聊天机器人“小图”PP和微信服务,扩展清华“小图”的服务领域。[应用背景]随着智能手机和移动互联网的发展和流行,移动APP和微信成为移动终端上的主要应用人口。[方法]分别基于手机客户端和微信公众平台的开发模式,利用接口与“小图’,服务器通信,传送指令和消息,将“小图”的基本功能嵌入到APP和微信应用中。[结果]用户在移动终端和社交网络环境中,能够方便地与清华“小图”交谈和查询信息。[结论]本应用扩展了清华特色服务“小图”的应用环境、提供无处不在的泛在服务。
[目的]通过程序实现对图书馆文献数据库运行状态的自动监测。[应用背景]针对图书馆大量的文献数据库,采用人工检测其运行状态,效率低且故障发现不及时,机器自动监测与分析更具优势。[方法]采用VB.NET语言在Win7环境下开发,程序采取模拟读者访问数据库的方法,获取文献数据库在访问、检索和阅读三方面的状态信息。[结果]实现文献数据库运行状态定期自动监测、故障信息邮件或QQ方式自动报警,状态信息可视化多维分析等功能。[结论]在系统实际应用中故障的发现和处理更为及时。
[目的]利用微信公众平台, 扩展图书馆的信息服务渠道, 提升读者体验。[应用背景]作为时下最热门的社交工具, 微信成为一个很好的移动信息传播平台, 深受读者的关注。[方法]在开发模式下, 选择.NET作为开发环境, 基于开源SDK控件, 从微信公众平台发送的XML消息解析、与图书馆业务系统建立信息查询和将获取的查询信息进行XML封装等方面, 实现图书馆业务嵌入微信的应用。[结果]通过图书馆微信公众号, 读者凭指令可便捷获取图书馆资源和服务。[结论]本应用可以拓展图书馆的移动服务内容, 提高服务质量。