【目的】基于多知识库进行实体链接, 解决基于单一知识库的实体链接覆盖度低的问题。【方法】首先生成文本的n-gram并利用词性和多个指称-实体字典获取候选指称, 然后生成指称组合并保留覆盖度最大且不被其他组合包含的指称组合, 接着生成候选实体序列并利用多知识库信息计算实体序列的相关度, 最后选择相关度最大的实体序列为最终结果。【结果】以Wikipedia和Freebase为例的实验结果表明, 基于Wikipedia+Freebase的实体链接准确率、召回率、F值分别达到71.81%、76.86%、74.25%。【局限】基于词性过滤n-gram缺乏理论依据, 数据集FACC1具有高准确率和低召回率的特点。【结论】利用多个知识库的实体信息, 能够提升实体链接效果。
【目的】借助深度学习理论, 解决传统特征选择方法容易导致特征项不明确、分类精度下降的问题。【方法】对中文新闻文本进行分类时, 使用降噪自动编码器构建一个深层网络来学习对文本的压缩及分布式的表示, 并在网络最后一层采用SVM算法将其分类到具体的类别中去。【结果】随着样本数目的增大, 分类准确率、召回率和F值都在上升, 且比KNN算法、BP算法和SVM算法取得了更优的分类效果, 平均分类准确率达到95%以上。【局限】数据量依然较小, 且并没有完全发挥深度学习并行处理大容量数据的优势。【结论】该方法能提高特征项提取的准确性, 并能提高分类效果。
【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征, 并且通过词向量计算词汇之间的相似度, 进而对TextRank算法进行改进, 将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配, 并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与TextRank的有效融合, 且当训练文档集词汇分布合理时, 关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练, 获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系, 提升单文档的关键词抽取准确性。
【目的】探讨冶金领域中文专利术语抽取模型的最优条件, 用于有效地抽取冶金领域专利术语。【方法】使用尚不完善的核心语料库, 在无需人工标引的情况下, 采用条件随机场(CRFs)构建字角色标注的冶金领域中文专利术语识别模型。详细说明模型的构建过程, 同时重点对比CFRs的各个因素(特征组合、字长窗口等)对识别效果的影响。【结果】实验结果表明字序列、级别特征、领域特征、温度特征的组合在字长窗口为3, c等于1, f等于1时, 准确率达到94.26%, 召回率达到94.37%, F1值达到94.5%。【局限】核心词典欠完善, 使得部分词语标注不够准确; 未与其他方法作详细比较, 未详细说明CRFs的可靠性。【结论】CRFs在适当的角色和特征以及特征模板的组合下能较好地识别出冶金领域的中文专利术语。
【目的】通过大学生志愿者进行网络谣言传播的控制实验, 研究不同话题网络谣言传播中网民群体的态度演变动因和规律。【方法】采用问卷调查, 记录不同谣言传播过程中实验对象的态度与行为数据, 使用数据挖掘分类算法分析网民态度演变的共性与差异。【结果】研究结果表明, 网民传播谣言具有验证特性, 谣言的内容影响网民传播的媒介, 网民观点交互随群体一致性动态变化。影响网民态度及其演化的主要因素包括初始认知、群体行为、信息获取和交流渠道, 网民的态度演变率与网络谣言的内容等相关指标关联度较低。【局限】研究对象局限于大学生群体会影响研究结论的普适性。【结论】将实验研究和数据挖掘技术结合对网络谣言进行研究, 为网络谣言的模型研究提供数据参考。
【目的】研究论文的某些相关参数是否会影响被引频次。【方法】采用多种措施弱化非研究因素的干扰, 并绘制研究因素与被引频次关系的各年代曲线, 判断研究因素对被引频次的影响。【结果】作者人数、页码数、参考文献数和文摘长度与被引频次呈正相关, 作者关键词数量和平均长度与被引频次无关, 而不同的题名长度对被引频次的影响不同。【局限】由于数据采样条件限制, 数据均采自SCIE这种高水平的论文数据库, 且WOS分类为Engineering和Mechanical, 所得结论不一定全部适用于其他主题的论文。【结论】论文的某些相关参数对论文的被引频次存在影响。
【目的】以大规模真实社交网络数据作支撑研究饮食社区结构。【方法】使用“美食杰”网站的菜谱信息和新浪微博上与菜有关的微博数据, 完成用户与菜之间的“提及”关系构建后, 分别在省份地区维度和地区菜系维度进行映射, 并运用社区发现算法进行社区挖掘。【结果】在省份地区关系网和地区菜系关系网上存在明显的社区结构。【局限】实验过程中发达地区人数与边缘地区人数悬殊太大, 对本文所得结论有一定的影响。【结论】实证结果发现: 省份地区被划分成“其他口味”、“鲜咸味”、“香辣味”三个口味地区; “川菜”、“云贵菜”因辅料独特很少与其他菜系被一起点餐, “京菜”、“沪菜”、“鲁菜”、“东北菜”常被一起点餐, 除此之外, 地区菜系之间存在一定程度的地理位置近邻性。
【目的】用户内容使用行为对学术社交网络的可持续发展具有重要的价值, 本文试图从用户阅读的角度对学术社交网络用户内容使用行为进行探究。【方法】以科学网热门博文为分析对象, 采用方差分析、相关性分析等方法, 从内容基本特征、用户内容使用行为关系、内容贡献者特征等方面对用户内容使用行为特征进行研究。【结果】用户对观点交流以及教学、科研经验分享类的内容比较感兴趣; 大部分类别的博文评论量与被推荐量达到显著相关或高度相关的水平。【局限】研究平台单一, 仅选择中文学术交流网站作为研究平台; 对用户内容使用行为的研究不全面, 仅研究了用户的内容阅读行为。【结论】用户喜欢在学术社交网络上进行思想与观点的表达与交流; 他们更倾向于推荐自己参与互动的内容。
【目的】解决传统项目相似性度量方法必须依赖于共同评分项, 及传统方法在稀疏数据集中预测准确性不高的问题。【方法】将信号处理领域的KL散度引入项目相似性的计算中, 利用评分值的概率密度分布计算项目相似性, 可更有效地发现目标项目的相似邻居项目。【结果】在MovieLens数据集上的实验结果表明, 该算法的推荐综合值F1超过0.65, 在预测有效性、预测误差和推荐准确性等方面的评测结果均明显优于当前常用的项目相似性方法。【局限】只考虑了项目评分值的比率, 未充分利用项目的绝对评分值。【结论】算法有效地利用了数据集内的评分信息, 较好地克服了数据的稀疏性问题, 具有很好的应用价值。
【目的】改进服务计算环境下Web服务推荐数据稀疏性导致的相似服务或相似用户缺失的问题。【方法】根据相似性距离分别为目标用户和服务构造个性化的相似性用户群体和服务群体, 同时使用用户和服务群体中心之间的群体相似性设计新的混合型推荐算法(GHQR)。【结果】使用197万条真实Web服务质量数据集的实验结果表明, 与UPCC和IPCC两种推荐算法相比, GHQR的标准平均绝对误差(NMAE)平均下降31%、69%, 覆盖率平均提高105%、163%。【局限】实验仅对服务质量属性响应时间进行分析, 还需对其他Web服务质量属性如吞吐率等进行验证。【结论】与WSRec和CFBUGI推荐算法相比, GHQR的NMAE平均下降26%、7.7%, 覆盖率平均提高188%、4%。GHQR不仅能提高预测的准确性, 而且覆盖率也获得显著提高。
【目的】设计并实现基于模型-视图-控制器(MVC)前端AngularJS框架的可视化组件ng-info-chart。【应用背景】优秀的情报分析平台往往需要使用多个复杂的可视化图谱组合展示分析结果, 需要更有效地构建复杂的、支持大量交互操作的网页端情报分析可视化图谱。【方法】ng-info-chart集成多种可视化图谱, 使用AngularJS自定义扩展标签统一封装, 通过自定义HTML标签直接在页面中调用绘图方法。【结果】ng-info-chart可视化组件随着研究团队情报分析项目不断深入与完善, 现已集成5个第三方可视化类库中11种可视化图谱, 支持IE9+、Firefox等主流桌面浏览器。【结论】利用可视化组件实现数据异步获取、自动检测数据变化与实时图谱绘制等功能, 极大简化了情报分析系统中复杂可视化图谱的开发工作。
【目的】分析新农合药品报销目录存在的问题, 提出整合技术路线, 开发信息系统, 整合多来源词表, 生成国家新农合药品一体化目录。【方法】借鉴UMLS整合技术路线, 采用映射的方法对多来源药品字典集成存在的问题进行解决。【结果】制定了相应的新农合药品编码目录数据结构和映射算法, 完成了国家新农合一体化目录构建系统的设计与开发。【局限】药品之间相互药理作用关系还需进一步梳理完善。【结论】经过制定数据结构和映射算法对新农合目录编码进行映射, 解决了构建国家新农合药品目录编码中多来源字典集成问题。
【目的】从异构的电子病历数据中发现疾病危险因素, 为数据挖掘与知识发现提供借鉴。【方法】选取集各种结构为一身的临床电子病历数据, 利用决策树、逻辑回归和神经网络三种数据挖掘算法分别建立疾病危险因素预测模型, 对三种预测模型进行比较分析和统计学评价。【结果】决策树预测模型在查准率、召回率上高于逻辑回归和神经网络, 在总体性能上决策树最优, 但三者差别不大。【局限】未对电子病历属性进行优化选择。【结论】决策树在危险因素的发现与疾病的预测方面优于逻辑回归和神经网络。研究中建立基于数据挖掘算法的异构数据源知识发现框架, 为今后领域知识发现和知识库构建以及数据挖掘算法的选择提供一定借鉴和参考。