【目的】从评论对象的属性特征出发解决情感极性量化问题。【方法】将在线评论文本分解构建三层评论体系, 即评论对象-对象属性-评论描述, 从属性层级抽取属性词集和对应的评论集, 考虑评论对象属性特征的不同影响, 引入属性因子, 并对TFIDF进行改进用以计算属性因子; 结合评论模式和评论语境提出基于属性特征的评论情感量化分析算法并采用Python语言予以实现。【结果】相较于传统机器学习分类算法(NB、SVM)、属性因子设置为等权重时, 本文算法在评论文本情感分类准确性方面有显著提高。【局限】评论集领域选择方面具有局限性, 量化算法在系数设定方面存在主观性。【结论】本文算法能有效解决情感极性量化问题, 进一步提高了情感分类准确性。
【目的】帮助企业实现精准营销, 准确识别企业用户的群体特征。【方法】对微博文本进行情感分析, 通过Ward聚类将微博发表者聚类成9类群体, 并对微博用户进行影响力识别, 从情感和影响力两个维度对各个用户群体进行分析, 利用一种改进的客户价值矩阵方法辨别不同用户群体的特征。【结果】实验结果表明: 9类用户群体对A手机品牌情感倾向存在较大的差异。A手机更受喜欢追赶时髦的女性群体以及从事IT行业的用户青睐, 并且该群体影响力较大, 能更有效地影响消费者购买该手机。【局限】在进行用户影响力识别时, 仅考虑常用指标, 未考虑用户微博被转发之后的级联影响力以及其他影响指标。【结论】本文方法能够较为准确地识别企业用户的群体特征, 为企业实现精准营销提供帮助。
【目的】探究与设计基于图书情报领域、中文科技论文图表摘要构建的结构, 并制定构建规则。【方法】通过调研的方法, 结合人工标注结果及图情领域中文科技论文、图表的特征, 设计摘要框架并规定构建规则, 最终设计评测系统, 基于SPSS统计结果分析揭示该摘要系统的表现。【结果】本研究构建的图表摘要在图片信息理解程度、效率、确信度等维度上的表现均优于现有图片-文本组合模式。【局限】图片信息覆盖率有待提高、未考虑清楚图表类型所带来的差异、未完全实施自动化标引。【结论】依据本研究设计的中文科技论文图表摘要构建结构与规则所形成的图表摘要能有效提高用户对文献主要内容的准确理解度。
【目的】从大量在线商品评论中筛选出可信的评论辅助消费者制定购买决策。【方法】提出一种基于大数据思维的主流特征观点对的概念, 依据特征观点对在不同用户评论中的认可程度, 建立评论可信性排序模型。【结果】淘宝、天猫和京东平台的商品评论的主流特征观点对是稳定的; 与已有模型相比, 使用本文模型排序过的用户评论包含的产品特征范围更广, 评论有用性提升7.5%, 更能够反映评论的真实情况。【局限】仅从评论包含的特征观点对考虑评论可信性, 而未考虑评论的具体语义情况。【结论】包含主流特征观点对数量越多的评论, 其可信度则越大。
【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题, 以提高文本分类效果。【方法】在特征扩展之前, 对TF-IDF加以改进, 提出并使用一种新的特征选择方法CDFmax-IDF获得候选词集; 在使用维基百科进行特征扩展时, 通过分别计算直接链接关系、类别关系、间接链接关系三类词语间关系并进行融合得到词语间的语义相关度实现特征扩展; 针对扩展得到的特征, 提出一种改进的LDA概率主题模型wLDA模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN和SVM三种分类器上实现分类, 其marco-F1和micro-F1分别提升1.6%-2.8%和1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互联系, 比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性, 提高了多种类型文献的自动分类效果。
【目的】精确地呈现网络社交中信息传播状态和传播过程, 从而更深入理解网络信息的传播机制。【方法】在无标度网络模型和传染病模型基础上, 加入可调整参数, 构建改进的网络信息传播模型, 并在NetLogo平台上进行舆情传播演化仿真。【结果】仿真实验结果表明: 在信息传播过程中, 不断变化的传播速率能够更好地描述网络信息传播; 在集群度大的网络中对信息传播进行引导和控制的最佳时机是在传播速率增大阶段。【局限】模型对人群分类仍然不够精细。【结论】模型不仅能够在设定条件下模拟不同类型信息的传播过程, 还可以为网络舆情监测、引导和控制提供支持。
【目的】从发展现状、内容特征、形式特征三个方面分析我国不同类型众筹项目视频使用现状及其特点。【方法】基于任务展示示能性理论, 构建视频内容特征和形式特征的二维视角(发起方视角和参与方视角)分析框架, 并以众筹网为例进行实证探讨。【结果】研究表明: (1)视频资源能够显著促进众筹进度和成功率, 吸引用户关注和支持, 但我国众筹项目介绍中使用视频的比例仍然较低; (2)不同类型的众筹项目其视频内容特征和形式特征都有显著的相似性和差异性特点。【局限】分析框架粒度较大, 有待进一步扩展和细化。本研究选择综合性众筹平台众筹网为研究对象, 样本具有一定的局限性。【结论】本文分析我国众筹项目中视频的现状和特点, 可以为众筹平台的优化设计以及众筹项目的成功实施提供参考和建议。
【目的】调研owl:sameAs连接在真实数据网络中的配置和应用情况。【方法】从BTC 2014数据集中抽取部分数据, 应用统计学方法对样本数据构成的sameAs网络进行结构分析、域名分析和实例类型分析。【结果】数据分析结果表明, 真实数据网络中sameAs连接较稀疏, 等同实体网络中大多数实体只建立了单个连接。【局限】样本数据数量有限, 未能更全面地深入分析。【结论】该研究分析可以为关联数据中基于实例水平的数据集成、本体对齐、知识发现以及跨数据集查询等提供参考。
【目的】实现对多源异构科技信息的长期监测、自动采集发布与存储管理, 以满足专题领域科技研究的需求。【方法】结合CSpace的应用扩展需求, 设计开发了基于CSpace的可配置化的科技信息自动监测功能, 着重研究和解决了多源异构科技信息采集内容规则的可配置化实现、与CSpace交互的自动采集发布接口的可配置化实现等关键技术问题, 并以海洋科技信息的自动监测采集为例进行应用研究。【结果】能够实现对多源异构科技信息的自动监测采集, 为科技平台建设提供良好支持。【局限】采集内容规则配置过程比较复杂; 不支持对一些需要登录的复杂站点的自动监测。【结论】该功能方法较大程度上扩展了CSpace的数据采集集成功能, 且具有一定的通用性、可配置性与松耦合性, 可应用于多个科技信息监测领域。
【目的】在海量文献中, 挖掘并预测生物医学实体之间的新关联, 构建关联网络。【方法】提出一种基于数据立方体的新方法挖掘疾病-基因-药物间关联, 以糖尿病为例, 构建关联网络, 并使用关联规则量化实体关联程度。【结果】由糖尿病相关疾病(14种)、基因(23种)和药物(24种)构建三个1-D方体、三个2-D方体及其关联网络和一个3-D方体关联网络, 共计存在411种关联, 同时得到8个关联子网。【局限】数据预处理存在主观性, 可能会对挖掘结果产生影响。【结论】算法性能优于其他同类算法, 能够为糖尿病精准医疗提供更好的新研究思路。