【目的】探究用户兴趣层级结构, 揭示用户兴趣层级演化规律, 以提高个性化信息服务的质量, 满足用户信息需求。【方法】利用LDA主题模型获取用户标签主题; 通过定义标签兴趣度计算公式, 并结合提取的用户标签主题, 动态感知用户兴趣; 依据构建的兴趣网络划分用户兴趣核心-边缘结构, 进而分析用户兴趣层级结构的演化规律。【结果】用户兴趣的核心-边缘结构会随着用户兴趣领域的确定而逐渐收敛并趋于稳定。时间序列下用户兴趣层级的升降级演化主要包括始终处于核心层、核心层向边缘层淡化和边缘层向核心层晋升三种。【局限】基于已有用户兴趣层级演化规律进行未来时间节点下的用户兴趣预测和评估需要进一步探究。【结论】该方法能够更加精准地感知和预测 用户动态变化的兴趣, 评估时间序列下用户各兴趣程度的高低并划分用户兴趣层级, 进而得到用户兴趣层级演化规律, 有助于优化个性化信息服务。
【目的】构建基于多维小波聚类的空间文本数据情感分析模型, 实现文本情感和空间位置的综合分析。【方法】将Yelp数据集进行整合以构建空间文本数据库, 使用基于词典的情感分析方法构建特征向量。提出使用多维小波聚类的混合算法和文本-空间算法两种模型并进行分析。【结果】实验结果验证了使用db2和bior2.2小波基函数的多维小波聚类算法比DBSCAN和K-means算法在空间文本数据挖掘中能识别出更精确的聚类集合, 且在十万级至千万级数据聚类中速度最佳。【局限】情感分析部分使用一元语言模型, 缺乏对语句层面意义的分析。【结论】本文所提文本-空间算法模型能有效挖掘多维空间文本数据的情感倾向分布; 混合算法模型为空间文本数据推荐系统提供了同时计算空间接近性和情感相似性的有效方案。
【目的】比较由不同中文分词器带来的语料和情感极性词典匹配程度的差异。【方法】采用6款分词器对自主构建的图书评论语料库进行分词, 结合常见情感词典编写程序对输入的语料进行处理, 统计语料对情感词典、否定词表和程度词表的覆盖率与匹配次数, 计算低频词的比率和中性语料的比率。【结果】针对不同的情感词典, 分词器在语料-词典匹配度、词典低频词比例以及中性语料占比方面表现出不同程度的差异。【局限】实验语料不足, 没有基于词典和规则进行句子级的测试。【结论】本研究将有助于从事涉及到基础情感词典的各种研究在选择中文分词器时减少随意性。
【目的】针对淘宝商品上架自动类目识别需求, 在电子商务领域中提出商品品名识别问题。【方法】通过合作方获取的大量商品交易数据, 构建电商商品描述数据集, 并对数据集人工标注; 使用基于XGBoost模型的有监督机器学习算法, 对电商商品描述短文本进行品名识别研究。【结果】实验结果表明, 该算法对最终20 059条数据集上的816种商品的识别准确率为85%, 召回率为87%。【局限】商品种类不够完善, 语料库中的商品种类和描述数量可进一步丰富。【结论】本研究在电子商务领域中尝试使用机器学习算法解决商品品名识别问题。实验证明本算法是合理的、有效的, 具有实际应用价值。
【目的】针对特征价格研究缺乏特征选取标准的现状, 基于大规模用户评论, 提出一种商品特征的挖掘与选取方法, 对特征价格研究进行改进和延伸。【方法】提取用户评论的关键词, 通过关键词聚类获取消费者显著偏好的商品特征, 在此基础上建立特征价格模型反映特征价格。为验证模型的科学性和有效性, 以广州在售新楼盘为例进行实证研究。【结果】基于用户评论挖掘出7个消费者显著偏好的楼盘特征, 以此建立的模型拟合优度达0.760, DW统计量为2.013, 楼盘有价特征的用户偏好度和价格影响力的相关系数达0.989。【局限】实验数据来源仅局限于房地产网站。【结论】相比已有研究, 基于用户评论选取特征构建的模型在拟合优度上有一定提高, 能够较准确地评估商品价格, 有效避免特征之间的多重共线性问题, 还能延伸探究消费者的偏好理性, 给企业和消费者行为提供一定的指导依据。
【目的】构建一种更加准确的主题关键字提取模型, 从词向量与主题模型相结合的角度出发解决词频较小主题相关度较高词语发现的问题。【方法】提出一种融合主题词嵌入和网络结构分析的主题关键词提取方法, 利用LDA主题模型进行主题关键词的初步提取, 利用Word2Vec训练词向量, 利用词向量相似度传播构建关键词网络, 利用网络结构分析方法对主题词进行二次提取。【结果】实验结果表明, 本文所提方法使得主题关键词之间的平均相似度提高14.75%, 同时, 在相同主题下的关键词比较中, 本文方法相比LDA模型能够更准确地发现低词频高主题相关的词。【局限】样本数量有限, 分词处理过程需要过多的人工参与, 未对主题关键词提取结果进行深入的量化分析。【结论】融合词嵌入和网络分析方法进行文档主题关键词提取, 能够有效发现低词频高主题相关的关键词, 为摘要提取、舆情分析等研究提供新思路。
【目的】揭示学科领域不同发展阶段中主题语义内容层面的演化规律。【方法】结合LDA和生命周期理论, 提出主题语义演化分析方法, 重点解决主题过滤、主题语义相似度计算和主题语义演化模式判别等技术问题。【结果】研究发现锂离子电池领域主题之间的语义演化模式: 主题继承贯穿领域发展全过程; 主题分裂始于成长期, 在快速发展期分裂次数(6次)最多; 主题融合始于发展期, 在快速发展期融合次数(5次)最多。【局限】学科领域全局主题是否能够涵盖各阶段主题还需要进一步验证。主题语义演化的知识图谱需人工绘制, 还需进一步研究自动化实现方法。【结论】基于LDA的主题语义演化分析方法可深度揭示学科领域发展过程中继承、分裂和融合等重要语义演化模式, 为学科领域知识创新提供有价值的决策信息。
【目的】发挥智能应用对本体构建的驱动作用, 增强本体对领域知识的表示能力以及对智能应用的支撑能力。【方法】提出一种面向智能应用的领域本体构建方法, 即应用驱动循环法, 以智能应用需求为核心进行跨领域知识的融合建模, 采用“需求+构建+评估”循环式结构, 使得智能应用需求在本体构建的全过程中可发挥引领性作用。以反电话诈骗领域为例, 在智能反诈需求驱动下构建反诈领域本体, 并支持相应的智能应用。【结果】评估实验结果表明, 依据本文方法构建的反诈领域本体能够表示广泛庞杂的跨领域知识, 并在理解诈骗通话语义的基础上有效支持智能反诈应用。【局限】智能应用需求的分析与评估需要进一步量化。【结论】本文方法解决了领域本体构建不足以支持智能应用的问题, 为领域本体构建研究以及反诈方法研究提供参考依据。
【目的】通过对数据库中项在重要程度上存在的差异性进行分析, 解决传统关联规则挖掘算法挖掘大量冗余无价值规则的问题。【方法】在具有时态约束的序列上, 结合频次有效长度方法挖掘非加权关联规则, 引入加权方法, 利用滑动窗口技术在时序序列上挖掘稀有加权关联规则。【结果】根据频次有效长度的加权关联规则挖掘算法所挖掘出的加权时序关联规则能够较为准确地进行推荐, 推荐预测的准确度由62%提升至69%。【局限】由于滑动窗口每次滑动一个单位长度, 加之窗口中生成的规则数量较多, 导致挖掘算法在进行规则挖掘时执行时间较长。【结论】本文方法所挖掘出的加权时序关联规则能使推荐精度得到提升, 并为关联规则挖掘方法提供新的研究思路。
【目的】针对影响力最大化问题中贪心算法时间效率低的局限, 提出基于重叠社区的影响力最大化算法。【方法】基于重叠社区, 综合传播度最大的节点和重叠节点选出候选种子集, 并采用CELF算法确定最优种子集, 从而提高影响范围。【结果】实验数据表明, 在亚马逊数据集上IM-BOC算法运行时间最大幅度能够提高约89%。【局限】仅凭社区节点的数量分配候选种子节点的数量, 可能存在一定误差。【结论】基于重叠社区的IM-BOC算法在保证影响范围的前提下, 适用于大型社交网络。
【目的】实现文本阅读难度自动分级。【方法】采用基于多元特征的机器学习方法实现对文本难度的分析和判别, 包括词频特征、结构特征、主题特征、深度特征等。这些特征从不同角度对文本的内容进行描述。在此基础上, 对这些多元特征进行融合, 并在多种分类器上进行文本阅读难度自动分级实验。【结果】利用本文提出的方法在面向中学英语考试的阅读理解文本上进行实验, 最终在测试集上的正确率达到0.88, 性能相较传统的阅读分级方法有较大提升。【局限】由于人工标注的高成本, 目前的阅读难度数据集在数量、规模、难度标注程度上都有相应的限制。这在一定程度上影响了本文方法的应用。【结论】本文提出的多元特征提升了机器对阅读文本的分析和理解能力, 使机器能够在理解文本内容的基础上对文本的阅读难度进行自动评级。
【目的】解决科技大数据数据源分散、质量不高、内容单薄等问题。【方法】采用数据清洗、实体对齐、实体字段融合、冲突检测等增值计算方法, 设计开发一套科技大数据增值丰富化的工具。【结果】通过本文研发的丰富化工具, 在人员、机构、会议、期刊实体及实体关系层面实现实体数据对齐, 实体字段内容增加5-10倍, 实体分析维度提升2-3倍。【局限】增值数据的及时性、规范性需要结合服务需求在实际应用中不断优化提升。【结论】研究成果提升了科技大数据知识发现平台以及相关情报智能分析系统的数据服务维度及深度。
【目的】研究基于中文电子病历的标注方法, 提升临床文本分析与处理能力, 促进临床知识发现。【方法】提出中文电子病历标注思路, 并构建可视化交互平台, 基于电子病历文本的字与词特征, 综合利用自然语言处理和机器学习方法开展临床命名实体识别实证研究。【结果】获得700份标注病历语料, 基于Pipeline的标注方法总体F值达0.8772, 较基于原始标注病历数据集的命名实体识别效果提升32.9%。【局限】由于电子病历包含与隐私相关的敏感信息, 本研究基于开放评测数据开展实验研究, 语料库大小受限。【结论】本研究所提出的中文电子病历标注方法和所构建的标注平台适用于临床文本处理, 能够促进医学临床文本资源的知识关联化。