【目的】从产品论坛中识别潜在客户, 对产品论坛中的用户生成内容特征进行分析, 识别有购买意愿的产品潜在客户。【方法】将不均衡数据集转换为n个均衡数据集, 结合Stacking分类算法识别潜在客户, 分别使用基分类器算法和本文提出的针对不均衡数据集的Stacking分类算法对样本数据进行测试, 并通过对比F值验证本文算法的有效性。【结果】本文提出的算法的F值较贝叶斯网络、逻辑回归、C4.5决策树、SMO和朴素贝叶斯5种基分类器算法分别提高17.4%、26.5%、24.1%、29.3%、40.9%, 较Stacking、Bagging和Boosting三种集成学习算法分别提高10.1%、5.9%、13.1%。【局限】研究语料来源于汽车行业, 具有一定的领域局限性。【结论】该方法能有效识别潜在客户。
【目的】解决传统的兴趣点推荐基于简单上下文, 推荐同一类别中最流行的、最便宜或者最接近的对象, 导致推荐准确度低的问题。【方法】将兴趣点推荐作为一个排序问题, 设计基于内嵌空间排序支持向量机模型(Embedded Space Ranking SVM, ESSVM), 根据不同特征进行兴趣点分类, 利用签到数据捕获用户的喜好, 并使用机器学习模型调整不同属性在排序中的重要性。【结果】本方法与基于用户的协同过滤(UserCF)、基于兴趣点的协同过滤(VenueCF)、兴趣点流行度(PoV)和最近邻推荐(NNR)等推荐策略相比, 不仅可捕获个别异构偏好, 而且可减少训练推荐模型的时间消耗。【局限】收集和整合多个基于位置的社交网络上下文信息工作量大; 减少本方法的时间和类别的粒度时, 还可能面临数据稀疏性问题。【结论】本方法考虑了时间变化对用户偏好的影响, 以及用户在不同时段访问的位置类别, 通过将有用的上下文信息与签到记录相结合, 提供个性化的建议。
【目的】进一步研究和构建学术成果主题新颖性测度指标, 量化地测度学术成果的主题新颖性。【方法】构建基于Doc2Vec和HMM的文本内容特征因子计算模型, 通过该内容特征因子构造文档的主题新颖性测度指标函数。基于《情报学报》、《情报科学》和《情报杂志》三本期刊2014年度所刊载的学术论文进行实证研究, 测度论文的主题新颖性。【结果】将该方法与已有的新颖性测度方法的计算结果进行对比, 其结果表现为0.01水平上的显著相关关系, 相关系数为0.494, 同时该方法也避免了已有方法的计算结果中存在的区分度不够的问题。【局限】仅使用摘要文本进行挖掘, 未对全文信息进行深入挖掘。【结论】基于该方法的学术成果主题新颖性测度方法和计算结果具有可操作性和可解释性, 可以为学术评价和学科前沿探测提供有效支撑。
【目的】使用机器学习自动分类的方法, 量化社科类论文的跨学科性。【方法】根据论文的题录信息, 使用KNN算法对社科类论文进行自动分类, 根据分类结果提出定量研究跨学科性的指标——跨学科度, 并提出其计算方法。【结果】自动分类结果在各学科间呈现出较大的差异, 各学科的跨学科性对分类结果产生了较大的影响, 自动分类结果与跨学科度之间存在直接关系, 进而可以用来计算跨学科度。【局限】尚未对跨学科性进行更为深入、广泛的量化探究。【结论】使用机器学习方法量化研究跨学科性是一种有效的尝试。
【目的】研究一种新的聚类算法, 以改进密度峰值聚类算法无法自动计算截断距离以及需要人工参与选择聚类中心的不足。【方法】首先提出一种基于信息熵的截断距离自适应算法, 实现了DPC算法截断距离的自适应; 然后根据排序图中权值的斜率变化趋势确定拐点, 自动划分出聚类中心与非聚类中心的界限, 实现聚类中心的自动选择。【结果】通过在UCI数据集与人工数据集上的仿真实验, 对DBSCAN算法、DPC算法、DGCCD算法、ACP算法与ADPC算法进行聚类性能的比较, 结果表明ADPC算法不仅能够自动选择截断距离与聚类中心, 在准确率、标准互信息(NMI)、F-measure值等性能上也有较大的提升, 同时证明了改进算法在处理移动终端定位数据上的有效性。【局限】主要针对低维度数据集, 面对高维度数据集略显乏力, 同时未能兼顾处理大数据集时的效率问题。【结论】ADPC算法能够准确选择聚类中心和截断距离, 对于低维度、任意形状簇的处理效果良好。
【目的】基于LSH算法将图像匹配应用到图像推荐模型中, 与传统推荐模型结合, 提高推荐结果准确度。【方法】提取图像SIFT特征作为图像匹配标准, 改进基于p-Stable Distribution的LSH算法, 实现高维度下大量图片的搜索匹配, 最后融合现有协同过滤算法提出ICF-LSH推荐算法构建融合推荐模型, 并采用Python语言予以实现。【结果】使用不同的数据集对本文提出的算法进行验证, 实验表明改进的LSH算法对召回率和错误率都有一定的优化, 通过匹配耗时和Hash表长度可知该算法优化了内存利用和搜索匹配效率。由融合推荐模型的平均绝对误差MAE和精确度Precision可知, 相对传统的协同过滤推荐算法, 本文提出的ICF-LSH推荐算法提高了推荐结果的精准度。【局限】在提取图像特征时仅使用SIFT特征, 后续研究中可以尝试使用多种图像特征作为匹配依据, 提高匹配结果的可靠性。【结论】图像匹配算法基于LSH进行了一定改进, 提高了图像相似度匹配的效率, 此外, 本文提出的融合推荐模型能显著提升推荐效果。
【目的】减少标签传播算法的无效更新、解决算法准确率低的问题。【方法】引入节点信息列表以指导更新过程, 避免不必要的更新, 从而加快执行速度; 采取基于节点对社区偏向程度的更新规则, 提高社区划分的准确率。【结果】实验结果表明, 相比标签传播算法和两种较好的改进算法, 本文提出的基于速度优化和社区偏向的标签传播算法在较大规模网络上的迭代次数减少了几十倍, 在真实网络数据集的模块度相对较高, 在LFR基准网络数据集的归一化互信息值和F-measure值分别有明显提高。【局限】更新顺序具有随机性, 需进一步研究。【结论】本文算法在提高执行速度的基础上, 提高了社区发现的准确率。
【目的】在竞争情报分析中, 改进新闻报道信息主题识别效率, 降低情报搜集成本, 提升分析的即时性。【应用背景】适用于企业竞争情报人员通过新闻媒体对企业自身和竞争对手的报道抓取和主题识别, 及时感知重要动态。【方法】使用情感分析API对爬取的新闻报道数据做出分类, 利用LDA识别主题, 并进行可视化分析。采用Python完成数据采集、清洗、分析与可视化等流程。【结果】从共享单车新闻中, 识别出正负面情绪的不同主题, 并且找出对应的主要特征词汇。【结论】基于情感分类的主题挖掘方法有助于企业聚焦自身与竞争对手的主要优势与问题, 可以改进环境扫描与竞争情报的时效性和准确性。
【目的】利用文本挖掘方法发现潜在的药物-副作用关系, 为完善现有药物-副作用数据库及药物副作用早期预测提供有效途径。【方法】从PubMed数据库获取2011年 - 2016年间与人类药物治疗和副作用相关文献共100 873篇, 对文献集进行Perl语言切分处理、基于词典的命名实体识别、R语言生成药物-副作用共现矩阵、gCLUTO双聚类分析等一系列研究。【结果】以聚类结果中一类为例, 计算得到本方法提取药物-副作用的准确率达75.65%, 其中发现潜在的药物-副作用关系比例达13.91%。【局限】仅使用基于词典的命名实体识别方法, 并未考虑语法、词法等因素, 造成较高的假阳性率。【结论】本研究可用于发现数据库中尚无记载的药物副作用, 为药物副作用的早期发现提供参考, 为进一步运用自动学习的方法更加准确地提取药物-副作用提供可行的方案。
【目的】为提升科技文献文本内容语义理解, 对基金项目文本中的新兴趋势进行探测。【方法】提出一种基于DTM模型和文本特征分析的基金项目新兴趋势探测方法, 利用文本挖掘技术深入文本内容并分析基金摘要特征要素, 识别主题概率分布并构造基于文本特征要素的新兴主题探测公式, 对NSF数据库石墨烯领域中的新兴趋势进行探测与分析。【结果】通过文献调查法和专家咨询法, 表明该方法能够更加快速准确地识别基金项目中的新兴趋势主题, 弥补了单一主题维度进行主题探测的不足, 为科技创新决策提供情报支撑服务。【局限】仅从资助金额强度、资助时长、资助主题三个方面分析基金项目, 需进一步拓展和探索符合其文本特征的因素并对其进行多因素融合分析。【结论】本文提出的新兴趋势模型可更加快速准确地识别其新兴趋势主题。
【目的】基于机器学习进行有效的科研主题发现与分析建模研究。【方法】以LDA主题模型为基础进行科研主题发现, 通过Python语言实现分析建模, 关联分析科研主题的年代、机构、基础研究与应用研发等信息, 对比披露了各年代、机构的研发重点及基础研究和应用研究的差异, 并对结果进行可视化。【结果】基于101 813条石墨烯领域的论文和专利数据进行实证分析, 结果表明通过建模进行12个主题的发现、关联分析及其可视化全流程可在很短时间(约2分钟)内完成, 通过机器学习的手段突破了传统分析工具以及数据分析体量的局限性, 提升了针对大量文本数据信息挖掘及分析的效率。【局限】尚未探讨主题间关联关系权重及主题演进等涉及复杂网络分析的内容。【结论】机器学习对情报分析有着无限可能, 需要基于实际需求开发更多有效的分析模型, 满足大文本分析和可视化。