【目的】分析文本相似度计算方法, 了解该领域的发展态势。【文献范围】在CNKI和Web of Science中分别以检索式“篇名: 文本相似度 OR篇名: 词汇相似度 OR篇名: 语义相似度”和“TI: ‘text similarity’ or ‘semantic similarity’ or ‘lexical similarity’ ”并限定文献类型进行检索, 最终得到69篇重点文献。【方法】对文本相似度计算方法进行系统梳理, 分析重点方法的基本思想、特点并总结未来发展方向。【结果】形成了较为全面的分类描述体系, 文本相似度计算方法可分为4类: 基于字符串的方法、基于语料库的方法、基于世界知识的方法和其他方法。其中, 基于神经网络和基于世界知识的方法以及针对跨领域文本的相似度计算将成为该领域的发展趋势。【局限】仅将不同方法本身作为探讨的核心, 未进一步分析方法的应用情况。【结论】有助于全面把握和深入了解文本相似度计算方法的研究现状和未来趋势。
【目的】在调查分析全球数据科学课程建设现状的基础上, 提出数据科学课程的共性特点、主要挑战及解决对策。【方法】采用实证研究方法和内容分析方法调查分析国内外数据科学课程的建设现状、成功经验与存在问题。【结果】提炼出全球数据科学课程的共性以及数据科学与其他相关课程之间的差异性。【局限】对数据科学人才培养的讨论主要聚焦于课程建设层面, 而对专业层面的讨论不多。【结论】本文提出数据科学课程建设中的10个核心问题及其解决方案。
【目的】从文献计量和社会网络分析的角度对社会化推荐进行内容特征及网络演化的研究, 归纳领域研究热点和发展趋势。【方法】以WoS数据库为数据源, 采用人工判读法、关键词共现、文献计量、社会网络分析及数据可视化等方法对样本数据进行数据挖掘和关联分析。【结果】检索到社会化推荐类文献3 701篇, 论文数量整体呈上升趋势, 以发文量阈值为阶段划分标准, 将社会化推荐的发展演化趋势划分为三个阶段, 各阶段研究特征明显。【局限】仅以关键词为探究文献内容特征的依据, 内容深度挖掘相对不足, 其中阶段划分是为了分析研究内容及演化趋势的变化, 并不存在统一的划分标准。【结论】我国学者在该领域的国际影响力逐年上升, 领域研究内容方面阶段性变化特征明显, 社会化媒介、协同过滤等传统研究方向一直保持较高关注度。
【目的】利用用户标签及关系网络, 为用户推荐潜在的相似用户。【方法】通过探究社会化标注系统中标签、关系网络所表征的用户长短期兴趣特征, 综合用户标签及关注关系, 利用多维尺度法构建用户聚类模型, 根据用户聚类结果进行相似用户推荐, 并以“微博”为例对模型进行实证。【结果】实验结果表明, 基于标签和关系网络的用户聚类模型能够有效地结合用户长短期兴趣特征, 挖掘潜在相似用户, 聚类及推荐效果较好。【局限】样本数据集具有局限性, 不能完全涵盖用户兴趣领域, 仅从一个领域验证了模型的准确性与有效性。【结论】通过对用户标签及关系网络挖掘用户长短期兴趣, 构建的基于用户静态标签与动态关系网络的用户推荐模型, 对个性化用户推荐效果有较好的提升。
【目的】充分利用多源网络评估数据和URL异常特征数据, 研究提高钓鱼网站识别准确性的可行性方案。【方法】采用8种机器学习技术, 对比研究网络评估数据与传统的URL异常特征数据在钓鱼网站识别中的性能, 并融合两类数据研究进一步提高钓鱼网站识别准确性的可行性方案。【结果】在钓鱼网站识别中, 相比于传统的URL异常特征, 利用网络评估数据可以取得更好的识别效果。融合两类数据对于提高识别准确性有一定帮助。【局限】未考虑钓鱼网站与正常网站的数量存在严重的不均衡问题。【结论】充分利用多源网络评估数据和URL异常特征数据识别钓鱼网站的方法是比较合理和有效的, 对后续相关研究具有一定的借鉴意义。
【目的】利用文本语义组块特征提升Cosine文本相似度计算性能。【方法】获取NSF资助的关于碳纳米管研究领域的项目数据, 进行词干还原、词性标注等预处理; 利用条件随机场模型实现文本内容的语义组块标注; 在此基础上实现基于语义组块特征的改进Cosine文本相似度计算, 并与未标注的数据进行相似度计算比较, 分析实验结果。【结果】实验证明基于语义组块特征的改进Cosine相似度计算结果比原始文本Cosine相似度计算结果相似度均有不同程度的提升, 在实验数据中最高的相似度提升了26%。【局限】依赖于语义组块标注性能。【结论】本文方法能有效提升文本间语义相似度, 降低向量空间模型维度, 提高计算效率, 并且具有良好的泛化能力和鲁棒性。
【目的】针对Slope One算法未考虑项目相似性、项目属性和对目标用户已有评分同等考虑进而导致推荐准确度降低的问题进行改进。【方法】提出一种基于改进的项目相似性度量、改进的项目属性相似性度量和用户评分概率函数的多权值的Slope One协同过滤算法, 在项目相似性度量方面将共同评价的两个项目的用户数量和Pearson相关系数相融合, 在项目属性相似性度量方面将修正的拉普拉斯平滑与Jaccard系数相结合, 同时利用用户评分概率函数对用户已有评分进行有效区分。【结果】实验结果表明, 本文方法相比于原Slope One 算法, MAE值下降了5.4%, 能够获得更好的推荐准确度。【局限】只关注推荐系统中用户对项目产生的评分, 并没有关注用户对项目给出的评论, 在一定程度上影响了推荐效果。【结论】本文方法更能适应评分数据稀疏性, 有效提高了推荐系统的推荐质量。
【目的】在“共同拥有而不占有”的共享经济理念下, 探索如何优化供需方的服务。【方法】爬取“小猪短租”的用户数据, 利用二模网络分析工具Ucinet探究用户位置演变, 结合一模网络中用户复杂关系, 构建固定效应模型分析个体中心度对相连用户交易行为的影响程度。【结果】度数中心度会正相关显著影响相连用户行为, 而房东中介中心度显著影响房客消费行为, 核心房客中介中心度显著影响房东订单供应行为。【局限】主要针对互动性强的用户采取滚雪球抽样, 无法完全体现整个关系网络的特点。【结论】为了促进小猪短租因交易行为构建的社会网络活跃, 应鼓励用户充当消费者, 并主动参与其中作为服务提供商。
【目的】构建网络信息内容可信度的定量测度模型, 以提高虚假信息的筛除效率。【方法】基于贝叶斯推理理论, 构建网络信息内容可信度的测度模型; 基于贝叶斯决策理论, 构建可信度测度有效性的最小错误率评估模型。【结果】基于实际数据集的实验结果表明, 随着社会化媒体参与者规模增加, 可信度测度的最小错误率呈下降趋势, 且贝叶斯可信度测度模型总体优于传统的模糊可信度测度模型。【局限】可信度测度错误率的影响因素只关注参与者规模因素, 而其他影响因素, 如条件属性或可参照对象等, 将需要进一步研究。【结论】基于集体智慧理论, 揭示网络信息内容可信度测度的最小错误率会随着参与者规模增加而降低。
【目的】对新媒体环境下社会公益舆情网络结构特征和信息传播展开研究, 对相关部门加强社会公益网络舆情监管, 为充分利用新媒体平台开展社会公益服务提供帮助。【方法】基于社会网络分析法, 以新浪微博“画出生命线”话题数据为样本, 从中心性、聚类和K-核三个社会网络指标出发, 对新媒体环境下社会公益舆情网络结构特征和信息传播展开研究。【结果】实证研究结果表明, 新媒体环境下的社会公益舆情网络为无标度网络, 各子社区具有相似的网络结构, 核心网络虽相对紧密但分布广泛, 社会公益网络舆情已经进入移动时代。【局限】数据来源不够广泛、未剔除沉睡用户数据可能导致的研究偏差。【结论】在理论层面为社会公益网络舆情提供新的研究视角, 在实践层面对相关部门加强舆情监控具有指导作用。