【目的】研究电商用户在多会话网购过程中的商品信息搜寻的行为特征、会话时间间隔特征以及购物网站使用特征, 并探究行为背后的情境、原因和动力。【方法】基于某电商网站4 285个用户的1 409 160条访问日志, 利用顺序分析和聚类分析方法挖掘用户信息搜寻行为特征, 结合访谈研究行为背后的情境、原因等影响因素。【结果】多会话网购用户信息需求并不急切, 较之搜索更倾向于查看商品详情; 平均会话时间间隔为3-4天; 继续原来购物任务的动力包括个人偏好、需求状态、支付能力、时间等方面的因素; 用户主要通过搜索、购物车、收藏夹、同店或同款商品浏览、商品个性化推荐等途径回到原来购物任务。【局限】访谈结果受样本数量限制, 不具有普适性。【结论】有助于理解用户的复杂网购行为, 指导购物网站提高服务质量, 改善用户体验。
【目的】利用LDA主题模型探索分类视角下的主题提取与分布状态, 全面深入地揭示学科知识结构和热点。【方法】以国内知识流领域为研究对象, 选取CNKI和万方数据库中知识流相关文献为数据源, 利用中图分类号将知识流研究的文献分成11个学科, 借助LDA主题模型分别对这11个学科所包含的文献进行主题抽取, 挖掘出不同学科中所包含的20个热点主题。【结果】分析20个热点主题, 得到11个不同学科的热点主题内容及其所揭示的知识点。【局限】该方法没有同其他学科主题挖掘方法进行对比, 分析得到的国内知识流研究热点也没有同已有相关文献中分析出的该领域热点进行对照。【结论】该方法能够更全面和深入地挖掘学科知识结构和研究热点。
【目的】为使结点投放的社会性网络广告绩效最大化, 探索一种遴选网络影响力用户的新方法。【方法】从社会资本测量的视角, 将社交网络上的用户间关系描述为社会关系网络基本图谱, 据此建立用户影响力社会资本测度模型, 通过对基本图谱下的用户随机游走行为发生可能性的概率计算, 以识别和发现有影响力的用户。【结果】经识别的目标用户在其特定领域拥有相当的话语影响力, 可对其他用户施加信息影响, 经与“新浪微博”平台标识的影响力用户对比, 验证该方法的有效合理性。【局限】未考虑社交网络用户的博文内容对其话语影响力的贡献。【结论】为企业投放社会性网络广告遴选有影响力用户, 提供理论支持和实用方法。
【目的】解决现有的票房预测模型由于数据受限等因素导致的无法实现在影片上映前进行票房预测这一问题。【方法】在获取微博评论的基础上, 使用SVM识别出消费者的显式消费意图, 即强正面评论; 对传统的分类准则进行修正, 构建基于HowNet的中文微博情感词典, 进而定义一个新的用户影响力特征; 使用BP神经网络进行票房预测。【结果】实验结果表明, 本文建立的模型能够较为准确地对电影首映周票房进行预测。【局限】由于语料不充分, 本文构建的中文微博情感词典, 可能会无法在所有的电影微博评论中表现出较好的分类效果; 此外也没有建立一个能够在电影上映周期内动态预测票房的票房预测模型。【结论】该模型能够有效地进行首映周票房预测, 具有现实的可行意义。
【目的】在有效提取多维特征基础上, 考察评论内容特征对评论质量检测的影响。【方法】基于评论文本的信息特征度量和情感倾向的混合性, 量化并抽取评论内容特征, 采用GBDT模型评估特征集合分类效果, 结合贪婪式特征选择算法识别有效内容特征, 分析其对评论质量检测的影响。【结果】将评论内容特征应用于评论质量检测任务中能取得较好的效果, 明显提升了实验准确率和召回率。【局限】实验对象主要是搜索型产品的评论数据, 未对其他享受型产品(如电影、音乐)等进行验证和比较。【结论】评论内容的信息增益、产品特征词的信息增益、评论客观情感倾向度、内容差异性对评论质量检测有明显作用。
【目的】探索科学结构地图中研究领域群的自动识别方法, 快速勾勒科学结构全貌, 增加时效性。【方法】利用特征词测度研究领域的主题相似性, 同时考虑研究领域的相对位置关系, 将位置相邻、主题相似的研究领域划为领域群。设计有效性评价指标对比不同方法的最优参数组合, 推荐最优方法。【结果】该方法能有效地识别出不同时期科学结构地图的领域群。【局限】方法的有效性是基于“科学结构地图”数据的实验结果得到, 参数组合是否适用于其他数据还有待进一步验证。【结论】为科学结构地图领域群的自动识别提供了有效方法。
【目的】构建人才知识结构的自动抽取方法。【方法】基于网络信息采集技术、网页分析以及文本分词、语义网相关技术, 构建基于网络环境的人才知识结构的自动抽取系统。【结果】实验验证了该系统的有用性, 系统识别课程的整体准确率在95%以上, 对半结构化文件, 召回率在95%以上; 对非结构化文件, 部分文件召回率低于90%。【局限】课程识别的召回率受到词典库内容的制约。【结论】本方法能为人才知识结构研究提供有用的工具, 符合构建人才知识结构的基本要求。
【目的】为了准确识别金融论坛文本的情感倾向, 提出一种基于依存句法的情感分析方法。【方法】以依存句法的分析结果为基础, 对句子进行情感主干抽取; 然后根据依存关系的不同类型和不同的词性搭配, 定义情感计算规则, 以此进行句子情感倾向性计算。【结果】实验结果表明, 该方法的整体准确率为84.46%; 看涨类的平均精确率和召回率分别为82.84%和87.14%, F值为84.94%; 看跌类的平均精确率和召回率分别为86.28%和81.74%, F值为83.95%。【局限】在情感计算时未充分考虑子句间的关联关系。【结论】使用依存句法能有效提高金融论坛文本情感计算的准确性。
【目的】利用学习树中知识点的属性和学习访问序列, 对知识点进行预测评分, 进而进行用户相似性聚类以实施协同过滤推荐, 改进传统在线学习推荐方法, 提高推荐质量。【方法】对用户所学知识点属性、知识点学习访问序列、学习频率、学习时间进行标准化处理构建学习树; 基于学习树, 对树中知识点进行预测评分; 基于预测评分和知识点属性、知识点学习序列分别利用Pearson相似性和余弦相似性进行用户相似性计算, 利用K均值聚类方法进行相似用户聚类, 进而利用协同过滤推荐方法进行在线学习推荐。【结果】通过F-measure指标进行实验评价, 结果表明该方法与传统在线学习协同过滤推荐方法相比, F-measure指标超过奇异值分解协同过滤8.22%, 超过平均分预测协同过滤3.75%。【局限】仅基于某在线学习平台的52 456条学生的学习记录和日志进行建模和测试, 未在其他数据集上进一步检验。【结论】解决了依赖用户评分进行协同过滤推荐的缺陷, 同时考虑了用户兴趣迁移对推荐准确率的影响, 对在线学习冷启动与可扩展性问题的解决具有较好的指导意义。
【目的】为准确识别研究内容相似但使用不同关键词的作者关系, 解决传统共现分析方法缺乏语义关联的问题, 提出一种基于关键词语义网络构建的作者研究兴趣相似性度量方法。【方法】通过引入word2vec模型对作者关键词进行词向量表示, 将关键词表示成语义级别的低维实值分布; 计算关键词之间的语义相关度并构造关键词语义网络, 采用JS距离对构建的作者研究兴趣矩阵进行相似性度量。【结果】该方法能计算出共现及非共现词对的相关性, 有效地挖掘出作者之间的潜在合作关系。【局限】训练语料的数量和准确性有待进一步提高, 提出的度量方法仅考虑两个作者之间的潜在合作关系。【结论】研究结果对改进基于传统的共现分析方法度量作者合作关系具有重要的参考价值。
【目的】将开放获取论文推送转发服务系统iSwitch分发的本机构知识产出数据自动同步存缴到机构知识库中。【方法】使用定时任务调度与FTP协议进行数据同步, 通过文件包、文件解析将数据预加载到数据库, 同时提供导入管理、已导入数据管理、审计等功能。【结果】实现数据的自动同步与半自动化导入。已完成对Web of Science超过6万条数据的接收与存缴。【局限】iSwitch推送数据的准确率与及时性有待提高, IR需进一步优化数据导入功能提高自动化程度。【结论】基于iSwitch的机构知识库内容建设, 大大减轻了科研人员、机构知识库管理人员的负担并保证了数据质量。该模式具有一定的推广价值。
【目的】提高专利价值分析效率, 为企业提供准确、可靠的专利价值度信息。【方法】利用ACO和科学的评价体系对企业专利的价值度进行系统化分析和专家评价结果比较分析。【结果】通过运行系统, 得出系统分析结果与专家评价结果数值误差小于10%, 准确率大于86%, 效率提高近10倍。【局限】本系统适用于专利数量较多的专利价值分析, 对于专利数量较少的企业进行专利价值分析不够准确, 仍需要提高和改善。【结论】系统能够快速对大量专利的价值进行分析, 为企业专利价值分析提供更多的选择。
【目的】完善图书馆微信平台功能, 使读者快速获取数据, 增加图书馆移动服务读者粘度。【应用背景】大部分图书馆推出的微信服务缺乏实时性、自动化水平低且多局限于人工干预服务。【方法】利用Apache Tomcat + JSP + MySQL架构, 基于微信API, 集成馆内业务系统数据接口, 建设图书馆微信平台。【结果】实现读者身份认证及合法性判定功能, iPad 等移动设备使用权预约功能, Millennium数据交互功能和自助FAQ (Frequently Asked Questions)功能等。【结论】微信平台功能可在实践中不断丰富, 本文的功能实现对其他图书馆建设微信平台有借鉴意义。