【目的】设计主题模型结合流形学习文本特征降维可视化方案, 更有效地发现与更直观地展示科研基金资助布局。【方法】基于美国NSF信息与智能系统(IIS)10年(2008-2017)的基金资助项目数据, 利用聚类算法结合人工判读构建项目主题标签; 利用TF-IDF向量空间模型与LSA潜在语义分析主题模型分别构建项目申请书高维特征, 采用流形学习中t-SNE非线性降维算法将高维特征映射到二维或三维空间中可视化展示; 基于构建的项目主题标签结合人工判读检验可视化效果。【结果】实验结果表明, t-SNE算法结合潜在语义分析模型在实验数据降维效果明显, 可视化图谱不论在二维还是三维空间中, 相同主题项目有较好的聚集性, 主题间同样显示了清晰的轮廓和分界。【局限】算法参数的预设与调整需人工参与, 未对不同资助机构的基金文本数据的适用性进行验证。【结论】该方法是可行的且可视化图谱能够直观地反映资助机构的资助布局, 对科研管理与决策者审视宏观科研布局能够起到辅助作用。
【目的】利用BRFSS数据库, 找出对儿童哮喘影响较大的高相关变量, 建立简单易行、无需侵入性临床指标的儿童哮喘预测模型。【方法】采用统计学方法对变量进行筛选, 利用BP人工神经网络的方法建立预测模型, 并与传统Logistic回归、决策树及支持向量机方法所建模型进行比较。【结果】最终纳入预测模型的变量共4项, 包括哮喘史、吸入器使用是否正确、确诊年龄、家庭收入。BP人工神经网络建立的预测模型准确度达0.723, 灵敏度达0.697, 特异度达0.680。【局限】BRFSS数据库属回访型调查, 数据存在缺失, 一定程度上会影响预测效果。【结论】BP人工神经网络建立的儿童哮喘最优预测模型对影响因素多且关系复杂的哮喘疾病, 更能发挥其自适应强的优点。
【目的】为了促进新一代知识问答平台的可持续发展, 对提问者付费意愿的影响因素进行探究。【方法】在文献梳理的基础上, 对传统知识问答平台和新一代知识问答平台之间的异同点进行比较分析。基于社会交换理论和社会资本理论, 运用结构方程模型对提问者的付费意愿进行实证研究。【结果】提问者的感知价值对付费意愿具有显著的正向影响; 经济收益、社会支持、自我提升和娱乐享受对感知价值具有显著的正向影响, 而经济成本对感知价值具有显著的负向影响; 正向互惠信念对经济成本具有显著的正向调节效应, 同时提问者对答主的信任感也显著地正向调节了感知价值和付费意愿的关系。【局限】仅采用截面数据, 且大部分数据依赖于参与者的自我报告。【结论】丰富新一代知识问答平台用户参与动机的理论基础, 并为付费知识问答平台的管理和设计提供相应的建议。
【目的】对城市节庆期间各景区客流进行可视化, 分析事件旅游客流时空分布规律及影响因素。【方法】在客流大数据的支撑下, 以上海旅游节作为研究样本, 运用GIS对上海80家A级景区客流数据进行空间信息表达, 并构建理论模型检验影响因素。【结果】萌生性旅游资源突破事件旅游客流实现旅游需求的时间、空间障碍; 原生性旅游资源是引发旅游者客流集聚的动机所在, 导致客流快速汇集。事件旅游客流空间集聚特征明显, 整体上由客流集聚中心区域向四周递减, 并呈多核模式的空间分布规律; 事件旅游客流时间分布改变“倒U型”, 时空阻隔导致热点景区集聚效应更强。旅游资源禀赋、交通区域条件、事件旅游产品竞争力、事件旅游服务接待能力对事件旅游客流集聚具有促进作用, 事件旅游配套设施不再是吸引事件旅游客流的关键要素, 景区承载力大并不能拉动旅游客流的集聚。【局限】未对客流的动态路径进行深入探讨。【结论】GIS技术与大数据结合, 可直观表达客流分布规律。
【目的】利用Word2Vec和Sent2Vec算法生成新浪微博的文本的向量化表示形式, 以期在文本分类时获得较低的计算成本和较高的分类效果。【方法】使用文本中词的0-1矩阵进行分类, 将分类效果作为基准线; 采用Word2Vec算法生成词向量并用不同方式合成句子的向量表示, 进行文本分类, 并与基准线进行对比; 利用Sent2Vec算法直接生成句子向量进行分类, 综合评价3种方法的优缺点。【结果】研究显示使用Word2Vec算法和Sent2Vec算法能够极大程度上压缩文本特征, 对比于使用所有3万多个词作为特征, Word2Vec算法和Sent2Vec算法将特征数压缩在1 000以内。在分类准确率方面, Word2Vec算法的分类准确率比基准线低约3%, 准确率为75.14%。Sent2Vec算法的分类效果远不如其他两种方法, 准确率只有63.08%。【局限】由于语料有限, Word2Vec算法在计算词向量时可能缺少足够的语义信息, 导致词向量的准确性不高, 而Sent2Vec算法在中文文本语境下生成句向量的分类结果较差。【结论】Word2Vec算法更适用大规模语料文本分类, 在文本量较少时应使用词为特征分类。
【目的】结合基于LDA主题识别模型和AdaBoost方法以提高微博文本情感分类准确度。【方法】利用LDA提取微博文本主题分布特征, 融合情感特征和句式特征, 采用AdaBoost集成分类方法针对上述特征变量训练情感分类模型。【结果】研究结果表明, 主题特征对情感识别有显著正向作用, 基于主题特征和情感特征的模型分类效果最好。借助AdaBoost分类器使得最终情感分类准确率达到84.512%, 召回率达到83.160%。【局限】样本数量有限; 情感词典还不够完善; 同时忽略了微博文本中的表情符号等特征。【结论】本文提出的结合主题分布特征的AdaBoost模型能够有效地判别用户情感倾向。
【目的】研究产品各属性之间的层次关系以及消费者对产品局部属性与整体属性的情感态度, 优化情感分析结果。【方法】构建产品领域本体, 利用该本体提取产品属性并构建产品属性层次模型, 通过计算情感词与属性词搭配权重来识别隐式属性, 并构建领域情感词典, 计算各层次产品属性的情感倾向性, 从产品总体、属性类、单个属性三个层次, 实现产品细粒度的情感分析。【结果】采集手机在线评论数据设计实验, 对比实验结果表明本文算法在情感分类准确性上有明显提高。【局限】本文的产品属性的抽取与层次模型的构建依赖于所构建的领域本体, 因此本体构建的完善性还需进一步提高。【结论】本文方法能有效解决属性之间的逻辑关系, 进一步提高了情感分析的准确性与实践性。
【目的】研究用户跨设备搜索中查询式的变化, 以支持用户的跨设备搜索。【方法】通过用户实验、日志分析、聚类分析等方法分析用户跨设备搜索前后查询式的长度、关键词词数和查询式多样性等基本特征以及查询式语义变化模式。【结果】用户在电脑端构造查询式的长度和关键词数量显著多于移动端, 但跨设备前后查询式多样性差异不明显; 用户在跨设备搜索中构造的查询式在语义相似上有“W型”、“M型”和“V型”变化模式。【局限】用户数量限制了查询式获得数量。【结论】查询式语义变化模式在一定程度上能反映用户的搜索策略, 识别用户查询式语义变化模式对判断用户搜索策略、从而支持用户跨设备搜索具有帮助。
【目的】通过数字小说书架用户阅读过程中等待感知情况进行综合分析, 对影响用户满意度的路径及因子进行探索。【方法】以QQ浏览器小说书架为例制作不同变量的体验Demo, 结合视频观察法、任务提示法、问卷法及深度访谈获取用户在面对不同等待感知变量时满意度特征变化数据, 寻找等待感知满意度影响因子之间关系。【结果】发现影响等待感知组成的客观等待时间、填充物、功能、操控性、场景、上下文因子对用户满意度之间存在不同程度的影响, 且这些影响均具有统计显著性。【局限】样本数量可以进一步提高, 弱势群体的需求未能涉及。【结论】本研究从等待感知角度改进信息产品的体验满意度, 具有较好交互运用前景。
【目的】规范科技文献数据库中机构名称存储与管理, 设计并实现机构名称匹配策略。【方法】引入地区、类别和命名特征, 构建3类7组匹配判定规则, 设计4组规则与编辑距离混合的匹配策略, 基于中文生物医学文献数据库2006年-2011年“作者单位”数据进行实现与评估。【结果】在600余万条“作者单位”数据集上, 对高等院校、医院与科研院所三类机构进行匹配实现, 结果表明综合考虑机构地区和命名特征规则的混合匹配策略表现最佳, 准确率均在80%以上, 召回率达64.82%, F值达71.66%。【局限】辅助词典和规则构建主要依赖人工经验, 覆盖面不全; 机构名称识别存在错误, 对匹配结果产生影响; 提出的匹配策略无法有效解决机构名称形态差异较大的规范问题。【结论】本研究提出一种基于规则和编辑距离的机构名称匹配策略, 能够提高科研文献数据库建设的规范性。
【目的】通过对文献摘要数据进行挖掘实现知识发现, 发现疾病关联基因及其规律, 为疾病的预防与治疗提供依据。【方法】采用基于词典的实体识别技术, 构建实体抽取规则, 提出疾病与基因实体间关联关系发现模型。选取糖尿病肾病相关摘要对模型进行验证, 应用聚类分析方法对疾病关联基因进行分析, 根据聚类结果采用回溯分析的方法回溯至原摘要讨论。【结果】获得656个糖尿病肾病关联基因, 根据聚类分析结果, 将关联基因分为三类, 其中频次为26的基因为高频基因, 11到19的为中频基因, 1到10的为低频基因。【局限】实验数据选取有限, 仅选取糖尿病肾病进行实验, 未来可选取其他糖尿病并发症进行实验与对比分析。【结论】(1)疾病的高频基因可能是当前研究的理论依据; (2)中频基因是当前研究的热点; (3)低频基因是可能的知识发现, 未来可能进一步发展成为研究热点。