【目的】总结时空数据建模方法, 以期为时空知识的组织和管理研究提供理论基础。【文献范围】在百度学术、谷歌学术、EI、CNKI中分别以检索式“时空数据模型”、“spatio-temporal data model”在限定时间范围、期刊类型内进行文献检索, 获得部分相关文献, 根据研究主题相关程度筛选最终获得64篇相关文献。【方法】根据建模对象的抽象层次对时空数据模型进行分类, 分别从物理层、逻辑层和应用层三个层次对时空数据模型的相关研究进行综述。【结果】近年来物理层对时空数据模型的研究主要侧重于对以往模型的修正, 应用层的时空数据模型集中于满足各领域具体需求, 而逻辑层的研究在表达能力方面有待改进。【局限】不同层次的时空数据模型横向对比研究较少。【结论】未来大规模的时空信息管理和利用, 将为时空数据建模的深入发展提供广阔的空间。
【目的】总结述评国内外科技文献内容知识点抽取研究。【文献范围】以CNKI和Google Scholar为平台, 检索得到知识点抽取相关论文, 共选择68篇代表性文献进行述评。【方法】采用文献调研方法, 对当前图书情报和计算机领域的知识点抽取研究进展进行评析, 对关键的抽取技术进行分类总结。【结果】在总结知识点抽取研究现状和技术体系的基础上, 指出科技文献知识点抽取技术的利弊及未来研究方向。【局限】不同学科领域的科技文献知识点抽取的对比研究较少。【结论】本文提出的研究框架有助于全面把握知识点抽取研究现状, 为其他学者开展新的研究提供借鉴。
【目的】从设计与思维和数据类型两个角度分别探讨用户画像构建过程的机制。【文献范围】在Google Scholar和CNKI中分别以关键词“User Personas”、“User Profiles”和“用户画像”进行文献检索, 再结合主题筛选, 精读并使用追溯法获得用户画像研究的代表性文献共90篇。【方法】从设计思维角度研究画像的构建过程, 具体结合目标导向、角色导向、参与导向、虚构导向这4个视角进行探讨分析; 从数据类型角度研究画像的构建过程, 具体结合本体或概念、主题或话题、兴趣或偏好、行为或日志、多维或融合这些概念进行探讨分析; 对所述构建方法从逻辑思路、性能特点和局限性三个方面进行详细比较, 最后对用户画像研究亟需解决的问题进行展望。【结果】用户画像技术在网络舆情治理、广告营销和个性化服务等诸多领域起着至关重要的作用。【局限】没有深入分析各用户画像算法的评价指标。【结论】尽管现有的用户画像构建方法能在一定程度上满足诸多应用的需求, 但在大数据时代仍面临数据稀疏性、场景智能感知和用户兴趣迁移等挑战。
【目的】通过自动从海量用户评论中抽取有效关键词, 帮助用户和商家快速有效地发现有价值的信息, 从而更好地为用户购买行为提供决策支持, 为商家改善服务质量提供信息反馈。【方法】界定面向用户评论的关键词抽取的问题定义, 从商家和用户两个角度提出面向用户评论的关键词抽取的评价准则; 提出一种基于语言模型的用户评论关键词抽取方法(LMKE), 采集美团网用户评论构建实验数据集, 并与TF-IDF和TextRank两种关键词抽取方法进行对比。【结果】LMKE方法在P@5、P@10、P@20、nDCG@5、nDCG@10和nDCG@20的最高得分分别为0.7665、0.6701、0.6200、0.8187、0.7326和0.6743。【局限】实验仅以美团网武汉地区自助餐厅的所有用户评论为例, 具有一定的局限性。【结论】相较于TF-IDF和TextRank, LMKE方法的效果更优, 且在LMKE方法中基于区分度的策略能获得最优评价指标。
【目的】引入产品画像概念, 解决现有电商平台上对产品静态信息和动态评论关联上的不足。【方法】将知识图谱作为挖掘、组织、存储、展示产品信息的方法, 引入到产品画像的构建研究中, 提出基于知识图谱的产品画像构建方法。【结果】通过设计三项实验生成手机知识图谱数据层, 其中命名实体抽取实验的F值达到77.52%, 评价对象-评价词抽取实验的F值达到76.04%, 同义词发现实验的F值为63.16%。其实验结果验证了所提方法的有效性。【局限】产品画像构建中的关系抽取限定了关系类别, 使得画像中的关系数量有限; 对产品市场流通维度的分析有限。【结论】本研究能够有效帮助购物平台改善产品对比和产品搜索等机制, 为用户提供更好的产品服务。
【目的】在数字人文这一背景下, 为更加深入和精准地从古代典籍中挖掘相应的知识, 通过实验对比分析, 探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料, 以南京师范大学先秦词性标记集为主、以北京大学、中国科学院计算技术研究所和教育部词性标记集为辅, 共形成三种不同大小的新标记集, 通过条件随机场以及添加特征模板比较这三种词性标记集合在同一语料上进行实体抽取结果的差异性。【结果】在先秦典籍《左传》和《国语》上对不同大小的三种词性标记集开展对比实验, 三种模型各自进行实体抽取的F值分别达到82.53%、83.42%和84.07%。【局限】特征选取有待进一步改善, 训练结果还有提升空间。【结论】本文研究结果有助于先秦古文献命名实体的抽取, 所构建的词性标记集合适用于古汉语词性标注工作。
【目的】针对时态意图识别问题, 探讨可抽取查询表达式特征的有效性及采用不同类别分类算法的识别准确度, 为后续相关研究提供一定的借鉴。【方法】按查询表达式特征与时间的关联性, 将其归类为时间无关特征、潜在时间特征、显式时间特征。在此基础上, 分别采用有监督分类算法及半监督分类算法, 探讨采用不同特征组合的有效性及不同分类算法的识别准确度。【结果】在抽取的三类查询表达式特征中, 仅使用显式时间特征的平均分类准确率最高, 且“查询是否包含年份”这一特征为强特征; 使用不同分类算法的识别准确度相差不大; 时态意图识别结果优于已有参与时态意图分类子任务(TQIC)测评的成果, 平均分类准确率为81.14%。【局限】限于数据集的获取途径, 仅对300条查询的时态意图识别效果进行验证; 仅考虑已有的查询表达式特征, 未提出用于时态意图识别的新特征。【结论】查询表达式特征中与时间关联性高的特征能提高时态意图识别准确度, 而基于统计的特征(如查询词长度)对时态意图识别分类准确度的提升效果不明显。
【目的】针对面向科技文献的神经机器翻译中存在的词汇表受限问题, 提出优化方法, 进而提升翻译质量。【方法】根据科技词汇构词规律, 结合点互信息, 在保留词汇义素完整的同时, 对神经机器翻译词汇表进行优化, 达到减少未登录词的目的。【结果】选择NTCIR-2010专利语料和自动化计算机领域期刊论文摘要语料进行实验, 将实验结果与普通分词和子词分词对比, 证明该方法的有效性。【局限】仅考虑中文字符的优化。【结论】在中文科技文献领域, 基于科技词汇构词的词汇表优化方法能够提升翻译效果。
【目的】通过对社交媒体中信息互动内容进行文本分析, 以VR产业为切入点, 探究在线品牌社群中企业与用户信息互动的特点以及企业如何通过信息互动来提升竞争力。【方法】使用文本挖掘方法对国内外4家VR企业的社交媒体主页信息进行采集, 并使用NVivo11等文本分析工具对获取到的信息进行文本分析和数据统计。【结果】数据分析结果表明, 国内外在线品牌社群中企业与用户之间的信息互动存在一定差异, 充分利用信息互动可以帮助企业提高用户粘性, 扩大企业新产品信息的传播, 在多个方面提升企业的竞争力。【局限】研究仅限于虚拟现实产业, 并且社交媒体平台仅限于Twitter和微博。【结论】本文构建了在线品牌社群中企业与用户的信息互动模型, 为信息互动提供新的理论研究视角, 为企业借助虚拟社区加强与用户的信息互动、提高竞争优势提供一定参考。
【目的】构建一种微博话题演化方法, 正确把握话题发展趋势, 提高网络舆情预警能力。【方法】使用Skip-gram模型在文本集上训练得到词向量模型, 将每一时间片的微博文本输入BTM得到候选主题, 在主题维上构造候选主题词向量; 利用K-means算法对主题词向量聚类, 得到融合后的主题, 进而建立文本集在时间片上的话题演化路径。【结果】实验结果表明, 本文方法话题抽取F值为75%, 对比主题模型提高约10%, 证明本方法的可行性。【局限】话题演化的衡量标准不一致, 没有对比多种话题演化方法。【结论】本文方法能有效抽取各阶段话题, 为网络舆情分析提供有效途径。
【目的】探究电子商务中消费趋同的影响因素。【方法】在BBV模型的基础上, 针对商品-消费者二分网络的特点进行两方面模型优化: 采用部分优选、部分随机的节点选择模式; 分别定义网络中两类节点在演化过程中的权重分配方法。通过比较不同参数下模型的演化过程及结果, 探究点强度、随机影响因子、两类节点增加比例对消费趋同的影响。【结果】演化结果证明: 消费趋同程度受点强度、随机影响因子、两类节点比例的影响。【局限】仅选取部分典型参数, 参数缺乏连续性。【结论】良好的初始商品在线评价、较高的消费理性程度和较低的商品市场活跃程度均有助于实现更高程度的消费趋同。
【目的】对CSpace知识分析与可视化功能进行扩展, 实现将知识分析与可视化服务全面嵌入到用户的知识利用和知识创新过程中。【应用背景】知识分析与可视化是机构知识库研究和建设的重要发展方向, 对其功能进行扩展, 在知识传播和利用过程中, 可为用户提供更为优质的知识服务。【方法】重构知识分析与可视化功能框架; 升级Solr索引, 基于其支持Sub Document的特性, 对知识的关联存储结构进行优化; 设计并实现机构数据、项目数据、期刊数据规范与管理功能; 采用Echarts构建模块化、可灵活嵌入的可视化工具集, 提升知识分析与可视化基础服务能力。并基于用户的知识应用需求, 优化和重构知识分析与可视化功能。【结果】实现更细粒度的知识分析, 可灵活定制、随处可得的图谱可视化和导出功能, 在30多家科研机构、高校进行部署和应用。受限于数据规范性问题, 所研发的学科分析功能没有投入实际应用。【结论】以用户需求为中心, 数据规范和关联为基础, 进行知识分析与可视化能力建设, 增强了机构知识库的知识服务属性, 可有效促进机构知识成果的利用和知识创新。
【目的】通过隐马尔科夫模型解决新闻网页中标题、日期、来源、正文等关键信息抽取问题, 并根据应用场景对算法做出改进以提高抽取效果。【方法】将网页文档转为DOM树并进行预处理, 映射待抽取信息项为状态, 映射待抽取观测项为词汇, 研究隐马尔科夫模型在网页新闻关键信息抽取中的应用并对算法提出改进。【结果】使用隐马尔科夫模型的改进算法, 在已构建抽取模型的网站中, 平均准确率可达97%。【局限】抽取模型在分类能力上稍有不足, 无法对细微差别信息进行准确抽取。【结论】该方法具有识别准确率高、建模能力强、训练数据小、训练速度快的优点。