【目的】识别并对比分析国内外健康问答社区用户信息需求, 总结演变规律和探究演变原因。【方法】选取“慢友帮”和“DailyStrength”糖尿病群组用户问答数据, 基于主题和时间视角, 利用主题编码、社会网络和内容分析方法, 对比分析主题分布、演化及共现规律。【结果】国内外社区用户核心需求都是“疾病如何治疗”; 且对于慢性病社区而言, “饮食”主题与其共现主题关系很密切。【局限】尚未将问答相关程度纳入分析框架, 对主题演变及内容研究不够深入。【结论】国内社区处于发展期, 国外社区处于稳定期; 国内社区具有“问答属性”, 而国外社区兼具“问答属性”和“社交属性”。
【目的】结合深度学习, 分析股市数值数据和财经新闻, 提高股票涨跌预测准确率。【方法】建立基于事件的新闻分类模型, 使用多输入的循环神经网络建立基于新闻事件、资金流向和公司财务的个股走势预测模型, 提升股票预测准确率。【结果】引入新闻文本后模型预测准确率进一步提升, 其中, 采矿业准确率达到76.22%, 医药制造业准确率达到77.36%。【局限】未验证新闻标题与新闻文章对股价影响程度的差异, 且新闻事件的分类是基于一年内的新闻数据集进行人工划分, 数据集不具备完整性和代表性。【结论】引入新闻事件作为股票预测模型的特征之一, 能够提升预测的准确率。
【目的】依据HEDONIC理论, 利用不同类型特征构建商品房价格评估模型, 为房屋价格评估工作提供一个效率更高、成本更低、准确性更高的解决方案。【方法】利用空间分析方法, 对预处理后的数据构造并选取重要特征, 基于随机森林、神经网络以及KNN建立融合模型。【结果】分析西雅图2014年至2015年商品房价格评估结果可以得出: 该模型明显优于线性HEDONIC模型, 准确度提升11.20%, 较为可靠。【局限】选取样本数据时, 时间截面并不完全一致, 导致模型存在潜在缺陷; 由于市场环境不同等多种因素, 将该模型运用于中国房屋价格的评估可能会存在偏差。【结论】本文提出的融合模型是一种较为可靠的房屋价格评估模型。
【目的】探讨实体解析理论中经典的实体解析方法及逻辑思路。【文献范围】在Google Scholar和CNKI中分别以检索词“Entity Resolution”、“Collective Analysis”、“Crowdsourced”、“Active Learning”、“Privacy-Preserving”和“实体解析”进行文献检索, 再结合主题筛选, 精读并使用追溯法获得实体解析研究的代表性文献共86篇。【方法】针对每种实体解析方法, 归纳分析该方法的基本思想, 并通过图示直观地呈现其中的解析过程; 重点分析梳理方法实现过程中, 现有研究所采用的关键策略、算法或技术等。【结果】实体解析是数据质量管理的基本操作, 也是发现数据价值的关键步骤。【局限】未深入分析各实体解析方法的评价指标和应用情况。【结论】尽管现有实体解析方法能在一定程度上满足大部分应用的需求, 但在大数据环境下其仍然面临着数据混杂性、隐私保护和分布式环境等方面的挑战。
【目的】对挪威模型进行系统而全面的介绍, 为中国相关评价工作的开展提供参考。【方法】通过案例研究, 介绍挪威模型的实施方式、除挪威以外其他国家使用该模型的效果和经验、挪威模型在多层面多学科领域的应用效果、挪威模型与其他两种文献计量指标的比较。【结果】挪威模型作为一个与其他国家不同的基于绩效的资助系统, 在包括挪威在内的6个欧洲国家得到不同程度的应用, 在不同程度上促进了科研人员的成果产出。【局限】挪威模型的应用及模型本身都在不断地发展, 同时也受限于能够获取到的资料, 暂时无法论述挪威模型的未来发展。【结论】挪威模型在科技评价上具有一定价值, 其思想值得借鉴, 但具体如何应用于中国尚需进一步的探讨。
【目的】识别出科技论文中分布在不同段落、在语义及版面视觉上具有并列关系的文本块, 捕捉并列关系文本特征, 为并列关系知识对象识别提供预训练模型。【方法】以段落为处理单元, 在字符向量和词向量的基础上附加版面视觉特征, 对不同层级具有并列关系的文本进行多维特征表征, 利用卷积神经网络(Convolutional Neural Networks, CNN)模型对标注数据进行文本分类训练, 得到并列关系文本块识别模型。【结果】在人工标注的科技论文数据集上展开实验, 对并列关系文本块分类准确率达96%, 比基准模型高出约3%, 召回率高出约2%。【局限】仅适用于HTML网页文本数据, 对于其他格式的文本数据还有待进一步研究和实验。【结论】以段落为处理单元, 综合多种特征后利用卷积神经网络模型能够高效识别篇章级并列关系文本块, 可以作为并列关系知识对象识别预训练模型。
【目的】利用科技政策推进中产生的各类文件中的知识内容来揭示政策的演化关系。【方法】基于政策文本中多维政策实体及实体之间的多种关系, 构建从直接语义关系、直接共现关系、间接共现关系、关联路径衰减指数4个维度综合计算科技政策实体关联的多指标模型, 结合实体时间属性, 揭示科技政策演化路径。【结果】揭示了实验议题相关的科技政策举措多条发展路径, 以及特定实体的前序、后继发展路径。通过人工比对, 阈值大于0.5时实验集中发现的政策路径有80%真实存在。【局限】此方法的计算结果依靠人工比对和专家判读, 目前无法提供更有效的定量验证方法。同时, 验证的数据集合较小。【结论】本文探索了基于科技政策文本自动揭示科技政策演化的思路, 拓展科技政策分析的深度, 丰富科技政策演化研究的角度。
【目的】针对专利引文类别繁多的问题, 研究自动识别其中专利科学引文这一特定类别的方法, 进而准确抽取专利科学引文的标题特征项, 支撑后续专利科学引文深度分析与挖掘。【方法】引入表示学习方法Doc2Vec实现专利科学引文整体的语义向量表示, 结合机器学习分类方法实现专利科学引文这一特定类别的识别; 在此基础上, 利用表示学习方法实现专利科学引文标题等内容元数据的语义向量表示, 结合机器学习分类方法抽取专利科学引文标题。【结果】在基因领域专利的实验中, 专利科学引文的识别精确率达到99.27%, 专利科学引文标题抽取精确率达到92.59%, 抽取精确率较单纯的机器学习方法提高5.96%。【局限】人工标注训练集较为耗时; 对实验数据格式有一定要求。【结论】本文方法在专利科学引文识别和标题抽取上具有良好效果。
【目的】对投诉短文本进行有效分类以提高问题处理效率。【方法】针对投诉文本所呈现出的弱结构化、长度较短等特征, 提出一种结合主题模型和词向量方法构建SVM输入空间向量, 并融入集成学习方法的nBD-SVM文本分类模型。【结果】采用企业投诉文本进行实证分析, 对比相关分类方法, nBD-SVM准确率可达81.13%, 说明其能够有效提升投诉文本分类的准确性和效率。【局限】实验仅以某公司投诉文本为例。【结论】nBD-SVM分类模型能够适应企业投诉文本分类任务, 满足企业的分类应用需求。
【目的】研究中文文本中关系自动抽取的方法。【方法】以224家农业上市公司2015年-2017年的678份年报为数据来源, 采用基于双重注意力机制的门控循环单元算法, 进行中文文本关系自动抽取研究。【结果】最终模型在农业金融文本数据集上的平均准确率达78%, 相较循环神经网络算法, 该算法平均准确率提高约12%。【局限】仅针对224家农业上市公司的数据进行研究, 研究涉农企业对象有待进一步拓展。【结论】该模型能够在农业金融相关文本的关系抽取上取得较好效果。
【目的】从隐私泄露和隐私保护角度, 研究隐私忧虑背景下的移动医疗APP使用意愿问题, 分析不同主体行为间的相互影响, 提升移动医疗APP的隐私保护水平和患者使用意愿。【方法】运用演化博弈理论, 设计由患者、移动医疗APP服务商和政府组成的博弈主体, 讨论其在移动医疗APP使用过程中的博弈行为。根据不同行为策略的收益、成本和损失, 计算博弈三方的支付矩阵, 分析演化稳定策略, 并探究不同因素对演化稳定策略的影响。【结果】患者的移动医疗APP使用意愿与APP服务收益、隐私泄露损失和概率密切相关, 政府监管措施对其无显著影响; 移动医疗APP服务商的隐私保护行为与患者使用意愿、政府监管、投入成本、隐私泄露损失等因素密切相关; 政府监管行为与投入成本、社会公信力等因素密切相关。【局限】未能设计非线性收益函数; 未能考虑其他影响演化稳定策略的因素, 如监管成功率、广告因素等。【结论】通过分析不同因素对移动医疗APP使用意愿、移动医疗隐私投入和隐私监管的影响, 能够促进移动医疗服务水平的发展和提高。
【目的】探究学科交叉研究的演化阶段特征。【方法】以医学信息学为示例学科交叉领域进行演化阶段划分, 进而从知识引入和知识产出两方面分析学科交叉度特征, 研究知识产出的共词网络结构变化, 深度揭示该学科交叉领域的不同演化阶段特征。【结果】医学信息学的萌芽期、发展期和稳定期表现出不同的学科交叉度和共词网络结构特征。在稳定期, 知识生长激增的同时伴随着知识内化过程, 且知识产出的专业度提升。【局限】学科交叉领域样本有待扩充以总结出一般性规律。【结论】学科交叉研究表现出的阶段特征是学科交叉领域发展过程中多学科知识引入与知识产出导致的客观结果。
【目的】充分利用专利数据, 研究专利价值评估和分类问题。【方法】根据专利的价值指标, 设计基于自组织映射(SOM)-支持向量机(SVM)的专利价值评估及分类模型, 使用自组织映射方法确定专利的价值类别, 采用随机森林(RF)对价值指标进行重要性排序, 并结合包裹式特征选择方法对价值指标进行约简, 以提高SVM的分类性能。【结果】通过SOM确定的价值标签能有效反映专利价值的高低; 同时, 约简后的指标由初始的14个减少到10个, 分类准确率由76.28%提高到86.89%。【局限】对每个类别中的专利价值没有细化, 专利价值指标存在进一步约减的可能。【结论】本文方法能够为专利研发活动提供支持, 避免过度依赖专家判断。
【目的】探究和验证用户隐式行为数据的挖掘方法及结果对信誉共谋攻击识别模型精度提升的效果。【方法】提出用户融合隐式行为分析的总体框架, 提取隐式行为特征; 设计两阶段综合特征选择方法, 选择多个高辨别力的特征。【结果】利用电子商务中的大量数据实验验证了用户隐式行为挖掘在抗信誉共谋中的有效性, 对共谋者的识别能力优于显式特征。【局限】攻击者和合法用户隐式数据规模仍需要进一步扩大。【结论】融入用户隐式行为挖掘可较大幅度提升信誉共谋识别模型的精度。