【目的】探究不同深度学习模型的科技论文摘要语步识别效果, 并分析识别效果差异原因。【方法】构建大规模的科技论文结构化摘要语料库, 选择10 000和50 000两种样本量的训练集, 以传统机器学习方法SVM作为对比基准, 引入多种深度学习方法(包括DNN、LSTM、Attention-BiLSTM等神经网络模型), 开展语步识别实验, 并对实验结果进行对比分析。【结果】Attention-BiLSTM方法在两种样本量下的实验中都取得最好的识别效果, 50 000样本量下F1值达0.9375; SVM方法的识别效果意外好于DNN、LSTM两种深度学习方法; 但是, 样本量从10 000增加到50 000时, SVM方法的识别效果提升最小(F1值提升0.0125), LSTM方法效果提升最大(F1值提升0.1125)。【局限】由于该领域尚未有公开的通用语料, 主要以笔者收集的结构化论文摘要作为训练和测试语料, 因此本文的研究结果在与他人比较时有一定的局限性。【结论】双向LSTM网络结构和注意力机制能够显著提升深度学习模型的语步识别效果; 深度学习方法在大规模训练集下更能体现其优越性。
【目的】探索突发事件情境下用户交互行为的规律。【方法】构建基于发帖和回帖的有向赋值矩阵(交互网络), 展现交互网络的整体网络结构图, 对交互网络进行小世界分析, 对中心性指标、结构洞指标与用户交互行为分别进行相关分析。【结果】整体网络结构表现出小世界效应, 特征向量中心性与发帖行为之间具有较大的正相关, 点度中心性与回帖行为之间具有较大的正相关, 结构洞与回帖行为之间具有较大的正相关。【局限】数据类型比较单一。【结论】本研究成果为推动在线健康社区的健康和可持续发展提供了参考和指导。
【目的】针对短文本篇幅较短、特征稀疏等问题, 基于双向长短时记忆网络, 提出一种改进注意力的端到端短文本分类模型。【方法】采用预训练词向量完成原始文本数字化; 利用双向长短时记忆网络进行语义特征提取; 在此基础上, 改进注意力层将正向和反向特征进行融合, 用于全局注意力得分计算, 以获得具有深层语义特征的短文本向量表示; 采用Softmax给出样本标签的分类结果。【结果】相比于传统的卷积神经网络、长短时记忆网络以及双向长短时记忆网络模型, 基于双向长短时记忆网络的改进注意力模型在包含中英文的多个数据集上分类精度取得提升, 其中最高提升为19.1%。【局限】仅针对短文本分类问题, 对于篇幅长度较长文本, 模型分类精度提升有限。【结论】基于双向长短时记忆网络的改进注意力模型实现短文本分类, 能够充分利用文本的上下文语义特征, 有效地克服短文本特征稀疏, 提高短文本分类性能。
【目的】提出一个基于评论的用户建模算法, 实现评论资讯的个性化推荐。【方法】借助预训练词向量从评论观点句中提取细粒度的产品特征, 基于语义关联构建特征词图, 并运用TextRank关键词抽取算法计算用户对产品特性的关注度, 构建用户兴趣模型。【结果】结果显示, 结合词向量和词图算法生成的用户模型与人工归纳的用户模型吻合度较高, 语义关联度近90%。模型评测指标F1为0.5505, 优于基于词频的传统词袋模型(特征词模型F1为0.5269, 词项模型F1为0.3322)。【局限】通过人工标注的评测语料偏少; 基于通用语料获得的词向量对解决领域相关问题存有一定局限。【结论】对于形式表达不规范的评论语言, 信息凝聚与语义分析技术的有机结合能够有效提升用户建模的质量, 为评论质量的评价及评论在推荐系统中的有效利用提供了新思路。
【目的】为获取公众对城市整体状况的共同认知, 提出一种基于标签语义挖掘的城市画像感知方法。【方法】利用标签相似度和凝聚式层次聚类算法, 提出一种具有层级结构的城市画像描述框架; 借鉴LSA潜在语义挖掘思想, 计算不同标签揭示城市画像语义特征的重要程度; 最后筛选出具有较高城市画像解释度的标签集合, 将其与城市画像描述框架整合, 生成具有层级结构的城市画像。【结果】基于知乎平台中的用户评论数据, 提取我国中部6省省会城市的结构化城市画像, 获得多个维度下公众对各城市整体状况的共同感知。【局限】如何自动化抽取高质量的社会化标签并引入语义词典生成更合理的描述框架有待进一步探究。【结论】本文方法能够从海量社会化标签中提取反映公众认知的城市画像, 并能深入到层级结构内部展开细粒度的城市画像描述。
【目的】从专利科学引文的文本内容语义表示角度, 形成专利科学引文内容挖掘技术和方法, 探索科学技术在内容层次上的关联关系, 提高科学技术关联分析的准确性、全面性和可解释性。【方法】识别和抽取专利科学引文的关键词、摘要等特征项表示专利科学引文内容, 利用文本表示学习方法对内容特征项进行语义向量表示, 基于向量相似度计算方法计算特征项间的语义相似度, 进而通过聚类方法分别得到专利技术与专利科学引文内容的研究主题, 并分析特定领域科学技术间的主题关联。【结果】在纳米技术领域的实证分析表明, 该方法能更好地发现科学技术间主题映射和关键词对应关系, 从内容角度深入分析了科学技术间的主题关联关系。【局限】仅从专利以及专利科学引文的摘要和关键词层面进行探索性研究, 使得专利全文本内容表示和分析的广度和深度还不够,分析维度的多样化还需加强。【结论】该方法能够从内容层面提高科学技术间的主体关联分析效果, 结果可解释性更强。
【目的】充分利用源领域标注语料和可重用的字嵌入预训练模型, 解决目标领域标注语料稀缺的命名实体识别问题。【方法】选择以肺癌和肝癌为主题的患者在线问诊文本作为实验数据, 提出一种结合实例迁移和模型迁移的KNN-BERT-BiLSTM-CRF框架, 对仅有少量标注的肝癌患者提问文本进行跨领域命名实体识别。【结果】当实例迁移的k值设置为3时, KNN-BERT-BiLSTM-CRF模型的实体识别效果最优, F值为96.10%, 相对无实例迁移提高了1.98%。【局限】该方法针对其他差异度较大的目标领域, 如不同数据源或病种的实体识别迁移效果还有待验证。【结论】当目标领域标注语料有限时, 可借助大型预训练模型的先验知识和领域外标注语料, 使用跨领域迁移学习方法, 提高命名实体识别的性能。
【目的】完善脑卒中关键风险因素的识别, 提高脑卒中风险预测的精度, 为脑卒中的科学诊断、治疗和干预提供更多依据。【方法】采集某三甲医院住院部近6 000条数据, 经过数据处理和逻辑回归建模拟合, 筛选出12个重要风险因素并构建脑卒中风险预测多层感知机神经网络模型; 利用Python语言构建模型并进行效果检验。【结果】识别出总胆固醇、低密度脂蛋白等是影响脑卒中发病的6个最重要风险因素, 当调节隐层神经元个数为7时风险预测模型的预测准确率为97.10%。【局限】有待纳入更多的风险因素和选用多种机器学习模型进行对比分析。【结论】本文方法可快速、有效地从数据中挖掘出影响脑卒中发病的关键风险因素, 并预测其发病风险, 具有较高的应用价值。
【目的】基于网贷数据, 通过推荐算法和投资组合理论, 帮助投资者选择投资产品、确定投资金额, 从而提高投资者的满意度和收益率。【方法】基于人人贷交易数据, 通过构建P2P场景下的二部图关系网络图, 利用基于二部图的推荐算法和马科维茨投资组合理论为投资者确定投资产品和投资比例。【结果】实验结果表明, 在不同的k值(5、15、25、35、45、50)下, 简单权值改进的二部图推荐算法PNBI的准确率(0.055、0.044、0.039、0.035、0.036、0.032)均高于基于用户的协同过滤算法UCF(0.022、0.019、0.032、0.032、0.033、0.034)和基于物品的协同过滤算法ICF(0.007、0.013、0.014、0.014、0.014、0.014)。PNBI召回率同样高于其他两种算法。【局限】实验数据集有待进一步扩充。【结论】将推荐算法和组合理论相结合, 可以显著提高投资者的满意度以及投资者最终的实际回报率。
【目的】分析核心社团的投资行为, 为创业投资机构选择联合投资伙伴提供决策参考。【方法】基于2006年-2017年中国创业投资事件数据, 运用R语言抽取联合投资矩阵构建创业投资网络, 运用Louvain算法和核社团结构系数辨识核心社团。【结果】核心社团之间在投资行业、投资地域和投资阶段上存在差异; 随时间窗后移, 核心社团成员越倾向投资信息服务和文化教育行业, 投资地域仍集中在发达地区, 投资阶段趋向初创期。【局限】仅根据联合投资构建网络, 没有考虑领投与跟投的关系。【结论】通过核心社团的辨识, 能够深入发现社团的投资行为差异及变化, 对实践有一定的指导意义。
【目的】综合语义、句法和词频等多种文本信息特征, 突破现有文本相似度计算的局限。【方法】构建融合共现距离和依存句法的文本复杂网络, 运用信息熵确定网络动力学特征指标的权重。利用词嵌入、句法结构和倒排档信息避免词语结构和语义的缺失。【结果】对比实验结果表明, 不同类别下本文算法分类效果的F1值较句法网络+TF-IDF方法最高提高12.1%, 比共现网络+语义方法最高提高5.8%。本文算法的各类别分类效果的平均F1值较二者分别提高5.8%和1.6%。【局限】特征提取中对各指标的选取有待改进, 以更全面地区分节点间的重要性。【结论】与传统方法相比, 本文算法减少了文本信息流失并实现文本降维, 有效地提高了文本相似度计算的准确率。
【目的】解决急诊危重患者指标规模庞大、筛选方式主观性强、医生决策难度大的问题。【方法】将基于量子行为的多目标粒子群算法与机器学习分类器结合, 提出一种利用少量指标实现较高患者状态识别率的关键指标筛选方法, 并与两种既有指标筛选方法进行对比。【结果】该指标筛选方法增大了搜索空间、有效降低了数据维度, 具有更高的患者状态识别精度, 并且筛选出的指标具有明显的临床意义。【局限】指标的重要性需单独计算, 当数据量较大时, 会增加计算复杂度。【结论】将多目标优化思想与机器学习进行结合, 有效提升了患者状态识别精确率和F值。