期刊首页 当期目录

2023年, 第7卷, 第3期 
刊出日期:2023-03-25
  

  • 全选
    |
    专家视点
  • 张晓林
    数据分析与知识发现. 2023, 7(3): 1-4. https://doi.org/10.11925/infotech.2096-3467.2023.0166
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 专题
  • 张智雄
    数据分析与知识发现. 2023, 7(3): 5-5.
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏
  • 钱力, 刘熠, 张智雄, 李雪思, 谢靖, 许钦亚, 黎洋, 管铮懿, 李西雨, 文森
    数据分析与知识发现. 2023, 7(3): 6-15. https://doi.org/10.11925/infotech.2096-3467.2023.0229
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 梳理分析ChatGPT相关的语料、算法与模型,为同行业研究提供体系化的参考借鉴。【方法】 通过系统梳理GPT-3发布至今的相关文献与资料,刻画ChatGPT技术的整体架构,并解释与分析其背后的模型、算法与原理。【结果】 通过文献调研,根据现有资料还原了支撑ChatGPT功能的技术细节,梳理了ChatGPT技术的整体架构,解释了ChatGPT整体技术构成。按照ChatGPT的语料体系、预训练算法与模型、微调算法与模型三个层次分析ChatGPT各技术组件的算法原理与模型组成。【局限】 本文调研ChatGPT相关的文献难免存在遗漏,且对部分技术内容的解读还不够深入,一些由笔者推断的内容甚至可能存在错误。【结论】 ChatGPT技术应用的突破,是语料、模型、算法,通过迭代训练不断积累的结果,也是各类算法模型有效组合与集成的结果。

  • 张华平, 李林翰, 李春锦
    数据分析与知识发现. 2023, 7(3): 16-25. https://doi.org/10.11925/infotech.2096-3467.2023.0214
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 简要介绍ChatGPT的主要技术创新,使用9个数据集在4个任务上测评ChatGPT的中文性能,分析ChatGPT潜在的风险以及中国应对策略建议。【方法】 使用ChnSentiCorp数据集测试ChatGPT和WeLM模型,EPRSTMT数据集测试ChatGPT和ERNIE 3.0 Titan,发现ChatGPT在情感分析任务上与国产大模型差距不大;使用LCSTS和TTNews数据集测试ChatGPT和WeLM模型,ChatGPT均优于WeLM;使用CMRC2018和DRCD数据集进行抽取式的机器阅读理解,C3数据集进行常识性的机器阅读理解,发现ERNIE 3.0 Titan在该任务中优于ChatGPT;使用WebQA和CKBQA数据集进行中文闭卷问答测试,发现ChatGPT容易产生事实性错误,与国产模型差距较大。【结果】 ChatGPT在自然语言处理的经典任务上表现较好,在情感分析上具有85%以上的准确率,在闭卷问答上出现事实性错误的概率较高。【局限】 将判别式的任务转为生成式的过程中可能引入评估分数的误差。本文仅在零样本情况下评估ChatGPT,并不清楚其在其他情况下的表现。由于后续版本的迭代更新,ChatGPT评测结果具有一定的时效性。【结论】 ChatGPT很强大但仍然存在一些缺点,研发中国化的大模型应以国家战略需求为导向,并且注意语言模型的风险和局限。

  • 赵朝阳, 朱贵波, 王金桥
    数据分析与知识发现. 2023, 7(3): 26-35. https://doi.org/10.11925/infotech.2096-3467.2023.0216
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 剖析ChatGPT的基础技术原理,探讨其对大语言模型发展产生的影响,以及对多模态大模型发展思路产生的影响。【方法】 通过分析ChatGPT的发展过程和技术原理,探讨指令微调、数据采集与标注、基于人类反馈的强化学习等模型构建方法对大语言模型产生的影响。分析当前多模态大模型构建过程中遇到的关键科学问题,并借鉴ChatGPT的技术方案,探讨多模态大模型未来的发展发展思路。【结论】 ChatGPT为预训练大模型向下游任务的发展提供了良好的参考技术路径,未来的多模态大模型构建以及下游任务实现过程中,可以充分利用高质量的指令微调等技术来显著提升多模态大模型的下游任务性能。

  • 张智雄, 于改红, 刘熠, 林歆, 张梦婷, 钱力
    数据分析与知识发现. 2023, 7(3): 36-42. https://doi.org/10.11925/infotech.2096-3467.2023.0230
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 研究探讨以ChatGPT为代表的人工智能技术对文献情报工作的启示和影响,为文献情报领域提出在人工智能时代下的发展建议。【方法】 基于对人工智能发展历程的总结,分析了人工智能技术飞速突破的本质。基于ChatGPT的技术能力特点,分析了其对文献情报工作的影响。基于文献情报工作的优势和价值,提出了人工智能时代文献情报领域发展的建议。【结果】 总结出了人工智能技术迅速发展对文献情报工作的五点启示。从数据组织方式、知识服务模式、情报分析方法、文献使用方式、文献情报队伍建设要求以及文献情报工作重点六个方面分析了ChatGPT对文献情报领域的影响。基于文献情报工作的特点,提出人工智能时代文献情报领域发展的九条建议。【结论】 知识获取能力提升是人工智能技术飞速突破的本质所在。ChatGPT的成功也表明高价值语料是一切人工智能的基础。文献情报领域组织和管理着蕴含人类知识的高价值数据资源,这对人工智能的发展有着非常重要的价值和意义。ChatGPT重在内容生成,而文献情报工作重在循证,文献情报工作要顺应时代发展,积极应用和拓展人工智能技术,为人工智能的发展贡献文献情报领域的智慧和方案。

  • 研究论文
  • 李浩君, 吕韵, 汪旭辉, 黄诘雅
    数据分析与知识发现. 2023, 7(3): 43-57. https://doi.org/10.11925/infotech.2096-3467.2022.0228
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 针对传统推荐方法中仅依赖单一的用户评分来推断用户偏好,忽略情感态度对用户行为影响的问题,提出一种融入情感分析的多层交互深度推荐模型。【方法】 利用BRET词向量表征评论文本,双向循环神经网络量化评论中的情感信息,根据情感分值更新评分矩阵,映射出用户与资源的浅层特征;结合卷积神经网络和自注意力机制从评论文本中捕获用户与资源的深层特征;融合浅层与深层特征,采用多层神经网络建模用户与资源间的非线性交互,预测资源推荐的评分值。【结果】 在Amazon Product Data数据集上的实验结果表明,与其他基线模型对比,本文模型的MAE和RMSE指标最多下降7.93和9.73个百分点。【局限】 未考虑用户情感的时间动态性,且忽略了情感分析方法的领域自适应性。【结论】 融入情感分析的推荐模型能更准确地反映用户真实兴趣偏好,对比现有相似模型,本文所提模型能有效提升推荐质量。

  • 周宁, 钟娜, 靳高雅, 刘斌
    数据分析与知识发现. 2023, 7(3): 58-68. https://doi.org/10.11925/infotech.2096-3467.2022.0332
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 解决传统静态词向量嵌入方法无法有效处理中文文本中的一词多义问题和上下文情感特征与内部语义关联结构难以挖掘的问题。【方法】 在一个通道利用粗糙数据推理将与文本有关的情感元素融入Word2Vec与FastText词向量中,使用CNN提取文本局部特征;在另一个通道使用BERT进行词嵌入补充,利用BiLSTM获取文本全局特征。最后加入注意力计算模块进行双通道特征深层交互。【结果】 在三个中文数据集上的实验准确率最高达到92.43%,较基准模型最高值提升0.81个百分点。【局限】 所选用的数据集仅针对粗粒度情感分类建模,尚未考虑在细粒度领域的实验。【结论】 比较本模型与对比模型实验结果,证明了本模型有效提升了中文文本情感分类的性能。

  • 李顺, 李莉, 陈白雪
    数据分析与知识发现. 2023, 7(3): 69-79. https://doi.org/10.11925/infotech.2096-3467.2022.0354
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 探究电子商务中混合在线客服对消费者购买转化的影响。【方法】 以企业数据为样本,利用Logit模型探究人工客服、智能客服及二者交互项对消费者购买转化的影响,并通过分组回归讨论混合在线客服对消费者购买转化的异质性效果。【结果】 在混合在线客服提供模式下,人工客服、智能客服的使用对消费者购买转化有显著的正向作用,人工客服与智能客服的使用之间存在替代关系。【局限】 混合在线客服对消费者购买转化的研究有待扩展,未来可以考虑将消费者收入、消费习惯等因素加入研究模型并对会话内容进行分析。【结论】 本研究关注消费者实际购买转化,为电商企业制定有效的客户服务运营策略提供参考和建议。

  • 郝志远, 马捷, 孙文晶
    数据分析与知识发现. 2023, 7(3): 80-96. https://doi.org/10.11925/infotech.2096-3467.2022.0578
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 有效提高政府决策群体在面对重大突发事件时的应急决策效能。【方法】 从信息传播的角度出发,基于动机认知理论,围绕自我定向与任务定向两大动机认知的内驱维度以及外部刺激诱发动机、群体结构诱发动机和业务素养诱发动机三大动机维度展开研究,通过引入SIR传播模型的相关原理,构建大群体靶向协同应急决策模型(TC-LGDM)。【结果】 次生事件发生概率、成员个体决策影响力以及成员个体专业能力三个现实因素与大群体靶向协同决策的最终形成及其效能密切相关。【局限】 群体内的决策状态种类有限;未对决策个体在接收信息过程形成的附加信息价值进行深入探讨。【结论】 研究内容既可为辅助决策者获得决策情境映现和趋势预判能力提供有益参考,又是提升政府应对公共危机风险事件的可持续发展力和决策科学化水平的必然选择。

  • 王寅秋, 虞为, 陈俊鹏
    数据分析与知识发现. 2023, 7(3): 97-109. https://doi.org/10.11925/infotech.2096-3467.2022.0333
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 结合专业医疗知识图谱,提高答案选择模型对于中文医疗社区问答识别的准确率,为当前的网络中文医疗问答社区提出能够更好地判断答案可靠程度的方法。【方法】 在应用混合神经网络(融合RNN和多尺度CNN捕捉上下文以及局部信息)的答案选择模型基础上,构建专业医疗知识图谱并融合实体以及关系嵌入丰富问答文本的语义信息,结合问答对注意力机制,最终获取问答对相似度并筛选得分最高的作为候选答案。【结果】 在cMedQA2.0数据集上,相较于没有融入知识图谱实体关系嵌入的混合神经网络模型,本文模型答案选择的Top-1准确率提高了2.3个百分点,达到62.2%,证明了在医疗问答文本中引入专业知识图谱信息对于答案选择效果提升的有效性。【局限】 使用的医疗知识图谱体量较小,只包含医疗社区问答中常见的实体,还有大量的医疗实体与关系未能包含其中,医疗实体关系的不完备在面对冷门问题时可能会影响答案选择的效果。【结论】 通过结合中文医疗的专业知识图谱和深度学习模型,不断完善答案选择技术,不仅能够帮助有医疗咨询需求的人群在问答社区获取可靠的医疗建议,还能够实现网络医疗社区信息质量监测和医院门诊减负。

  • 张国防, 王鑫, 徐建民
    数据分析与知识发现. 2023, 7(3): 110-120. https://doi.org/10.11925/infotech.2096-3467.2022.0342
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 探究文档间的非对称关系并提出量化模型。【方法】 基于主题词共现思想,挖掘主题词间的非对称关联信息,采用文档覆盖度指标量化文档间的非对称关系,通过文档聚类进行实证分析。【结果】 在文档聚类应用中,与已有的两种文档间关系量化模型相比,所提出的基于主题词共现的文档非对称关系量化模型使聚类结果的平均熵值分别最大下降了22.6%和23.3%。【局限】 量化模型只聚焦了文档的文本内容,未考虑图片和公式等非文本内容对文档间非对称关系的影响。【结论】 利用文档间非对称关系能更好地区分文档间差异性,有助于提高文档聚类准确率。

  • 李岱峰, 林凯欣, 李栩婷
    数据分析与知识发现. 2023, 7(3): 121-130. https://doi.org/10.11925/infotech.2096-3467.2022.0350
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 从图书信息中快速生成书籍的宣传语。【方法】 基于提示学习的思想将爬取的图书信息构造为数据集,使用数据增强、关键词抽取增加信息,最后输入T5 PEGASUS得到基础宣传语。当书评数量达到阈值时加入书评的摘要。【结果】 本文模型在数据集上的Rouge-1、Rouge-2、Rouge-L相较于最优的基线模型分别提升29.0%、37.6%、31.9%,加入书评的摘要能体现用户的兴趣点。【结论】 根据图书语料特点设计的实验流程所生成的宣传语具有实际应用价值。

  • 韩普, 仲雨乐, 陆豪杰, 马诗雯
    数据分析与知识发现. 2023, 7(3): 131-141. https://doi.org/10.11925/infotech.2096-3467.2022.0392
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 为解决在线健康社区中实体表述不规范和边界不显著的问题,提出一种基于对抗性迁移学习的药品不良反应实体识别模型ATL-BCA。【方法】 通过Word2Vec生成融合在线医疗健康领域外部语义特征向量;基于迁移学习思想采用共享和私有BiLSTM分别抽取实体识别和分词任务的共享边界信息及私有信息;利用多头注意力机制捕捉句子整体依赖性,并使用对抗训练过滤分词任务的私有信息以消除冗余特征对实体识别任务的影响;最后,借助条件随机场约束预测标签序列结果。【结果】 在自构建药品不良反应数据集上进行实验,引入对抗性迁移学习的ATL-BCA模型实体识别F1值达到91.35%,较主流模型Word2Vec-BiLSTM-CRF和BERT-BiLSTM-CRF分别提升5.28和2.98个百分点。【局限】 仅选用“三九健康药物网”作为实验数据源,且数据集规模较小。【结论】 ATL-BCA模型不仅可以充分利用实体识别和分词任务共享边界信息,而且能够过滤分词任务私有特征,从而有效提升在线健康社区中药品不良反应实体识别效果。

  • 裴伟, 孙水发, 李小龙, 鲁际, 杨柳, 吴义熔
    数据分析与知识发现. 2023, 7(3): 142-154. https://doi.org/10.11925/infotech.2096-3467.2022.0348
    摘要 ( ) PDF全文 ( ) HTML ( )   可视化   收藏

    【目的】 构建融合医学领域知识的图神经网络结构模型GraphModel-Dict,针对医学文本进行命名实体识别研究。【方法】 首先,采用图结构方式对领域知识进行融合,将原始文本数据与领域词典作为不同类别的节点进行构图,利用门控循环单元进行节点更新,以得到结合领域知识的原始文本数据节点语义表示;其次,将文本数据节点的最终表示作为双向长短期记忆网络的输入;然后,通过条件随机场预测标签并输出识别序列;最后,使用两个数据集评估模型的性能。【结果】 在人工标注的3 100份中文乳腺癌超声检查报告数据集上,GraphModel-Dict模型的实体识别的精确率、召回率和F1值达到96.91%、97.52%以及97.22%。另外,在对每类实体的识别效果评估中,针对提取样本数据稀少或表达形式多样化的实体类型,GraphModel-Dict模型表现出更优的识别性能。在CCKS2020医疗数据集上进行性能评估实验,与基线模型相比,GraphModel-Dict模型的F1值至少提高了1.39%。【局限】 GraphModel-Dict模型的实验只在医疗数据集上展开,在其他领域的有效性需进一步研究。【结论】 领域知识的有效使用能够提高其在命名实体识别中的作用,为促进医学信息挖掘和临床研究提供了潜力。