数据分析与知识发现  2024, Vol. 8 Issue (6): 16-29
1中国科学院文献情报中心 北京 100190
2中国科学院大学经济与管理学院信息资源管理系 北京 100190
3国家新闻出版署学术期刊新型出版与知识服务重点实验室 北京 100190
Review of Research Progress on Question-Answering Techniques Based on Large Language Models
Wen Sen1,2,Qian Li1,2,3(),Hu Maodi1,2,Chang Zhijun1,2
1National Science Library, Chinese Academy of Sciences, Beijing 100190, China
2Department of Information Resources Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190, China
3Key Laboratory of New Publishing and Knowledge Services for Scholarly Journals, Beijing 100190, China
[Objective] This paper aims to comprehensively review and summarize the current development status, mechanism principles, and application trends of question-answering techniques based on large language models. [Coverage] We retrieved a total of 73 relevant papers. [Methods] The study systematically reviews the development status of large language models and efficient parameter fine-tuning strategies. It analyzes the principles, mechanisms, application value, and existing issues of various techniques. It focuses on retrieval-enhanced generation question-answering inference for simple questions and prompt engineering question inference for complex questions. Through qualitative analysis, the research progress of question-answering techniques based on large language models is comprehensively summarized, and future research directions are proposed. [Results] Open-sourced pre-trained large language models continue to emerge, and efficient fine-tuning strategies can significantly improve model adaptability in vertical domains. Retrieval-augmented generation techniques, aided by text embeddings and approximate nearest neighbor retrieval technology, effectively enhance the interpretability and credibility of question-answering. With carefully crafted prompt engineering, the inference capabilities of large models for complex questions can be significantly expanded. [Limitations] The rapid development of research related to large models may result in incomplete coverage of relevant survey work. [Conclusions] Question-answering techniques based on large language models have made remarkable progress in semantic representation, complex reasoning, and other aspects. Retrieval-enhanced generation techniques and prompt engineering, which integrate external knowledge, are the main research hotspots in large models. Future research may focus on exploring aspects such as controllable and credible content generation.

Key wordsLarge Language Models    Q&A Technology    Vector Retrieval    Prompt Engineering
收稿日期: 2023-08-29      出版日期: 2024-04-18
ZTFLH:  TP391  
通讯作者: 钱力,ORCID:0000-0002-0931-2882,。   
文森, 钱力, 胡懋地, 常志军. 基于大语言模型的问答技术研究进展综述*[J]. 数据分析与知识发现, 2024, 8(6): 16-29.
Wen Sen, Qian Li, Hu Maodi, Chang Zhijun. Review of Research Progress on Question-Answering Techniques Based on Large Language Models. Data Analysis and Knowledge Discovery, 2024, 8(6): 16-29.
名称 发布时间 发布主体 参数规模/B 模型架构 训练数据
PaLM[21] 2022-04 Google 8/62/540 解码器架构,使用SwiGLU激活函数、并行层技术、多查询注意力机制、旋转向量嵌入等技术进行优化 公开可用文本数据集,包括英语CommonCrawl、C4、Wikipedia、Books1、Books2TB等,以及多种编程语言的源代码,共计7800亿个标记
Flan T5[22] 2022-10 Google 0.06/0.22/0.77/3/11 基于T5的自回归语言模型,使用了指令微调和思维链技术进行优化 使用了超过1 800个不同类型的自然语言处理任务进行微调,包括问答、文本生成、文本分类、文本摘要等
LLaMA[23] 2023-02 Meta 7/13/33/65 解码器架构,使用预正则化、SwiGLU激活函数和旋转向量嵌入等技术进行优化 Common Crawl、Github、Wikipedia、Books、arXiv、StackExchange等近4.7TB数据
Falcon[24] 2023-05 Technology
1/7/40 解码器架构,使用旋转位置编码、多查询注意力、Flash Attention等技术 公开可用文本数据集,包括英语和欧洲语言的RefinedWeb、Books、Conversations、Code、Technical等,共计约2.8TB
ChatGLM2 2023-06 清华大学 6/12/32/
GLM架构,结合FlashAttention算法、多查询注意力机制、混合目标函数、人类偏好对齐训练等技术进行优化 6B级训练数据为 1.4TB 中英标识符的预训练,中英文比约为1:1
BaiChuan 2023-07 百川智能 7/13 解码器架构,采用了和LLaMA一样的模型设计,使用FlashAttention算法、多查询注意力机制、RMSNorm、混合目标函数等技术进行优化 公开可用的中英文数据和自行抓取的中文互联网数据,以及部分高质量知识性数据,共计约1.4万亿个标记
LLaMA2[25] 2023-07 Meta 7/13/70 解码器架构,在LLaM技术框架技术上,采用了Ghost Attention算法,以改善模型的多轮对话一致性 在2万亿个数据标记上训练
Table 1  开源大语言模型研究现状
名称 提出时间 技术简介
Adapter Tuning[32] 2019 在预训练模型内部的网络层之间添加新的网络层或模块适配下游任务
Prefix-Tuning[33] 2021-01 在模型输入前添加一个连续的且任务特定的向量序列,固定预训练语言模型的所有参数,只更新优化特定任务的前缀
P-Tuning[34] 2021-03 固定模型参数,利用多层感知机和LSTM对提示词进行编码,编码之后与其他向量进行拼接之后正常输入模型中
Prompt Tuning[35] 2021-04 固定整个预训练模型参数,只允许将每个下游任务的额外k个可更新的标记前置到输入文本中,也没有使用额外的编码层或任务特定的输出层
2021-06 冻结预训练模型的权重,并在每个Transformer块中注入可训练层(称为秩分解矩阵),通过学习小参数的低秩矩阵近似模型权重矩阵 W 的参数更新,训练时只优化低秩矩阵参数
P-Tuning v2[37] 2021-10 在多层加入了提示词标记作为输入,使得Prompt Tuning能够在不同参数规模的预训练模型、针对不同下游任务的结果上都达到类似精调的结果
AdaLoRA[38] 2023-03 对LoRA的一种改进,根据重要性评分动态分配参数预算给权重矩阵,AdaLoRA将关键的增量矩阵分配高秩以捕捉更精细和任务特定的信息,而将较不重要的矩阵的秩降低
QLoRA[39] 2023-05 使用一种新颖的高精度技术将预训练模型量化为 4 bit,然后添加一小组可学习的低秩适配器权重,这些权重通过量化权重的反向传播梯度进行微调
Table 2  参数高效微调技术总结
Fig.1  三类参数高效微调策略图析
名称 提出时间 模型特点 预训练语料库
Word2Vec[47] 2013 两种基本模型(Skip-Gram和CBOW),通过最大化词与其上下文词之间的共现概率,学习词嵌入表示 谷歌新闻数据集等
GloVe[48] 2014 基于全局词频统计,充分利用全局统计信息,融合了局部窗口方法和全局矩阵分解方法 维基百科、新闻文章、书籍等
CoVe[49] 2017 使用序列到序列模型的编码器预训练词嵌入,能获取丰富的上下文信息 英文维基百科、书籍语料、WMT机器翻译数据集
ELMo[50] 2018 考虑了词的上下文信息,每个词的嵌入是所有层的加权和,可以生成更丰富的词嵌入 维基百科等数据
BERT[51] 2018 通过Transformer架构,能够获取句子的双向上下文信息 BooksCorpus、维基百科等
GPT 2018 基于Transformer架构,通过预测下一个词的方式学习词嵌入 BooksCorpus、维基百科等
XLNet[52] 2019 通过自回归方法,解决了BERT中的掩蔽问题,能获取更全面的上下文信息 BooksCorpus、Wikipedia、Giga5、ClueWeb2012-B、CommonCrawl等
ERNIE 3.0[53] 2021 融合了各种知识图谱,支持多模态输入,增强了模型的理解能力 中文百科、百度百科、百度新闻、百度贴吧等
Instructor[54] 2022 一种指令微调文本嵌入模型,可以通过简单地提供任务指令生成针对任何任务(如分类、检索、聚类、文本评估等)和领域(如科学、金融等)的文本嵌入,而无需任何微调 包含330个来自Super Natural Instructions的数据集与30个用于句向量训练的数据集的数据集集合MEDI
E5[55] 2022 采用两阶段的训练方式,基于弱监督预训练和对比学习训练而成 2.7亿文本对数据集CCPairs
Table 3  文本嵌入模型调研
类别 典型算法 基本原理 优点 缺点 检索速度 检索准确率
基于局部敏感哈希[59] 符号随机投影、查询感知局部敏感哈希等 使用哈希函数将高维数据映射到桶中,相似数据更可能被映射到同一个桶 在高维空间中具有较好的效果,适用于图像、音频等数据 对于维度较低的数据检索效果较差 几毫秒到数百毫秒 60%~80%,受到哈希函数、数据规模等因素的影响
随机k维树、k均值树、倒排索引等 将数据空间通过树形结构递归划分,以在有限范围内进行搜索 对于维度较低的数据和均匀分布的数据点效果良好 在高维空间中存在“维数灾难”问题 几毫秒到几百毫秒 检索准确率在低维数据上可达95%以上。但在高维数据上可能下降到30~50%
正交乘积量化、标量量化等 使用向量量化或标量量化方法对数据进行降维,以减少索引的大小并节省内存 能够在一定程度上减少存储和计算成本 压缩后的向量可能会失去一些信息,从而影响准确性 几百毫秒到秒级范围 50%~85%,但随着维数的增加,检索准确率会降低
基于图[62] 导航小世界、近邻图搜索等 构建数据之间的图结构,沿着图中相似节点的路径搜索 检索召回率和速度最优,能够捕捉数据点之间的复杂关系,适用于结构化数据 构造图难度较大,搜索速度较慢 几百毫秒到秒级及以上 70%~90%,但随着数据量的增加,检索速度和检索准确率都有可能下降
Table 4  4类近似最近邻搜索方法的对比
