数据分析与知识发现, 2023, 0(0): 1-10 doi: 10.11925/infotech.2096-3467.2023.0214

ChatGPT中文性能测评与风险应对*

张华平,,, 李林翰, 李春锦

北京理工大学计算机学院 北京 100081

ChatGPT Performance Evaluation on Chinese Language and Risk Measures

Zhang Huaping,,, Li Linhan, Li Chunjin

School of Computer Science, Beijing Institute of Technology, Beijing 100081, China

通讯作者: 张华平,ORCID:0000-0002-0137-4069,E-mail:kevinzhang@bit.edu.cn

收稿日期: 2023-03-13  

基金资助: *北京市自然科学基金(4212026)
基础加强计划技术领域基金(2021-JCJQ-JJ-0059)

Corresponding authors: Zhang Huaping,ORCID:0000-0002-0137-4069,E-mail:kevinzhang@bit.edu.cn

Received: 2023-03-13  

Fund supported: Natural Science Foundation of Beijing(4212026)
Fundamental Strengthening Program Technology Field Fund(2021-JCJQ-JJ-0059)

摘要

目的】 简要介绍ChatGPT的主要技术创新,使用9个数据集在4个任务上测评ChatGPT的中文性能,分析ChatGPT潜在的风险以及中国应对策略建议。【方法】使用ChnSentiCorp数据集测试ChatGPT和WeLM模型,EPRSTMT数据集测试ChatGPT和ERNIE 3.0 Titan,发现ChatGPT在情感分析任务上与国产大模型差距不大;使用LCSTS和TTNews数据集测试ChatGPT和WeLM模型,ChatGPT均优于WeLM;使用CMRC2018和DRCD数据集进行抽取式的机器阅读理解,C3数据集进行常识性的机器阅读理解,发现ERNIE 3.0 Titan在该任务中优于ChatGPT;使用WebQA和CKBQA数据集进行中文闭卷问答测试,发现ChatGPT容易产生事实性错误,与国产模型差距较大。【结果】ChatGPT在自然语言处理的经典任务上表现较好,在情感分析上具有85%以上的准确率,在闭卷问答上出现事实性错误的概率较高。【局限】 将判别式的任务转为生成式的过程中可能引入评估分数的误差。本文仅在零样本情况下评估ChatGPT,并不清楚其在其他情况下的表现。由于后续版本的迭代更新,ChatGPT评测结果具有一定的时效性。【结论】ChatGPT很强大但仍然存在一些缺点,研发中国化的大模型应以国家战略需求为导向,并且注意语言模型的风险和局限。

关键词: 语言模型; ChatGPT; 人工智能

Abstract

[Objective] This paper briefly introduces the main technical innovations of ChatGPT, and evaluates the performance of ChatGPT in Chinese on four tasks using nine datasets, analyzes the risk with ChatGPT and proposes our solutions. [Methods] ChatGPT and WeLM models were tested using the ChnSentiCorp dataset, and ChatGPT and ERNIE 3.0 Titan were tested using the EPRSTMT dataset, and it was found that ChatGPT did not differ much from the large domestic models in sentiment analysis tasks. The LCSTS and TTNews datasets were used to test the ChatGPT and WeLM models, and both ChatGPT outperformed the WeLM model; CMRC2018 and DRCD were used for extractive machine reading comprehension(MRC), and the C3 dataset was used for common sense MRC, and it was found that ERNIE 3.0 Titan outperformed ChatGPT in this task. WebQA and CKBQA were used to do Chinese closed-book quiz testing, and it was found that ChatGPT was prone to make factual errors in this task, and the domestic model outperformed ChatGPT. [Results] ChatGPT performed well on classic tasks of natural language processing, such as sentiment analysis with an accuracy rate of more than 85% and a higher probability of factual errors on closed-book questions. [Limitations] The error of evaluation score may be introduced in the process of converting discriminative tasks into generative ones. This paper only evaluated ChatGPT in zero-shot case, so it is not clear how it performs in other cases. ChatGPT may be updated iteratively in subsequent releases, and the profiling results may be time-sensitive. [Conclusions] ChatGPT is powerful but still has some drawbacks, for the large model of Chinese need to be national strategy oriented and pay attention to the limitations of the language model.

Keywords: Language Model; ChatGPT; Artificial Intelligence

PDF (787KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张华平, 李林翰, 李春锦. ChatGPT中文性能测评与风险应对*[J]. 数据分析与知识发现, 2023, 0(0): 1-10 doi:10.11925/infotech.2096-3467.2023.0214

Zhang Huaping, Li Linhan, Li Chunjin. ChatGPT Performance Evaluation on Chinese Language and Risk Measures[J]. Data Analysis and Knowledge Discovery, 2023, 0(0): 1-10 doi:10.11925/infotech.2096-3467.2023.0214

1 引言

大语言模型(Large Language Models,LLMs)是近年来神经自然语言处理的核心研究点之一,学术界和工业界围绕大语言模型产生了大量研究成果:GPT-3[1]、LaMDA[2]、鹏城-百度·文心(ERNIE 3.0 Titan)[3]、盘古α(PanGu-α)[4]和WeLM[5]。Kiela等[6]研究发现,大语言模型在语言理解推理、对话生成等多个任务上已经达到甚至超越了人类的平均水平。大多数研究通过语言模型在一系列具体数据集上的表现来评估模型能力,而缺乏其是否能适应复杂的应用环境的研究。对于大型语言模型能否与人类正常互动的问题,即能否正确响应人类所提出的指令、满足用户的合理请求和生成内容是否符合人类的普世价值观,这方面的研究仍然处于起步阶段。

ChatGPThttps://openai.com/blog/chatgpt.)是由美国的人工智能创业公司OpenAI于2022年11月公开发布的聊天机器人,它以多轮对话的形式,通过用户的提示引导进行内容创作。ChatGPT在日常使用情境下具有主题创作、知识问答与编程计算等功能,在与人类的交互过程中,通过追踪对话进程并回答问题、承认错误并纠正和拒绝不合理请求等表现,展现出令人印象深刻的语言能力。

ChatGPT对学术以及教育等产业的影响已有一些研究,目前普遍认为ChatGPT可以在多种领域的实践中提升工作效率,但它需要被合理使用,而不能在科学研究、考试竞赛中滥用。对于文献管理和学术研究而言,ChatGPT的积极影响可以改善信息服务的效率、辅助元数据生成以及内容创作,但需要考虑涉及的隐私问题和言论偏见的影响。ChatGPT能准确捕捉用户的意图,生成期望的回答,对于用户指出的错误会主动承认并改正,在诗歌散文等创作中也展现了一定的能力,然而相较于使用其他语言的用户而言,使用英语与它对话无疑是用户体验最好的方式,因此ChatGPT在尊重除了美国的其他国家的文化背景和使用习惯上仍有欠缺[7]

针对大语言模型对科研带来的影响,van Dis等[8]Nature上发文探讨了5个关键问题:坚持人类审查、制定问责制度、投资真正开放的大型语言模型、拥抱人工智能的优点和扩大辩论范围[8]。在科研进程中,科研人员的使用行为需要更加公开透明,针对大语言模型是否能作为论文作者或者AI是否能享有著作权这类问题,Thorp[9]Science发文提出了反对的观点,认为使用AI进行创作的科学研究将构成科研不端行为,因为ChatGPT生成的文章并非原创,并且认为由AI生成的文本不能用于科研工作中,AI也不能成为论文作者。

对ChatGPT以及其他GPT-3.5系列模型进行性能测试的研究工作主要集中在使用公开数据集进行零样本以及少样本测试,并将评估结果和监督微调模型对比,已有研究表明ChatGPT在许多英文数据集上性能极好,甚至部分在数据集的一些评估指标上可以媲美监督微调模型[10]。在机器翻译、情感分析和虚假信息检测等领域,ChatGPT超过了零样本下的SOTA性能,但在开放域知识问答和任务型对话任务上表现不佳[11-12],在低资源语言的机器翻译性能也弱于已有的翻译产品[13]。然而目前针对ChatGPT在中文数据集上的全面评测较少。

本文使用公开标注数据集对ChatGPT在中文数据集上的知识常识性能表现进行评估,并与国内的主流大模型对比,研究其在中文环境下的具体表现,并结合性能评测结果分析其带来的影响与潜在的风险,最后给出中文模型的发展建议。

2 ChatGPT主要技术创新

在自然语言处理领域,BERT[14]、GPT[1,15 -16]等模型是大语言模型中影响广泛的创新性研究工作,而ChatGPT是基于GPT-3.5建立起来的具有广泛影响力与开创性意义的产品。

2.1 生成式预训练模型

生成式预训练(Generative Pre-Training,GPT)是一种基于自回归解码的预训练模型,它输入当前文本的token序列并预测下一个可能出现的token。深度学习中常见的生成式模型有RNN[17]、LSTM[18]、Transformer[19]等。生成式语言模型的解码过程如图1所示。

图1

图1   生成式语言模型的解码过程

Fig.1   The Decoding Process of Generative Language Models


GPT系列模型的核心是Transformer模型的解码器部分。Transformer中引入多头自注意力机制,多个注意力头分别关注句子中不同方面的重点,而且随着网络层次的增加,能够提取出更高级、更抽象的语义信息,理解能力更强。基于Transformer的多种语言模型除了语义提取能力强,还能从无标注的数据中学习,而且场景迁移能力好。GPT-1[15]模型基本沿用Transformer的解码器结构。在GPT-2[16]中,层归一化放到每个子模块之前,并在最后一个模块后再增加一个层归一化。

2.2 上下文学习、代码生成与指令微调

当大语言模型在大规模的语料上进行自监督训练后,就会涌现出令人惊喜的模式识别与推理能力,上下文学习(In-Context Learning)即是在GPT-3[1]中发现的能力之一。在上下文学习过程中不需要进行梯度反向传播,仅需要将少量标注样本或者提示文与验证样本拼接,再输入模型中即可引导GPT-3输出验证样本的推理预测,这意味着大语言模型在推理解码时能自动识别任务的类型,并根据任务与样本进行推理。

注意到GPT-3具有微弱的代码生成能力,OpenAI进一步设计了Codex[20],这是一个参数规模120亿且具有Python代码编写能力的GPT微调模型,其结果证明了GPT这样的自回归模型具有生成计算机程序代码的能力。

为了使得大语言模型在零样本情况下有更好的任务识别能力,指令微调(Instruction Tuning)技术将多种任务通过自然语言进行描述,并将任务描述和训练样本一起输入模型进行微调[21],模型可以将自身的自然语言理解能力泛化到对任务的识别和理解上,使得在零样本条件下可以正确响应新的任务。

2.3 人类反馈的强化学习

基于GPT-2的开放域对话模型DialoGPT[22]的研究结果表明,利用强化学习来防止模型产生异常的响应,并很有必要控制和检测模型生成的内容。为了获得更高质量的输出,基于GPT-3微调的WebGPT[23]将人工反馈用于优化模型生成的答案质量,通过模仿学习和强化学习得到更符合人类偏好的结果。事实上,生成式语言模型需要控制生成的内容并且符合人类的偏好,遵循公序良俗,考虑到这些原则,应用人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),InstructGPT[24]先在GPT-3上进行监督微调,再通过人类标注者对模型的输出质量进行排序来训练奖励模型[25],最后通过强化学习的优化策略(Proximal Policy Optimization,PPO)[26]最大化奖励以训练监督微调的模型。通过这样的训练方式,模型具备了输出文本更符合人类偏好、避免输出有毒言论和拒绝响应不合理的请求的能力。

GPT-3.5与GPT-3一样,拥有1 750亿个训练参数,不同的是GPT-3.5在GPT-3的基础上进行了计算机语言代码生成的训练以及指令微调,ChatGPT是在GPT-3.5上经过监督的指令微调和RLHF后得到的语言模型,如图2所示。因此,ChatGPT生成的文本更符合人类的语言习惯,用户在和其交流时感到更加流畅。

图2

图2   ChatGPT的开发过程

Fig.2   Development Process of ChatGPT


3 中文语言能力性能评测

已有的评测表明,ChatGPT在机器翻译[13]、自然语言理解和情感分析[11]等领域都取得了较好的成绩。为了量化研究中文环境下ChatGPT的表现并与国内的中文大型语言模型对比,本文使用公开的中文数据集对ChatGPT进行评估,测试了零样本(Zero-Shot)情况下ChatGPT的中文情感分析、中文文本自动摘要、中文机器阅读理解和中文知识常识问答的性能,综合测试并分析ChatGPT在中文环境下的优势与风险。

3.1 中文情感分析性能测评

情感分析是一项经典的自然语言处理任务,模型需要根据输入的上下文确定其中包含的情感类别。本文使用ChnSentiCorphttps://github.com/pengming617/bert_classification.)和EPRSTMT[27]的测试集,其中每一个样本都被标注为两种情感极性:积极或消极。评估结果如表1所示。

表1   中文情感分析任务的性能测试实验结果

Table 1  Evaluation Experiments on Sentiment Analysis Tasks

数据集评估指标WeLMPanGu-αChatGPTERNIE 3.0 Titan
ChnSentiCorpAcc/%81.5887.50
EPRSTMTAcc/%85.9088.75

新窗口打开| 下载CSV


ChatGPT在情感分析任务上具有可以媲美国产大模型的良好零样本性能。ChatGPT对于上下文的理解上存在偏差,例如本实验使用Prompt提示了输入文本只包含积极和消极两种情感,但“中性”这一情感仍然出现在ChatGPT的输出中。ChnSentiCorp数据集中有一些特殊样本,这些样本的每个句子具有不同的情感倾向,在这种情况下,ChatGPT能自动地逐句分析情感并返回结果,示例如表2所示。

表2   情感分析任务的输入输出示例

Table 2  An Input/Output Example of Sentiment Analysis Task

测试结果
Prompt判断以下句子的情感是积极或是消极:{Context}\n
Context酒店正在申定五星中,不过目前看来四星都有点勉强。大堂很气派,不过细节很粗糙。硬件需要加强。服务人员礼貌热情。酒店的房间和早餐都还不错。
标注1(积极)
ChatGPT输出第一句话情感为消极;第二句话情感为消极;第三句话情感为积极;第四句话情感为积极。

新窗口打开| 下载CSV


3.2 中文文本自动摘要性能测评

文本自动摘要任务需要语言模型对于输入的长文本进行推理计算,进而输出简洁准确的摘要文本。文本摘要任务分为抽取式摘要与生成式摘要,在本文实验中主要关注生成式摘要,并使用了LCSTS[28]的测试集以及TTNews[29]。考虑到TTNews数据集样本数量较大,并且有部分文本过长导致ChatGPT未能返回结果,因此随机抽样了1000条小于1000个汉字的样本作为测试集进行测试,评估指标为ROUGE-1[34]。测试结果如表3所示。

表3   中文文本摘要任务的性能测试实验

Table 3  Evaluation Experiments on Text Summary Tasks

数据集评估指标WeLMPanGu-αChatGPTERNIE 3.0 Titan
LCSTSROUGE-123.7431.30
TTNewsROUGE-135.0642.92

新窗口打开| 下载CSV


对于新闻文本的摘要以及标题生成,ChatGPT在文本摘要上具有极好的性能,但在LCSTS数据集中,如果Prompt修改为“生成30字以内的摘要:”,输出的摘要平均长度却会达到70个字,这远超过Prompt中“30字以内”的限制,推测其可能在训练过程中缺少类似生成固定字数的中文Prompts或者Instructions,导致在生成文本的字数控制上出现偏差,因此ROUGE-1评分较低。笔者将Prompt修改为“为以下新闻生成标题:”,ChatGPT生成的文本字数与标注字数更相近,因此得到了较高的分数,最后的输入输出样例如表4所示。

表4   文本摘要任务的输入输出示例

Table 4  An Input/Output Example of Text Summary Task

测试结果
Prompt为以下新闻生成标题:{Context}\n
Context央行今日将召集大型商业银行和股份制银行开会,以应对当前的债市风暴。消息人士表示,央行一方面旨在维稳银行间债券市场,另一方面很可能探讨以丙类户治理为重点的改革内容。此次债市风暴中,国家审计署扮演了至关重要的角色。
标注媒体称央行今日召集银行开会应对当前债市风暴
ChatGPT输出央行召开会议,应对债市风暴,探讨丙类户改革

新窗口打开| 下载CSV


3.3 中文机器阅读理解性能测评

机器阅读理解(Machine Reading Comprehension,MRC)是评估大型语言模型理解与推理能力的主流任务之一。

抽取式MRC,即对给定的一组上下文描述和问题的字符序列,训练语言模型从上下文中识别出一个可以回答该问题的子序列作为输出,通过比较输出序列与标注的匹配程度来评价模型的性能。考虑到ChatGPT是生成式语言模型,本文将抽取任务转换为问答模式生成任务,通过构建与PanGu-α[4]中相同的提示学习模板与参数设置以测试ChatGPT在零样本的性能表现。使用简体中文的CMRC2018[30]和繁体中文的DRCD[31]阅读理解的验证集进行实验,评测指标为EM(Exact Match)/F1。

常识性MRC是指问题的答案不一定直接在上下文中显式地给出,模型需要通过上下文进行常识推理,并且在提供的多个候选答案中选择最合适的一个作为输出。本文使用C3[32]的验证集用于评测,评测指标为准确度(Accuracy)。测试结果如表5所示。

表5   中文机器阅读理解任务的性能测试实验

Table 5  Evaluation Experiments on MRC Tasks

数据集评价指标WeLMPANGU-αChatGPTERNIE 3.0 Titan
CMRC2018EM/F1-/31.311.46/19.280.86/49.4516.62/44.20
DRCDEM/F1-/39.330.66/10.557.01/36.3221.08/37.83
C3Acc/%54.3054.4785.1487.59

新窗口打开| 下载CSV


中文阅读理解的测试结果从整体上观察到更大参数规模的Ernie 3.0 titan的优势更大,这里ERNIE 3.0 Titan有2 600亿的参数规模,远大于130亿的PanGu-α和100亿的WeLM,这也验证了更大的通用模型对于生成式任务通常表现更好。局部来看,ChatGPT在简体中文和繁体中文上与ERNIE 3.0 Titan的性能相近,ChatGPT仅在CMRC2018的F1指标上更好,整体上ERNIE 3.0 Titan更有优势。ChatGPT的EM指标得分低而F1指标更高的原因推测是因为其训练方式导致的。EM指标需要两个文本在字符级别完全匹配才能得分。ChatGPT在经过RLHF的训练方式生成问答文本时,会更加考虑人类用户的感受,即生成语义更加完整连贯的句子而不是直接给出答案。表6是一个直观的示例,标注是直接从上下文中抽取的语段,在语法和语义上可能不构成完整的句子,因此对用户而言可能更偏爱ChatGPT的回答。

表6   机器阅读理解任务的输入输出示例

Table 6  An Input/Output Example of MRC Task

CMRC2018
DRCD
Prompt阅读文章:{Context}\n问:{Question}\n答:
Context《战国无双3》()是由光荣和ω-force开发的战国无双系列的正统第三续作。本作以三大故事为主轴……
Question《战国无双3》是由哪两个公司合作开发的?
标注光荣和ω-force
ChatGPT输出《战国无双3》是由光荣和ω-force合作开发的。
C3Prompt阅读文章:{Context}\n问:{Question}\n以下选项中正确的答案是:\n{Choices}
Context梅兰芳是中国著名的京剧演员。有一次,在他表演的时候……
Question梅兰芳是一个什么样的人?
Choices他是一位年纪大的老人\n他是喜欢看京剧的人\n他是一个很虚心的人\n他是一个没礼貌的人\n
标注他是一个很虚心的人
ChatGPT输出梅兰芳是一个很虚心的人。

新窗口打开| 下载CSV


3.4 中文闭卷问答性能测评

闭卷问答测试不会在输入中给出蕴含答案的上下文,语言模型需要根据预训练数据中学习到的知识和常识进行回答。本文的实验选择WebQA[33]和CKBQAhttps://github.com/pkumod/CKBQA.)的测试集,评测指标为EM/F1或准确度,测试结果如表7所示。

表7   中文闭卷问答的性能测试实验

Table 7  Evaluation Experiments on Chinese Closed Book Questions and Answers

数据集评价指标WeLMPanGu-αChatGPTERNIE 3.0 Titan
WebQAEM/F1-/50.905.13/14.470.10/ 0.3437.97/52.57
CKBQAAcc/%14.2116.4724.12

新窗口打开| 下载CSV


闭卷问答要求模型对中文的知识和常识有一定储备,而ChatGPT的训练语料大多是英文。与国内的针对中文的大模型相比,在WebQA数据集上ChatGPT的性能仅有PanGu-α性能的1/50,与ERNIE 3.0 Titan差距更大,在CKBQA数据集上ChatGPT性能接近参数量更小的PanGu-α。相比之下ChatGPT更容易出现中文的常识性和知识性错误,这也印证了ChatGPT在中文环境下的事实一致性不佳。

笔者进一步分析了ChatGPT在WebQA测试集上的输出文本,发现标注的正确答案蕴含在其输出文本中的比例仅有56.96%,这意味着在大约一半的情况下ChatGPT出现错误。笔者推测可能的原因是其使用的中文训练语料规模较小,或者是中文训练语料质量不佳。表8是一个闭卷问答的示例。

表8   中文闭卷问答任务的输入输出示例

Table 8  An Input/Output Example of Chinese Closed Book Question and Answer Task

测试结果
Prompt问:{Question}\n答:
Question中国第一个进去美国wnba打球的女子篮球运动员是谁?
标注郑海霞
ChatGPT输出中国第一个进入美国WNBA打球的女子篮球运动员是姚明。

新窗口打开| 下载CSV


4 风险评测与分析

在性能测评里,发现ChatGPT在中文的知识和常识问答上很容易出现错误,并且它会使用流畅的句子对编造的虚假事实进行阐述,对于信息来源受限的群体具有一定的迷惑性。

4.1 错误混淆风险

ChatGPT不一定能正确回答学术问题和一些常识问题,例如可能会混淆训练数据中的不同人物实体的背景和关系,这意味着通用语言模型在专业以及垂直领域暂时无法替代专用模型。为ChatGPT混淆唐三藏与黛玉葬花背景故事的示例如图3所示。

图3

图3   ChatGPT混淆人物典故的示例

Fig.3   An Example of ChatGPT's Confusing Character Allusions


4.2 事实不一致风险

通过功能测试以及在数据集上的性能测试发现,ChatGPT在闭卷回答问题时可能会偏离事实。如表9所示,ChatGPT可能编造虚假信息,并且其输出通常是真实信息与虚假信息的混合,可能误导信息来源受限的群体,因此在信息检索方面暂时无法替代搜索引擎。

表9   ChatGPT编造的简历与可能的信息来源

Table 9  Fabricates Profiles by ChatGPT and Possible Sources of Information

提问帮我查一个人,北理工张华平博士,个人介绍
ChatGPT输出根据我的搜索结果,北方工业大学(North China University of Technology)的张华平博士是该校能源与环境科学与工程学院的副教授。以下是他的个人简介:
张华平博士于2009年毕业于中国科学院大学(原中国科学院研究生院),获工学博士学位。他现在主要从事新型功能纳米材料的制备与应用、能源催化材料、环境污染控制材料等方面的研究。他已在包括《Chemical Engineering Journal》、《Applied Catalysis B: Environmental》、《Journal of Materials Chemistry A》、《Journal of Power Sources》等国际著名期刊上发表了多篇论文。
可能的信息来源黄云薇(https://chem.zqu.edu.cn/info/1844/3479.htm.) https://chem.zqu.edu.cn/info/1844/3479.htm.,女,工学博士,湖南永州人,1984年10月生。现主要从事高分子功能材料,新型纳米材料的制备与应用研究……
雷鸣(② https://www.scuec.edu.cn/zhxy/info/1013/1008.htm.) https://www.scuec.edu.cn/zhxy/info/1013/1008.htm.,博士,2011年毕业于华中科技大学化学与化工学院……主要从事环境催化材料,环境污染物分析和控制等方面的研究……
程修文(③ http://geoscience.lzu.edu.cn/info/1078/3127.htm.) http://geoscience.lzu.edu.cn/info/1078/3127.htm.……在国际刊物如Applied Catalysis B: Environmental、Journal of Hazardous Materials及Chemical Engineering Journal等期刊上发表了90余篇研究论文……

新窗口打开| 下载CSV


4.3 认知战风险

GPT系列模型的训练语料大多来自西方的语言价值体系,这导致了ChatGPT在价值观层面偏向于西方,生成的内容不一定符合中国的价值观。尽管RLHF的训练方式使得ChatGPT表现得更加友好,但仍然不能保证它能脱离训练语料中的偏见,也不能保证不引入标注人员的价值观。例如,在功能测试中发现,ChatGPT生成内容中存在对于中国的大量偏见言论,也不会对有关涉及中国的政治言论进行回避和拒绝回答,这说明训练数据的构建过程中未对这部分言论进行筛查。

4.4 信息安全风险

目前,ChatGPT没有开源且难以复现,其资源与技术均不开放,目前控制在微软及OpenAI等少数国外机构中,存在卡脖子风险。

ChatGPT只提供云服务和应用程序接口(API)。训练与测试过程均在美国服务器上部署,训练过程及测试过程均会收集使用者的信息,并记录使用者的反馈及使用习惯,存在严重的信息泄露与用户隐私保护风险。

4.5 伦理风险

大语言模型的发展历程与应用中,会伴随着一些伦理问题。通过大语言模型生成的内容,可能导致创作者在不经意间剽窃了他人的成果,产生侵犯知识产权的风险。另一方面,大语言模型展现出的推理能力与创作能力可能被用于考试作弊等学术不端行为。

对于学术领域,研究人员可能使用ChatGPT等大语言模型辅助科研,包括起草、修改论文和演讲稿等,这可以帮助科研人员更快地产出论文,但也可能降低研究的质量和透明度,因为ChatGPT等大语言模型生成的文本可能存在事实性错误,在科研进程中不合理地使用这些模型可能导致扭曲科学事实并传播错误信息。

在教育产业则需要更加严格地限制大语言模型的使用,一方面原因是大语言模型所蕴含的价值观难以被量化分析,其生成的内容对学生的价值观影响是不可控的;另一方面,使用大语言模型帮助或者代替学生完成作业以及进行考试作弊的成本很低,这会改变学生在学习过程中的自主性,影响独立思考的能力,将会产生学术不端行为等风险。

4.6 使用模式风险

与搜索引擎相比,ChatGPT具有额外的模式风险,即生成内容的责任承担问题构成的风险。搜索引擎是信息搜索的中介代理,搜索引擎的提供商本质上不生产内容,内容的第三方创作者是相应内容的责任人。而ChatGPT是拟人的,根据创作者的提示对内容进行生成创作,虽然OpenAI在使用条款中说明,只要用户遵守使用条款,OpenAI就会将AI输出内容中的所有权和利益转让给提供输入内容的用户,但面对规模庞大并不断增长的使用者从ChatGPT获取自动生成的海量内容,OpenAI不需要对这些内容承担任何责任和舆论风险,这显然是不可能的。

5 ChatGPT中国化发展建议

ChatGPT在自然语言处理与AI技术的发展与产品的落地历程中,具有里程碑式的意义,它消除了AI与普通大众之间的距离,以对话这一友好的方式建立了人与AI接触的平台,但它仍然存在各种问题与风险,因此笔者总结了相关产品中国化的发展建议如下:

(1)重视ChatGPT带来AIGC(AI Generated Content)的新机遇:ChatGPT利用大型语言模型将通用人工智能技术带到新高度,采用多轮对话形式,将对政府治理、企业经营、学术研究与个人生活产生不亚于互联网诞生的革命性影响,将极大解放办公、编程、文稿等一般性的智力劳动。

(2)防范ChatGPT的内容安全风险:中国需要构建自主可控的中文ChatGPT技术。从硬件、软件、中文资源、算法、工程应用等多方面,避免炒作,务实推进中国版ChatGPT的落地,服务我国国家安全、企业创新与民生保障。

(3)防范ChatGPT的伦理风险:国家政府有关部门需要尽快针对AI创作等关键问题进行监管制度的修订和完善。对于AI创作内容与人类作者的创作权利问题需要更全面的法律解释。另一方面,对于大语言模型的使用需要制定相关政策,引导人们正确使用大语言模型。重视投资开源的、共建共享的大语言模型。

(4)以国家需求为导向:ChatGPT属于科学研究与工程应用在人工智能方向的一大突破,学术研究应不拘泥于学术界假定的公开数据集,不拘泥于在深度学习调优进行跟风式微创新,跳出发表论文为主要目标的窠臼,真正研究真实世界的真实问题,以国家重要战略需求为导向,进行前沿性、先导性、前瞻性、颠覆性的创新。

(5)定制化特定领域的模型:ChatGPT是通用领域的对话模型,中国也需要适应特定领域的小型模型,即针对不同领域进行个性化定制的模型。中国的科技领域需要构建自己的模型以满足中国自身的需求,例如现代汉语、古文、少数民族语言、方言的多语言模型,打破人们之间交流的语言壁垒。大模型未来的发展道路需要关注更深层次的技术,避免跟风式炒作,基础创新不应盲目跟风。

6 结论

本文在9个中文数据集上评估了ChatGPT的性能表现,发现其在情感分析、自动摘要和阅读理解等经典自然语言处理任务上具有较好的表现,在闭卷知识问答上容易犯事实性错误。根据评估结果,本文进一步分析了ChatGPT可能面临的风险挑战,并为其中国化模型提出了发展建议。希望本文的研究对未来工作有所启发,例如研发中国自主可控的通用语言模型以及利用语言模型的推理能力解决更多的现实问题。

作者贡献声明

张华平:提出研究思路,设计研究方案,论文起草和最终版本修订;

李林翰:执行实验,撰写论文;

李春锦:辅助实验,修订论文。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

[1] ChnSentiCorp. https://github.com/pengming617/bert_classification.

[2] EPRSTMT. https://github.com/CLUEbenchmark/FewCLUE.

[3] LCSTS. DOI: 10.48550/arXiv.1506.05865.

[4] TTNews. http://tcci.ccf.org.cn/conference/2017/taskdata.php.

[5] CMRC2018, DRCD, C3. https://github.com/CLUEbenchmark/CLUE.

[6] WebQA. DOI: 10.48550/arXiv.1607.06275.

[7] CKBQA. https://github.com/pkumod/CKBQA.

参考文献

Brown T, Mann B, Ryder N, et al.

Language Models are Few-Shot Learners

[C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. 2020, 33: 1877-1901.

[本文引用: 3]

Thoppilan R, De Freitas D, Hall J, et al.

LaMDA: Language Models for Dialog Applications

[OL]. arXiv Preprint, arXiv:2201.08239.

[本文引用: 1]

Wang S H, Sun Y, Xiang Y, et al.

ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation

[OL]. arXiv Preprint, arXiv:2112.12731.

[本文引用: 1]

Zeng W, Ren X, Su T, et al.

PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-Parallel Computation

[OL]. arXiv Preprint, arXiv:2104.12369.

[本文引用: 2]

Su H, Zhou X, Yu H J, et al.

WeLM: A Well-Read Pre-trained Language Model for Chinese

[OL]. arXiv Preprint, arXiv:2209.10372.

[本文引用: 1]

Kiela D, Bartolo M, Nie Y X, et al.

Dynabench: Rethinking Benchmarking in NLP

[C]// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. 2021: 4110-4124.

[本文引用: 1]

Zhou J, Ke P, Qiu X P, et al.

ChatGPT: Potential, Prospects, and Limitations

[J]. Frontiers of Information Technology & Electronic Engineering. https://doi.org/10.1631/FITEE.2300089.

URL     [本文引用: 1]

van Dis E, Bollen J, Zuidema W, et al.

ChatGPT: Five Priorities for Research

[J]. Nature, 2023, 614(7947): 224-226.

DOI:10.1038/d41586-023-00288-7      [本文引用: 2]

Thorp H H.

ChatGPT is Fun, but Not an Author

[J]. Science, 2023, 379(6630): 313.

DOI:10.1126/science.adg7879      PMID:36701446      [本文引用: 1]

In less than 2 months, the artificial intelligence (AI) program ChatGPT has become a cultural sensation. It is freely accessible through a web portal created by the tool's developer, OpenAI. The program-which automatically creates text based on written prompts-is so popular that it's likely to be "at capacity right now" if you attempt to use it. When you do get through, ChatGPT provides endless entertainment. I asked it to rewrite the first scene of the classic American play, but to feature Princess Elsa from the animated movie as the main character instead of Willy Loman. The output was an amusing conversation in which Elsa-who has come home from a tough day of selling-is told by her son Happy, "Come on, Mom. You're Elsa from. You have ice powers and you're a queen. You're unstoppable." Mash-ups like this are certainly fun, but there are serious implications for generative AI programs like ChatGPT in science and academia.

Qin C W, Zhang A, Zhang Z S, et al.

Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

[OL]. arXiv Preprint, arXiv:2302.06476.

[本文引用: 1]

Bang Y, Cahyawijaya S, Lee N, et al.

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

[OL]. arXiv Preprint, arXiv:2302.04023.

[本文引用: 2]

Chen X T, Ye J J, Zu C, et al.

How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks

[OL]. arXiv Preprint, arXiv:2303.00293.

[本文引用: 1]

Jiao W X, Wang W X, Huang J T, et al.

Is ChatGPT a Good Translator? A Preliminary Study

[OL]. arXiv Preprint, arXiv:2301.08745.

[本文引用: 2]

Devlin J, Chang M W, Lee K, et al.

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies, Volume 1 (Long and Short Papers). 2019: 4171-4186.

[本文引用: 1]

Radford A, Narasimhan K, Salimans T, et al.

Improving Language Understanding by Generative Pre-training

[OL]. https://gwern.net/doc/www/s3-us-west-2.amazonaws.com/d73fdc5ffa8627bce44dcda2fc012da638ffb158.pdf.

URL     [本文引用: 2]

Radford A, Wu J, Child R, et al.

Language Models are Unsupervised Multitask Learners

[OL]. OpenAI Blog, https://gwern.net/doc/ai/nn/transformer/gpt/2019-radford.pdf.

URL     [本文引用: 2]

Elman J L.

Finding Structure in Time

[J]. Cognitive Science, 1990, 14(2): 179-211.

DOI:10.1207/s15516709cog1402_1      URL     [本文引用: 1]

Hochreiter S, Schmidhuber J.

Long Short-term Memory

[J]. Neural Computation, 1997, 9(8): 1735-1780.

DOI:10.1162/neco.1997.9.8.1735      PMID:9377276      [本文引用: 1]

Learning to store information over extended time intervals by recurrent backpropagation takes a very long time, mostly because of insufficient, decaying error backflow. We briefly review Hochreiter's (1991) analysis of this problem, then address it by introducing a novel, efficient, gradient-based method called long short-term memory (LSTM). Truncating the gradient where this does not do harm, LSTM can learn to bridge minimal time lags in excess of 1000 discrete-time steps by enforcing constant error flow through constant error carousels within special units. Multiplicative gate units learn to open and close access to the constant error flow. LSTM is local in space and time; its computational complexity per time step and weight is O(1). Our experiments with artificial data involve local, distributed, real-valued, and noisy pattern representations. In comparisons with real-time recurrent learning, back propagation through time, recurrent cascade correlation, Elman nets, and neural sequence chunking, LSTM leads to many more successful runs, and learns much faster. LSTM also solves complex, artificial long-time-lag tasks that have never been solved by previous recurrent network algorithms.

Vaswani A, Shazeer N, Parmar N, et al.

Attention is All You Need

[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 6000-6010.

[本文引用: 1]

Chen M, Tworek J, Jun H, et al.

Evaluating Large Language Models Trained on Code

[OL]. arXiv Preprint, arXiv:2107.03374.

[本文引用: 1]

Wei J, Bosma M, Zhao V Y, et al.

Finetuned Language Models are Zero-Shot Learners

[OL]. arXiv Preprint, arXiv:2109.01652.

[本文引用: 1]

Zhang Y Z, Sun S Q, Galley M, et al.

DialoGPT: Large-scale Generative Pre-training for Conversational Response Generation

[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics:System Demonstrations. 2020: 270-278.

[本文引用: 1]

Nakano R, Hilton J, Balaji S, et al.

WebGPT: Browser-assisted Question-Answering with Human Feedback

[OL]. arXiv Preprint, arXiv:2112.09332.

[本文引用: 1]

Ouyang L, Wu J, Jiang X, et al.

Training Language Models to Follow Instructions with Human Feedback

[OL]. arXiv Preprint, arXiv:2203.02155.

[本文引用: 1]

Christiano P F, Leike J, Brown T, et al.

Deep Reinforcement Learning from Human Preferences

[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 4302-4310.

[本文引用: 1]

Schulman J, Wolski F, Dhariwal P, et al.

Proximal Policy Optimization Algorithms

[OL]. arXiv Preprint, arXiv:1707.06347.

[本文引用: 1]

Xu L, Lu X, Yuan C, et al.

FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark

[OL]. arXiv Preprint, arXiv:2107.07498.

[本文引用: 1]

Hu B T, Chen Q C, Zhu F Z.

LCSTS: A Large Scale Chinese Short Text Summarization Dataset

[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015: 1967-1972.

[本文引用: 1]

Hua L F, Wan X J, Li L.

Overview of the NLPCC 2017 Shared Task: Single Document Summarization

[C]// Proceedings of National CCF Conference on Natural Language Processing and Chinese Computing. Springer International Publishing, 2018: 942-947.

[本文引用: 1]

Cui Y M, Liu T, Che W C, et al.

A Span-Extraction Dataset for Chinese Machine Reading Comprehension

[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 5883-5889.

[本文引用: 1]

Shao C C, Liu T, Lai Y, et al.

DRCD: A Chinese Machine Reading Comprehension Dataset

[OL]. arXiv Preprint, arXiv:1806.00920.

[本文引用: 1]

Sun K, Yu D, Yu D, et al.

Investigating Prior Knowledge for Challenging Chinese Machine Reading Comprehension

[J]. Transactions of the Association for Computational Linguistics, 2020, 8: 141-155.

DOI:10.1162/tacl_a_00305      URL     [本文引用: 1]

Machine reading comprehension tasks require a machine reader to answer questions relevant to the given document. In this paper, we present the first free-form multiple-Choice Chinese machine reading Comprehension dataset (C3), containing 13,369 documents (dialogues or more formally written mixed-genre texts) and their associated 19,577 multiple-choice free-form questions collected from Chinese-as-a-second-language examinations. We present a comprehensive analysis of the prior knowledge (i.e., linguistic, domain-specific, and general world knowledge) needed for these real-world problems. We implement rule-based and popular neural methods and find that there is still a significant performance gap between the best performing model (68.5%) and human readers (96.0%), especiallyon problems that require prior knowledge. We further study the effects of distractor plausibility and data augmentation based on translated relevant datasets for English on model performance. We expect C3 to present great challenges to existing systems as answering 86.8% of questions requires both knowledge within and beyond the accompanying document, and we hope that C3 can serve as a platform to study how to leverage various kinds of prior knowledge to better understand a given written or orally oriented text. C3 is available at https://dataset.org/c3/.

Li P, Li W, He Z Y, et al.

Dataset and Neural Recurrent Sequence Labeling Model for Open-Domain Factoid Question Answering

[OL]. arXiv Preprint, arXiv:1607.06275.

[本文引用: 1]

Lin C Y.

ROUGE: A Package for Automatic Evaluation of Summaries

[C]// Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004). 2004.

[本文引用: 1]

/