张嘉程, 刘哲理, 肖光文, 聂力海, 王永昌, 史良, 金美宏
预出版日期: 2025-12-26
[目的]针对大语言模型价值观对齐评测体系碎片化、中国特色价值覆盖不足、深度评测数据稀缺及评测方法滞后等问题,构建面向大语言模型的价值观对齐评测方法与技术。[方法]提出价值规则、评测数据、智能技术三位一体的融合方法体系。在此框架下,设计“能力—任务—指标”三维评测体系,进行数据采集、增广与标注,构建深度评测数据集。最终结合预训练模型、指令微调与专家反馈,训练出价值观评测模型。[结果]构建的评测模型准确率为98.57%,实现了对大语言模型价值观对齐水平的自动化评测。实证结果表明,国产模型总体对齐度高于国外模型,但仍普遍存在红色文化语料不足、事实性与幻觉性虚假信息、意识形态淡化、过度审查及动态适应性弱等问题。[局限]研究主要面向文本型大语言模型,对多模态模型的适用性不足;同时,评测结果以高、中、低呈现,可解释性有待提升。[结论]本研究有助于健全具有中国特色的价值观对齐治理体系,保障大语言模型在安全、可信和可控的框架内健康发展,同时也为推动我国主流价值观在经济发展和社会治理中的有效落实提供技术支撑。