数据分析与知识发现 2018 , 2 (9): 80-87 https://doi.org/10.11925/infotech.2096-3467.2018.0204

研究论文

基于LDA模型的HSK作文生成^*

徐艳华¹, 苗雨洁², 苗琳², 吕学强²^,

¹鲁东大学文学院烟台 264025
²北京信息科技大学网络文化与数字传播北京市重点实验室北京 100101

Generating HSK Writing Essays with LDA Model

Xu Yanhua¹, Miao Yujie², Miao Lin², Lv Xueqiang²^,

¹School of Chinese Language and Literature, Ludong University, Yantai 264025, China
²Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China

中图分类号: 分类号: TP391 G35

通讯作者: 通讯作者: 吕学强, ORCID: 0000-0002-1422-0560, E-mail: lxq@bistu.edu.cn。

收稿日期: 2018-02-26

修回日期: 2018-02-26

网络出版日期: 2018-09-25

基金资助: *本文系国家自然科学基金项目“中文专利侵权自动检测研究”(项目编号: 61671070)和国家语委重点项目“汉语智能写作关键技术研究及应用”(项目编号: ZDI135-53)的研究成果之一

展开

摘要

【目的】研究HSK5作文自动生成, 为汉语教师写作教学以及汉语学习者备考提供参考。【方法】将“HSK动态作文语料库”作为基本语料库, 基于LDA模型训练语料库, 融合交叉熵选择句子的策略, 生成包含关键词的文本。通过人工评价, 对比待评价文本和参考标准, 对生成文本进行评分。【结果】实验结果表明, 生成的文本内容包含所有关键词, 且与主题相关。【局限】训练文本有一部分是改正后的HSK作文语料, 来自母语为非汉语的外国人的作文, 以致内容连贯性不强、内容不够丰富。【结论】该方法完成了根据关键词写作的任务, 生成的文本可以很好地围绕关键词展开, 并切合主题, 本文提出的融合策略使生成的文本可读性较强。

关键词： 自然语言生成 ; LDA模型 ; 人工评价

Abstract

[Objective] This paper tries to automatically generate writing samples for the Chinese Proficiency Test (HSK), aiming to help the Chinese teachers and learners prepare for the test. [Methods] First, we used the “HSK Dynamic Corpus” as the basic corpus, and trained it with the LDA model. Then, we adopted the cross-entropy strategy to select sentences containing required keywords. Finally, we manually scored the generated texts with the evaluating criteria. [Results] The generated essays contained all needed keywords and were relevant to the topics of the writing tasks. [Limitations] Some training corpus were modified HSK essays, written by non-Chinese speaker. [Conclusions] The proposed method could generate passages of good quality with the required keywords effectively.

Keywords： Natural Language Generation ; LDA Model ; Artificial Evaluation

PDF (739KB) 元数据多维度评价相关文章收藏文章

本文引用格式导出 EndNote Ris Bibtex

徐艳华, 苗雨洁, 苗琳, 吕学强. 基于LDA模型的HSK作文生成^*[J]. 数据分析与知识发现, 2018, 2(9): 80-87 https://doi.org/10.11925/infotech.2096-3467.2018.0204

Xu Yanhua, Miao Yujie, Miao Lin, Lv Xueqiang. Generating HSK Writing Essays with LDA Model[J]. Data Analysis and Knowledge Discovery, 2018, 2(9): 80-87 https://doi.org/10.11925/infotech.2096-3467.2018.0204

1 引言

在信息技术和互联网高速发展的时代, 人们不断探索如何使自然语言可计算, 以便可以在大规模非结构化文本下发掘出隐藏的信息和知识。文学写作也已经进入“机器制造”的时代, 同时也带来写作观念、写作行为和写作思维方式的变化。AI和大数据的结合将会为自然语言处理技术带来前所未有的发展。自然语言生成是诸如知识库或逻辑形式的机器表示系统生成自然语言的自然语言处理任务^[1]。自然语言生成系统如同一个将数据转换为自然语言表示的翻译器。然而, 由于自然语言的固有表达性, 产生最终语言和编译器的方法各所不同。

汉语水平考试(HSK)是为测试母语为非汉语者的汉语水平而设立的一项国际汉语能力标准化考试, 其写作题主要考察的是语序、语法、内容和语言逻辑, 因而可用于开展自然语言生成的研究。随着HSK在全世界范围的推广, 越来越多的汉语学习者开始参与HSK考试。国内学者对于HSK考试的研究也不断加大^[2]。然而, 目前对汉语水平考试写作的研究较少, 尤其是研究现有的自然语言处理技术智能答题的能力有限。

本文研究HSK5作文的自动生成, 通过分析写作任务, 训练机器学习模型, 可以将写作任务转化成可训练的文本生成任务, 由此提出基于LDA主题模型的自动写作方法, 实现自动作文任务, 增强句子的连贯性并提高可读性。同时结合英文考试作文的评价方法, 对HSK5作文进行自动评价, 研究成果将会为汉语教师的写作教学以及海外汉语学习者备考提供参考。

2 相关研究

2.1 国外相关研究

最早的自然语言生成, 更像是各种棋牌游戏, 将不同单元进行不同的排列组合, 这样可以生成较多结果, 如果把这个排列的过程记录下来, 就可以得到一篇文章。进入工业化时代, 也伴随着写作机器的产生, Klein^[3]使用从属语法树实现单个句子生成, 并开发相应的系统, 其本质思想类似于同义句输出; 美国伦塞勒工学院的塞尔默·布林斯乔德及其同事研制的人工故事生成软件“布鲁特斯1型”, 创作出400字电脑小说《背叛》, 实现从单个句子到短篇小说的突破。

随着大数据技术、自然语言处理以及其他人工智能技术的不断发展, 国外逐渐掀起了使用算法自动生成新闻报道的探索和实践的浪潮。之后随着新闻写作自动生成技术的不断发展, 印证了人工智能技术可以帮助人们快速便捷地进行数据处理和整合, 将不断改变新闻媒体的传播内容和传播方式^[4]。美国芝加哥Narrative Science开发的自动写作平台Quill, 根据出版社特点为用户自动生成不同写作风格的可读性文本; 法国公司Yseop开发的写作系统涉及英语、法语、西班牙语、葡萄牙语、日语; 里约奥运会期间, 美国华盛顿邮报的写作机器人Heliograf自动生成新闻简报, 并通过华盛顿邮报网站和该报的Twitter账号进行发布。

2.2 国内相关研究

由于汉语语言表达形式的特点, 国内对于自动写作的研究形式更加丰富, 自动写作的内容也更具多样性和挑战性。

中国作家张小红先生以《文章坐标构想法》为理论依据结合诸多职业作家、记者和计算机专业高级程序员的实际经验开发出GS文章自动生成系统。随后, 又出现很多自动生成诗歌、作文、情书的软件。作家刘慈欣设计的计算机自动写诗程序“计算机诗人”, 通过设置韵脚、段落等信息, 进行诗的创作; 中国科学院计算技术研究所NICA小组开发的叙事与动画智能实验平台PNAI^[5], 可以生成满足用户需求的叙事文本。微软亚洲研究院在“微软对联平台”推出微软字谜, 用户选择一个系统所提供的谜底字或者任意输入一个谜底字, 系统可以生成若干谜面。随后又开发出微软绝句, 可以根据用户选择的关键词生成诗句, 也可以根据用户输入的诗句自动生成后面的诗句, 最终生成五言绝句或者七言绝句^[6]。

信息化的现代社会对自动生成文本技术有着强烈需求。北京大学计算机研究所推出的写作机器人PKUWriter能够基于电视/文字直播全自动实时生成体育赛事新闻, 并针对欧洲杯各项足球赛事自动生成体育新闻报道^[7]; 南方都市报社写稿机器人“小南”生成一篇共300余字的春运报道^[8]。

2.3 相关研究概述

自然语言生成^[9]是一个从非语言输入构建自然语言输出的过程。它的任务是将意义映射到文本。事实证明, 自动生成人类语言的任务要比人们想象得困难。一般来说, 概念和人类智慧紧密联系, 例如艺术、创造力。人们才刚刚开始探索用自动的方法生成艺术和创造力等。

自然语言生成的目标是产生符合人阅读习惯的、流畅的自然语言。但是自然语言生成任务按照输入内容的不同分为两种。

(1) 从语言到语言的生成过程。这种生成过程, 输入是自然语言, 计算机对输入分析后, 再转换成另一种形式的自然语言表示, 从而完成生成任务。早期的自然语言生成多是这种模式, 如, 机器翻译是从源语言到目标语言到生成; 人机对话和问答系统需要生成可理解的自然语言响应用户用自然语言提出的问题^[10]。

(2) 从非语言的信息表示到语言的生成过程。输入不是自然语言, 而是非自然语言表示的信息, 如数据库中的信息、图像信息等, 对这些信息进行筛选、分析、整合等处理, 生成符合人类习惯的自然语言。如通过气象部门提供的气象数据生成天气预报; 通过企业的财务数据生成企业财报; 通过对图像的解析生成图像的描述文本^[11]。

随着用户需求水平不断提升、数据呈指数级增长, 对输入端信息进行精细化和个性化处理, 才能使最终的生成语言可读性更强并更有价值。

汉语自动生成按照生成技术的不同可以分为4种: 基于规则和模版; 基于机器翻译模型; 基于摘要技术; 基于机器学习的可训练生成。

(1) 基于规则和模板

基于模板(Template-based)的生成技术是人们最早采用的生成技术, 该技术以罐装文本(Canned Text)为基础, 系统事先设计好几种可能出现的情况, 构造出相应的模板, 模板中包含固定文本和输入文本^[11,12,13]。当用户输入信息后, 文本生成器将输入的信息嵌入到模板中。该方法的优点是工作效率高、实现方法简单。缺点是这种方法不够灵活, 难以满足用户多变的需求, 不能生产语言丰富、风格多样的文本。

这种基于模板的生成技术, 多用于格式固定、任务简单、篇幅较短的文本生成中。例如, 问答系统^[14]、气象公报文本^[15]、自动生成军事报文^[16]。

(2) 基于机器翻译模型

机器翻译是将一种语言转换成另一种语言, 从基本层面上讲, 机器翻译将一种语言的单词替换另一种语言的单词^[17]。因此, 可以将自动生成任务转化成机器翻译任务, 只不过完成的是同一种语言到本语言的转化。在某种程度上可以视为对输入文本的处理改写、再输出。微软亚洲研究院的对联生成^[18,19]就是这样的一种自动生成模式, 将对联的生成过程看作是一个翻译过程。给定对联的上联, 通过机器翻译模型的分析, 将其用同种语言翻译, 输出即得对联的下联。这样的生成方式满足了对联字数相同、对仗工整、结构协调的特点。

(3) 基于摘要技术

摘要技术^[20]使用计算机程序减少文本文档的过程, 用以创建保留原始文档关键点的摘要文档。常用的方法有信息抽取技术, 即选择原始文本中现有的单词、短语或者句子形成新的文本。Sauper等^[21]利用信息抽取技术, 从互联网上抽取信息创建一个主题概述的综合文本。

(4) 基于机器学习的可训练生成

可训练生成采用机器学习方法, 训练生成模型, 生成特定风格、特定结构的文本。如Yi等^[22]构建RNN Encoder-Decoder将中国古典诗转化为一个序列学习问题, 以主题词作为输入, 生成绝句。在这个过程中机器学习方法可以训练生成模型学习绝句的节奏和音韵、平仄和韵脚等特征, 从而生成较高质量的绝句^[6]。Wang等^[23]训练机器学习中国宋词的特点, 控制句子的长短节奏以及风格, 最终实现宋词的自动生成。除此之外, 还有训练生成模型生成莎士比亚风格的文本等。

本文提出基于LDA主题模型的作文生成, 实现根据关键词写短文的写作任务。在这个任务中需要按照所给关键词自动生成一篇短文, 为中文爱好者备考提供参考。

3 任务分析

HSK5第一个写作任务是使用所给词语, 写一篇短文本。2013年7月新汉语水平考试五级真题写作部分第一题如下。

请结合下列词语(要全部使用, 顺序不分先后), 写一篇80字左右的短文。

简历信息突出特色应聘

根据题干所给词语进行写作, 这是一个典型的材料作文任务。题干中所给出的5个词语绝对不是没有任何关联的, 因此可以通过先确定主题, 然后再围绕这个主题展开写作, 并使用题干中所给的全部词语。分析上述例题, 可以判定出, 主题是“求职”, 因此在写作时, 就可以围绕“求职”这个主题进行写作。可得到以下写作基本步骤:

(1) 根据题干所给词语, 确定主题。写作任务要始终围绕这个主题进行。

(2) 用所给词造句。因为题干要求所给词汇必须全部用到, 因此可以用所给词语造句, 但是要保证造出的句子与主题相统一。

此写作任务的重点在于围绕一个特定的主题展开写作, 另外, 要保证题干所列出词汇全部出现在写作中。

用机器实现自动生成作文即按照主题完成写作任务。从这个角度出发, 提出基于LDA主题模型的自动写作方法, 实现机器自动作文。

4 自动生成策略

基于LDA模型的自动写作方法采用句子抽取策略生成文本。句子抽取策略主要通过从候选文本中抽取适当的句子, 再将这些句子排序组合, 从而生成完整的篇章。基于主题模型的句子抽取, 即通过主题及关键词对候选文本中的句子进行选择和抽取。

因此, 在生成一篇文本时, 先在所给定的几个关键词的基础上, 再生成若干个相应的词; 利用这些词在候选文本中筛选和抽取句子; 再利用句子在候选文本中相对位置对抽取到的句子进行排序, 最终得到一篇生成文本。

4.1 LDA模型

隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)^[24]是一种文档主题生成模型, 它可以将每篇文档的主题按照概率分布的形式给出。在自然语言处理中, 隐含狄利克雷模型即生成模型, 可以通过不可观测的群体解释观测群体, 并由此解释数据某些部分的相似性。

LDA是一种典型的词袋模型, 它认为一篇文档是一组词汇的集合, 词汇之间都是独立存在的, 没有先后关系。文档仅仅包含一小部分主题, 并且该主题经常只使用一小部分词汇^[25]。因此, 可以通过LDA得到文档与主题、主题与词汇的分布。

用LDA模型生成一篇文本的方法如下:

(1) 从狄利克雷分布α中取样生成文档i的主题分布${{\theta }_{i}}$;

(2) 从主题的多项式分布${{\theta }_{i}}$中取样生成文档i中第j个词的主题z_ij;

(3) 从狄利克雷分布β中取样生成主题z_ij的词语分布${{\phi }_{{{z}_{ij}}}}$;

(4) 从词语的多项式分布${{\phi }_{{{z}_{ij}}}}$中采样最终生成词语w_ij。

利用LDA模型生成包含多个主题的文本:

Choose parameter θ~P(θ);

For each of the N words w_n:

Choose a topic z_n~ P(z|θ);

Choose a word w_n~ P(w|z);

定义θ是一个主题向量, 向量θ是非负归一化的向量, 其中每一列表示每个主题在文档出现的概率; P(θ)是关于θ的分布, 并且为狄利克雷分布; N和w_n同上; z_n表示选择的主题, P(z|θ)表示选择特定θ时主题z的概率分布, 具体为θ的值, 即P(z=i|θ)=${{\theta }_{i}}$; P(w|z)同上。

选定一个主题向量θ, 并计算文档中每个主题的概率。在主题分布向量θ选择一个主题z, 从主题和词汇的分布中, 根据主题z的词汇概率分布生成主题相关的词语。

使用LDA模型的Gibbs Sampling方法如公式(1)^[26]所示。

$p({{z}_{i}}=k|{{z}_{\neg i}},w)\propto \frac{n_{m,\neg i}^{(k)}+{{\alpha }_{k}}}{\sum\limits_{k=1}^{K}{(n_{m,\neg i}^{(k)}+{{\alpha }_{k}})}}\centerdot \frac{n_{k,\neg i}^{(t)}+{{\beta }_{t}}}{\sum\limits_{t=1}^{T}{(n_{k,\neg i}^{(t)}+{{\beta }_{t}})}}$ (1)

其中, ${{n}_{k}}^{(t)}$是主题k产生的词汇中词t的个数; ${{n}_{m}}^{(k)}$表示第m篇文本中第k个主题对应的词的个数; 所有的词汇为w; 词汇对应的主题为z; ${{\alpha }_{\text{ }\!\!\kappa\!\!\text{ }}}$, ${{\beta }_{t}}$为特征词狄利克雷的先验分布; ¬i表示剔除其中的第i项; z_﹁_i表示所有主题z_k(k≠i)分配。

4.2 构建生成模型

(1) 数据集

①HSK动态作文语料库

“HSK动态作文语料库”是北京语言大学崔希亮教授主持的国家级科研项目成果, 是母语为非汉语的外国人参加高等汉语水平考试(HSK 高等)作文考试的答卷语料库, 经过多年的修改补充, 语料库收集11 569篇作文。语料中原始语料包含考生作文答卷, 以及考生作文分数等非常详尽的信息。另外, 语料中的标注语料库则对考生作文中的错误有非常全面的修改标注, 标注内容主要包括:

1)字处理: 包括错别字标注, 漏字标注, 多字标注等。

2)标点符号处理: 包括错误标点标注, 空缺或者多余标点的标注。

3)词处理: 包括错词, 缺词, 搭配错误等标注。

4)句处理: 包括病句标注, 句式杂糅等方面的错误标注。

5)篇章处理: 包括句间连接方法, 语义表达方面的错误标记^[27]。

②语料处理

由于“HSK动态作文语料库”是人工标记的考生作文语料, 首先按照语料库中对作文的修改标注, 将语料处理为标准作文语料。即按照语料库中标注出的错误以及给出的修改信息, 将标注作文处理为规范的作文。将这些规范作文样本作为标准语料进行模型训练。另外, 从互联网上获取中小学生作文1 000篇, 作为语料库的丰富和补充。

(2) 模型训练

①LDA算法开始, 随机给定参数${{\theta }_{d}}$和${{\phi }_{t}}$。不断迭代和学习以下过程, 最终得到收敛的结果就是LDA的输出。

1)对一个特定的文档d_s中的第i词汇w_i, 假设词汇w_i对应的主题为t_j, 则${{p}_{j}}({{w}_{i}}|{{d}_{s}})$可以通过公式(2)^[24]计算。

${{p}_{j}}({{w}_{i}}|{{d}_{s}})=p({{w}_{i}}|{{t}_{j}})\times ({{t}_{j}}|{{d}_{s}})$ (2)

2)枚举主题集合T中的主题, 得到所有的${{p}_{j}}({{w}_{i}}|{{d}_{s}})$, 其中j取值1~k。然后根据这些概率值结果为d_s中的第i个词w_i选择一个主题。

3)对词汇集合D中所有w进行一次p(w|d)计算并重新选择主题, 视为一次迭代。

②交叉熵

交叉熵^[28]衡量两个函数或概率分布的差异性: 差异越大则相对熵越大, 差异越小则相对熵越小。因此用交叉熵选取句子, 构造生成文本。

对于概率分布p和q, 其交叉熵如公式(3)-公式(5)^[28]所示。

$D(p\parallel q)=H(p,q)-H(p)=\sum\nolimits_{i}{p(i)}\times \log \frac{p(i)}{q(i)}$ (3)

其中,

$H(p)=\sum\nolimits_{i}{p(i)}\times \log \frac{1}{p(i)}$ (4)

$H(p,q)=\sum\nolimits_{i}{p(i)}\times \log \frac{1}{q(i)}$ (5)

4.3 实验步骤

(1) 选用训练数据集对LDA主题模型进行训练, 得到文本集主要内容的分布C, 以及各个句子在主题下的分布。

(2) 计算候选句子和文档之间的交叉熵, 选择交叉熵较小的句子。

(3) 将候选句子按照在原候选文本中的相对位置参数排序。

(4) 输出自动生成的作文, 组织人工对自动生成作文进行评分。

5 实验及结果分析

选取1 000篇语料, 其中包含50个题目, 每个题目下20篇作文语料, 每个题目下选取分数较高的16篇作文作为训练语料, 其余的4篇作为测试语料。利用训练的LDA模型, 进行文本生成, 其中, 文本字数控制在150字左右。

选取一个语料作为测试, 与训练结果进行比较。关键词为: 元旦; 放松; 礼物; 表演; 善良。

规范作文如图1所示。

显示原图| 下载原图ZIP| 生成PPT

图1 规范文本1

测试文本如图2所示。

显示原图| 下载原图ZIP| 生成PPT

图2 生成文本示例2

可以看出, 训练后的文本和规范文本相似度较高, 训练后生成的文本的可读性较强。

采用人工评价方法, 邀请10名研究自然语言处理方向的研究生作为评分人员, 以5分为总分, 依照的评分标准进行评分, 将求取的平均值作为最终的评分。评分标准是HSK5的公开标准, 分值域和具体要求是10名研究生根据国内高考作文进行分析讨论得出的。部分实验结果如表1所示。

表1 自动生成作文得分

题目关键词	分数
招聘、工作、发展、英语、毕业	2.21
回国、帮助、不得不、遗憾、祝福	3.42
开车、喝酒、要是、从来、后悔	4.19
无论、努力、获得、坚持、放弃	4.01
奖金、建筑、围绕、完美、摄影	2.68
年轻、运动、设施、使、精彩	3.72
进步、提高、即使…也…、发展	2.43
护照、找来了、来不及、祝福	3.93
大自然、减少、文明、污染、健康	4.45
季度、早晚、人员、应聘、信心	4.17
演出、顺利、以前、精彩、错过	4.64

新窗口打开

HSK5作文评分标准如表2所示。

表2 HSK作文评分标准

档次	标准	分值域	具体要求
空白分	完全空白	0分	1、空白为0分; 2、一处语法错误扣除0.5分, 每两个错别字扣除0.1分, 低于1分则不扣除, 字数较少扣除1分, 少一个关键词扣除0.5分, 酌情给分。
低档分	未全部使用5个词语, 内容不连贯, 有语法错误, 有较多错别字。	1-3分
中档分	内容连贯且合逻辑, 有语法错误; 内容连贯且合逻辑, 有少量错别字; 内容连贯且合逻辑, 篇幅不够。	3-4分
高档分	5个词语全部使用, 无错别字, 无语法错误, 内容丰富, 连贯且合逻辑。	4-5分

新窗口打开

观察2.21分和2.43分的文本, 如图3和图4所示, 可以发现虽然文本内容包含所有关键词, 且与主题相关, 但是内容条理不清, 且逻辑不通, 符合中档分的评分结果。观察4.45分和4.64分的作文, 如图5和图6所示, 可以发现, 文本包含所有关键词, 且主题清晰, 内容切题, 逻辑清楚, 内容连贯。符合高档分作文的标准。

图3 生成文本示例3

图4 生成文本示例4

图5 生成文本示例5

图6 生成文本示例6

观察大部分生成结果, 可以发现, 虽然基本完成了写作任务, 但是, 有些语言逻辑混乱, 内容连贯性不强或者语言不够丰富。经分析可以发现, 因为训练文本有一部分是改正后的HSK作文语料, 这些语料是母语为非汉语的留学生的作文, 因此, 在语言应用上有一些欠缺, 对自动生成结果有一定的影响。但是, 值得肯定的是, 该方法很好地完成了根据关键词写作的任务, 生成的文本可以很好地围绕关键词展开, 并切合主题。

6 结语

本文主要研究基于关键词, 完成短文章的写作任务。首先分析该写作任务的写作思路, 提出基于LDA主题模型完成自动生成任务。通过训练LDA主题模型, 得到句子和文本、词语和文本的分布, 并通过计算交叉熵, 选择与主题关键词最相近的句子, 然后生成文本。经过实验分析, 该方法很好地完成了写作任务, 但是自动生成文本在连贯性和逻辑性上效果欠佳, 仍有待提升。本文只研究了HSK5这一种材料作文的自动生成任务。在未来的研究中可以扩展到对其他材料作文的自动生成, 甚至是其他类型作文的写作。例如, 中小学材料作文的自动生成、中小学命题作文的自动生成等。

作者贡献声明

徐艳华: 提出研究思路, 设计研究方案;

徐艳华, 吕学强: 进行实验;

苗雨洁, 苗琳: 采集、清洗和分析数据;

苗琳, 吕学强: 论文起草;

徐艳华, 苗雨洁: 论文最终版本修订。

利益冲突声明

所有作者声明不存在利益冲突关系。

支撑数据

支撑数据由作者自存储, E-mail: 1114098689@qq.com。

[1] 苗雨洁, 苗琳. Test.rar. 训练数据集.

[2] 苗琳. Composition in primary and secondary schools10000.rar. 中小学作文1 000篇.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]	Reiter E, Dale R. Building Natural Language Generation Systems [M]. Cambridge University Press, 2000. [本文引用: 1]
[2]	李春红. 基于汉语国际推广战略的新汉语水平考试效度研究——以新HSK五级写作测试为个案 [J]. 大学教育, 2013(12): 111-113. [本文引用: 1] (Li Chunhong. Research on Validity of the New Hanyu Shuiping Kaoshi Based on Chinese International Promotion Strategy——Take the New HSK Level 5 Writing Test as a Case [J].University Education, 2013(12): 111-113.) [本文引用: 1]
[3]	Klein S. Control of Style with a Generative Grammar [J]. Language, 1965, 41(4): 619-631. https://doi.org/10.2307/411529 URL [本文引用: 1]
[4]	Manyika J, Chui M, Brown B, et al. Big Data: The Next Frontier for Innovation, Competition, and Productivity. Mckinsey.com [R/OL]. [2012-12-13]. . URL [本文引用: 1]
[5]	曹存根, 岳小莉, 眭跃飞. PNAI: 一种新型的叙事与动画智能实验平台 [J]. 信息技术快报, 2006, 4(5): 1-4. [本文引用: 1] (Cao Cungen, Yue Xiaoli, Sui Yuefei. PNAI: A New Narrative and Animation Intelligent Experiment Platform [J]. Information Technology Letter, 2006, 4(5): 1-4.) [本文引用: 1]
[6]	He J, Zhou M, Jiang L. Generating Chinese Classical Poems with Statistical Machine Translation Models [C]// Proceedings of the 26th AAAI Conference on Artificial Intelligence. AAAI Press, 2012: 1650-1656. [本文引用: 2]
[7]	Zhang J, Yao J G, Wan X. Towards Constructing Sports News from Live Text Commentary [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016:1361-1371. [本文引用: 1]
[8]	写稿机器人“小南”上岗 [EB/OL]. [2017-06-01]. . URL [本文引用: 1] ( Writing Robot “Xiaonan” [EB/OL]. [2017-06-01]. URL [本文引用: 1]
[9]	Reviewer-Horacek H. Review of “Building Natural Language Generation Systems” by Ehud Reiter and Robert Dale. Cambridge University Press 2000 [J].Computational Linguistics, 1996, 27(2): 298-300. [本文引用: 1]
[10]	贾佩山. 自然语言生成技术及其应用实例 [J]. 电脑与信息技术, 1997, 5(2): 7-9. [本文引用: 1] (Jia Peishan. Natural Language Generation Technology and Its Application Examples [J]. Computer and Information Technology, 1997, 5(2): 7-9.) [本文引用: 1]
[11]	王纤. 自然语言生成系统的实现技术分析 [J]. 微型电脑应用, 1997(4): 51-54. [本文引用: 2] (Wang Xian. On the Implementation Techniques for Natural Language Generation Systems [J]. Microcomputer Applications, 1997(4): 51-54.) [本文引用: 2]
[12]	张建华, 陈家骏. 自然语言生成综述 [J]. 计算机应用研究, 2006, 23(8): 1-3. [本文引用: 1] (Zhang Jianhua, Chen Jiajun. Summarization of Natural Language Generation [J]. Research on Computer Applications, 2006, 23(8): 1-3.) [本文引用: 1]
[13]	詹卫东. 自然语言的自动分析与生成简介 [J]. 术语标准化与信息技术, 2010(4): 33-42. [本文引用: 1] (Zhan Weidong. A Brief Introduction to Natural Language Understanding and Generation [J]. Terminology Standardization ＆ Information Technology, 2010(4): 33-42.) [本文引用: 1]
[14]	汪卫明, 陈世鸿, 王世同,等. 基于语义模板的医学问答自动生成 [J]. 武汉大学学报:理学版, 2009, 55(2): 233-238. [本文引用: 1] (Wang Weiming, Chen Shihong, Wang Shitong, et al. Automatic Generation of Medical Question Answer Pairs Based on Semantic Templates [J]. Journal of Wuhan University: Science Edition, 2009, 55(2): 233-238.) [本文引用: 1]
[15]	吴焕萍, 吕终亮, 张华平,等. 气象落区文本自动生成研究 [J]. 计算机工程与应用, 2014, 50(13): 247-251. Magsci [本文引用: 1] 摘要面向天气预报和气象服务的文本内容的计算机自动或者半自动生成方法，对文本生成质量要求较高，即要准确、高效、合理，还需要符合自然语言表达，存在较多技术问题。在深入分析中央气象台每日发布的“天气公报”文本内容的基础上，结合地理信息科学和自然语言处理科学方法提出了面向气象落区文本语言生成的基本原理与流程，重点从历史文本内容分析与特征提取、地理区域划分、气象要素空间分析、文本组织与生成等关键技术问题进行了深入讨论，并给出了相应的技术实现。计算机自动生成结果与预报员人工撰写的文本内容对比分析也较好地证明了面向特地领域的文本生成方法具有较好的应用前景。 (Wu Huanping, Lü Zhongliang, Zhang Huaping, et al. Text Generation on Weather Falling Area Description [J]. Computer Engineering and Applications, 2014, 50(13): 247-251.) Magsci [本文引用: 1] 摘要面向天气预报和气象服务的文本内容的计算机自动或者半自动生成方法，对文本生成质量要求较高，即要准确、高效、合理，还需要符合自然语言表达，存在较多技术问题。在深入分析中央气象台每日发布的“天气公报”文本内容的基础上，结合地理信息科学和自然语言处理科学方法提出了面向气象落区文本语言生成的基本原理与流程，重点从历史文本内容分析与特征提取、地理区域划分、气象要素空间分析、文本组织与生成等关键技术问题进行了深入讨论，并给出了相应的技术实现。计算机自动生成结果与预报员人工撰写的文本内容对比分析也较好地证明了面向特地领域的文本生成方法具有较好的应用前景。
[16]	孙剑, 周深根, 徐豪华. 基于模板的作战仿真数据自动生成军事报文方法研究 [C]// 见第18届中国系统仿真技术及其应用学术年会论文集. 2012. [本文引用: 1] (Sun Jian, Zhou Shengen, Xu Haohua. Research on Automatic Generation for Military Message from Simulation Data Based on Template [C]// Proceedings of the 14th Chinese Conference on System Simulation Technology & Application. 2012. [本文引用: 1]
[17]	Lopez A. Statistical Machine Translation [J]. ACM Computing Surveys, 2008, 40(3): 1-49. [本文引用: 1]
[18]	Jiang L, Zhou M, He J. Generating Chinese Couplets and Quatrain Using a Statistical Approach [C]// Proceedings of the 23rd Pacific Asia Conference on Language, Information and Computation. 2009: 377-384. [本文引用: 1]
[19]	Jiang L, Zhou M. Generating Chinese Couplets Using a Statistical MT Approach [C]// Proceedings of the 22nd International Conference on Computational Linguistics. 2008. [本文引用: 1]
[20]	Soumya S, Kumar G S, Naseem R, et al.Automatic Text Summarization[M]. MIT Press, 2011. [本文引用: 1]
[21]	Sauper C, Barzilay R. Automatically Generating Wikipedia Articles: A Structure-Aware Approach [C]// Proceedings of the 4th International Joint Conference on Natural Language. 2009: 208-216. [本文引用: 1]
[22]	Generating Chinese Classical Poems with RNN Encoder-Decoder [EB/OL]. [2017-10-07]. . URL [本文引用: 1]
[23]	Wang Q, Luo T, Wang D, et al. Chinese Song Iambics Generation with Neural Attention-based Model [C]//Proceedings of International Joint Coherence on Artificial Intelligence. New York: AAAI Press, 2016: 2943-2949. [本文引用: 1]
[24]	Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022. [本文引用: 2]
[25]	Haidar M A, O'Shaughnessy D. LDA-based LM Adaptation Using Latent Semantic Marginals and Minimum Discriminant Information [C]// Proceedings of the 20th European Signal Processing Conference. 2012: 2040-2044. [本文引用: 1]
[26]	Griffiths T L, Steyvers M. Finding Scientific Topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(S1): 5228-5235. https://doi.org/10.1073/pnas.0307752101 URL [本文引用: 1]
[27]	张宝林. “HSK动态作文语料库”简介 [J]. 国外汉语教学动态, 2003(4): 37-38. [本文引用: 1] (Zhang Baolin. “HSK Dynamic Composition Corpus” Introduction [J]. Foreign Chinese Teaching Dynamics, 2003(4): 37-38.) [本文引用: 1]
[28]	Baez J C, Fritz T. A Bayesian Characterization of Relative Entropy [J]. Theory & Applications of Categories, 2014, 29(16): 422-456. [本文引用: 2]

Building Natural Language Generation Systems

2000

... 在信息技术和互联网高速发展的时代, 人们不断探索如何使自然语言可计算, 以便可以在大规模非结构化文本下发掘出隐藏的信息和知识.文学写作也已经进入“机器制造”的时代, 同时也带来写作观念、写作行为和写作思维方式的变化.AI和大数据的结合将会为自然语言处理技术带来前所未有的发展.自然语言生成是诸如知识库或逻辑形式的机器表示系统生成自然语言的自然语言处理任务^[1].自然语言生成系统如同一个将数据转换为自然语言表示的翻译器.然而, 由于自然语言的固有表达性, 产生最终语言和编译器的方法各所不同. ...

基于汉语国际推广战略的新汉语水平考试效度研究——以新HSK五级写作测试为个案

... 汉语水平考试(HSK)是为测试母语为非汉语者的汉语水平而设立的一项国际汉语能力标准化考试, 其写作题主要考察的是语序、语法、内容和语言逻辑, 因而可用于开展自然语言生成的研究.随着HSK在全世界范围的推广, 越来越多的汉语学习者开始参与HSK考试.国内学者对于HSK考试的研究也不断加大^[2].然而, 目前对汉语水平考试写作的研究较少, 尤其是研究现有的自然语言处理技术智能答题的能力有限. ...

基于汉语国际推广战略的新汉语水平考试效度研究——以新HSK五级写作测试为个案

Control of Style with a Generative Grammar

1965

... 最早的自然语言生成, 更像是各种棋牌游戏, 将不同单元进行不同的排列组合, 这样可以生成较多结果, 如果把这个排列的过程记录下来, 就可以得到一篇文章.进入工业化时代, 也伴随着写作机器的产生, Klein^[3]使用从属语法树实现单个句子生成, 并开发相应的系统, 其本质思想类似于同义句输出; 美国伦塞勒工学院的塞尔默·布林斯乔德及其同事研制的人工故事生成软件“布鲁特斯1型”, 创作出400字电脑小说《背叛》, 实现从单个句子到短篇小说的突破. ...

Big Data: The Next Frontier for Innovation, Competition, and Productivity. Mckinsey.com

2012

... 随着大数据技术、自然语言处理以及其他人工智能技术的不断发展, 国外逐渐掀起了使用算法自动生成新闻报道的探索和实践的浪潮.之后随着新闻写作自动生成技术的不断发展, 印证了人工智能技术可以帮助人们快速便捷地进行数据处理和整合, 将不断改变新闻媒体的传播内容和传播方式^[4].美国芝加哥Narrative Science开发的自动写作平台Quill, 根据出版社特点为用户自动生成不同写作风格的可读性文本; 法国公司Yseop开发的写作系统涉及英语、法语、西班牙语、葡萄牙语、日语; 里约奥运会期间, 美国华盛顿邮报的写作机器人Heliograf自动生成新闻简报, 并通过华盛顿邮报网站和该报的Twitter账号进行发布. ...

PNAI: 一种新型的叙事与动画智能实验平台

2006

... 中国作家张小红先生以《文章坐标构想法》为理论依据结合诸多职业作家、记者和计算机专业高级程序员的实际经验开发出GS文章自动生成系统.随后, 又出现很多自动生成诗歌、作文、情书的软件.作家刘慈欣设计的计算机自动写诗程序“计算机诗人”, 通过设置韵脚、段落等信息, 进行诗的创作; 中国科学院计算技术研究所NICA小组开发的叙事与动画智能实验平台PNAI^[5], 可以生成满足用户需求的叙事文本.微软亚洲研究院在“微软对联平台”推出微软字谜, 用户选择一个系统所提供的谜底字或者任意输入一个谜底字, 系统可以生成若干谜面.随后又开发出微软绝句, 可以根据用户选择的关键词生成诗句, 也可以根据用户输入的诗句自动生成后面的诗句, 最终生成五言绝句或者七言绝句^[6]. ...

PNAI: 一种新型的叙事与动画智能实验平台

2006

Generating Chinese Classical Poems with Statistical Machine Translation Models

2012

... 可训练生成采用机器学习方法, 训练生成模型, 生成特定风格、特定结构的文本.如Yi等^[22]构建RNN Encoder-Decoder将中国古典诗转化为一个序列学习问题, 以主题词作为输入, 生成绝句.在这个过程中机器学习方法可以训练生成模型学习绝句的节奏和音韵、平仄和韵脚等特征, 从而生成较高质量的绝句^[6].Wang等^[23]训练机器学习中国宋词的特点, 控制句子的长短节奏以及风格, 最终实现宋词的自动生成.除此之外, 还有训练生成模型生成莎士比亚风格的文本等. ...

Towards Constructing Sports News from Live Text Commentary

2016

... 信息化的现代社会对自动生成文本技术有着强烈需求.北京大学计算机研究所推出的写作机器人PKUWriter能够基于电视/文字直播全自动实时生成体育赛事新闻, 并针对欧洲杯各项足球赛事自动生成体育新闻报道^[7]; 南方都市报社写稿机器人“小南”生成一篇共300余字的春运报道^[8]. ...

写稿机器人“小南”上岗

2017

写稿机器人“小南”上岗

2017

Review of “Building Natural Language Generation Systems” by Ehud Reiter and Robert Dale. Cambridge University Press 2000

1996

... 自然语言生成^[9]是一个从非语言输入构建自然语言输出的过程.它的任务是将意义映射到文本.事实证明, 自动生成人类语言的任务要比人们想象得困难.一般来说, 概念和人类智慧紧密联系, 例如艺术、创造力.人们才刚刚开始探索用自动的方法生成艺术和创造力等. ...

自然语言生成技术及其应用实例

1997

... (1) 从语言到语言的生成过程.这种生成过程, 输入是自然语言, 计算机对输入分析后, 再转换成另一种形式的自然语言表示, 从而完成生成任务.早期的自然语言生成多是这种模式, 如, 机器翻译是从源语言到目标语言到生成; 人机对话和问答系统需要生成可理解的自然语言响应用户用自然语言提出的问题^[10]. ...

自然语言生成技术及其应用实例

1997

自然语言生成系统的实现技术分析

... (2) 从非语言的信息表示到语言的生成过程.输入不是自然语言, 而是非自然语言表示的信息, 如数据库中的信息、图像信息等, 对这些信息进行筛选、分析、整合等处理, 生成符合人类习惯的自然语言.如通过气象部门提供的气象数据生成天气预报; 通过企业的财务数据生成企业财报; 通过对图像的解析生成图像的描述文本^[11]. ...

... 基于模板(Template-based)的生成技术是人们最早采用的生成技术, 该技术以罐装文本(Canned Text)为基础, 系统事先设计好几种可能出现的情况, 构造出相应的模板, 模板中包含固定文本和输入文本^[11,12,13].当用户输入信息后, 文本生成器将输入的信息嵌入到模板中.该方法的优点是工作效率高、实现方法简单.缺点是这种方法不够灵活, 难以满足用户多变的需求, 不能生产语言丰富、风格多样的文本. ...

自然语言生成系统的实现技术分析

自然语言生成综述

2006

自然语言生成综述

2006

自然语言的自动分析与生成简介

基于语义模板的医学问答自动生成

2009