数据分析与知识发现  2022, Vol. 6 Issue (7): 107-117
北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101
STNLTP: Generating Chinese Patent Abstracts Based on Integrated Strategy
Zhang Le,Du Yifan,Lü Xueqiang(),Dong Zhian
Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China
目的】提出一种基于集成策略的中文专利摘要生成模型(STNLTP),以改善现有的自动文本摘要技术在处理长文档摘要生成时存在的生成重复问题和长程依赖问题。【方法】引入专利术语词典,运用基于SAT模型的义原词向量对“中药材”专利文本进行表示。基于集成策略,运用TextRank、Lead4和NMF三种抽取方法抽取专利说明书文本的关键句,经过聚类并去重,选出最优关键句。最后最优关键句通过基于Transformer字向量的指针生成网络得到最终的生成摘要。【结果】STNLTP模型实现了抽取式和生成式方法的结合,相较于对比模型RLCPAR,在ROUGE-1、ROUGE-2和ROUGE-L评价指标上分别提升2.00、9.73和2.35个百分点。【局限】 生成摘要的部分结果存在一些常识性错误。【结论】STNLTP模型优于对比模型,可以改善中文专利摘要生成的效果。

关键词 专利摘要义原词向量字向量指针生成网络    

[Objective] This paper proposes an abstracting model for Chinese patents based on integration strategy (STNLTP), aiming to reduce the duplication and long document dependency issues of the existing automatic abstracting techniques. [Methods] First, we introduced a patent term dictionary, and used the sememe vector based on SAT model to represent traditional Chinese medicine patents. Then, with the help of integration strategy, we utilized the TextRank, Lead4 and NMF models to extract key sentences from the patents. Third, we identified the optimal key sentences with the clustering and redundancy removing. Finally, we processed these optimal key sentences with the pointer-generator network based on Transformer character vector to create the abstracts. [Results] Our new model successfully combined the extractive and generative methods. Compared with the existing RLCPAR model, we improved the evaluation indicators of ROUGE-1, ROUGE-2 and ROUGE-L by 2.00%, 9.73% and 2.35%, respectively. [Limitations] There are still some errors in the new abstracts. [Conclusions] The new STNLTP model could effectively generate Chinese patent abstracts.

Key wordsPatent Abstract    Sememe    Word Vector    Character Vector    Pointer-Generator Network
收稿日期: 2021-11-17      出版日期: 2022-03-01
ZTFLH:  TP391  
通讯作者: 吕学强,ORCID:0000-0002-1422-0560     E-mail:
张乐, 杜一凡, 吕学强, 董志安. STNLTP:一种基于集成策略的中文专利摘要生成模型*[J]. 数据分析与知识发现, 2022, 6(7): 107-117.
Zhang Le, Du Yifan, Lü Xueqiang, Dong Zhian. STNLTP: Generating Chinese Patent Abstracts Based on Integrated Strategy. Data Analysis and Knowledge Discovery, 2022, 6(7): 107-117.
Fig.1  中文专利摘要生成框架
原句 分词结果
本发明 涉及 秸秆 加工
方法 涉及 玉米杆 饮料
及其 加工 方法
Table 1  句子预处理示例
Fig.2  基于目标词的义原注意力模型
Fig.3  基于Transformer的指针生成网络
字段 示例
原始标题 枸杞茶及其制备方法
原始摘要 本发明公开了一种枸杞茶及其制备方法。该茶完全由枸杞嫩叶制成,呈青绿色条束状,其水分含量<7.0%,胡罗卜素含量>0.004.0%,灰分含量<9.0%,水浸出物>25%,粉末<4.0%。将枸杞嫩叶经过摊凉——蒸气杀青——杀青叶摊凉——初炒——揉捻——复炒理条——热空气干燥七道工芝制成枸杞茶。该茶独具补肾益精、清热止渴、祛风明目、养颜润肤之功效,是一种新型保健茶。
原始说明书(截取) 枸杞茶及其制备方法本发明涉及一种茶叶及其制备方法。现有的茶叶都是利用茶树嫩叶制成的,制备方法一般是采用火炒杀青、初烘、揉捻、初炒、复揉、炒干六个步骤工艺,其中第一步火炒杀青工艺,易造成原料受热不均匀,部分叶片或叶片边缘变为深竭色,降低茶叶质量,严重时造成无法揉捻、产品报废。本发明的目的在于提供一种利用枸杞树嫩叶制成的茶叶及其制备的方法。本发明枸杞茶完全由枸杞嫩叶制成,呈青绿色条束状,其水分含量<7.0%,胡罗卜素含量……
人工摘要 一种枸杞茶的制备方法。将鲜嫩的枸杞叶摊凉,使叶质变软,然后把枸杞叶摊成厚度2-3cm,并置于蒸汽杀青锅内杀青3-5分钟,再放在竹帘上摊凉,凉后放在120-130℃的沙锅中初炒,时间3-5分钟,取出放凉,再用揉捻机进行揉捻,时间为25-30分钟,然后再复炒理条,锅温100-90℃,时间10-12分钟,最后进行热空气干燥,使含水量小于7%,即制成了枸杞茶。该茶独具补肾益精、清热止渴、祛风明目、养颜润肤的功效,是一种保健茶。
Table 2  专利数据示例
参数名 参数值
编码器句子最大长度 512
解码器句子最大长度 256
训练集批处理大小 16
验证集批处理大小 128
学习率 0.001
隐藏层维度 256
最大梯度范数 1
Table 3  参数设置
模型 ROUGE-1/% ROUGE-2/% ROUGE-L/%
Baseline 55.84 42.52 47.75
PGN+RL 44.85 26.00 36.15
FASRS 54.84 36.48 48.21
RLCPAR 55.89 36.96 49.73
STNLTP-Text 55.48 41.05 45.51
STNLTP 57.89 46.69 52.08
Table 4  实验结果
对比项 内容
原始摘要 本发明涉及中药制剂领域的一种治疗中暑感冒的中药方剂。其技术方案是:包括下列重量份的原料组成:香薷10–15,藿香10–15,佩兰10–15,苏叶10–15,银花15–20,连翘10–15,板蓝根30–35,大青叶30–35,青蒿15–20,川朴5–10,鸡苏散10–15,栀子6–9。本发明具有清暑利湿、辛温解表、芳香化湿的效果。对治疗中暑感冒有效率达到96%,治愈率85%。
生成摘要 一种治疗中暑感冒的中药方法,包括下列原料组成:香薷、藿香、佩兰、苏叶、银花、连翘、板蓝根、大青叶、青蒿、川朴、鸡苏散、栀子制成。制备方法为,上述原料加水煎煮,过滤,滤液浓缩成汤剂,即得。该药具有清暑利湿、辛温解表、芳香化湿的效果。
人工摘要 一种中药方剂,香薷、藿香、佩兰、苏叶、银花、连翘、板蓝根(板兰根)、大青叶、青蒿、川朴、鸡苏散、栀子。该方剂具有清暑利湿、辛温解表、芳香化湿的效果,用于治疗中暑感冒。恶寒头痛较剧者,加川芎、蔓荆子。周身关节酸楚者,加秦艽、大豆卷。恶心呕吐者,加陈皮、法半夏。脘痞困倦者,加苍术、薏苡仁。心烦胸闷者,加川连、广郁金。大便稀薄者,加苍白术、山楂、神曲。
分析 生成摘要比原始摘要更加简洁,信息更加完整。
Table 5  专利生成摘要结果示例
模型 ROUGE-1/% ROUGE-2/% ROUGE-L/%
TextRank 32.80 16.86 20.73
TextRank_sememe 36.08 20.38 22.86
Lead4 35.19 18.09 22.72
NMF 35.72 21.81 26.12
聚类+去重 46.66 30.68 31.28
Table 6  抽取模型效果对比
模型 ROUGE-1/% ROUGE-2/% ROUGE-L/%
STNLTP-Text 55.48 41.05 45.51
-Transformer 41.00 25.10 32.19
-聚类 20.55 7.12 14.79
Table 7  消融实验结果
