Please wait a minute...
Advanced Search
数据分析与知识发现  2023, Vol. 7 Issue (3): 121-130     https://doi.org/10.11925/infotech.2096-3467.2022.0350
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于提示学习与T5 PEGASUS的图书宣传自动摘要生成器*
李岱峰(),林凯欣,李栩婷
中山大学信息管理学院 广州 510006
Identifying Named Entities of Adverse Drug Reaction with Adversarial Transfer Learning
Li Daifeng(),Lin Kaixin,Li Xuting
School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China
全文: PDF (875 KB)   HTML ( 21
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 从图书信息中快速生成书籍的宣传语。【方法】 基于提示学习的思想将爬取的图书信息构造为数据集,使用数据增强、关键词抽取增加信息,最后输入T5 PEGASUS得到基础宣传语。当书评数量达到阈值时加入书评的摘要。【结果】 本文模型在数据集上的Rouge-1、Rouge-2、Rouge-L相较于最优的基线模型分别提升29.0%、37.6%、31.9%,加入书评的摘要能体现用户的兴趣点。【结论】 根据图书语料特点设计的实验流程所生成的宣传语具有实际应用价值。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李岱峰
林凯欣
李栩婷
关键词 文本摘要提示学习数据增强TextRankT5 PEGASUS    
Abstract

[Objective] This paper aims to quickly generate real-time promotional book summaries and reduce the consumption of workforce and resources. [Methods] First, we constructed a dataset with the crawled book information based on prompt learning. Then, we used data enhancement and keyword extraction to increase information and generated the primary promotion language with the T5 PEGASUS. When the number of book reviews reaches the threshold, the summary of the book reviews will also be added. [Results] Compared with the optimal baseline model, the Rouge-1、Rouge-2and Rouge-L scores of the proposed model were improved by 29.0%, 37.6%, and 31.9%, respectively. Adding the summary of book reviews can reflect the interests of users. [Conclusions] The proposed model could generate summaries based on the characteristics of the book corpus and has practical value.

Key wordsText Summarization    Prompt Learning    Data Enhancement    TextRank    T5 PEGASUS
收稿日期: 2022-04-15      出版日期: 2023-04-13
ZTFLH:  TP393 G250  
基金资助:广东省科技创新战略专项资金(“攀登计划”专项资金)(pdjh2021a0001)
通讯作者: 李岱峰,ORCID:0000-0002-5457-9324,E-mail:lidaifeng@mail.sysu.edu.cn。   
引用本文:   
李岱峰, 林凯欣, 李栩婷. 基于提示学习与T5 PEGASUS的图书宣传自动摘要生成器*[J]. 数据分析与知识发现, 2023, 7(3): 121-130.
Li Daifeng, Lin Kaixin, Li Xuting. Identifying Named Entities of Adverse Drug Reaction with Adversarial Transfer Learning. Data Analysis and Knowledge Discovery, 2023, 7(3): 121-130.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2022.0350      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2023/V7/I3/121
Fig.1  图书宣传自动文摘框架
书名 标签 输入
《人间小暖》 《人间小暖》汪曾祺先生的短篇小说精选集,品读历经沧桑磨难依然豁达的文人笔下的故事。 这本书的简要介绍是什么?
作者姓名:汪曾祺。书籍名称:《人间小暖》。内容简介:《人间小暖》汪曾祺散文精选彩插珍藏版。本书是汪曾祺先生的短篇小说精选集。全书由“故乡记忆,亦真亦幻”“寻常市井,不话寻常”“在云南,西南联大”“异禀奇人”“聊斋新义”五部分组成。收录了他以小人物为创作背景的经典名篇。既包含《鸡鸭名家》《故里三陈》等很多耳熟能详的篇目,每个故事都充满了诗意,也包含重构、提升聊斋故事的“聊斋新义”,具有与众不同的奇异色彩。小说中的人物形形色色,汇聚成众生相;小说里的故事渗透出浓烈的传统“中国味儿”,洋溢着中华民族的传统美德。可以说,透过汪老的视角,生活里的每一处细小的平凡,都变得无比灿烂。
Table 1  图书语料预览情况
模型 Rouge-1 Rouge-2 Rouge-L
TextRank 0.289 9 0.161 2 0.252 2
Text_teaser 0.199 9 0.109 8 0.187 1
MMR 0.237 9 0.138 2 0.220 9
Lead3 0.178 5 0.099 1 0.168 0
BERTSum 0.194 8 0.103 8 0.180 2
Ours 0.373 9 0.221 8 0.332 7
Table 2  实验结果
Fig.2  消融实验结果
Fig.3  调参实验结果
模型 摘要
Ours 《纳兰词:花月不曾闲,莫放相思醒》一本精选了纳兰容若的众多经典、优秀的诗词进行赏析和讲述背后所包含的故事,书籍后附录纳兰容若大事记录表,帮助读者更好地了解纳兰容若的一生,与内文比照共读,体验感更佳。
TextRank 纳兰词:花月不曾闲,莫放相思醒(百万级畅销书作家张其姝新作每个人都能在纳兰词中找到自己)。装帧精美,开本大小合适,方便携带,阅读感佳 !
Lead3 纳兰词:花月不曾闲,莫放相思醒(百万级畅销书作家张其姝新作每个人都能在纳兰词中找到自己)。纳兰容若,一个拥有美名字的相国公子。他的思想超前。
BertSum 纳兰词:花月不曾闲,莫放相思醒。正确的爱情观,所蕴含的真情和真性
Table 3  图书自动摘要生成结果样例
类别 摘要
文学艺术 《白夜行》是东野圭吾当之无愧的鸿篇巨制,全书故事跨越19年时间,登场人物超过50个,草蛇灰线伏脉千里,情节线索纵横交错又丝丝入扣,用一桩离奇命案牵出案件。
人文社科 《五十年,我辞职了》(以及同时引进的《我是主播》《音的记忆》)着眼于日本女性,是三位职场女性对自己几十年的反思。
科技书籍 《三体》是刘慈欣的作品,在运用超技术锁死地球人的基础科学之后,三体人庞大的宇宙舰队开始向地球进发。
教育书籍 《数学之美》是“数学之美”系列的第四本,也是“数学之美”系列的第五本,是“数学之美”系列的第五本。
Table 4  不同类别的图书生成结果比较
书籍 初始宣传语 书评摘要
《鲁拜集》 《鲁拜集》是世界文学史上的杰作,钱钟书盛赞的黄克孙译本。自11世纪流传至今,吸引、迷住了世代的读者,诗人、作家、插画家、出版人都在各自的时代以不同的方式为这部诗集赋予新的意义。 这本诗集的译者的文学功底很深,译成四言绝句一点也不违和,读起来很顺。书的正文、注解全用小五号字,读着费目力,行距太大,浪费。
《己亥:余世存读龚自珍》 《己亥:余世存读龚自珍》是当代学者余世存对龚自珍《己亥杂诗》的演绎,不是作简单的白话翻译,而是将他对龚自珍的深刻理解和对自身心灵的真诚剖析,融汇呈现为典雅别致又轻松易读的现代汉语。 这是一本很雅致的读诗的书,诗意的龚自珍,一场说走就走的远行,决绝告别前半生英雄的生活,他走向了这个海阔天空的世界,写下了一部己亥杂诗。
Table 5  加入书评的宣传摘要
[1] 张玲. 新媒体技术环境下图书馆宣传推广策略[J]. 图书情报工作, 2015, 59(1): 78-81.
doi: 10.13266/j.issn.0252-3116.2015.01.010
[1] ( Zhang Ling. Library Promotion Under New Media Environment Technologies[J]. Library and Information Service, 2015, 59(1): 78-81.)
doi: 10.13266/j.issn.0252-3116.2015.01.010
[2] 张琼. 加强图书网络营销的途径[J]. 科技与出版, 2012(6): 78-79.
[2] Zhang Qiong. Ways to Strengthen the Network Marketing of Books[J]. Science-Technology & Publication, 2012(6): 78-79.)
[3] Carbonell J, Goldstein J. The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries[C]// Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 1998: 335-336.
[4] 汪旭祥, 韩斌, 高瑞, 等. 基于改进TextRank的文本摘要自动提取[J]. 计算机应用与软件, 2021, 38(6): 155-160.
[4] ( Wang Xuxiang, Han Bin, Gao Rui, et al. Automatic Extraction of Text Summarization Based on Improved TextRank[J]. Computer Applications and Software, 2021, 38(6): 155-160.)
[5] Louis A. A Bayesian Method to Incorporate Background Knowledge During Automatic Text Summarization[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 2014: 333-338.
[6] Yin W P, Pei Y L. Optimizing Sentence Modeling and Selection for Document Summarization[C]// Proceedings of the 24th International Conference on Artificial Intelligence. ACM, 2015: 1383-1389.
[7] Singh A, Gupta M, Varma V. Unity in Diversity: Learning Distributed Heterogeneous Sentence Representation for Extractive Summarization[OL]. arXiv Preprint, arXiv: 1912.11688.
[8] 赵洪. 生成式自动文摘的深度学习方法综述[J]. 情报学报, 2020, 39(3): 330-344.
[8] ( Zhao Hong. A Survey of Deep Learning Methods for Abstractive Text Summarization[J]. Journal of the China Society for Scientific and Technical Information, 2020, 39(3): 330-344.)
[9] 丁建立, 李洋, 王家亮. 基于双编码器的短文本自动摘要方法[J]. 计算机应用, 2019, 39(12): 3476-3481.
doi: 10.11772/j.issn.1001-9081.2019050800
[9] ( Ding Jianli, Li Yang, Wang Jialiang. Short Text Automatic Summarization Method Based on Dual Encoder[J]. Journal of Computer Applications, 2019, 39(12): 3476-3481.)
doi: 10.11772/j.issn.1001-9081.2019050800
[10] 邓维斌, 李云波, 张一明, 等. 融合BERT和卷积门控的生成式文本摘要方法[J]. 控制与决策, 2023, 38(1): 152-160.
[10] ( Deng Weibin, Li Yunbo, Zhang Yiming, et al. An Abstractive Text Summarization Method Combining BERT and Convolutional Gating Unit[J]. Control and Decision, 2023, 38(1): 152-160.)
[11] 章成志, 童甜甜, 周清清. 基于细粒度评论挖掘的书评自动摘要研究[J]. 情报学报, 2021, 40(2): 163-172.
[11] ( Zhang Chengzhi, Tong Tiantian, Zhou Qingqing. Automatic Summarization of Book Reviews Based on Fine-Grained Review Mining[J]. Journal of the China Society for Scientific and Technical Information, 2021, 40(2): 163-172.)
[12] 郭艳卿, 赵锐, 孔祥维, 等. 基于事件要素加权的新闻摘要提取方法[J]. 计算机科学, 2016, 43(1): 237-241.
doi: 10.11896/j.issn.1002-137X.2016.01.051
[12] ( Guo Yanqing, Zhao Rui, Kong Xiangwei, et al. News-Summarization Extraction Method Based on Weighted Event Elements Strategy[J]. Computer Science, 2016, 43(1): 237-241.)
doi: 10.11896/j.issn.1002-137X.2016.01.051
[13] 林萌, 罗森林, 贾丛飞, 等. 融合句义结构模型的微博话题摘要算法[J]. 浙江大学学报(工学版), 2015, 49(12): 2316-2325.
[13] ( Lin Meng, Luo Senlin, Jia Congfei, et al. Microblog Topics Summarization Algorithm Merging Sentential Semantic Structure Model[J]. Journal of Zhejiang University (Engineering Science), 2015, 49(12): 2316-2325.)
[14] 刘彼洋, 孙锐, 姬东鸿. 基于矩阵分解和子模最大化的微博新闻摘要方法[J]. 计算机应用研究, 2017, 34(10): 2892-2896.
[14] ( Liu Biyang, Sun Rui, Ji Donghong. Weibo-Oriented News Summarization Based on Matrix Factorization and Submodular Maximization[J]. Application Research of Computers, 2017, 34(10): 2892-2896.)
[15] 赵丹宁, 牟冬梅, 白森. 基于深度学习的科技文献摘要结构要素自动抽取方法研究[J]. 数据分析与知识发现, 2021, 5(7): 70-80.
[15] ( Zhao Danning, Mu Dongmei, Bai Sen. Automatically Extracting Structural Elements of Sci-Tech Literature Abstracts Based on Deep Learning[J]. Data Analysis and Knowledge Discovery, 2021, 5(7): 70-80.)
[16] 刘争. 公共图书馆图书宣传工作的困惑与策略[J]. 办公室业务, 2019(12): 57-58.
[16] Liu Zheng. Puzzlement and Strategy of Public Library’s Book Publicity Work[J]. Office Operations, 2019(12): 57-58.)
[17] Liu P F, Yuan W Z, Fu J L, et al. Pre-Train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. arXiv Preprint, arXiv: 2107.13586.
[18] Petroni F, Rocktäschel T, Lewis P, et al. Language Models as Knowledge Bases?[OL]. arXiv Preprint, arXiv: 1909.01066.
[19] Brown T B, Mann B, Ryder N, et al. Language Models are Few-Shot Learners[OL]. arXiv Preprint, arXiv: 2005.14165.
[20] Wei J, Zou K. EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks[OL]. arXiv Preprint, arXiv: 1901.11196.
[21] 李维, 闫晓东, 解晓庆. 基于改进TextRank的藏文抽取式摘要生成[J]. 中文信息学报, 2020, 34(9): 36-43.
[21] ( Li Wei, Yan Xiaodong, Xie Xiaoqing. An Improved TextRank for Tibetan Summarization[J]. Journal of Chinese Information Processing, 2020, 34(9): 36-43.)
[22] Raffel C, Shazeer N, Roberts A, et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer[OL]. arXiv Preprint, arXiv: 1910.10683.
[23] Zhang J Q, Zhao Y, Saleh M, et al. PEGASUS: Pre-Training with Extracted Gap-Sentences for Abstractive Summarization[C]// Proceedings of the 37th International Conference on Machine Learning. ACM, 2020: 11328-11339.
[24] Yang A, Liu K, Liu J, et al. Adaptations of ROUGE and BLEU to Better Evaluate Machine Reading Comprehension Task[C]// Proceedings of the 2018 Workshop on Machine Reading for Question Answering. 2018: 98-104.
[25] Yang A, Liu K, Liu J, et al. Adaptations of ROUGE and BLEU to Better Evaluate Machine Reading Comprehension Task[C]// Proceedings of the 2018 Workshop on Machine Reading for Question Answering. 2018: 98-104.
[26] Mihalcea R, Tarau P. TextRank: Bringing Order into Text[C]// Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. 2004: 404-411.
[27] Zhang Y G, Dong L L, Li S H. Extraction of Elements of Protest Based on BERT Model and TextTeaser Improved Algorithm[J]. Journal of Physics: Conference Series, 2021, 1955(1): 012107.
doi: 10.1088/1742-6596/1955/1/012107
[28] Carbonell J, Goldstein J. The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries[C]// Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 1998: 335-336.
[29] Jadhav A, Rajan V. Extractive Summarization with SWAP-NET: Sentences and Words from Alternating Pointer Networks[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. 2018: 142-151.
[30] Liu Y. Fine-Tune BERT for Extractive Summarization[OL]. arXiv Preprint, arXiv: 1903.10318.
[1] 赵一鸣, 潘沛, 毛进. 基于任务知识融合与文本数据增强的医学信息查询意图强度识别研究*[J]. 数据分析与知识发现, 2023, 7(2): 38-47.
[2] 刘兴丽, 范俊杰, 马海群. 面向小样本命名实体识别的数据增强算法改进策略研究*[J]. 数据分析与知识发现, 2022, 6(10): 128-141.
[3] 俞琰, 朱晟忱. 融入限定关系的专利关键词抽取方法*[J]. 数据分析与知识发现, 2022, 6(10): 57-67.
[4] 刘彤,刘琛,倪维健. 多层次数据增强的半监督中文情感分析方法*[J]. 数据分析与知识发现, 2021, 5(5): 51-58.
[5] 闫强,张笑妍,周思敏. 基于义原相似度的关键词抽取方法 *[J]. 数据分析与知识发现, 2021, 5(4): 80-89.
[6] 夏天. 面向中文学术文本的单文档关键短语抽取 *[J]. 数据分析与知识发现, 2020, 4(7): 76-86.
[7] 孙明珠,马静,钱玲飞. 基于文档主题结构和词图迭代的关键词抽取方法研究 *[J]. 数据分析与知识发现, 2019, 3(8): 68-76.
[8] 王安,顾益军,李坤明,李文政. 基于复杂网络词节点移除的关键词抽取方法 *[J]. 数据分析与知识发现, 2019, 3(11): 35-44.
[9] 刘竹辰, 陈浩, 于艳华, 李劼. 词位置分布加权TextRank的关键词提取*[J]. 数据分析与知识发现, 2018, 2(9): 74-79.
[10] 王子璇, 乐小虬, 何远标. 基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究[J]. 数据分析与知识发现, 2017, 1(4): 1-8.
[11] 夏天. 词向量聚类加权TextRank的关键词抽取*[J]. 数据分析与知识发现, 2017, 1(2): 28-34.
[12] 宁建飞,刘降珍. 融合Word2vec与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2016, 32(6): 20-27.
[13] 夏天. 词语位置加权TextRank的关键词抽取研究[J]. 现代图书情报技术, 2013, 29(9): 30-34.
[14] 程倩倩,田大钢. 基于基本要素方法的中文自动文本摘要模型*[J]. 现代图书情报技术, 2010, 26(2): 74-78.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn