Please wait a minute...
Advanced Search
数据分析与知识发现  2017, Vol. 1 Issue (10): 21-31     https://doi.org/10.11925/infotech.2096-3467.2017.0491
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
中文科技论文图表摘要设计研究*——以图书情报领域为例
包楚晗1, 贾丹萍1, 何琳1,2(), 马晓雯1, 艾毓茜1
1南京农业大学信息科技学院 南京 210095
2南京农业大学领域知识关联研究中心 南京 210095
Summarizing Figures of Chinese Scholarly Articles of Library and Information Science
Bao Chuhan1, Jia Danping1, He Lin1,2(), Ma Xiaowen1, Ai Yuxi1
1College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, China
2Research Center for Correlation of Domain Knowledge, Nanjing Agricultural University, Nanjing 210095, China
全文: PDF (882 KB)   HTML ( 2
输出: BibTeX | EndNote (RIS)      
摘要 

目的】探究与设计基于图书情报领域、中文科技论文图表摘要构建的结构, 并制定构建规则。【方法】通过调研的方法, 结合人工标注结果及图情领域中文科技论文、图表的特征, 设计摘要框架并规定构建规则, 最终设计评测系统, 基于SPSS统计结果分析揭示该摘要系统的表现。【结果】本研究构建的图表摘要在图片信息理解程度、效率、确信度等维度上的表现均优于现有图片-文本组合模式。【局限】图片信息覆盖率有待提高、未考虑清楚图表类型所带来的差异、未完全实施自动化标引。【结论】依据本研究设计的中文科技论文图表摘要构建结构与规则所形成的图表摘要能有效提高用户对文献主要内容的准确理解度。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
包楚晗
贾丹萍
何琳
马晓雯
艾毓茜
关键词 图表标引中文摘要李克特量表    
Abstract

[Objective] This paper studies the figures of Chinese articles in the field of library and information science (LIS), aiming to establish new principles to summarize them. [Methods] We proposed the framework and rules for figure summarization based on manual indexing and features of LIS papers. Then, we evaluated the performance of the new system with the help of SPSS. [Results] Compared with the existing figure-text model, our method could more effectively process information from the figures. [Limitations] We need to extract more information from the figures, analyze the influences of different charts, and add automatic indexing functions to the new system. [Conclusions] The proposed method could effectively summarize figures from the scholarly articles.

Key wordsFigure Indexing    Abstract in Chinese    Likert Scale
收稿日期: 2017-05-31      出版日期: 2017-11-08
ZTFLH:  G25  
基金资助:*本文系南京农业大学SRT计划基金项目“基于自然语言理解的科技论文图表自动标引研究——以生物医学领域疾病研究为例” (项目编号: 201610307061)的研究成果之一
引用本文:   
包楚晗, 贾丹萍, 何琳, 马晓雯, 艾毓茜. 中文科技论文图表摘要设计研究*——以图书情报领域为例[J]. 数据分析与知识发现, 2017, 1(10): 21-31.
Bao Chuhan,Jia Danping,He Lin,Ma Xiaowen,Ai Yuxi. Summarizing Figures of Chinese Scholarly Articles of Library and Information Science. Data Analysis and Knowledge Discovery, 2017, 1(10): 21-31.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.0491      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2017/V1/I10/21
  本研究整体流程
  半结构化面对面深度访谈提纲
  文献及访谈调研的梳理
  中文科技论文图表摘要抽取方法
图表-文本组合模式 信息
理解程度
图片
理解效率
信息
覆盖率
确信度
图片+标题
图片+标题+摘要
图片+全文
图片+图表摘要
  评测打分表
因变量 总评 确信度
III型平方和 df 均方 F Sig. III型平方和 df 均方 F Sig.
校正模型 1200.014 3 400.005 318.681 0 163.569 3 54.523 20.365 0
截距 57355.779 1 57355.779 45694.903 0 64489.341 1 64489.341 24087.159 0
类型 1200.014 3 400.005 318.681 0 163.569 3 54.523 20.365 0
误差 1501.207 1196 1.255 3202.090 1196 2.677
总计 60057.000 1200 67855.000 1200
校正的总计 2701.221 1199 3365.659 1199
  总评与确信度分别作因子的单因子方差分析结果表
图表-文本组合模式 总评 确信度
图片+标题 5.38±1.25 6.88±1.65
图片+标题+摘要 6.68±1.13 7.33±1.58
图片+图表摘要(本研究构建) 7.62±1.18 7.18±1.79
图片+全文 7.96±0.89 7.37±1.68
  文献主题内容理解能力(总评)与确信度的均值及偏差
(I)类型 (J)类型 均值差值(I-J) 标准
误差
Sig.
图片+标题 图片+标题+摘要 -1.297 0.091 0.001
图片+全文 -2.239 0.091 0
图片+图表摘要 -2.580 0.091 0
图片+标题+摘要 图片+标题 1.297 0.091 0.001
图片+全文 -0.942 0.091 0.006
图片+图表摘要 -1.283 0.091 0
图片+全文 图片+标题 2.239 0.091 0
图片+标题+摘要 0.942 0.091 0.006
图片+全文 -0.341 0.091 1.000
图片+图表摘要 图片+标题 2.580 0.091 0
图片+标题+摘要 1.283 0.091 0
图片+全文 0.341 0.091 1.000
  文献主题内容理解能力因子F检验结果
模式 信息理解程度 信息理解效率 信息覆盖率
I类型 J类型 均值差值(I-J) 标准
无误
Sig. 均值差值(I-J) 标准
无误
Sig. 均值差值(I-J) 标准
无误
Sig.
图片+标题 图片+标题+摘要 -1.597 0.124 0 -0.937 0.130 0.639 -1.417 0.112 0
图片+全文 -3.127 0.124 0 -0.323 0.130 1.000 -4.293 0.112 0
图片+图表摘要 -2.697 0.124 0 -2.260 0.130 0 -2.987 0.112 0
图片+标题+摘要 图片+标题 1.597 0.124 0 0.937 0.130 0.639 1.417 0.112 0
图片+全文 -1.530 0.124 0 0.613 0.130 0.639 -2.877 0.112 0
图片+图表摘要 -1.100 0.124 0.061 -1.323 0.130 0.029 -1.570 0.112 0.024
图片+全文 图片+标题 3.127 0.124 0 0.323 0.130 1.000 4.293 0.112 0
图片+标题+摘要 1.530 0.124 0 -0.613 0.130 0.639 2.877 0.112 0
图片+图表摘要 0.430 0.124 0.139 -1.937 0.130 0 1.307 0.112 0
图片+图表摘要 图片+标题 2.697 0.124 0 2.260 0.130 0 2.987 0.112 0
图片+标题+摘要 1.100 0.124 0.061 1.323 0.130 0.029 1.570 0.112 0.024
图片+全文 -0.430 0.124 0.139 1.937 0.130 0 -1.307 0.112 0
  基于三项指标的模式成对对比
[1] Kim D, Yu H.Figure Text Extraction in Biomedical Literature[J]. PLoS One, 2011, 6(1): e15338.
doi: 10.1371/journal.pone.0015338 pmid: 21249186
[2] Yu H, Lee M.Accessing Bioscience Images from Abstract Sentences[J]. Bioinformatics, 2006, 22(14): 547-556.
doi: 10.1093/bioinformatics/btl261
[3] Agarwal S, Yu H.Figure Summarizer Browser Extensions for PubMed Central[J]. Bioinformatics, 2011, 27(12): 1723-1724.
doi: 10.1093/bioinformatics/btr194
[4] Futrelle R P.Handling Figures in Document Summarization Abstract[C]//Proceedings of Meeting of the Association for Computational Linguistics. 2004.
[5] Luhn H P.The Automatic Creation of Literature Abstracts[J]. IBM Journal of Research and Development, 1958, 2(2): 159-165.
doi: 10.1147/rd.22.0159
[6] Nakov P I, Schwartz A S, Hearst M A.Citances: Citation Sentences for Semantic Analysis of Bioscience Text[C]// Proceedings of the SIGIR’04 Workshop on Search and Discovery in Bioinformatics. 2004.
[7] 周浪, 张亮, 冯冲, 等. 基于词频分布变化统计的术语抽取方法[J].计算机科学, 2009, 36(5): 177-180.
doi: 10.3969/j.issn.1002-137X.2009.05.045
[7] (Zhou Lang, Zhang Liang, Feng Chong, et al.Terminology Extraction Based on Statistical Word Frequency Distribution Variety[J]. Computer Science, 2009, 36(5): 177-180.)
doi: 10.3969/j.issn.1002-137X.2009.05.045
[8] Hirao T, Isozaki H, Maeda E, et al.Extracting Important Sentences with Support Vector Machines[C]//Proceedings of the 19th International Conference on Computational Linguistics. 2002: 1-7.
[9] 张帆, 乐小虬. 面向领域科技文献的句子级创新点抽取研究[J]. 现代图书情报技术, 2014(9): 15-21.
[9] (Zhang Fan, Le Xiaoqiu.Research on Innovation Points Extraction from Scientific Research Paper Based on Field Thesaurus[J].New Technology of Library and Information Service, 2014(9): 15-21.)
[10] Brunn M, Chali Y, Pinchak C.Text Summarization Using Lexical Chains[C]//Proceedings of the Document Understanding Conference, 2001: 135-140.
[11] 王芳, 史海燕, 纪雪梅. 我国情报学研究中理论的应用: 基于《情报学报》的内容分析[J]. 情报学报, 2015, 34(6): 581-591.
doi: 10.3772/j.issn.1000-0135.2015.006.003
[11] (Wang Fang, Shi Haiyan, Ji Xuemei.The Use of Theory in Chinese Information Science Research Based on the Content Analysis of the Journal of the China Society for Scientific and Technical Information[J]. Journal of the China Society for Scientific and Technical Information, 2015, 34(6): 581-591.)
doi: 10.3772/j.issn.1000-0135.2015.006.003
[12] Dahl T.Contributing to the Academic Conversation: A Study of New Knowledge Claims in Economics and Linguistics[J]. Journal of Pragmatics, 2008, 40(7): 1184-1201.
doi: 10.1016/j.pragma.2007.11.006
[13] Parkinson J.The Discussion Section as Argument: The Language Used to Prove Knowledge Claims[J]. English for Specific Purposes, 2011, 30(3): 164-175.
doi: 10.1016/j.esp.2011.03.001
[14] Ramesh B P, Sethi R J, Yu H.Figure-Associated Text Summarization and Evaluation[J]. PLoS One, 2015, 10(2): e0115671.
doi: 10.1371/journal.pone.0115671 pmid: 4313946
[15] Herbrich R, Graepel T, Obermayer K.Support Vector Learning for Ordinal Regression[C]//Proceedings of the 9th International Conference on Artificial Neural Networks. IET, DOI: 10.1049/cp: 19991091.
[16] 关鹏, 王曰芬, 傅柱. 不同语料下基于LDA主题模型的科学文献主题抽取效果分析[J]. 图书情报工作, 2016, 60(2): 112-121.
doi: 10.13266/j.issn.0252-3116.2016.02.018
[16] (Guan Peng, Wang Yuefen, Fu Zhu.Effect Analysis of Scientific Literature Topic Extraction Based on LDA Topic Model with Different Corpus[J]. Library and Information Service, 2016, 60(2): 112-121.)
doi: 10.13266/j.issn.0252-3116.2016.02.018
[17] Radev D R, Jing H, Styś M, et al.Centroid-based Summarization of Multiple Documents[J]. Information Processing & Management, 2004, 40(6): 919-938.
doi: 10.1016/j.ipm.2003.10.006
[18] Agarwal S, Yu H.FigSum: Automatically Generating Structured Text Summaries for Figures in Biomedical Literature[C]//Proceedings of AMIA Annual Symposium. 2009.
[19] 朱丽萍, 李洪奇, 杨中国, 等. 一种面向科技文献引言的信息抽取方法[J]. 山东大学学报: 理学版, 2015, 50(7): 23-30, 37.
[19] (Zhu Liping, Li Hongqi, Yang Zhongguo, et al.An Information Extraction Method for Scientific Literature Introduction[J]. Journal of Shandong University: Natural Science, 2015, 50(7): 23-30, 37.)
[20] 杜威, 邹先霞. 基于数据流的滑动窗口机制的研究[J]. 计算机工程与设计, 2005, 26(11): 2922-2944.
doi: 10.3969/j.issn.1000-7024.2005.11.019
[20] (Du Wei, Zou Xianxia.Research of Sliding Windows Scheme Based on Data Stream[J]. Computer Engineering and Design, 2005, 26(11): 2922-2944.)
doi: 10.3969/j.issn.1000-7024.2005.11.019
[21] Yu H, Agarwal S, Johnston M, et al.Are Figure Legends Sufficient? Evaluating the Contribution of Associated Text to Biomedical Figure Comprehension[J]. Journal of Biomedical Discovery and Collaboration, 2009, 4(1). DOI: 10.1186/1747- 5333-4-1.
doi: 10.1186/1747-5333-4-1 pmid: 19126221
[22] 方宝. Likert等级量表调查结果有效性的影响因素探析[J]. 十堰职业技术学院学报, 2009, 22(2): 25-28.
doi: 10.3969/j.issn.1008-4738.2009.02.007
[22] (Fang Bao.An Analysis of the Factors Influencing the Effectiveness of Likert Rating Scale’s Investigation Result[J]. Journal of Shiyan Technical Institute, 2009, 22(2): 25-28.)
doi: 10.3969/j.issn.1008-4738.2009.02.007
[23] Lin C Y, Hovy E.Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics[C]//Proceedings of the 2003 Conference of North American Chapter of the Association for Computational Linguistics on Human Language. 2003: 71-78.
[24] 傅间莲, 陈群秀. 一种新的自动文摘系统评价方法[J]. 计算机工程与应用, 2006(18): 176-177.
[24] (Fu Jianlian, Chen Qunxiu.A New Evaluation Method for Automatic Text Summarization[J]. Computer Engineering and Applications, 2006(18): 176-177.)
[25] Lin C Y.ROUGE: A Package for Automatic Evaluation of Summaries[C]//Proceedings of the Workshop on Text Summarization Branches out.2004: 74-81.
[1] 盛姝, 黄奇, 杨洋, 解绮雯, 秦新国. HL7 FHIR框架下中国医疗领域信息交换研究与解决方案[J]. 数据分析与知识发现, 2021, 5(11): 13-28.
[2] 柴庆凤, 史霖炎, 梅珊, 熊海涛, 贺惠新. 基于人工特征和机器特征融合的科技文献知识元抽取*[J]. 数据分析与知识发现, 2021, 5(8): 132-144.
[3] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[4] 王勤洁, 秦春秀, 马续补, 刘怀亮, 徐存真. 基于作者偏好和异构信息网络的科技文献推荐方法研究*[J]. 数据分析与知识发现, 2021, 5(8): 54-64.
[5] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[6] 李贺,刘嘉宇,李世钰,吴迪,金帅岐. 基于疾病知识图谱的自动问答系统优化研究*[J]. 数据分析与知识发现, 2021, 5(5): 115-126.
[7] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[8] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[9] 王红斌,王健雄,张亚飞,杨恒. 主题不平衡新闻文本数据集的主题识别方法研究*[J]. 数据分析与知识发现, 2021, 5(3): 109-120.
[10] 胡昊天,吉晋锋,王东波,邓三鸿. 基于深度学习的食品安全事件实体一体化呈现平台构建*[J]. 数据分析与知识发现, 2021, 5(3): 12-24.
[11] 王倩,王东波,李斌,许超. 面向海量典籍文本的深度学习自动断句与标点平台构建研究*[J]. 数据分析与知识发现, 2021, 5(3): 25-34.
[12] 沈思,李沁宇,叶媛,孙豪,叶文豪. 基于TWE模型的医学科技报告主题挖掘及演化分析研究*[J]. 数据分析与知识发现, 2021, 5(3): 35-44.
[13] 常志军,钱力,谢靖,吴振新,张鹄,于倩倩,王颖,王永吉. 基于分布式技术的科技文献大数据平台的建设研究*[J]. 数据分析与知识发现, 2021, 5(3): 69-77.
[14] 胡少虎,张颖怡,章成志. 关键词提取研究综述*[J]. 数据分析与知识发现, 2021, 5(3): 45-59.
[15] 刘彤, 刘琛, 倪维健. 多层次数据增强的半监督中文情感分析方法 [J]. 数据分析与知识发现, 0, (): 1-.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn