Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (7): 52-60     https://doi.org/10.11925/infotech.2096-3467.2018.0914
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
融合主题词嵌入和网络结构分析的主题关键词提取方法 *
曾庆田1,2,胡晓慧2,李超1,3()
1(山东科技大学电子信息工程学院 青岛 266590)
2(山东科技大学计算机科学与工程学院 青岛 266590)
3(嵌入式系统与服务计算教育部重点实验室(同济大学) 上海 201804)
Extracting Keywords with Topic Embedding and Network Structure Analysis
Qingtian Zeng1,2,Xiaohui Hu2,Chao Li1,3()
1(College of Electronic Information Engineering, Shandong University of Science and Technology, Qingdao 266590, China)
2(College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China)
3(Key Laboratory of Embedded System and Service Computing (Tongji University), Ministry of Education, Shanghai 201804, China)
全文: PDF (2909 KB)   HTML ( 11
输出: BibTeX | EndNote (RIS)      
摘要 

目的】构建一种更加准确的主题关键字提取模型, 从词向量与主题模型相结合的角度出发解决词频较小主题相关度较高词语发现的问题。【方法】提出一种融合主题词嵌入和网络结构分析的主题关键词提取方法, 利用LDA主题模型进行主题关键词的初步提取, 利用Word2Vec训练词向量, 利用词向量相似度传播构建关键词网络, 利用网络结构分析方法对主题词进行二次提取。【结果】实验结果表明, 本文所提方法使得主题关键词之间的平均相似度提高14.75%, 同时, 在相同主题下的关键词比较中, 本文方法相比LDA模型能够更准确地发现低词频高主题相关的词。【局限】样本数量有限, 分词处理过程需要过多的人工参与, 未对主题关键词提取结果进行深入的量化分析。【结论】融合词嵌入和网络分析方法进行文档主题关键词提取, 能够有效发现低词频高主题相关的关键词, 为摘要提取、舆情分析等研究提供新思路。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
曾庆田
胡晓慧
李超
关键词 网络结构分析词嵌入主题模型关键词提取表示学习    
Abstract

[Objective] This paper proposes a new model to extract topic keywords, aiming to detect those low frequency words of high relevance. [Methods] First, we designed a topic keyword extraction method, which integrated the topic embedding and network structure analysis techniques. Then, we extracted the preliminary set of topic keywords based on the LDA model, and trained the word vector with Word2Vec model. Third, we built a network based on word vector similarity and identified the final topic keywords with the help of network structure analysis. [Results] The new method improved the average similarity between topic keywords by 14.75%. Our method extracted the low frequency keywords with high topic relevance more effectively than the LDA model. [Limitations] The sample size needs to be expanded, and the segmentation process requires more manual adjustments. More research is needed to quantitatively analyze the topic keywords. [Conclusions] Our method improves the abstracting and public opinion analysis.

Key wordsNetwork Structure Analysis    Word Embeddings    Topic Model    Keywords Extraction    Representation Learning
收稿日期: 2018-08-19      出版日期: 2019-09-06
ZTFLH:  TP393 G35  
基金资助:*本文系国家自然科学基金项目“基于表示学习的在线社交网络信息传播模型的研究”(61702306);山东省自然科学基金“大数据环境下用户地理空间和网络空间行为关联分析与挖掘”(ZR2017BF015);教育部人文社会科学青年基金项目“网络大数据环境下的学习者行为挖掘”的研究成果之一(16YJCZH041)
通讯作者: 李超     E-mail: 1008lichao@163.com
引用本文:   
曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
Qingtian Zeng,Xiaohui Hu,Chao Li. Extracting Keywords with Topic Embedding and Network Structure Analysis. Data Analysis and Knowledge Discovery, 2019, 3(7): 52-60.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0914      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2019/V3/I7/52
  LdaVecNet模型框架
  LDA模型有向概率图
参数 说明 默认值
-sentence 用于训练的语料
-size 单词向量维数 100
-window 训练中的滑动窗口大小 5
-min_count 最小单词数量 5
-negative “噪音词”数量 5
-hs 选择训练算法 0
-sg 选择使用的模型 0
-workers 工作线程数量 3
-sample 采样阈值 1e-3
  关键参数的说明和默认值
停止词 举例
标点等特殊符号 , 、 : 《 》等
年月日期 2016年、3月等
分词后的单字 人、区、校、期等
数量多且无实义的词 通知、关于、做好、组织等词
  停用词词典
  Perplexity值随主题数量变化曲线
关键词 教学 停电 SCI 国家奖学金
1 实习 停水 EI 省政府奖学金
2 培养 封闭 收录 国家励志奖学金
3 课程 停暖 SSCI 国家助学金
4 课堂 楼房 CSSCI 奖学金
5 立项 供水 索引 上海创立奖学金
  关键词相似度传播举例
  权重阈值与关键词之间的平均相似度关系
  每个主题下关键词之间的相似度对比
  教学类主题关键词
  评优类主题关键词
  图书馆类主题关键词
  奖学金及比赛类主题关键词
[1] Bharti S K, Babu K S . Automatic Keyword Extraction for Text Summarization: A Survey[OL]. arXiv Preprint, arXiv: 1704. 03242.
[2] Moody C E . Mixing Dirichlet Topic Models and Word Embeddings to Make Lda2vec[OL]. arXiv Preprint, arXiv: 1605. 02019.
[3] 庞贝贝, 苟娟琼, 穆文歆 . 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究[J]. 数据分析与知识发现, 2018,2(6):92-101.
[3] ( Pang Beibei, Gou Juanqiong, Mu Wenxin . Extracting Topics and Their Relationship from College Student Mentoring[J]. Data Analysis and Knowledge Discovery, 2018,2(6):92-101.)
[4] Nadkarni P M . An Introduction to Information Retrieval: Applications in Genomics[J]. The Pharmacogenomics Journal, 2002,2(2):96-102.
[5] Pawar D D, Bewoor M S, Patil S H . Text Rank: A Novel Concept for Extraction Based Text Summarization[J]. International Journal of Computer Science & Information Technology, 2014,5(3):3301-3304.
[6] Lai S, Liu K, He S , et al. How to Generate a Good Word Embedding[J]. IEEE Intelligent Systems, 2016,31(6):5-14.
[7] Blei D M, Ng A Y, Jordan M I . Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003,3:993-1022.
[8] Mikolov T, Chen K, Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv: 1301. 3781.
[9] Cohen J D . Highlights: Language- and Domain-Independent Automatic Indexing Terms for Abstracting[J]. Journal of the American Society for Information Science, 1995,46(3):162-174.
[10] Luhn H P . A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J]. IBM Journal of Research and Development, 1957,1(4):309-317.
[11] 姚兆旭, 马静 . 面向微博话题的“主题+观点”词条抽取算法研究[J]. 现代图书情报技术, 2016(7):78-86.
[11] ( Yao Zhaoxu, Ma Jing . Extracting Topic and Opinion from Microblog Posts with New Algorithm[J]. New Technology of Library and Information Service, 2016(7):78-86.)
[12] 覃世安, 李法运 . 文本分类中TF-IDF方法的改进研究[J]. 现代图书情报技术, 2013(10):27-30.
[12] ( Qin Shian, Li Fayun . Improved TF-IDF Method in Text Classification[J]. New Technology of Library and Information Service, 2013(10):27-30.)
[13] Matsuo Y, Ishizuka M . Keyword Extraction from a Single Document Using Word Co-occurrence Statistical Information[J]. International Journal on Artificial Intelligence Tools, 2004,13(1):157-169.
[14] Zhao Z, Li C, Zhang Y , et al. Identifying and Analyzing Popular Phrases Multi-dimensionally in Social Media Data[J]. International Journal of Data Warehousing & Mining, 2015,11(3):98-112.
[15] Barzilay R, Elhadad M. Using Lexical Chains for Text Summarization [C]. //Proceedings of the ACL Workshop on Intelligent Scalable Text Summarization. 1997.
[16] Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge [C]// Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. 2003: 216-223.
[17] Salton G, Singhal A, Mitra M , et al. Automatic Text Structuring and Summarization[J]. Information Processing & Management, 1997,33(2):193-207.
[18] Conroy J M, O’leary D P. Text Summarization via Hidden Markov Models [C]// Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2001: 406-407.
[19] Zhang K, Xu H, Tang J, et al. Keyword Extraction Using Support Vector Machine [C]// Proceedings of the 2006 International Conference on Web-Age Information Management. 2006: 85-96.
[20] Frank E, Paynter G W, Witten I H, et al. Domain-Specific Keyphrase Extraction [C]// Proceedings of the 16th International Joint Conference on Artificial Intelligence. 1999,2:668-673.
[21] Liu Z, Chen X, Zheng Y, et al. Automatic Keyphrase Extraction by Bridging Vocabulary Gap [C]// Proceedings of the 15th Conference on Computational Natural Language Learning. 2011: 135-144.
[22] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and Their Compositionality [C]// Proceedings of the 2013 International Conference on Neural Information Processing Systems. 2013,26:3111-3119.
[23] Liu Y, Liu Z, Chua T S, et al. Topical Word Embeddings [C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. 2015: 2418-2424.
[24] Chang J, Boyd-Graber J, Gerrish S, et al. Reading Tea Leaves: How Humans Interpret Topic Models [C]// Proceedings of the 22nd International Conference on Neural Information Processing Systems. 2009: 288-296.
[25] 王婷婷, 韩满, 王宇 . LDA模型的优化及其主题数量选择研究——以科技文献为例[J]. 数据分析与知识发现, 2018,2(1):29-40.
[25] ( Wang Tingting, Han Man, Wang Yu . Optimizing LDA Model with Various Topic Numbers: Case Study of Scientific Literature[J]. Data Analysis and Knowledge Discovery, 2018,2(1):29-40.)
[26] 陈磊, 李俊 . 基于LF-LDA和Word2vec的文本表示模型研究[J]. 电子技术, 2017(7):1-5.
[26] ( Chen Lei, Li Jun . Text Representation Model Based on LF-LDA and Word2Vec[J]. Electronic Technology, 2017(7):1-5.)
[27] Liu W, Dong W . A Question Recommendation Model Based on LDA and Word2Vec[A]// Hussain A, Ivanovic M. Electronics, Communications and Networks IV[M]. 2015: 1527-1531.
[28] 董文 . 基于LDA和Word2Vec的推荐算法研究[D]. 北京: 北京邮电大学, 2015.
[28] ( Dong Wen . Research of Recommendation Algorithm Based on LDA and Word2Vec[D]. Beijing: Beijing University of Posts and Telecommunications, 2015.)
[29] Wang Z, Ma L, Zhang Y. A Hybrid Document Feature Extraction Method Using Latent Dirichlet Allocation and Word2Vec [C]// Proceedings of the 1st International Conference on Data Science in Cyberspace. 2016: 98-103.
[30] 韦强申 . 领域关键词抽取: 结合LDA与Word2Vec[D]. 贵阳: 贵州师范大学, 2016.
[30] ( Wei Qiangshen . Keyword Extraction Based on LDA and Word2Vec[D]. Guiyang: Guizhou Normal University, 2016.)
[31] 宁建飞, 刘降珍 . 融合Word2Vec与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2016(6):20-27.
[31] ( Ning Jianfei, Liu Jiangzhen . Using Word2Vec with TextRank to Extract Keywords[J]. New Technology of Library and Information Service, 2016(6):20-27.)
[32] 夏天 . 词向量聚类加权TextRank的关键词抽取[J]. 数据分析与知识发现, 2017,1(2):28-34.
[32] ( Xia Tian . Extracting Keywords with Modified TextRank Model[J]. Data Analysis and Knowledge Discovery, 2017,1(2):28-34.)
[33] Wen Y, Yuan H, Zhang P. Research on Keyword Extraction Based on Word2Vec Weighted TextRank [C]// Proceedings of the 2nd International Conference on Computer and Communications. 2017: 2109-2113.
[34] 刘奇飞, 沈炜域 . 基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究[J]. 情报探索, 2018(6):22-27.
[34] ( Liu Qifei, Shen Weiyu . Research of Keyword Extraction of Political News Based on Word2Vec and TextRank[J]. Information Research, 2018(6):22-27.)
[35] Brin S, Page L. The Anatomy of a Large-Scale Hyper Textual Web Search Engine [C]// Proceedings of the 7th International Conference on World Wide Web. 1998,30:107-117.
[1] 黄名选,蒋曹清,卢守东. 基于词嵌入与扩展词交集的查询扩展*[J]. 数据分析与知识发现, 2021, 5(6): 115-125.
[2] 陈文杰,文奕,杨宁. 基于节点向量表示的模糊重叠社区划分算法*[J]. 数据分析与知识发现, 2021, 5(5): 41-50.
[3] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[4] 沈思,李沁宇,叶媛,孙豪,叶文豪. 基于TWE模型的医学科技报告主题挖掘及演化分析研究*[J]. 数据分析与知识发现, 2021, 5(3): 35-44.
[5] 张鑫,文奕,许海云. 一种融合表示学习与主题表征的作者合作预测模型*[J]. 数据分析与知识发现, 2021, 5(3): 88-100.
[6] 赵天资, 段亮, 岳昆, 乔少杰, 马子娟. 基于Biterm主题模型的新闻线索生成方法 *[J]. 数据分析与知识发现, 2021, 5(2): 1-13.
[7] 张金柱, 于文倩. 基于短语表示学习的主题识别及其表征词抽取方法研究[J]. 数据分析与知识发现, 2021, 5(2): 50-60.
[8] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[9] 陈浩, 张梦毅, 程秀峰. 融合主题模型与决策树的跨地区专利合作关系发现与推荐*——以广东省和武汉市高校专利库为例[J]. 数据分析与知识发现, 2021, 5(10): 37-50.
[10] 余传明, 王曼怡, 林虹君, 朱星宇, 黄婷婷, 安璐. 基于深度学习的词汇表示模型对比研究*[J]. 数据分析与知识发现, 2020, 4(8): 28-40.
[11] 余传明,原赛,朱星宇,林虹君,张普亮,安璐. 基于深度学习的热点事件主题表示研究*[J]. 数据分析与知识发现, 2020, 4(4): 1-14.
[12] 潘有能,倪秀丽. 基于Labeled-LDA模型的在线医疗专家推荐研究*[J]. 数据分析与知识发现, 2020, 4(4): 34-43.
[13] 苏传东,黄孝喜,王荣波,谌志群,毛君钰,朱嘉莹,潘宇豪. 基于词嵌入融合和循环神经网络的中英文隐喻识别*[J]. 数据分析与知识发现, 2020, 4(4): 91-99.
[14] 余传明,钟韵辞,林奥琛,安璐. 基于网络表示学习的作者重名消歧研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 48-59.
[15] 丁勇,陈夕,蒋翠清,王钊. 一种融合网络表示学习与XGBoost的评分预测模型*[J]. 数据分析与知识发现, 2020, 4(11): 52-62.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn