Please wait a minute...
Advanced Search
数据分析与知识发现  2019, Vol. 3 Issue (7): 52-60    DOI: 10.11925/infotech.2096-3467.2018.0914
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
融合主题词嵌入和网络结构分析的主题关键词提取方法 *
曾庆田1,2,胡晓慧2,李超1,3()
1(山东科技大学电子信息工程学院 青岛 266590)
2(山东科技大学计算机科学与工程学院 青岛 266590)
3(嵌入式系统与服务计算教育部重点实验室(同济大学) 上海 201804)
Extracting Keywords with Topic Embedding and Network Structure Analysis
Qingtian Zeng1,2,Xiaohui Hu2,Chao Li1,3()
1(College of Electronic Information Engineering, Shandong University of Science and Technology, Qingdao 266590, China)
2(College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China)
3(Key Laboratory of Embedded System and Service Computing (Tongji University), Ministry of Education, Shanghai 201804, China)
全文: PDF(2909 KB)   HTML ( 10
输出: BibTeX | EndNote (RIS)      
摘要 

目的】构建一种更加准确的主题关键字提取模型, 从词向量与主题模型相结合的角度出发解决词频较小主题相关度较高词语发现的问题。【方法】提出一种融合主题词嵌入和网络结构分析的主题关键词提取方法, 利用LDA主题模型进行主题关键词的初步提取, 利用Word2Vec训练词向量, 利用词向量相似度传播构建关键词网络, 利用网络结构分析方法对主题词进行二次提取。【结果】实验结果表明, 本文所提方法使得主题关键词之间的平均相似度提高14.75%, 同时, 在相同主题下的关键词比较中, 本文方法相比LDA模型能够更准确地发现低词频高主题相关的词。【局限】样本数量有限, 分词处理过程需要过多的人工参与, 未对主题关键词提取结果进行深入的量化分析。【结论】融合词嵌入和网络分析方法进行文档主题关键词提取, 能够有效发现低词频高主题相关的关键词, 为摘要提取、舆情分析等研究提供新思路。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
曾庆田
胡晓慧
李超
关键词 网络结构分析词嵌入主题模型关键词提取表示学习    
Abstract

[Objective] This paper proposes a new model to extract topic keywords, aiming to detect those low frequency words of high relevance. [Methods] First, we designed a topic keyword extraction method, which integrated the topic embedding and network structure analysis techniques. Then, we extracted the preliminary set of topic keywords based on the LDA model, and trained the word vector with Word2Vec model. Third, we built a network based on word vector similarity and identified the final topic keywords with the help of network structure analysis. [Results] The new method improved the average similarity between topic keywords by 14.75%. Our method extracted the low frequency keywords with high topic relevance more effectively than the LDA model. [Limitations] The sample size needs to be expanded, and the segmentation process requires more manual adjustments. More research is needed to quantitatively analyze the topic keywords. [Conclusions] Our method improves the abstracting and public opinion analysis.

Key wordsNetwork Structure Analysis    Word Embeddings    Topic Model    Keywords Extraction    Representation Learning
收稿日期: 2018-08-19     
中图分类号:  TP393 G35  
基金资助:*本文系国家自然科学基金项目“基于表示学习的在线社交网络信息传播模型的研究”(61702306);山东省自然科学基金“大数据环境下用户地理空间和网络空间行为关联分析与挖掘”(ZR2017BF015);教育部人文社会科学青年基金项目“网络大数据环境下的学习者行为挖掘”的研究成果之一(16YJCZH041)
通讯作者: 李超     E-mail: 1008lichao@163.com
引用本文:   
曾庆田,胡晓慧,李超. 融合主题词嵌入和网络结构分析的主题关键词提取方法 *[J]. 数据分析与知识发现, 2019, 3(7): 52-60.
Qingtian Zeng,Xiaohui Hu,Chao Li. Extracting Keywords with Topic Embedding and Network Structure Analysis. Data Analysis and Knowledge Discovery, DOI:10.11925/infotech.2096-3467.2018.0914.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0914
图1  LdaVecNet模型框架
图2  LDA模型有向概率图
参数 说明 默认值
-sentence 用于训练的语料
-size 单词向量维数 100
-window 训练中的滑动窗口大小 5
-min_count 最小单词数量 5
-negative “噪音词”数量 5
-hs 选择训练算法 0
-sg 选择使用的模型 0
-workers 工作线程数量 3
-sample 采样阈值 1e-3
表1  关键参数的说明和默认值
停止词 举例
标点等特殊符号 , 、 : 《 》等
年月日期 2016年、3月等
分词后的单字 人、区、校、期等
数量多且无实义的词 通知、关于、做好、组织等词
表2  停用词词典
图3  Perplexity值随主题数量变化曲线
关键词 教学 停电 SCI 国家奖学金
1 实习 停水 EI 省政府奖学金
2 培养 封闭 收录 国家励志奖学金
3 课程 停暖 SSCI 国家助学金
4 课堂 楼房 CSSCI 奖学金
5 立项 供水 索引 上海创立奖学金
表3  关键词相似度传播举例
图4  权重阈值与关键词之间的平均相似度关系
图5  每个主题下关键词之间的相似度对比
图6  教学类主题关键词
图7  评优类主题关键词
图8  图书馆类主题关键词
图9  奖学金及比赛类主题关键词
[1] Bharti S K, Babu K S . Automatic Keyword Extraction for Text Summarization: A Survey[OL]. arXiv Preprint, arXiv: 1704. 03242.
[2] Moody C E . Mixing Dirichlet Topic Models and Word Embeddings to Make Lda2vec[OL]. arXiv Preprint, arXiv: 1605. 02019.
[3] 庞贝贝, 苟娟琼, 穆文歆 . 面向高校学生深度辅导领域的主题建模和主题上下位关系识别研究[J]. 数据分析与知识发现, 2018,2(6):92-101.
( Pang Beibei, Gou Juanqiong, Mu Wenxin . Extracting Topics and Their Relationship from College Student Mentoring[J]. Data Analysis and Knowledge Discovery, 2018,2(6):92-101.)
[4] Nadkarni P M . An Introduction to Information Retrieval: Applications in Genomics[J]. The Pharmacogenomics Journal, 2002,2(2):96-102.
[5] Pawar D D, Bewoor M S, Patil S H . Text Rank: A Novel Concept for Extraction Based Text Summarization[J]. International Journal of Computer Science & Information Technology, 2014,5(3):3301-3304.
[6] Lai S, Liu K, He S , et al. How to Generate a Good Word Embedding[J]. IEEE Intelligent Systems, 2016,31(6):5-14.
[7] Blei D M, Ng A Y, Jordan M I . Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003,3:993-1022.
[8] Mikolov T, Chen K, Corrado G , et al. Efficient Estimation of Word Representations in Vector Space[OL]. arXiv Preprint, arXiv: 1301. 3781.
[9] Cohen J D . Highlights: Language- and Domain-Independent Automatic Indexing Terms for Abstracting[J]. Journal of the American Society for Information Science, 1995,46(3):162-174.
[10] Luhn H P . A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J]. IBM Journal of Research and Development, 1957,1(4):309-317.
[11] 姚兆旭, 马静 . 面向微博话题的“主题+观点”词条抽取算法研究[J]. 现代图书情报技术, 2016(7):78-86.
( Yao Zhaoxu, Ma Jing . Extracting Topic and Opinion from Microblog Posts with New Algorithm[J]. New Technology of Library and Information Service, 2016(7):78-86.)
[12] 覃世安, 李法运 . 文本分类中TF-IDF方法的改进研究[J]. 现代图书情报技术, 2013(10):27-30.
( Qin Shian, Li Fayun . Improved TF-IDF Method in Text Classification[J]. New Technology of Library and Information Service, 2013(10):27-30.)
[13] Matsuo Y, Ishizuka M . Keyword Extraction from a Single Document Using Word Co-occurrence Statistical Information[J]. International Journal on Artificial Intelligence Tools, 2004,13(1):157-169.
[14] Zhao Z, Li C, Zhang Y , et al. Identifying and Analyzing Popular Phrases Multi-dimensionally in Social Media Data[J]. International Journal of Data Warehousing & Mining, 2015,11(3):98-112.
[15] Barzilay R, Elhadad M. Using Lexical Chains for Text Summarization [C]. //Proceedings of the ACL Workshop on Intelligent Scalable Text Summarization. 1997.
[16] Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge [C]// Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. 2003: 216-223.
[17] Salton G, Singhal A, Mitra M , et al. Automatic Text Structuring and Summarization[J]. Information Processing & Management, 1997,33(2):193-207.
[18] Conroy J M, O’leary D P. Text Summarization via Hidden Markov Models [C]// Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 2001: 406-407.
[19] Zhang K, Xu H, Tang J, et al. Keyword Extraction Using Support Vector Machine [C]// Proceedings of the 2006 International Conference on Web-Age Information Management. 2006: 85-96.
[20] Frank E, Paynter G W, Witten I H, et al. Domain-Specific Keyphrase Extraction [C]// Proceedings of the 16th International Joint Conference on Artificial Intelligence. 1999,2:668-673.
[21] Liu Z, Chen X, Zheng Y, et al. Automatic Keyphrase Extraction by Bridging Vocabulary Gap [C]// Proceedings of the 15th Conference on Computational Natural Language Learning. 2011: 135-144.
[22] Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and Their Compositionality [C]// Proceedings of the 2013 International Conference on Neural Information Processing Systems. 2013,26:3111-3119.
[23] Liu Y, Liu Z, Chua T S, et al. Topical Word Embeddings [C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. 2015: 2418-2424.
[24] Chang J, Boyd-Graber J, Gerrish S, et al. Reading Tea Leaves: How Humans Interpret Topic Models [C]// Proceedings of the 22nd International Conference on Neural Information Processing Systems. 2009: 288-296.
[25] 王婷婷, 韩满, 王宇 . LDA模型的优化及其主题数量选择研究——以科技文献为例[J]. 数据分析与知识发现, 2018,2(1):29-40.
( Wang Tingting, Han Man, Wang Yu . Optimizing LDA Model with Various Topic Numbers: Case Study of Scientific Literature[J]. Data Analysis and Knowledge Discovery, 2018,2(1):29-40.)
[26] 陈磊, 李俊 . 基于LF-LDA和Word2vec的文本表示模型研究[J]. 电子技术, 2017(7):1-5.
( Chen Lei, Li Jun . Text Representation Model Based on LF-LDA and Word2Vec[J]. Electronic Technology, 2017(7):1-5.)
[27] Liu W, Dong W . A Question Recommendation Model Based on LDA and Word2Vec[A]// Hussain A, Ivanovic M. Electronics, Communications and Networks IV[M]. 2015: 1527-1531.
[28] 董文 . 基于LDA和Word2Vec的推荐算法研究[D]. 北京: 北京邮电大学, 2015.
( Dong Wen . Research of Recommendation Algorithm Based on LDA and Word2Vec[D]. Beijing: Beijing University of Posts and Telecommunications, 2015.)
[29] Wang Z, Ma L, Zhang Y. A Hybrid Document Feature Extraction Method Using Latent Dirichlet Allocation and Word2Vec [C]// Proceedings of the 1st International Conference on Data Science in Cyberspace. 2016: 98-103.
[30] 韦强申 . 领域关键词抽取: 结合LDA与Word2Vec[D]. 贵阳: 贵州师范大学, 2016.
( Wei Qiangshen . Keyword Extraction Based on LDA and Word2Vec[D]. Guiyang: Guizhou Normal University, 2016.)
[31] 宁建飞, 刘降珍 . 融合Word2Vec与TextRank的关键词抽取研究[J]. 现代图书情报技术, 2016(6):20-27.
( Ning Jianfei, Liu Jiangzhen . Using Word2Vec with TextRank to Extract Keywords[J]. New Technology of Library and Information Service, 2016(6):20-27.)
[32] 夏天 . 词向量聚类加权TextRank的关键词抽取[J]. 数据分析与知识发现, 2017,1(2):28-34.
( Xia Tian . Extracting Keywords with Modified TextRank Model[J]. Data Analysis and Knowledge Discovery, 2017,1(2):28-34.)
[33] Wen Y, Yuan H, Zhang P. Research on Keyword Extraction Based on Word2Vec Weighted TextRank [C]// Proceedings of the 2nd International Conference on Computer and Communications. 2017: 2109-2113.
[34] 刘奇飞, 沈炜域 . 基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究[J]. 情报探索, 2018(6):22-27.
( Liu Qifei, Shen Weiyu . Research of Keyword Extraction of Political News Based on Word2Vec and TextRank[J]. Information Research, 2018(6):22-27.)
[35] Brin S, Page L. The Anatomy of a Large-Scale Hyper Textual Web Search Engine [C]// Proceedings of the 7th International Conference on World Wide Web. 1998,30:107-117.
[1] 曾庆田,戴明弟,李超,段华,赵中英. 轨迹数据融合用户表示方法的重要位置发现*[J]. 数据分析与知识发现, 2019, 3(6): 75-82.
[2] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[3] 余本功,陈杨楠,杨颖. 基于nBD-SVM模型的投诉短文本分类*[J]. 数据分析与知识发现, 2019, 3(5): 77-85.
[4] 席林娜,窦永香. 基于计划行为理论的微博用户转发行为影响因素研究*[J]. 数据分析与知识发现, 2019, 3(2): 13-20.
[5] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
[6] 刘俊婉,龙志昕,王菲菲. 基于LDA主题模型与链路预测的新兴主题关联机会发现研究*[J]. 数据分析与知识发现, 2019, 3(1): 104-117.
[7] 杨贵军,徐雪,赵富强. 基于XGBoost算法的用户评分预测模型及应用*[J]. 数据分析与知识发现, 2019, 3(1): 118-126.
[8] 张涛,马海群. 一种基于LDA主题模型的政策文本聚类方法研究*[J]. 数据分析与知识发现, 2018, 2(9): 59-65.
[9] 李琳,李辉. 一种基于概念向量空间的文本相似度计算方法[J]. 数据分析与知识发现, 2018, 2(5): 48-58.
[10] 俞琰,赵乃瑄. 加权专利文本主题模型研究*[J]. 数据分析与知识发现, 2018, 2(4): 81-89.
[11] 王丽,邹丽雪,刘细文. 基于LDA主题模型的文献关联分析及可视化研究[J]. 数据分析与知识发现, 2018, 2(3): 98-106.
[12] 李贺,祝琳琳,闫敏,刘金承,洪闯. 开放式创新社区用户信息有用性识别研究*[J]. 数据分析与知识发现, 2018, 2(12): 12-22.
[13] 何伟林,奉国和,谢红玲. 基于CSToT模型的科技文献主题发现与演化研究*[J]. 数据分析与知识发现, 2018, 2(11): 64-72.
[14] 王婷婷,王宇,秦琳杰. 基于动态主题模型的时间窗口划分研究*[J]. 数据分析与知识发现, 2018, 2(10): 54-64.
[15] 王婷婷,韩满,王宇. LDA模型的优化及其主题数量选择研究*——以科技文献为例[J]. 数据分析与知识发现, 2018, 2(1): 29-40.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn