Please wait a minute...
Advanced Search
数据分析与知识发现  2022, Vol. 6 Issue (1): 113-121     https://doi.org/10.11925/infotech.2096-3467.2021.0684
     研究论文 本期目录 | 过刊浏览 | 高级检索 |
MWEC:一种基于多语义词向量的中文新词发现方法*
张乐,冷基栋,吕学强(),袁梦龙,游新冬
北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101
Discovering Chinese New Words Based on Multi-sense Word Embedding
Zhang Le,Leng Jidong,Lv Xueqiang(),Yuan Menglong,You Xindong
Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China
全文: PDF (1015 KB)   HTML ( 31
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 提出一种基于多语义词向量的中文新词发现方法(MWEC),解决多领域社交媒体文本的分词不准确问题。【方法】 利用社交媒体文本,结合中文知网和汉字笔画数据库训练多语义词向量,以解决语义混淆问题。使用N-gram频繁字符串挖掘方法识别相关度高的子词集合,以此获取新词候选集。利用多语义词向量的语义相似度评估候选词进而获得新词。【结果】 在金融、体育、旅游和音乐4个领域数据集上进行实验,结果表明本文方法的F1指标较对比方法分别提升了2.0(金融)、3.0(体育)、2.6(旅游)、11.3(音乐)个百分点。【局限】 候选词生成策略着重关注子词的热度,低频词很难被识别出来。【结论】 通过增强词向量的语义理解能力,利用多语义词向量对新词候选词进行剪枝,能有效提升针对中文社交媒体文本的新词发现能力。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
张乐
冷基栋
吕学强
袁梦龙
游新冬
关键词 向量新词分词N-gram多语义词向量语义相似度    
Abstract

[Objective] This paper proposes a method to discover Chinese new words based on multi-sense word embedding, aiming to improve the word segmentation of social media texts. [Methods] Firstly, we trained the MWEC with social media texts, as well as data from Chinese HowNet and Chinese character stroke database to reduce the semantic confusion. Then, we used the n-gram frequent string mining method to identify the highly relevant sub-word set, and created the new candidate set. Finally, we used the semantic similarity of multi-sense word embedding to evaluate candidates and identified the new words. [Results] We examined the model with datasets of finance, sports, tourism and music. The MWEC improved the F1 value by 2.0, 3.0, 2.6 and 11.3 percentage points respectively compared with the existing methods. [Limitations] We generated candidate words based on the popularity of sub-words, which was difficult to identify the low-frequency words. [Conclusions] The multi-sense word embedding algorithm could effectively discover new words from Chinese social media texts.

Key wordsWord Embedding    New Word    Word Segmentation    N-gram    Multi-sense Word Embedding    Semantic Similarity
收稿日期: 2021-07-07      出版日期: 2022-02-22
ZTFLH:  TP391  
基金资助:*本文系北京市自然科学基金项目(4212020);青海省藏文信息处理与机器翻译重点实验室/藏文信息处理教育部重点实验室开放课题基金项目(2019Z002);国家自然科学基金项目的研究成果之一(61671070)
通讯作者: 吕学强,ORCID:0000-0002-1422-0560     E-mail: icddtxyx@163.com
引用本文:   
张乐, 冷基栋, 吕学强, 袁梦龙, 游新冬. MWEC:一种基于多语义词向量的中文新词发现方法*[J]. 数据分析与知识发现, 2022, 6(1): 113-121.
Zhang Le, Leng Jidong, Lv Xueqiang, Yuan Menglong, You Xindong. Discovering Chinese New Words Based on Multi-sense Word Embedding. Data Analysis and Knowledge Discovery, 2022, 6(1): 113-121.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2021.0684      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2022/V6/I1/113
Fig.1  新词发现流程
数据集 领域 URL 大小(MB) 句子数量 子词数量
DF 金融 http://finance.sina.com.cn/chanjing/ 20.1 155 168 3 475 459
DS 体育 http://sports.sohu.com/guojizuqiu_a.shtml 4.0 34 300 724 525
DT 旅游 http://www.mafengwo.cn 62.8 553 958 11 285 076
DM 音乐 http://music.163.com/ 35.0 662 640 6 818 760
Table 1  数据集信息统计
金融领域文本 分句 分词 标注
奢侈品消费,将决战于“90后”一代。不可否认,目前中国消费者的奢侈品购买力,虽然仍集中于千万以上资产的人群,但奢侈品消费的“后劲”,则看千禧一代。 奢侈品消费,将决战于“90后”一代。 奢侈品 消费 将 决战 于 90 后 一代 奢侈品消费
不可否认,目前中国消费者的奢侈品购买力,虽然仍集中于千万以上资产的人群,但奢侈品消费的“后劲”,则看千禧一代。 不可否认 目前 中国 消费者 的 奢侈品 购买力 虽然 仍 集中 于 千万 以上 资产 的 人群 但 奢侈品 消费 的 后劲 则 看千禧 一代 中国消费者 奢侈品消费 千禧一代
Table 2  数据标注实例
Fig.2  N-gram字符串的频率分布
领域 余弦相似度 欧氏距离 曼哈顿距离
金融 0.702 0.659 0.670
体育 0.692 0.603 0.628
旅游 0.480 0.473 0.473
音乐 0.531 0.441 0.476
Table 3  剪枝实验F1指标
Fig.3  不同相似性度量方法在剪枝中的性能比较
领域 数据集大小 候选集 MWEC 新词标注
金融 2 000 280 197 173
体育 2 000 652 502 364
旅游 2 000 95 73 112
音乐 2 000 55 30 29
Table 4  新词发现结果
金融 体育 旅游 音乐
名贵/特产 比赛/结束 东/夹道 植物/大战/僵尸
八渡/水文站 联赛杯/八强 史家/胡同 道德/绑架
无目的地/航班 AC/米兰 爬/长城 网易/云/音乐
房地产/调控 主场/对阵 百花/草甸 网易/云
新冠/肺炎/疫情 血洗/林肯城 百花山/主峰 黑人/抬棺
北京/车展 海鸥/军团 老舍/纪念馆 中文/歌
生态/环保 英超/联赛 园博/园 火影/迷
合同/签署 佩里/西奇 深度/游 戳/爷
光线/传媒 鲁本/迪亚斯 鼓楼/东大街 螺旋/丸
Table 5  新词发现实例
数据集 方法 精确率 召回率 F1值
DF WEBM 0.643 0.734 0.689
+sense 0.596 0.796 0.682
+stroke 0.606 0.856 0.710
MWEC 0.655 0.773 0.709
DS WEBM 0.617 0.712 0.661
+sense 0.592 0.821 0.688
+stroke 0.520 0.874 0.652
MWEC 0.596 0.821 0.691
DT WEBM 0.552 0.429 0.482
+sense 0.643 0.420 0.508
+stroke 0.515 0.438 0.473
MWEC 0.644 0.420 0.508
DM WEBM 0.486 0.586 0.531
+sense 0.571 0.690 0.625
+stroke 0.528 0.655 0.585
MWEC 0.633 0.655 0.644
Table 6  消融实验
方法 精确率 召回率 F1值
BERT(0.85) 0.560 0.728 0.633
BERT(0.80) 0.546 0.850 0.665
+sense 0.596 0.796 0.682
+stroke 0.606 0.856 0.710
MWEC 0.655 0.773 0.709
Table 7  实验对比结果
[1] Spence A, Beasley K, Gravenkemper H, et al. Social Media Use While Listening to New Material Negatively Affects Short-Term Memory in College Students[J]. Physiology & Behavior, 2020, 227:113172.
doi: 10.1016/j.physbeh.2020.113172
[2] Richard S, Shih C, Gale W, et al. A Stochastic Finite-State Word Segmentation Algorithm for Chinese[C]// Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. New York: ACL, 1994: 66-73.
[3] Sun X, Huang D G, Song H Y, et al. Chinese New Word Identification: A Latent Discriminative Model with Global Features[J]. Journal of Computer Science and Technology, 2011, 26(1):14-24.
doi: 10.1007/s11390-011-9411-z
[4] Zheng Y, Liu Z, Sun M, et al. Incorporating User Behaviors in New Word Detection[C]// Proceedings of the 21st International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann Publishers, 2009: 2101-2106.
[5] Chen K J, Bai M H. Unknown Word Detection for Chinese by a Corpus-based Learning Method[J]. Computational Linguistics, 1998, 3(1):27-44.
[6] Liang Y, Yin P, Yiu S M. New Word Detection and Tagging on Chinese Twitter Stream[A]//Hameurlain A, Küng J, Wagner R, et al. Transactions on Large-Scale Data- and Knowledge-Centered Systems XXXII[M]. Cham: Springer, 2017: 69-90.)
[7] Liang Y Z, Yang M, Zhu J, et al. Out-Domain Chinese New Word Detection with Statistics-Based Character Embedding[J]. Natural Language Engineering, 2019, 25(2):239-255.
doi: 10.1017/S1351324918000463
[8] Jiang D, Chen X, Yang X, et al. A Chinese New Word Detection Approach Based on Independence Testing[C]// Proceedings of the 11th International Conference on Artificial Intelligence and Symbolic Computation. Suzhou: IEEE, 2018: 227-236.
[9] 张华平, 商建云. 面向社会媒体的开放领域新词发现[J]. 中文信息学报, 2017, 31(3):55-61.
[9] ( Zhang Huaping, Shang Jianyun. Social Media-Oriented Open Domain New Word Detection[J]. Journal of Chinese Information Processing, 2017, 31(3):55-61.)
[10] 刘昱彤, 吴斌, 谢韬, 等. 基于古汉语语料的新词发现方法[J]. 中文信息学报, 2019, 33(1):46-55.
[10] ( Liu Yutong, Wu Bin, Xie Tao, et al. New Word Detection in Ancient Chinese Corpus[J]. Journal of Chinese Information Processing, 2019, 33(1):46-55.)
[11] Li W, Guo K, Shi Y, et al. DWWP: Domain-Specific New Words Detection and Word Propagation System for Sentiment Analysis in the Tourism Domain[J]. Knowledge-Based Systems, 2018, 146:203-214.
doi: 10.1016/j.knosys.2018.02.004
[12] 陈梅婕, 谢振平, 陈晓琪, 等. 专利新词发现的双向聚合度特征提取新方法[J]. 计算机应用, 2020, 40(3):631-637.
[12] ( Chen Meijie, Xie Zhenping, Chen Xiaoqi, et al. Novel Bidirectional Aggregation Degree Feature Extraction Method for Patent New Word Discovery[J]. Journal of Computer Applications, 2020, 40(3):631-637.)
[13] 李少峰. 面向食品安全的新词发现和热词排行方法的研究与应用[D]. 广州: 中山大学, 2015.
[13] ( Li Shaofeng. Research and Application on New Word Discovery and Hot Word Ranking for Food Security[D]. Guangzhou:Sun Yat-Sen University, 2015.)
[14] 张长. 金融知识自动问答中的新词发现及答案排序方法[D]. 哈尔滨: 哈尔滨工业大学, 2017.
[14] ( Zhang Chang. The Method of New Words Discovery and Answers Ranking in Finance Question Answering[D]. Harbin: Harbin Institute of Technology, 2017.)
[15] 王馨, 王煜, 王亮. 基于新词发现的网络新闻热点排名[J]. 图书情报工作, 2015, 59(6):68-74.
[15] ( Wang Xin, Wang Yu, Wang Liang. Hot News Ranking of Network News Based on New Words Detection[J]. Library and Information Service, 2015, 59(6):68-74.)
[16] 彭郴, 吕学强, 孙宁, 等. 基于CNN的消费品缺陷领域词典构建方法研究[J]. 数据分析与知识发现, 2020, 4(11):112-120.
[16] ( Peng Chen, Lv Xueqiang, Sun Ning, et al. Building Phrase Dictionary for Defective Products with Convolutional Neural Network[J]. Data Analysis and Knowledge Discovery, 2020, 4(11):112-120.)
[17] Qian Y, Du Y, Deng X, et al. Detecting New Chinese Words from Massive Domain Texts with Word Embedding[J]. Journal of Information Science, 2019, 45(2):196-211.
doi: 10.1177/0165551518786676
[18] Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[C]// Proceedings of the 2013 International Conference on Learning Representations. New York: ACM, 2013: 1156-1165.
[19] 董振东, 董强, 郝长伶. 知网的理论发现[J]. 中文信息学报, 2007, 21(4):3-9.
[19] ( Dong Zhendong, Dong Qiang, Hao Changling. Theoretical Findings of HowNet[J]. Journal of Chinese Information Processing, 2007, 21(4):3-9.)
[20] 王博, 代翔, 时聪, 等. 一种基于主动学习的中文新词识别算法[J]. 电讯技术, 2020, 60(11):1265-1270.
[20] ( Wang Bo, Dai Xiang, Shi Cong, et al. Chinese New Words Recognition Based on Active Learning[J]. Telecommunication Engineering, 2020, 60(11):1265-1270.)
[21] 唐共波, 于东, 荀恩东. 基于知网义原词向量表示的无监督词义消歧方法[J]. 中文信息学报, 2015, 29(6):23-29.
[21] ( Tang Gongbo, Yu Dong, Xun Endong. An Unsupervised Word Sense Disambiguation Method Based on Sememe Vector in HowNet[J]. Journal of Chinese Information Processing, 2015, 29(6):23-29.)
[22] 孙茂松, 陈新雄. 借重于人工知识库的词和义项的向量表示: 以HowNet为例[J]. 中文信息学报, 2016, 30(6):1-6.
[22] ( Sun Maosong, Chen Xinxiong. Embedding for Words and Word Senses Based on Human Annotated Knowledge Base: A Case Study on HowNet[J]. Journal of Chinese Information Processing, 2016, 30(6):1-6.)
[23] Cao S, Lu W, Zhou J, et al. cw2vec: Learning Chinese Word Embeddings with Stroke N-Gram Information[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. 2018: 5053-5061.
[24] Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistic Language Model[J]. Journal of Machine Learning Research, 2003, 3:1137-1155.
[25] Mnih A, Hinton G. Three New Graphical Models for Statistical Language Modelling[C]// Proceedings of the 24th International Conference on Machine Learning. ACM, 2007: 641-648.
[26] 李小涛, 游树娟, 陈维. 一种基于词义向量模型的词语语义相似度算法[J]. 自动化学报, 2020, 46(8):1654-1669.
[26] ( Li Xiaotao, You Shujuan, Chen Wei. An Algorithm of Semantic Similarity Between Words Based on Word Single-meaning Embedding Model[J]. Acta Automatica Sinica, 2020, 46(8):1654-1669.)
[27] Niu Y, Xie R, Liu Z, et al. Improved Word Representation Learning with Sememes[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. 2017: 2049-2058.
[28] Liu B. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data[M]. Berlin Heidelberg: Springer, 2007.
[29] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. 2019: 4171-4186.
[30] Li B, Zhou H, He J, et al. On the Sentence Embeddings from BERT for Semantic Textual Similarity[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. 2020: 9119-9130.
[1] 张建东, 陈仕吉, 徐小婷, 左文革. 基于词向量的PDF表格抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 34-44.
[2] 张琪,江川,纪有书,冯敏萱,李斌,许超,刘浏. 面向多领域先秦典籍的分词词性一体化自动标注模型构建*[J]. 数据分析与知识发现, 2021, 5(3): 2-11.
[3] 张金柱, 于文倩. 基于短语表示学习的主题识别及其表征词抽取方法研究[J]. 数据分析与知识发现, 2021, 5(2): 50-60.
[4] 沈旺, 李世钰, 刘嘉宇, 李贺. 问答社区回答质量评价体系优化方法研究 *[J]. 数据分析与知识发现, 2021, 5(2): 83-93.
[5] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[6] 冯昊, 李树青. 基于多种支持向量机的多层级联式分类器研究及其在信用评分中的应用*[J]. 数据分析与知识发现, 2021, 5(10): 28-36.
[7] 魏庭新,柏文雷,曲维光. 词向量和语义知识相结合的汉语未登录词语义预测研究*[J]. 数据分析与知识发现, 2020, 4(6): 109-117.
[8] 唐琳,郭崇慧,陈静锋. 中文分词技术研究综述*[J]. 数据分析与知识发现, 2020, 4(2/3): 1-17.
[9] 钟丽珍,马敏书,周长锋. 考虑航线特征的机票价格预测方法研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 192-199.
[10] 丁晟春,俞沣洋,李真. 网络舆情潜在热点主题识别研究*[J]. 数据分析与知识发现, 2020, 4(2/3): 29-38.
[11] 龚丽娟,王昊,张紫玄,朱立平. Word2Vec对海关报关商品文本特征降维效果分析*[J]. 数据分析与知识发现, 2020, 4(2/3): 89-100.
[12] 魏家泽,董诚,何彦青,刘志辉,彭柯芸. 基于均衡段落和分话题向量的新闻热点话题检测研究*[J]. 数据分析与知识发现, 2020, 4(10): 70-79.
[13] 聂卉,何欢. 引入词向量的隐性特征识别研究*[J]. 数据分析与知识发现, 2020, 4(1): 99-110.
[14] 聂维民,陈永洲,马静. 融合多粒度信息的文本向量表示模型 *[J]. 数据分析与知识发现, 2019, 3(9): 45-52.
[15] 俞琰,陈磊,姜金德,赵乃瑄. 结合词向量和统计特征的专利相似度测量方法 *[J]. 数据分析与知识发现, 2019, 3(9): 53-59.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn