Please wait a minute...
Advanced Search
现代图书情报技术  2015, Vol. 31 Issue (9): 26-30     https://doi.org/10.11925/infotech.1003-3513.2015.09.04
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
汉语组块分析在产品特征提取中的应用研究
杜思奇1, 李红莲1, 吕学强2
1 北京信息科技大学信息与通信工程学院 北京 100101;
2 北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101
Research of Chinese Chunk Parsing in Application of the Product Feature Extraction
Du Siqi1, Li Honglian1, Lv Xueqiang2
1 School of Information and Communication Engineering, Beijing Information Science and Technology University, Beijing 100101, China;
2 Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China
全文: PDF (411 KB)   HTML  
输出: BibTeX | EndNote (RIS)      
摘要 

[目的]解决用户评论文本中的产品特征提取问题, 尤其是名词性短语的识别问题。[方法]利用汉语组块分析进行产品特征提取, 根据Apriori产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤, 得到产品特征集合, 从而实现对用户评论中产品特征的自动提取。[结果]为验证该方法的有效性, 以汽车评论文本为例, 从中提取汽车类产品的特征, 平均召回率达到76.89%, 平均准确率达到84.03%。[局限]该方法的召回率较低, 存在名词块识别错误的问题。[结论]实验结果表明引入汉语组块分析可以准确识别名词性短语, 提高产品特征提取的准确率。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
Abstract

[Objective] This paper aims at the problem of product feature extraction, especially the noun phrase identification. [Methods] Chinese Chunk Parsing is used to extract the feature, and frequent sets are generated by Apriori. Then the candidate product features are filtered according to the rules of the minimum support, frequent nouns and TF-IDF. At last, the final product feature sets are obtained. [Results] In order to verify the effectiveness of the method, the car reviews are used in this paper, the average recall rate reaches 76.89%, the average precision rate reaches 84.03%. [Limitations] The recall rate is low and there is noun phrase identification error in the test. [Conclusions] Experiment results show that the method can extract product feature from Chinese reviews with good effects.

收稿日期: 2015-03-02      出版日期: 2016-04-06
:  TP391  
基金资助:

本文系国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号:61271304)和北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号:KZ201311232037)的研究成果之一。

通讯作者: 杜思奇, ORCID: 0000-0003-4418-4262, E-mail: beixindusiqi@163.com。     E-mail: beixindusiqi@163.com
作者简介: 作者贡献声明:吕学强:提出研究命题;杜思奇:提出研究思路,设计研究方案,分析数据,起草论文;李红莲:论文修订。
引用本文:   
杜思奇, 李红莲, 吕学强. 汉语组块分析在产品特征提取中的应用研究[J]. 现代图书情报技术, 2015, 31(9): 26-30.
Du Siqi, Li Honglian, Lv Xueqiang. Research of Chinese Chunk Parsing in Application of the Product Feature Extraction. New Technology of Library and Information Service, 2015, 31(9): 26-30.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2015.09.04      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2015/V31/I9/26

[1] 祁志民, 刘涌. 浅谈我国电子商务的发展现状与趋势[J]. 学术交流, 2009(7): 136-138. (Qi Zhimin, Liu Yong. Introduction to the China Electronic Commerce Development Present Situa­tion and Trends [J]. Academic Exchange, 2009(7): 136-138.)
[2] 姚天昉, 聂青阳, 李建超, 等. 一个用于汉语汽车评论的意见挖掘系统[C]. 见: 中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集. 2006. (Yao Tianfang, Nie Qingyang, Li Jianchao, et al. An Opinion Mining System for Chinese Automobile Reviews [C]. In: Proceedings of the 25th Academic Conference of Chinese Information Processing Society of China on Frontiers of Chinese Information Processing. 2006.)
[3] 娄德成, 姚天昉. 汉语句子语义极性分析和观点挖掘抽取方法的研究[J]. 计算机应用, 2006, 26(11): 2622-2625. (Lou Decheng, Yao Tianfang. Semantic Polarity Analysis and Opinion Mining on Chinese Reviews Sentence [J]. Computer Applications, 2006, 26(11): 2622-2625.)
[4] Shi B, Chang K. Mining Chinese Reviews [C]. In: Procee­dings of the 6th IEEE International Conference on Data Mining Workshops. IEEE, 2006: 585-589.
[5] Hu M, Liu B. Mining and Summarizing Customer Reviews [C]. In: Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2004: 168-177.
[6] Popescu A M, Etzioni O. Extracting Product Features and Opinions from Reviews [A].//Natural Language Processing and Text Mining [M]. Springer London, 2005: 339-446.
[7] 伍星, 何中市, 黄永文.基于弱监督学习的产品特征抽取[J]. 计算机工程, 2009, 35(13): 199-201. (Wu Xing, He Zhongshi, Huang Yongwen. Product Feature Extraction Based on Weakly Supervised Learning [J]. Computer Enineering, 2009, 35(13): 199-201.)
[8] 李实, 叶强, 李一军, 等. 中文网络客户评论的产品特征挖掘方法研究[J]. 管理科学学报, 2009, 12(2): 142-150. (Li Shi, Ye Qiang, Li Yijun, et al. Mining Features of Product from Chinese Customer Online Reviews [J]. Journal of Management Science in China, 2009, 12(2): 142-150.)
[9] 李业刚, 黄河燕. 汉语组块分析综述[J]. 中文信息学报, 2013, 27(3): 1-8. (Li Yegang, Huang Heyan. A Survey on
Chinese Chunk Parsing [J]. Journal of Chinese Information Process, 2013, 27(3): 1-8.)
[10] 周雅倩, 郭以昆, 黄萱菁, 等.基于最大熵方法的中英文基本名词短语识别[J]. 计算机研究与发展, 2003, 40(3): 440-445. (Zhou Yaqian, Guo Yikun, Huang Xuanjing, et al. Chinese and English BaseNP Recognition Based on a Maximun Entropy Model [J]. Journal of Computer Research and Development, 2003, 40(3): 440-445.)
[11] 路永和, 李焰锋. 改进TF-IDF算法的文本特征项权值计算方法[J]. 图书情报工作, 2013, 57(3): 90-95. (Lu Yonghe, Li Yanfeng. Improvement of Text Feature Weighting Method Based on TF-IDF Algorithm [J]. Library and Information Service, 2013, 57(3): 90-95.)
[12] 覃世安, 李法运. 文本分类中TF-IDF方法的改进研究[J]. 现代图书情报技术, 2013 (10): 27-30. (Qin Shian, Li Fayun. Improved TF-IDF Method in Text Classification [J]. New Technology of Library and Information Service, 2013(10): 27-30.)

[1] 王鸿, 舒展, 高印权, 田文洪. 一种单分类器联合多任务网络的隐式句间关系分析方法*[J]. 数据分析与知识发现, 2021, 5(11): 80-88.
[2] 吴彦文, 蔡秋亭, 刘智, 邓云泽. 融合多源数据和场景相似度计算的数字资源推荐研究*[J]. 数据分析与知识发现, 2021, 5(11): 114-123.
[3] 李振宇, 李树青. 嵌入隐式相似群的深度协同过滤算法*[J]. 数据分析与知识发现, 2021, 5(11): 124-134.
[4] 董淼, 苏中琪, 周晓北, 兰雪, 崔志刚, 崔雷. 利用Text-CNN改进PubMedBERT在化学诱导性疾病实体关系分类效果的尝试[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
[5] 余传明, 张贞港, 孔令格. 面向链接预测的知识图谱表示模型对比研究*[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
[6] 丁浩, 艾文华, 胡广伟, 李树青, 索炜. 融合用户兴趣波动时序的个性化推荐模型*[J]. 数据分析与知识发现, 2021, 5(11): 45-58.
[7] 华斌, 吴诺, 贺欣. 基于知识融合的政务信息化项目多专家审批意见整合*[J]. 数据分析与知识发现, 2021, 5(10): 124-136.
[8] 王媛, 时恺泽, 牛振东. 一种用于实体关系三元组抽取的位置辅助分步标记方法*[J]. 数据分析与知识发现, 2021, 5(10): 71-80.
[9] 杨辰, 陈晓虹, 王楚涵, 刘婷婷. 基于用户细粒度属性偏好聚类的推荐策略*[J]. 数据分析与知识发现, 2021, 5(10): 94-102.
[10] 戴志宏, 郝晓玲. 上下位关系抽取方法及其在金融市场的应用*[J]. 数据分析与知识发现, 2021, 5(10): 60-70.
[11] 汪雪锋, 任惠超, 刘玉琴. 融合聚类信息的技术主题图可视化方法研究 [J]. 数据分析与知识发现, 0, (): 1-.
[12] 王一钒,李博,史话,苗威,姜斌. 古汉语实体关系联合抽取的标注方法*[J]. 数据分析与知识发现, 2021, 5(9): 63-74.
[13] 车宏鑫,王桐,王伟. 前列腺癌预测模型对比研究*[J]. 数据分析与知识发现, 2021, 5(9): 107-114.
[14] 周阳,李学俊,王冬磊,陈方,彭莉娟. 炸药配方设计知识图谱的构建与可视分析方法研究*[J]. 数据分析与知识发现, 2021, 5(9): 42-53.
[15] 马江微, 吕学强, 游新冬, 肖刚, 韩君妹. 融合BERT与关系位置特征的军事领域关系抽取方法*[J]. 数据分析与知识发现, 2021, 5(8): 1-12.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn