Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (11): 95-103     https://doi.org/10.11925/infotech.2096-3467.2018.0240
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于辅助集的专利主题分析领域停用词 选取*
俞琰1,2(), 赵乃瑄1
1南京工业大学信息服务部 南京 210009
2东南大学成贤学院计算机工程系 南京 211816
Choosing Stopwords for Patent Topic Analysis Based on Auxiliary Set
Yu Yan1,2(), Zhao Naixuan1
1Information Service Department, Nanjing Tech University, Nanjing 210009, China
2Department of Computer Engineering, Southeast University Chengxian College, Nanjing 211816, China
全文: PDF (591 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】提出一种领域停用词自动选取方法, 以提高专利主题分析的区分度和质量。【方法】针对要进行专利主题分析的目标集, 引入专利辅助集, 提出基于辅助集文档频率和类别熵两个指标, 衡量词语在辅助集中分布情况, 自动识别领域停用词。【结果】实验结果表明, 基于辅助集的领域停用词选取方法能够提高专利主题分析的区分度和质量。【局限】辅助集的选取类型和数量有待进一步研究。【结论】基于辅助集的领域停用词选取方法能够有效地衡量词的分布特征, 从而更准确地选取专利主题分析中的领域停用词。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
俞琰
赵乃瑄
关键词 专利主题分析领域停用词辅助集    
Abstract

[Objective] This paper proposes a new method to automatically choose domain specific stopwords, aiming to improve the performance of patent topic analysis. [Methods] First, we introduced an auxiliary set and proposed two indexes of document frequency and entropies among categories based on this auxiliary set. Then, we measured the distribution of words from the auxiliary set to choose the domain specific stopwords automatically. [Results] The proposed method improved the quality of identified patent topics. [Limitations] The types and members of the auxiliary set need to be further studied. [Conclusions] The proposed stopwords selection methods could measure the characteristics of words, which helps us find the domain specific stopwords for patent analysis more effectively.

Key wordsPatent Topic Analysis    Domain Specific Stopwords    Auxiliary Set
收稿日期: 2018-03-05      出版日期: 2018-12-11
ZTFLH:  G250  
基金资助:*本文系国家社会科学基金项目“大数据时代支持创新设计的多维度多层次专利文本挖掘研究”(项目编号: 17BTQ059)的研究成果之一
引用本文:   
俞琰, 赵乃瑄. 基于辅助集的专利主题分析领域停用词 选取*[J]. 数据分析与知识发现, 2018, 2(11): 95-103.
Yu Yan,Zhao Naixuan. Choosing Stopwords for Patent Topic Analysis Based on Auxiliary Set. Data Analysis and Knowledge Discovery, 2018, 2(11): 95-103.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2018.0240      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I11/95
  目标集IPC分布统计
数据集类型 类别 文本量
辅助集1 A 人类生活必需(农、轻、医) 2000
B 作业; 运输 2000
C 化学; 冶金 2000
D 纺织; 造纸 2000
E 固定建筑物(建筑、采矿) 2000
F 机械工程; 照明; 加热; 武器; 爆破 2000
辅助集2 G01 测量; 测试 2000
G02 光学 2000
G03 摄影术; 电影术; 利用了光波以外其它波的类似技术; 电刻术; 全息摄影术 2000
G07 核算装置 2000
G08 信号装置 2000
G09 教育; 密码术; 显示; 广告; 印鉴 2000
G11 信息存储 2000
  辅助集基本信息
数据集 方法 领域停用词
目标集 TF 语音 模块 所述 识别 控制 一种 本发明 方法 信息 包括 装置 进行 用户 系统 智能 信号 中 连接 数据 用于
DF 语音 一种 本发明 包括 识别 进行 方法 所述 公开 控制 装置 中 系统 模块 用户 信息
提供 实现 接受 智能
TF-IDF 模块 所述 信息 控制 智能 信号 单元 装置 用户 终端 设备 数据 系统 机器人 识别 方法 第一 用于 连接 音频
辅助集1 ASDF 一种 本发明 包括 上 公开 所述 中 连接
方法 设置 具有 涉及 装置 进行 设有 结构 内 后 提供 提高
ASEC 公开 涉及 具有 中 所述 装置 进行 提供
连接 上 提高 设置 后 结构 内 简单 设有
技术 效果 领域
辅助集2 ASDF 一种 本发明 包括 所述 方法中 提供 上 公开 装置 进行 用于具有 系统 连接 控制 第一
设置 时 涉及
ASEC 提供 中 装置 上 公开 所述 用于 方法 进行 具有 涉及 时 连接 设置 控制 第一 系统
能够 实现 技术
  Top 20领域停用词选取结果
  目标集停用词词序-词频散点图
  辅助集1停用词词序-词频散点图
  辅助集2停用词词序-词频散点图
数据集 方法 目标集 辅助集1 辅助集2
TF DF TF-IDF ASDF ASEC ASDF ASEC
目标集 TF
DF 81
TF-IDF 88 69
辅助集1 ASDF 42 49 34
ASEC 40 49 34 95
辅助集2 ASDF 63 71 54 62 61
ASEC 60 70 52 64 65 93
  领域停用词交集数
数据集 停用词选取方法 主题模型
目标集 通用停用词+TF TF_LDA
通用停用词+DF DF_LDA
通用停用词+TF-IDF TFIDF_LDA
辅助集1 通用停用词+ASDF ASDF1_LDA
通用停用词+ASEC ASEC1_LDA
辅助集2 通用停用词+ASDF ASDF2_LDA
通用停用词+ASEC ASEC2_LDA
  不同停用词移除方法对应的主题模型
  不同停用词选取对主题模型影响比较
主题 gen-LDA ASEC1_LDA
0 语音 识别 输入 用于 发明 数据 音频 识别 语音 生成
1 系统 交互 智能 机器人 基于 发明 特征 模型 合成 训练 解码
2 模块 系统 语音 技术 计算机 模块 电路 无线 传感器 通信
3 信号 连接 电路 述 发明 计算机 汉语 方案 输入 程序
4 控制 语音 指令 发明 用于 语音 装置 检测 判断 车载
5 数据 中 方法 文本 音频 包括 信息 移动 服务器 发送 播放
6 语音 方法 特征 模型 进行 语音 信号 输入 输出 声音
7 发明 进行 检测 时 识别 方法 系统 交互 机器人 智能 平台
8 信息 用户 语音 方法 述 装置 安装 电子 开关 显示屏
9 述 装置 上 智能 包括 语音 指令 命令 智能家居 遥控器
  专利主题模型比较
[1] Tang J, Wang B, Yang Y, et al.PatentMiner: Topic-driven Patent Analysis and Mining[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Beijing, China. New York: ACM Press, 2012: 1366-1374.
[2] Wang B, Liu S, Ding K, et al.Identifying Technological Topics and Institution-topic Distribution Probability for Patent Competitive Intelligence Analysis: A Case Study in LTE Technology[J]. Scientometrics, 2014, 101(1): 685-704.
doi: 10.1007/s11192-014-1342-3
[3] Chen H, Zhang G, Lu J, et al.A Fuzzy Approach for Measuring Development of Topics in Patents Using Latent Dirichlet Allocation[C]//Proceedings of IEEE International Conference on Fuzzy Systems, Istanbul, Turkey. Washington DC:IEEE Computer Society, 2015.
[4] Kim M, Park Y, Yoon J.Generating Patent Development Maps for Technology Monitoring Using Semantic Patent-topic Analysis[J]. Computers & Industrial Engineering, 2016, 98(3): 289-299.
doi: 10.1016/j.cie.2016.06.006
[5] Suominen A, Toivanen H, Seppänen M.Firms’ Knowledge Profiles: Mapping Patent Data with Unsupervised Learning[J]. Technological Forecasting & Social Change, 2016, 115: 131-142.
doi: 10.1016/j.techfore.2016.09.028
[6] 范宇, 符红光, 文奕. 基于LDA模型的专利信息聚类技术[J]. 计算机应用, 2013, 33(1): 87-89.
[6] (Fan Yu, Fu Hongguang, Wen Yi.Patent Information Clustering Technique Based on Latent Dirichlet Allocation Model[J]. Journal of Computer Applications, 2013, 33(1): 87-89.)
[7] 王博, 刘盛博, 丁堃, 等. 基于LDA主题模型的专利内容分析方法[J]. 科研管理, 2015, 36(3):111-117.
[7] (Wang Bo, Liu Shengbo, Ding Kun, et al.Patent Content Analysis Method Based on LDA Topic Model[J]. Science Research Management, 2015, 36(3): 111-117.)
[8] 吴菲菲, 张亚茹, 黄鲁成, 等. 基于AToT模型的技术主题多维动态演化分析——以石墨烯技术为例[J]. 图书情报工作, 2017, 61(5): 95-102.
doi: 10.13266/j.issn.0252-3116.2017.05.013
[8] (Wu Feifei, Zhang Yaru, Huang Lucheng, et al.Multi-dimension Dynamic Evolution Analysis of Technology Topics Based on AToT by Taking Grapheme Technology as an Example[J]. Library and Information Service, 2017, 61(5): 95-102.)
doi: 10.13266/j.issn.0252-3116.2017.05.013
[9] 廖列法, 勒孚刚. 基于LDA模型和分类号的专利技术演化研究[J]. 现代情报, 2017, 37(5):13-18.
doi: 10.3969/j.issn.1008-0821.2017.05.003
[9] (Liao Liefa, Le Fugang.Research on Patent Technology Evolution Based on LDA Model and Classification Number[J]. Modern Information, 2017, 37(5): 13-18.)
doi: 10.3969/j.issn.1008-0821.2017.05.003
[10] 陈亮, 张静, 张海超, 等. 层次主题模型在技术演化分析上的应用研究[J]. 图书情报工作, 2017, 61(5): 103-108.
doi: 10.13266/j.issn.0252-3116.2017.05.014
[10] (Chen Liang, Zhang Jing, Zhang Haichao, et al.Application of Hierarchical Topic Model on Technological Evolution Analysis[J]. Library and Information Service, 2017, 61(5): 103-108.)
doi: 10.13266/j.issn.0252-3116.2017.05.014
[11] Frakes W B, Baeza-Yates R.Information Retrieval: Data Structures and Algorithms[M]. Prentice-Hall, 1992.
[12] Silva C, Ribeiro B.The Importance of Stop Word Removal on Recall Values in Text Categorization[C] //Proceedings of International Joint Conference on Neural Networks, Portland. Washington DC: IEEE Computer Society, 2003: 1661-1666.
[13] 官琴, 邓三鸿, 王昊. 中文文本聚类常用停用词表对比研究[J]. 数据分析与知识发现, 2017, 1(3): 72-80.
[13] (Guan Qin, Deng Sanhong, Wang Hao.Chinese Stopwords for Text Clustering: A Comparative Study[J]. Data Analysis and Knowledge Discovery, 2017, 1(3): 72-80.)
[14] Crow D, Desanto J.A Hybrid Approach to Concept Extraction and Recognition-based Matching in the Domain of Human Resources[C]//Proceedings of IEEE International Conference on TOOLS with Artificial Intelligence, Boca Raton, USA. Washington DC: IEEE Computer Society, 2004: 535-541.
[15] Seki K, Mostafa J.An Application of Text Categorization Methods to Gene Ontology Annotation[C]// Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Salvador, Brazil. New York: ACM Press, 2005: 138-145.
[16] Tong S, Lerner U, Singhal A, et al.Locating Meaningful Stopwords or Stop-phrases in Keyword-based Retrieval Systems: US: 9817920[P/OL]. [2012-07-03].[2017-11-14]. .
[17] White B J.Impact of Domain-specific Stop-word Lists on ECommerce Website Search Performance[J]. Journal of Strategic E-Commerce, 2007, 5(2): 83-102.
[18] Lo T W, He B, Ounis I.Automatically Building a Stopword List for an Information Retrieval System[J]. Journal of Digital Information Management, 2005, 3(1): 3-8.
[19] Hao L, Hao L.Automatic Identification of Stop Words in Chinese Text Classification[C]//Proceedings of International Conference on Computer Science and Software Engineering. Washington DC:IEEE Computer Society, 2008: 718-722.
[20] Sinka M P, Corne D W.Evolving Better Stoplists for Document Clustering and Web Intelligence[C]// Proceedings of the 3rd International Conference on Hybrid Intelligent Systems, Melbourne, Australia. Amsterdam: IOS Press, 2008: 1015-1023.
[21] Jungiewicz M, Łopuszyński M.Unsupervised Keyword Extraction from Polish Legal Texts[C]// Proceedings of the International Conference on Natural Language Processing, Warsaw, Poland. New York: Springer Publishing Company, 2014: 65-70.
[22] Makrehchi M, Kamel M S.Extracting Domain-specific Stopwords for Text Classifiers[J]. Intelligent Data Analysis, 2017, 21(1): 39-62.
doi: 10.3233/IDA-150390
[23] 顾益军, 樊孝忠, 王建华, 等. 中文停用词表的自动选取[J]. 北京理工大学学报, 2005, 25(4): 337-340.
doi: 10.3969/j.issn.1001-0645.2005.04.014
[23] (Gu Yijun, Fan Xiaozhong, Wang Jianhua, et al.Automatic Selection of Chinese Stoplist[J]. Transactions of Beijing Institute of Technology, 2005, 25(4): 337-340.)
doi: 10.3969/j.issn.1001-0645.2005.04.014
[24] 巩政, 关高娃. 蒙古文停用词和英文停用词比较研究[J]. 中文信息学报, 2011, 25(4): 35-38.
doi: 10.7666/d.y1887441
[24] (Gong Zheng, Guan Gaowa.A Comparative Study on Between Mongolian Stop Words and English Stop Words[J]. Journal of Chinese Information Processing, 2011, 25(4): 35-38.)
doi: 10.7666/d.y1887441
[25] 珠杰, 李天瑞. 藏文停用词选取与自动处理方法研究[J]. 中文信息学报, 2015, 29(2): 125-132.
doi: 10.3969/j.issn.1003-0077.2015.02.015
[25] (Zhu Jie, Li Tianrui.Research on Tibetan Stop Words Selection and Automatic Processing Method[J]. Journal of Chinese Information Processing, 2015, 29(2): 125-132.)
doi: 10.3969/j.issn.1003-0077.2015.02.015
[26] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3(1): 993-1022.
[1] 柴庆凤, 史霖炎, 梅珊, 熊海涛, 贺惠新. 基于人工特征和机器特征融合的科技文献知识元抽取*[J]. 数据分析与知识发现, 2021, 5(8): 132-144.
[2] 谭荧, 唐亦非. 基于指代消解的引文内容抽取研究*[J]. 数据分析与知识发现, 2021, 5(8): 25-33.
[3] 王勤洁, 秦春秀, 马续补, 刘怀亮, 徐存真. 基于作者偏好和异构信息网络的科技文献推荐方法研究*[J]. 数据分析与知识发现, 2021, 5(8): 54-64.
[4] 韩普,张展鹏,张明淘,顾亮. 基于多特征融合的中文疾病名称归一化研究*[J]. 数据分析与知识发现, 2021, 5(5): 83-94.
[5] 李贺,刘嘉宇,李世钰,吴迪,金帅岐. 基于疾病知识图谱的自动问答系统优化研究*[J]. 数据分析与知识发现, 2021, 5(5): 115-126.
[6] 伊惠芳,刘细文. 一种专利技术主题分析的IPC语境增强Context-LDA模型研究[J]. 数据分析与知识发现, 2021, 5(4): 25-36.
[7] 李跃艳,王昊,邓三鸿,王伟. 近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J]. 数据分析与知识发现, 2021, 5(4): 13-24.
[8] 胡少虎,张颖怡,章成志. 关键词提取研究综述*[J]. 数据分析与知识发现, 2021, 5(3): 45-59.
[9] 王红斌,王健雄,张亚飞,杨恒. 主题不平衡新闻文本数据集的主题识别方法研究*[J]. 数据分析与知识发现, 2021, 5(3): 109-120.
[10] 常志军,钱力,谢靖,吴振新,张鹄,于倩倩,王颖,王永吉. 基于分布式技术的科技文献大数据平台的建设研究*[J]. 数据分析与知识发现, 2021, 5(3): 69-77.
[11] 刘彤, 刘琛, 倪维健. 多层次数据增强的半监督中文情感分析方法 [J]. 数据分析与知识发现, 0, (): 1-.
[12] 王红斌, 王健雄, 张亚飞, 杨恒. 主题不平衡新闻文本数据集的主题识别方法研究 [J]. 数据分析与知识发现, 0, (): 1-.
[13] 张思凡, 牛振东, 陆浩, 朱一凡, 王荣荣. 基于图卷积嵌入与特征交叉的文献被引量预测方法:以交通运输领域为例 [J]. 数据分析与知识发现, 0, (): 1-.
[14] 祁瑞华, 简悦, 郭旭, 关菁华, 杨明昕. 融合特征与注意力的跨领域产品评论情感分析 [J]. 数据分析与知识发现, 0, (): 1-.
[15] 李娇, 黄永文, 罗婷婷, 赵瑞雪, 鲜国建. 基于多因子算法的自动分类研究 [J]. 数据分析与知识发现, 0, (): 1-.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn