Please wait a minute...
Data Analysis and Knowledge Discovery  2018, Vol. 2 Issue (4): 81-89    DOI: 10.11925/infotech.2096-3467.2017.1068
Orginal Article Current Issue | Archive | Adv Search |
Weighted Topic Model for Patent Text Analysis
Yu Yan1,2(), Zhao Naixuan1
1Information Service Department, Nanjing Tech University, Nanjing 210009, China
2Computer Science Department, Southeast University Chengxian College, Nanjing 211816, China
Download: PDF (1140 KB)   HTML ( 3
Export: BibTeX | EndNote (RIS)      
Abstract  

[Objective] This study aims to address the issues facing the topic model of patent text analysis such as the inclining to high frequency words and low discrimination rates. [Methods] First, we proposed a word weighting method for the traditional topic model. Then, the modified model assigned different weights to the words, and changed the probability of generating new words. [Results] Compared with traditional methods, the weighted patent topic model could identify the subjects more effectively. [Limitations] The weighting algorithm needs to be validated and optimized with more datasets. [Conclusions] The proposed model could effectively analyze the patent texts.

Key wordsText Analysis      Patent      Weighted Topic Model     
Received: 26 October 2017      Published: 11 May 2018
ZTFLH:  G250  

Cite this article:

Yu Yan,Zhao Naixuan. Weighted Topic Model for Patent Text Analysis. Data Analysis and Knowledge Discovery, 2018, 2(4): 81-89.

URL:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/10.11925/infotech.2096-3467.2017.1068     OR     https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/Y2018/V2/I4/81

主题 LDA P-E-LDA
0 装置 控制系统 单元 打印机 发明 喷头 材料 打印机 喷嘴 连接
1 喷头 加热 打印机 装置 基础 原料 食品 食物 奶油 香气
2 结构 形成 发明 具有 电极 定位 固定 患者 手术 牙
3 机构 安装 打印机 平台 移动 电极 基板 导电 芯片 柔性
4 支架 生物 发明 修复 组织 驱动 平台 组件 安装 电机
5 制备材料 方法 复合材料 混合 应用 支架 生物 修复 多孔 细胞
6 模块 打印机 包括 系统 发明 模具 部件 主体 内部 墙体
7 发明 技术 3D 领域 涉及 工艺 外壳 处理 彩色 混凝土
8 金属 粉末 方法 激光 制备 打印机 模块 单元 装置 检测
9 打印 3D 发明 材料 方法 复合材料 混合 纳米 碳纤维 聚合物
10 成型 固化 树脂 材料 发明 三维 模型 数据 图像 信息
11 连接 固定 结构 设置 包括 金属 粉末 激光 成型 合金
12 三维 模型 方法 数据 扫描 快速 机械 机器人 原材料 焊接
13 制造 方法 加工 工艺 模具 材料 重量 原料 强度 塑料
14 材料 重量 原料 强度 发明 装置 成型 固化 树脂 打印机
主题 LDA P-E-LDA
0 发明 技术 状态 问题 自动 音频 文本 网络视频 字幕 转换
1 交互 机器人 图像 视频 发明 模型 特征 参数 训练 神经网络
2 方法 语音 检测 环境 发明 输入 检测 通话模式 电子设备
3 模块 语音 技术 系统 计算机 装置 开关 电机 壳体 显示屏
4 装置 语音 输入 输出 显示 信号 指令 控制系统 智能家居
5 信息 用户 语音 方法 获取 输出 传感器 处理器 蓝牙 报警
6 本体 智能 发明 设置 电机 导航 车辆 车载 汉语 外语
7 文本 方法 内容 文字 文件 语义 数据库 翻译 搜索 关键词
8 模型 特征 方法 合成 语言 客户端 移动 服务器 匹配 云端
9 语音 方法 实施 发明 电子设备 机器人 交互 智能终端 摄像头 语音系统
数据集
3D打印 的 打印3D 一 种 本 和 发明 所 方法
智能语音 的 语音 模块 所 识别 一 控制 和 方法 本
主题 LDA P-E-LDA
0 制备 方法 将 材料 的 支架 模具 生物 修复 纤维
1 的 打印 发明 本 技术 了 机构 平台 组件 驱动 电机
2 的 与 和 本 定位 装置 三维 系统 打印设备 部件
3 三维 模型 的 进行 对 电极 导电 成型 冷却 沉积
4 的 支架 和 本 发明 复合材料 石墨 改性 塑料 强度
5 的 金属 激光 粉末 方法 打印机 控制 检测 温度 传感器
6 的 有 装置 喷头 与 定位 骨 牙 手术 移植
7 的 了 一 本 发明 激光 制造 加工 零件 工艺
8 装置 系统 打印机 模块 的 结构 表面 外壳 主体 填充
9 打印 3D 的 成型 固化 打印机 金属 粉末 陶瓷 合金 混合
10 的 层 结构 在 一 表面 数据 图像 扫描 信息 区域
11 机构 轴 装置 在 安装 组合 生产 快速 制品 搅拌
12 材料 重量 3D 种 及其 喷头 加热 喷嘴 壳体 进料
13 一 的 和 包括 于 树脂 固化 基板 光敏 柔性
14 的 用于 该 在 或 连接 固定 支撑 设置 底板
主题 LDA P-E-LDA
0 语音 识别 一 信号 第 指令 终端 操作 移动 命令
1 模块 控制 与 连接 和 特征 模型 合成 提取 语言
2 的 设置 有 一 在 技术 领域 计算机 汉语 方案
3 的 方法 特征 模型 进行 信号 输入 处理 音频 输出
4 的 语音 装置 一 包括 文本 内容 生成 匹配 文字
5 的 设备 在 该 用于 单元 交互 机器人 显示 图像
6 信息 的 方法 数据 用户 连接 电路 无线 控制器 传感器
7 的 模块 语音 系统 本 数据 检测 步骤 判断 存储
8 语音 控制 的 指令 用户 服务器 智能 网络 手机 通话
9 系统 的 智能 和 本 设置 智能 开关 安装 本体
[1] Yoon B, Park Y.A Text-mining-based Patent Network: Analytical Tool for High-technology Trend[J]. Journal of High Technology Management Research, 2004, 15(1): 37-50.
doi: 10.1016/j.hitech.2003.09.003
[2] 郭炜强, 戴天, 文贵华. 基于领域知识的专利自动分类[J]. 计算机工程, 2005, 31(23): 52-54.
doi: 10.3969/j.issn.1000-3428.2005.23.019
[2] (Guo Weiqiang, Dai Tian, Wen Guihua.A Patent Classification Method Based on Domain Knowledge[J]. Computer Engineering, 2005, 31(23): 52-54. )
doi: 10.3969/j.issn.1000-3428.2005.23.019
[3] Kim M, Park Y, Yoon J.Generating Patent Development Maps for Technology Monitoring Using Semantic Patent- Topic Analysis[J]. Computers & Industrial Engineering, 2016, 98: 289-299.
doi: 10.1016/j.cie.2016.06.006
[4] 高利丹, 肖国华, 张娴, 等. 共现分析在专利地图中的应用研究[J]. 现代情报, 2009, 29(7): 36-39, 43.
doi: 10.3969/j.issn.1008-0821.2009.07.011
[4] (Gao Lidan, Xiao Guohua, Zhang Xian, et al.The Application Study of Co-occurrence Analysis in Patent Map[J]. Journal of Modern Information, 2009, 29(7): 36-39, 43.)
doi: 10.3969/j.issn.1008-0821.2009.07.011
[5] 张杰, 刘美佳, 翟东升. 基于专利共词分析的RFID领域技术主题研究[J]. 科技管理研究, 2013, 33(10): 129-132.
[5] (Zhang Jie, Liu Meijia, Zhai Dongsheng.Technology Topic in RFID Based on Patent Co-word Analysis[J]. Science and Technology Management Research, 2013, 33(10): 129-132.)
[6] Tang J, Wang B, Yang Y, et al.PatentMiner: Topic-driven Patent Analysis and Mining[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2012: 1366-1374.
[7] Wang B, Liu S, Ding K, et al.Identifying Technological Topics and Institution-Topic Distribution Probability for Patent Competitive Intelligence Analysis: A Case Study in LTE Technology[J]. Scientometrics, 2014, 101(1): 685-704.
doi: 10.1007/s11192-014-1342-3
[8] Chen H, Zhang G, Lu J, et al.A Fuzzy Approach for Measuring Development of Topics in Patents Using Latent Dirichlet Allocation[C]//Proceedings of the 2015 IEEE International Conference on Fuzzy Systems. IEEE, 2015.
[9] Suominen A, Toivanen H, Seppänen M.Firms’ Knowledge Profiles: Mapping Patent Data with Unsupervised Learning[J]. Technological Forecasting & Social Change, 2016, 115: 131-142.
doi: 10.1016/j.techfore.2016.09.028
[10] 范宇, 符红光, 文奕. 基于LDA模型的专利信息聚类技术[J]. 计算机应用, 2013, 33(S1): 87-89, 93.
[10] (Fan Yu, Fu Hongguang, Wen Yi.Patent Information Clustering Technique Based on Latent Dirichlet Allocation Model[J]. Journal of Computer Applications, 2013, 33(S1): 87-89, 93.)
[11] 王博, 刘盛博, 丁堃, 等. 基于LDA主题模型的专利内容分析方法[J]. 科研管理, 2015, 36(3): 111-117.
[11] (Wang Bo, Liu Shengbo, Ding Kun, et al.Patent Analysis Method Based on LDA Topic Model[J]. Science Research Management, 2015, 36(3): 111-117.)
[12] 吴菲菲, 张亚茹, 黄鲁成, 等. 基于AToT模型的技术主题多维动态演化分析——以石墨烯技术为例[J]. 图书情报工作, 2017, 61(5): 95-102.
doi: 10.13266/j.issn.0252-3116.2017.05.013
[12] (Wu Feifei, Zhang Yaru, Huang Lucheng, et al.Multi-dimension Dynamic Evolution Analysis of Technology Topics Based on AToT by Taking Graphene Technology as an Example[J]. Library and Information Service, 2017, 61(5): 95-102.)
doi: 10.13266/j.issn.0252-3116.2017.05.013
[13] 廖列法, 勒孚刚. 基于LDA模型和分类号的专利技术演化研究[J]. 现代情报, 2017, 37(5): 13-18.
[13] (Liao Liefa, Le Fugang.Research on Patent Technology Evolution Based on LDA Model and Classification Number[J]. Journal of Modern Information, 2017, 37(5): 13-18.)
[14] 陈亮, 张静, 张海超, 等. 层次主题模型在技术演化分析上的应用研究[J]. 图书情报工作, 2017, 61(5): 103-108.
doi: 10.13266/j.issn.0252-3116.2017.05.014
[14] (Chen Liang, Zhang Jing, Zhang Haichao, et al.Research on Application of Hierarchical Topic Model on Technological Evolution Analysis[J]. Library and Information Service, 2017, 61(5): 103-108.)
doi: 10.13266/j.issn.0252-3116.2017.05.014
[15] Wallach H M.Topic Modeling: Beyond Bag-of-Words[C]// Proceedings of the 23rd International Conference on Machine Learning. ACM, 2006: 977-984.
[16] Wilson A T, Chew P A.Term Weighting Schemes for Latent Dirichlet Allocation[C]// Proceedings of the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 465-473.
[17] 巴志超, 李纲, 朱世伟. 共现分析中的关键词选择与语义度量方法研究[J]. 情报学报, 2016, 35(2): 197-207.
[17] (Ba Zhichao, Li Gang, Zhu Shiwei.Research on Keyword Selection and Semantic Measurement of Co-word Analysis[J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(2): 197-207.)
[18] 唐晓波, 向坤. 基于LDA模型和微博热度的热点挖掘[J]. 图书情报工作, 2014, 58(5): 58-63.
doi: 10.13266/j.issn.0252-3116.2014.05.010
[18] (Tang Xiaobo, Xiang Kun.Hotspot Mining Based LDA Model and Microblog Heat[J]. Library and Information Service, 2014, 58(5): 58-63.)
doi: 10.13266/j.issn.0252-3116.2014.05.010
[19] 李湘东, 巴志超, 黄莉. 一种基于加权LDA模型和多粒度的文本特征选择方法[J]. 现代图书情报技术, 2015(5): 42-49.
[19] (Li Xiangdong, Ba Zhichao, Huang Li.A Text Feature Selection Method Based on Weighted Latent Dirichlet Allocation and Multi-granularity[J]. New Technology of Library and Information Service, 2015(5): 42-49.)
[20] 郝洁, 谢珺, 苏婧琼, 等. 基于词加权LDA算法的无监督情感分类[J]. 智能系统学报, 2016, 11(4): 539-545.
doi: 10.11992/tis.201606007
[20] (Hao Jie, Xie Jun, Su Jingqiong, et al.An Unsupervised Approach for Sentiment Classification Based on Weighted Latent Dirichlet Allocation[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 539-545.)
doi: 10.11992/tis.201606007
[21] Yu Y, Mo L, Wang J.Identifying Topic-Specific Experts on Microblog[J]. KSII Transactions on Internet & Information Systems, 2016, 10(6): 2627-2647.
doi: 10.3837/tiis.2016.06.010
[22] 覃世安, 李法运. 文本分类中TF-IDF方法的改进研究[J]. 现代图书情报技术, 2013(10): 27-30.
[22] (Qin Shian, Li Fayun.Improved TF-IDF Method in Text Classification[J]. New Technology of Library and Information Service, 2013(10): 27-30.)
[23] 刁倩, 王永成, 张惠惠, 等. VSM中词权重的信息熵算法[J]. 情报学报, 2000, 19(4): 354-358.
doi: 10.3969/j.issn.1000-0135.2000.04.012
[23] (Diao Qian, Wang Yongcheng, Zhang Huihui, et al.A Shannon Entropy Approach to Term Weighting in VSM[J]. Journal of the China Society for Scientific and Technical Information, 2000, 19(4): 354-358.)
doi: 10.3969/j.issn.1000-0135.2000.04.012
[24] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[25] Griffiths T L, Steyvers M.Finding Scientific Topics[J]. Proceedings of the National Academy of Science of the Unites States of America, 2004, 101(S1): 5228-5235.
doi: 10.1073/pnas.0307752101
[1] Zhang Le, Leng Jidong, Lv Xueqiang, Cui Zhuo, Wang Lei, You Xindong. RLCPAR: A Rewriting Model for Chinese Patent Abstracts Based on Reinforcement Learning[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[2] Gao Yilin,Min Chao. Comparing Technology Diffusion Structure of China and the U.S. to Countries Along the Belt and Road[J]. 数据分析与知识发现, 2021, 5(6): 80-92.
[3] Chen Jun,Liang Hao,Qian Chen. Studying Investment Decisions of Rewarded Crowdfunding Users with Emotional Distance and Text Analysis[J]. 数据分析与知识发现, 2021, 5(4): 60-71.
[4] Lv Xueqiang,Luo Yixiong,Li Jiaquan,You Xindong. Review of Studies on Detecting Chinese Patent Infringements[J]. 数据分析与知识发现, 2021, 5(3): 60-68.
[5] Chen Hao, Zhang Mengyi, Cheng Xiufeng. Identifying Cross-Region Patent Collaboration Opportunities Using LDA and Decision Trees——Case Study of Universities from Guangdong and Wuhan[J]. 数据分析与知识发现, 2021, 5(10): 37-50.
[6] Hyonil Kim,Ou Shiyan. Identifying Citation Texts with Unsupervised Method[J]. 数据分析与知识发现, 2021, 5(1): 66-77.
[7] Guan Peng,Wang Yuefen,Jin Jialin,Fu Zhu. Developments of Tech-Innovation Network for Patent Cooperation: Case Study of Speech Recognition in China[J]. 数据分析与知识发现, 2021, 5(1): 112-127.
[8] Hu Yongjun,Wei Tingting,Dou Zixin,Huang Yunyin,Liang Ruicheng,Chang Huiyou. Tech-Development Path of Knife-Scissor Industry in Guangdong with TRIZ Analysis of Patents[J]. 数据分析与知识发现, 2020, 4(2/3): 101-109.
[9] Tian Zhonglin,Wu Xu,Xie Xiaqing,Xu Jin,Lu Yueming. Real-time Analysis Model for Short Texts with Relationship Graph of Domain Semantics[J]. 数据分析与知识发现, 2020, 4(2/3): 239-248.
[10] Zhang Jinzhu,Zhu Lipeng,Liu Jingjie. Unsupervised Cross-Language Model for Patent Recommendation Based on Representation[J]. 数据分析与知识发现, 2020, 4(10): 93-103.
[11] Li Jiaquan,Li Baoan,You Xindong,Lü Xueqiang. Computing Similarity of Patent Terms Based on Knowledge Graph[J]. 数据分析与知识发现, 2020, 4(10): 104-112.
[12] Peng Guan,Yuefen Wang. Advances in Patent Network[J]. 数据分析与知识发现, 2020, 4(1): 26-39.
[13] Yan Yu,Lei Chen,Jinde Jiang,Naixuan Zhao. Measuring Patent Similarity with Word Embedding and Statistical Features[J]. 数据分析与知识发现, 2019, 3(9): 53-59.
[14] Jianhua Hou,Pan Liu. Measuring Tech-Entropy of System Evolution: An Empirical Study of Patents[J]. 数据分析与知识发现, 2019, 3(8): 21-29.
[15] Cheng Zhou,Hongqin Wei. Evaluating and Classifying Patent Values Based on Self-Organizing Maps and Support Vector Machine[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
  Copyright © 2016 Data Analysis and Knowledge Discovery   Tel/Fax:(010)82626611-6626,82624938   E-mail:jishu@mail.las.ac.cn