Please wait a minute...
Advanced Search
数据分析与知识发现  2018, Vol. 2 Issue (4): 81-89     https://doi.org/10.11925/infotech.2096-3467.2017.1068
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
加权专利文本主题模型研究*
俞琰1,2(), 赵乃瑄1
1南京工业大学信息服务部 南京 210009
2东南大学成贤学院计算机系 南京 211816
Weighted Topic Model for Patent Text Analysis
Yu Yan1,2(), Zhao Naixuan1
1Information Service Department, Nanjing Tech University, Nanjing 210009, China
2Computer Science Department, Southeast University Chengxian College, Nanjing 211816, China
全文: PDF (1140 KB)   HTML ( 3
输出: BibTeX | EndNote (RIS)      
摘要 

目的】解决专利文本分析中主题模型向高频词倾斜、区分度低的问题。【方法】提出基于词权重方法, 形成加权专利文本主题模型, 给不同的词分配不同的权重, 改变生成模型生成词的概率。【结果】相较于传统的专利文本主题模型, 本文提出的加权专利主题模型能够增加主题间的区分度。【局限】加权算法需要更多数据集验证, 并不断优化。【结论】通过专利文本数据验证了该方法的可行性与有效性。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
俞琰
赵乃瑄
关键词 文本分析专利加权主题模型    
Abstract

[Objective] This study aims to address the issues facing the topic model of patent text analysis such as the inclining to high frequency words and low discrimination rates. [Methods] First, we proposed a word weighting method for the traditional topic model. Then, the modified model assigned different weights to the words, and changed the probability of generating new words. [Results] Compared with traditional methods, the weighted patent topic model could identify the subjects more effectively. [Limitations] The weighting algorithm needs to be validated and optimized with more datasets. [Conclusions] The proposed model could effectively analyze the patent texts.

Key wordsText Analysis    Patent    Weighted Topic Model
收稿日期: 2017-10-26      出版日期: 2018-05-11
ZTFLH:  G250  
基金资助:*本文系国家社会科学基金项目“大数据时代支持创新设计的多维度多层次专利文本挖掘研究”(项目编号: 17BTQ059)和教育部人文社会科学基金项目“大数据时代技能知识图谱构建研究”(项目编号: 16YJAZH073)的研究成果之一
引用本文:   
俞琰, 赵乃瑄. 加权专利文本主题模型研究*[J]. 数据分析与知识发现, 2018, 2(4): 81-89.
Yu Yan,Zhao Naixuan. Weighted Topic Model for Patent Text Analysis. Data Analysis and Knowledge Discovery, 2018, 2(4): 81-89.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2017.1068      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2018/V2/I4/81
  基于加权专利文本主题模型总流程
  不同加权LDA模型在3D打印专利文本中平均KL距离比较
  不同加权LDA模型在智能语音专利文本中平均KL距离比较
主题 LDA P-E-LDA
0 装置 控制系统 单元 打印机 发明 喷头 材料 打印机 喷嘴 连接
1 喷头 加热 打印机 装置 基础 原料 食品 食物 奶油 香气
2 结构 形成 发明 具有 电极 定位 固定 患者 手术 牙
3 机构 安装 打印机 平台 移动 电极 基板 导电 芯片 柔性
4 支架 生物 发明 修复 组织 驱动 平台 组件 安装 电机
5 制备材料 方法 复合材料 混合 应用 支架 生物 修复 多孔 细胞
6 模块 打印机 包括 系统 发明 模具 部件 主体 内部 墙体
7 发明 技术 3D 领域 涉及 工艺 外壳 处理 彩色 混凝土
8 金属 粉末 方法 激光 制备 打印机 模块 单元 装置 检测
9 打印 3D 发明 材料 方法 复合材料 混合 纳米 碳纤维 聚合物
10 成型 固化 树脂 材料 发明 三维 模型 数据 图像 信息
11 连接 固定 结构 设置 包括 金属 粉末 激光 成型 合金
12 三维 模型 方法 数据 扫描 快速 机械 机器人 原材料 焊接
13 制造 方法 加工 工艺 模具 材料 重量 原料 强度 塑料
14 材料 重量 原料 强度 发明 装置 成型 固化 树脂 打印机
  LDA与P-E-LDA在3D打印专利文本中主题词比较
主题 LDA P-E-LDA
0 发明 技术 状态 问题 自动 音频 文本 网络视频 字幕 转换
1 交互 机器人 图像 视频 发明 模型 特征 参数 训练 神经网络
2 方法 语音 检测 环境 发明 输入 检测 通话模式 电子设备
3 模块 语音 技术 系统 计算机 装置 开关 电机 壳体 显示屏
4 装置 语音 输入 输出 显示 信号 指令 控制系统 智能家居
5 信息 用户 语音 方法 获取 输出 传感器 处理器 蓝牙 报警
6 本体 智能 发明 设置 电机 导航 车辆 车载 汉语 外语
7 文本 方法 内容 文字 文件 语义 数据库 翻译 搜索 关键词
8 模型 特征 方法 合成 语言 客户端 移动 服务器 匹配 云端
9 语音 方法 实施 发明 电子设备 机器人 交互 智能终端 摄像头 语音系统
  LDA与P-E-LDA在智能语音专利文本中主题词比较
  保留停用词和删除停用词加权主题模型在3D打印专利文本中比较
  保留停用词和删除停用词加权主题模型在智能语音专利文本中比较
数据集
3D打印 的 打印3D 一 种 本 和 发明 所 方法
智能语音 的 语音 模块 所 识别 一 控制 和 方法 本
  专利文本集前10个高频词
主题 LDA P-E-LDA
0 制备 方法 将 材料 的 支架 模具 生物 修复 纤维
1 的 打印 发明 本 技术 了 机构 平台 组件 驱动 电机
2 的 与 和 本 定位 装置 三维 系统 打印设备 部件
3 三维 模型 的 进行 对 电极 导电 成型 冷却 沉积
4 的 支架 和 本 发明 复合材料 石墨 改性 塑料 强度
5 的 金属 激光 粉末 方法 打印机 控制 检测 温度 传感器
6 的 有 装置 喷头 与 定位 骨 牙 手术 移植
7 的 了 一 本 发明 激光 制造 加工 零件 工艺
8 装置 系统 打印机 模块 的 结构 表面 外壳 主体 填充
9 打印 3D 的 成型 固化 打印机 金属 粉末 陶瓷 合金 混合
10 的 层 结构 在 一 表面 数据 图像 扫描 信息 区域
11 机构 轴 装置 在 安装 组合 生产 快速 制品 搅拌
12 材料 重量 3D 种 及其 喷头 加热 喷嘴 壳体 进料
13 一 的 和 包括 于 树脂 固化 基板 光敏 柔性
14 的 用于 该 在 或 连接 固定 支撑 设置 底板
  LDA与P-E-LDA在原始3D打印专利文本中主题词比较
主题 LDA P-E-LDA
0 语音 识别 一 信号 第 指令 终端 操作 移动 命令
1 模块 控制 与 连接 和 特征 模型 合成 提取 语言
2 的 设置 有 一 在 技术 领域 计算机 汉语 方案
3 的 方法 特征 模型 进行 信号 输入 处理 音频 输出
4 的 语音 装置 一 包括 文本 内容 生成 匹配 文字
5 的 设备 在 该 用于 单元 交互 机器人 显示 图像
6 信息 的 方法 数据 用户 连接 电路 无线 控制器 传感器
7 的 模块 语音 系统 本 数据 检测 步骤 判断 存储
8 语音 控制 的 指令 用户 服务器 智能 网络 手机 通话
9 系统 的 智能 和 本 设置 智能 开关 安装 本体
  LDA与P-E-LDA在原始智能语音专利文本中主题词比较
[1] Yoon B, Park Y.A Text-mining-based Patent Network: Analytical Tool for High-technology Trend[J]. Journal of High Technology Management Research, 2004, 15(1): 37-50.
doi: 10.1016/j.hitech.2003.09.003
[2] 郭炜强, 戴天, 文贵华. 基于领域知识的专利自动分类[J]. 计算机工程, 2005, 31(23): 52-54.
doi: 10.3969/j.issn.1000-3428.2005.23.019
[2] (Guo Weiqiang, Dai Tian, Wen Guihua.A Patent Classification Method Based on Domain Knowledge[J]. Computer Engineering, 2005, 31(23): 52-54. )
doi: 10.3969/j.issn.1000-3428.2005.23.019
[3] Kim M, Park Y, Yoon J.Generating Patent Development Maps for Technology Monitoring Using Semantic Patent- Topic Analysis[J]. Computers & Industrial Engineering, 2016, 98: 289-299.
doi: 10.1016/j.cie.2016.06.006
[4] 高利丹, 肖国华, 张娴, 等. 共现分析在专利地图中的应用研究[J]. 现代情报, 2009, 29(7): 36-39, 43.
doi: 10.3969/j.issn.1008-0821.2009.07.011
[4] (Gao Lidan, Xiao Guohua, Zhang Xian, et al.The Application Study of Co-occurrence Analysis in Patent Map[J]. Journal of Modern Information, 2009, 29(7): 36-39, 43.)
doi: 10.3969/j.issn.1008-0821.2009.07.011
[5] 张杰, 刘美佳, 翟东升. 基于专利共词分析的RFID领域技术主题研究[J]. 科技管理研究, 2013, 33(10): 129-132.
[5] (Zhang Jie, Liu Meijia, Zhai Dongsheng.Technology Topic in RFID Based on Patent Co-word Analysis[J]. Science and Technology Management Research, 2013, 33(10): 129-132.)
[6] Tang J, Wang B, Yang Y, et al.PatentMiner: Topic-driven Patent Analysis and Mining[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2012: 1366-1374.
[7] Wang B, Liu S, Ding K, et al.Identifying Technological Topics and Institution-Topic Distribution Probability for Patent Competitive Intelligence Analysis: A Case Study in LTE Technology[J]. Scientometrics, 2014, 101(1): 685-704.
doi: 10.1007/s11192-014-1342-3
[8] Chen H, Zhang G, Lu J, et al.A Fuzzy Approach for Measuring Development of Topics in Patents Using Latent Dirichlet Allocation[C]//Proceedings of the 2015 IEEE International Conference on Fuzzy Systems. IEEE, 2015.
[9] Suominen A, Toivanen H, Seppänen M.Firms’ Knowledge Profiles: Mapping Patent Data with Unsupervised Learning[J]. Technological Forecasting & Social Change, 2016, 115: 131-142.
doi: 10.1016/j.techfore.2016.09.028
[10] 范宇, 符红光, 文奕. 基于LDA模型的专利信息聚类技术[J]. 计算机应用, 2013, 33(S1): 87-89, 93.
[10] (Fan Yu, Fu Hongguang, Wen Yi.Patent Information Clustering Technique Based on Latent Dirichlet Allocation Model[J]. Journal of Computer Applications, 2013, 33(S1): 87-89, 93.)
[11] 王博, 刘盛博, 丁堃, 等. 基于LDA主题模型的专利内容分析方法[J]. 科研管理, 2015, 36(3): 111-117.
[11] (Wang Bo, Liu Shengbo, Ding Kun, et al.Patent Analysis Method Based on LDA Topic Model[J]. Science Research Management, 2015, 36(3): 111-117.)
[12] 吴菲菲, 张亚茹, 黄鲁成, 等. 基于AToT模型的技术主题多维动态演化分析——以石墨烯技术为例[J]. 图书情报工作, 2017, 61(5): 95-102.
doi: 10.13266/j.issn.0252-3116.2017.05.013
[12] (Wu Feifei, Zhang Yaru, Huang Lucheng, et al.Multi-dimension Dynamic Evolution Analysis of Technology Topics Based on AToT by Taking Graphene Technology as an Example[J]. Library and Information Service, 2017, 61(5): 95-102.)
doi: 10.13266/j.issn.0252-3116.2017.05.013
[13] 廖列法, 勒孚刚. 基于LDA模型和分类号的专利技术演化研究[J]. 现代情报, 2017, 37(5): 13-18.
[13] (Liao Liefa, Le Fugang.Research on Patent Technology Evolution Based on LDA Model and Classification Number[J]. Journal of Modern Information, 2017, 37(5): 13-18.)
[14] 陈亮, 张静, 张海超, 等. 层次主题模型在技术演化分析上的应用研究[J]. 图书情报工作, 2017, 61(5): 103-108.
doi: 10.13266/j.issn.0252-3116.2017.05.014
[14] (Chen Liang, Zhang Jing, Zhang Haichao, et al.Research on Application of Hierarchical Topic Model on Technological Evolution Analysis[J]. Library and Information Service, 2017, 61(5): 103-108.)
doi: 10.13266/j.issn.0252-3116.2017.05.014
[15] Wallach H M.Topic Modeling: Beyond Bag-of-Words[C]// Proceedings of the 23rd International Conference on Machine Learning. ACM, 2006: 977-984.
[16] Wilson A T, Chew P A.Term Weighting Schemes for Latent Dirichlet Allocation[C]// Proceedings of the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 465-473.
[17] 巴志超, 李纲, 朱世伟. 共现分析中的关键词选择与语义度量方法研究[J]. 情报学报, 2016, 35(2): 197-207.
[17] (Ba Zhichao, Li Gang, Zhu Shiwei.Research on Keyword Selection and Semantic Measurement of Co-word Analysis[J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(2): 197-207.)
[18] 唐晓波, 向坤. 基于LDA模型和微博热度的热点挖掘[J]. 图书情报工作, 2014, 58(5): 58-63.
doi: 10.13266/j.issn.0252-3116.2014.05.010
[18] (Tang Xiaobo, Xiang Kun.Hotspot Mining Based LDA Model and Microblog Heat[J]. Library and Information Service, 2014, 58(5): 58-63.)
doi: 10.13266/j.issn.0252-3116.2014.05.010
[19] 李湘东, 巴志超, 黄莉. 一种基于加权LDA模型和多粒度的文本特征选择方法[J]. 现代图书情报技术, 2015(5): 42-49.
[19] (Li Xiangdong, Ba Zhichao, Huang Li.A Text Feature Selection Method Based on Weighted Latent Dirichlet Allocation and Multi-granularity[J]. New Technology of Library and Information Service, 2015(5): 42-49.)
[20] 郝洁, 谢珺, 苏婧琼, 等. 基于词加权LDA算法的无监督情感分类[J]. 智能系统学报, 2016, 11(4): 539-545.
doi: 10.11992/tis.201606007
[20] (Hao Jie, Xie Jun, Su Jingqiong, et al.An Unsupervised Approach for Sentiment Classification Based on Weighted Latent Dirichlet Allocation[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 539-545.)
doi: 10.11992/tis.201606007
[21] Yu Y, Mo L, Wang J.Identifying Topic-Specific Experts on Microblog[J]. KSII Transactions on Internet & Information Systems, 2016, 10(6): 2627-2647.
doi: 10.3837/tiis.2016.06.010
[22] 覃世安, 李法运. 文本分类中TF-IDF方法的改进研究[J]. 现代图书情报技术, 2013(10): 27-30.
[22] (Qin Shian, Li Fayun.Improved TF-IDF Method in Text Classification[J]. New Technology of Library and Information Service, 2013(10): 27-30.)
[23] 刁倩, 王永成, 张惠惠, 等. VSM中词权重的信息熵算法[J]. 情报学报, 2000, 19(4): 354-358.
doi: 10.3969/j.issn.1000-0135.2000.04.012
[23] (Diao Qian, Wang Yongcheng, Zhang Huihui, et al.A Shannon Entropy Approach to Term Weighting in VSM[J]. Journal of the China Society for Scientific and Technical Information, 2000, 19(4): 354-358.)
doi: 10.3969/j.issn.1000-0135.2000.04.012
[24] Blei D M, Ng A Y, Jordan M I.Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[25] Griffiths T L, Steyvers M.Finding Scientific Topics[J]. Proceedings of the National Academy of Science of the Unites States of America, 2004, 101(S1): 5228-5235.
doi: 10.1073/pnas.0307752101
[1] 胡勇军,韦婷婷,窦子欣,黄芸茵,梁锐成,常会友. 广东刀剪产业转型升级技术发展路径研究*——基于专利TRIZ分析[J]. 数据分析与知识发现, 2020, 4(2/3): 101-109.
[2] 田钟林,吴旭,颉夏青,许晋,陆月明. 一种基于领域语义关系图的短文本实时分析模型*[J]. 数据分析与知识发现, 2020, 4(2/3): 239-248.
[3] 关鹏,王曰芬. 国内外专利网络研究进展*[J]. 数据分析与知识发现, 2020, 4(1): 26-39.
[4] 俞琰,陈磊,姜金德,赵乃瑄. 结合词向量和统计特征的专利相似度测量方法 *[J]. 数据分析与知识发现, 2019, 3(9): 53-59.
[5] 侯剑华,刘盼. 专利技术系统演化的技术熵测度模型与实证研究 *[J]. 数据分析与知识发现, 2019, 3(8): 21-29.
[6] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[7] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[8] 吴江,赵颖慧,高嘉慧. 医疗舆情事件的微博意见领袖识别与分析研究*[J]. 数据分析与知识发现, 2019, 3(4): 53-62.
[9] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
[10] 张金柱,王玥,胡一鸣. 基于专利科学引文内容表示学习的科学技术主题关联分析研究 *[J]. 数据分析与知识发现, 2019, 3(12): 52-60.
[11] 王雪颖,王昊,张紫玄. 中文专利文献中连续符号串的语义识别*[J]. 数据分析与知识发现, 2018, 2(5): 11-22.
[12] 俞琰, 赵乃瑄. 基于辅助集的专利主题分析领域停用词 选取*[J]. 数据分析与知识发现, 2018, 2(11): 95-103.
[13] 贾杉杉, 刘畅, 孙连英, 刘小安, 彭涛. 基于多特征多分类器集成的专利自动分类研究*[J]. 数据分析与知识发现, 2017, 1(8): 76-84.
[14] 李姝影, 方曙. 测度技术融合与趋势的数据分析方法研究进展*[J]. 数据分析与知识发现, 2017, 1(7): 2-12.
[15] 翟东升, 郭程, 张杰, 夏军. 基于专利的企业潜在研发伙伴推荐方法研究[J]. 数据分析与知识发现, 2017, 1(3): 10-20.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn