esp@cenet as an Example" /> 基于Web的专利双语语料自动获取研究及实现*——以esp@cenet数据库为例
Please wait a minute...
Advanced Search
现代图书情报技术  2009, Vol. Issue (9): 57-63     https://doi.org/10.11925/infotech.1003-3513.2009.09.10
  情报分析与研究 本期目录 | 过刊浏览 | 高级检索 |
基于Web的专利双语语料自动获取研究及实现*——以esp@cenet数据库为例
吴琳1 魏星2 霍翠婷3
1(中国科学技术信息研究所 北京 100038)
2(北京理工大学计算机学院 北京 100081)
3(北京万方数据股份有限公司 北京 100038)
Research and Implement of Automatic Patent Bilingual Corpus Extraction from Web——Taking esp@cenet as an Example
Wu LinWei XingHuo Cuiting3
1(Institute of Scientific & Technical Information of China, Beijing 100038, China)
2(School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China)
3(Wanfang Data Co.Ltd, Beijing 100038, China)
全文: PDF (703 KB)  
输出: BibTeX | EndNote (RIS)      
摘要 

针对专利资源,研究一种有效地从专利数据库中获取高质量双语对译语料的方法。该方法利用网页的URL命名特点获取专利数据的详细网页,以实现网页的批量下载,并通过网页解析,采用正则匹配表达式提取出网页上的所需信息,合并数据后形成双语对照的语料数据库。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
吴琳
魏星
霍翠婷
关键词 专利著录信息双语平行语料网页解析    
Abstract

This paper introduces the research of an available method to automatically extract high quality translation pairs from patent database for patent resources. It analyzes the features of URLs to extract detail Web pages of patent data for batch downloading, and then uses regular expression matches to extract necessary information from Web pages through page parsed. At last, it makes bilingual parallel corpus after merging data.

Key wordsPatent    Bibliographic information    Bilingual parallel corpus    Pages parsed
收稿日期: 2009-07-27      出版日期: 2009-09-25
: 

TP391

 
基金资助:

*本文系国家科技支撑计划基金项目“多语言信息服务环境关键技术研究与应用”(项目编号:2006BAH03B02)和“科技文献信息服务系统应用示范”(项目编号:2006BAH03B06)的研究成果之一。

通讯作者: 吴琳     E-mail: suecky@126.com
作者简介: 吴琳,魏星,霍翠婷
引用本文:   
吴琳,魏星,霍翠婷. 基于Web的专利双语语料自动获取研究及实现*——以esp@cenet数据库为例[J]. 现代图书情报技术, 2009, (9): 57-63.
Wu Lin,Wei Xing,Huo Cuiting. Research and Implement of Automatic Patent Bilingual Corpus Extraction from Web——Taking esp@cenet as an Example. New Technology of Library and Information Service, 2009, (9): 57-63.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.1003-3513.2009.09.10      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2009/V/I9/57

[1] Zhang Y, Vines P. Using the Web for Automated Translation Extraction in Cross-language Information Retrieval [C].In: Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.2004:162-169.
[2] Huang F, Zhang Y,Vogel S. Mining Key Phrase Translations from Web Corpora[C]. In: Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. 2005:483-490.
[3] Resnik P. Parallel Strands: A Preliminary Investigation into Mining the Web for Bilingual Text[C].In:Proceedings of the 3rd Conference of the Association for Machine Translation,America.1998: 72-82.
[4] Resnik P, Smith N A.The Web as a Parallel Corpus[J]. Computational Linguistics, 2003,29(3):349-380.
[5]黄继东.Internet上的免费专利数据库及其检索[J].情报科学,2001,19(12): 1284-1286.
[6]李湖生.中外四大官方网站免费专利检索系统之比较研究[J].图书馆理论与实践,2008(1):16-18,52.
[7]欧洲专利局数据库[EB/OL]. [2008-05-07].http://ep.espace.net.com.
[8]叶莎妮,吕雅娟,黄赟,等.基于Web的双语平行句对自动获取[J].中文信息学报,2008,22(5):67-73.
[9]专利文献种类标识代码标准[J].电子知识产权,2004(4): 62-63.
[10] Chen J, Nie J Y. Automatic Construction of Parallel English-Chinese Corpus for Cross-language Information Retrieval[C].In:Proceedings of the International Conference on Chinese Language Computing,San Francisco.2000: 21-28.

[1] 张乐, 冷基栋, 吕学强, 崔卓, 王磊, 游新冬. RLCPAR:一种基于强化学习的中文专利摘要改写模型*[J]. 数据分析与知识发现, 2021, 5(7): 59-69.
[2] 高伊林,闵超. 中美对“一带一路”沿线技术扩散结构比较研究*[J]. 数据分析与知识发现, 2021, 5(6): 80-92.
[3] 吕学强,罗艺雄,李家全,游新冬. 中文专利侵权检测研究综述*[J]. 数据分析与知识发现, 2021, 5(3): 60-68.
[4] 陈浩, 张梦毅, 程秀峰. 融合主题模型与决策树的跨地区专利合作关系发现与推荐*——以广东省和武汉市高校专利库为例[J]. 数据分析与知识发现, 2021, 5(10): 37-50.
[5] 关鹏,王曰芬,靳嘉林,傅柱. 专利合作视角下技术创新合作网络演化分析——以国内语音识别技术领域为例*[J]. 数据分析与知识发现, 2021, 5(1): 112-127.
[6] 胡勇军,韦婷婷,窦子欣,黄芸茵,梁锐成,常会友. 广东刀剪产业转型升级技术发展路径研究*——基于专利TRIZ分析[J]. 数据分析与知识发现, 2020, 4(2/3): 101-109.
[7] 张金柱,主立鹏,刘菁婕. 基于表示学习的无监督跨语言专利推荐研究*[J]. 数据分析与知识发现, 2020, 4(10): 93-103.
[8] 李家全,李宝安,游新冬,吕学强. 基于专利知识图谱的专利术语相似度计算研究*[J]. 数据分析与知识发现, 2020, 4(10): 104-112.
[9] 关鹏,王曰芬. 国内外专利网络研究进展*[J]. 数据分析与知识发现, 2020, 4(1): 26-39.
[10] 俞琰,陈磊,姜金德,赵乃瑄. 结合词向量和统计特征的专利相似度测量方法 *[J]. 数据分析与知识发现, 2019, 3(9): 53-59.
[11] 侯剑华,刘盼. 专利技术系统演化的技术熵测度模型与实证研究 *[J]. 数据分析与知识发现, 2019, 3(8): 21-29.
[12] 周成,魏红芹. 专利价值评估与分类研究*——基于自组织映射支持向量机[J]. 数据分析与知识发现, 2019, 3(5): 117-124.
[13] 张金柱,胡一鸣. 融合表示学习与机器学习的专利科学引文标题自动抽取研究*[J]. 数据分析与知识发现, 2019, 3(5): 68-76.
[14] 张杰,赵君博,翟东升,孙宁宁. 基于主题模型的微藻生物燃料产业链专利技术分析*[J]. 数据分析与知识发现, 2019, 3(2): 52-64.
[15] 张金柱,王玥,胡一鸣. 基于专利科学引文内容表示学习的科学技术主题关联分析研究 *[J]. 数据分析与知识发现, 2019, 3(12): 52-60.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn