Please wait a minute...
Advanced Search
数据分析与知识发现  2020, Vol. 4 Issue (9): 26-40     https://doi.org/10.11925/infotech.2096-3467.2020.0645
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于多源数据的美国出口管制分析框架及其实证研究*
李广建(),王锴,张庆芝
北京大学信息管理系 北京 100871
Analysis Framework Based on Multi-Source Data for US Export Control: An Empirical Study
Li Guangjian(),Wang Kai,Zhang Qingzhi
Department of Information Management, Peking University, Beijing 100871, China
全文: PDF (1717 KB)   HTML ( 12
输出: BibTeX | EndNote (RIS)      
摘要 

目的】 针对目前对美国出口管制分析的不足,提出一种融合多源数据、深入文本语义内容的美国出口管制信息的多维分析框架,构建细粒度美国出口管制信息分析模式,为数据分析工作者提供参考。【方法】 本文提出的框架基于多源数据融合思想,除了使用《出口管理条例》、《商业管制清单》,还使用实体清单等“黑名单”、与出口管制相关的联邦公报。识别多源数据中的技术名词、技术指标和受控物品关系;通过语义词典和语义模型构建语义索引;针对实体清单等“黑名单”数据,利用命名实体识别等方法构建个体与物品之间的关联关系;在此基础上,本框架包含管制现状分析、具体物品分析、时序分析、国家受控分析等4种分析模式。【结果】 为验证框架的有效性,以光刻机为例,对框架及其实现进行实证研究,通过人工复核检验了框架实现方法的可行性和实用性,光刻机识别召回率在识别同尾号情况下为97.3%,中国大陆的个体领域识别准确率为83.8%。【局限】 仅选取光刻机这一受控对象进行实证研究;框架实现方法还有进一步改进的空间。【结论】 本文框架可以对美国出口管制做出全面、准确、有效、快速的分析,利用多源数据提供有关美国出口管制的细粒度知识,可为出口管制的文本情报分析工作提供借鉴。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李广建
王锴
张庆芝
关键词 多源数据融合出口管制商业管制清单多维度分析框架    
Abstract

[Objective] This paper propose a fine-grained multi-dimensional analysis framework based on multi-source data and in-depth semantic contents, aiming to address the deficiencies in analyzing U.S. export controls.[Methods] We constrcuted the framework based on the concept of multi-source data fusion, which integrated data from the CCL for items, the EAR for regulations, the blacklist for entities, and the Federal Register for polices. First, we identified the technical terms, the exact technical indicators values and the relationship between the controlled items from the multi-source data. Then, we built an index using the semantic dictionary and model. Third, we used the named entity recognition method to establish the correlated relationship between the controlled items and entities. This framework contains four analysis modes for the status quo, the specific items, the time sequences, and the countries.[Results] We examined the effectiveness of the framework with an empirical study on lithography. The recall for recognizing the controlled items reached 97.3% with the same tail ECCN number. The precision of recognizing Chinese mainland’s entity domains was up to 83.8%.[Limitations] We only selected the lithography for the empirical study and the framework could be improved.[Conclusions] The proposed framework provides an effective method to analyze the texts of U.S. export control documents.

Key wordsMulti-Source Data Fusion    Export Control    Commerce Control List    Multi-Dimensional Analysis Framework
收稿日期: 2020-07-03      出版日期: 2020-07-22
ZTFLH:  TP391  
基金资助:*本文系国家社会科学基金重大项目“大数据时代知识融合的体系架构、实现模式及实证研究”的研究成果之一(15ZDB129)
通讯作者: 李广建     E-mail: ligj@pku.edu.cn
引用本文:   
李广建,王锴,张庆芝. 基于多源数据的美国出口管制分析框架及其实证研究*[J]. 数据分析与知识发现, 2020, 4(9): 26-40.
Li Guangjian,Wang Kai,Zhang Qingzhi. Analysis Framework Based on Multi-Source Data for US Export Control: An Empirical Study. Data Analysis and Knowledge Discovery, 2020, 4(9): 26-40.
链接本文:  
http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2020.0645      或      http://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2020/V4/I9/26
Fig.1  基于多源数据的出口管制分析框架
Fig.2  《商业管制清单》的结构及可抽取内容
Fig.3  《实体清单》、《未证实清单》结构及可抽取内容
Fig.4  《出口管理条例》的格式及可抽取内容
Fig.5  联邦公报的格式及可抽取内容
文件类型 原文和可抽取名词术语实体(粗体) 用途
商业管制清单 Power generating or propulsion equipment specially designed 确定具体的受控物品
实体清单等“黑名单”数据 Beijing Aeronautical Manufacturing Technology Research Institute 识别实体的领域、地理位置等信息
出口管制条例 UNSC Resolutions 707 and 687 require that Iraq eliminate its nuclear weapons program and restrict its nuclear activities to the use of isotopes for medical 识别文件涉及的具体领域、产品、国家、决议等
联邦公报 or entering nuclear power plants—unless the license or card is issued by a State that meets the requirements set forth in the Act 识别文件涉及的具体领域、产品、国家等
Table 1  各类型文件抽取名词实体样例
匹配词性规则 合并后词性
NNP+NNP专有名词+专有名词 NNP 专有名词
NN(S)+NN(S)常用名词+常用名词 NNI 名词组合
NNI+NN名词组合+常用名词 NNI 名词组合
JJ+NN形容词或序数词+常用名词 NNI 名词组合
Table 2  词组词性规则
Fig.6  名词实体识别流程与结果
文件类型 原文和可抽取数值实体(粗体)
商业管制清单 A second-layer overlay error of less than 23 nm on the mask
出口管理条例 Test kits containing no more than 300 grams of any chemical
联邦公报 the technology is maturing, and is expected to be widely used at the 45nm technology node
Table 3  各类型管制文件技术指标实体样例
Fig.7  技术指标值识别流程与结果
关系类型 引导词 含义 实例
包含 controlled 受控范围包含相关受控物品的范围 refurbishing of commodities controlled by ECCN 0A604 or for bombs
延伸 not controlled、except 受控范围不包含相关的受控物品 Smoke hand grenades and stun hand grenades not controlled by ECCN 1A984
参见 无controlled、except、not controlled等具体引导词 需要参考相关受控物品 0A018: See ECCN 0A919 for foreign-made military commodities
Table 4  物品关系类型
Fig.8  关系识别流程与结果
受控类别产品 内容 相关度
3C992 光刻机抗蚀材料 0.899 7
3C002 光刻机抗蚀材料 0.557 9
3B001 制造半导体的设备(光刻机) 0.543 1
3B991 制造半导体的设备(光刻机) 0.519 5
Table 5  基于语义关系的受控类识别结果
Fig.9  受控个体与受控物品之间的关联关系构建方法
Fig.10  个体领域识别与结果
Fig.11  光刻机受管制情况的变化热力图
CCL 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019



人工
识别
370 370 370 350 350 350 350 350 350 350 350 245 245 245 245 245 245 <245, ≥15
<15, >1
<245, ≥15
<15, >1
<245, ≥15
<15, >1
<245, ≥15
<15, >1
<245, ≥15
<15, >1
<193, ≥15
<15, >1
本文
方法
370 370 370 350 350 350 350 350 350 350 350 245 245 245 245 245 245 245,15
15,1
245,15
15,1
245,15
15,1
245,15
15,1
245,15
15,1
193,15
15,1
MRF 人工
识别
/ / 700 / 500 500 500 350 / 180 180 180 180 180 180 95 95 95 95 45 45 45 45
本文
方法
/ / 700 / 500 500 500 350 / 180 180 180 180 180 180 95 95 95 95 45 45 45 45
Table 6  人工识别与机器识别方法的结果比较(数值单位:nm)
识别方法 识别得到受控物品
名词实体匹配/语义索引 3B001、3B991、3C002、3C992
关联关系识别 包含 3A001、3A991、3C001
延伸 3C003、3C004、3C005
Table 7  光刻机受控相关类
识别方法 类别数 物品数 按类别召回率 按物品召回率
人工识别 15 291 100% 100%
机器识别 不识别同尾号 10 279 66.7% 95.9%
识别同尾号 14 283 93.3% 97.3%
Table 8  光刻机相关管制识别召回率
实体数量 可识别领域词数量 可识别率 识别准确率
全部 1 108 791 71.4% 31.7%
中国大陆 101 68 67.3% 83.8%
Table 9  实体领域识别识别率
[1] 化柏林, 李广建. 大数据环境下的多源融合型竞争情报研究[J]. 情报理论与实践, 2015,38(4):1-5.
[1] ( Hua Bolin, Li Guangjian. Research on the Multi-source Fusion Competitive Intelligence Under the Environment of Big Data[J]. Information Studies: Theory & Application, 2015,38(4):1-5.)
[2] Tamada D, Achilleas P. Theory and Practice of Export Control: Balancing International Security and International Economic Relations[M]. Singapore: Springer, 2017.
[3] 彭爽, 张晓东. 论美国的出口管制体制[J]. 经济资料译丛, 2015(2):24-41.
[3] ( Peng Shuang, Zhang Xiaodong. Comments on American Export Control System[J]. Journal of Translation from Foreign Literature of Economics, 2015(2):24-41.)
[4] 彭爽, 曾国安. 美国出口管制政策的演变与启示[J]. 理论月刊, 2014(1):185-188.
[4] ( Peng Shuang, Zeng Guoan. The Evolution and Enlightenment of American Export Control Policy[J]. Theory Monthly, 2014(1):185-188.)
[5] 靳风. 美国出口管制体系概览[J]. 当代美国评论, 2018,2(2):117-120.
[5] ( Jin Feng. Overview of US Export Control System[J]. Contemporary American Review, 2018,2(2):117-120.)
[6] Krauland E J, 黄迎, Egan B. 揭秘美国出口管制黑名单[J]. 中国外汇, 2018(20):39-41.
[6] ( Krauland E J, Huang Ying, Egan B. Deciphering the US Export Control Blacklist[J]. China Forex, 2018(20):39-41.)
[7] 靖德果. 从瓦森纳及美国两用品清单看我国航天军民融合的发展[J]. 军民两用技术与产品, 2018(19):32-37.
[7] ( Jing Deguo. Analyzing the Development of Civil Military Integration in Chinese Aerospace Industry in View of the Control List of Dual-Use Goods from the Wassenaar Agreement and the United States[J]. Dual Use Technologies & Products, 2018(19):32-37.)
[8] 刘禹希. 美国对华航空航天技术出口管制政策体系研究[D]. 合肥: 中国科学技术大学, 2019.
[8] ( Liu Yuxi. Research on America Export Control Policy System of Aerospace Technology to China[D]. Hefei: University of Science and Technology of China, 2019.)
[9] 葛晓峰. 美国两用物项出口管制法律制度分析[J]. 国际经济合作, 2018(1):46-50.
[9] ( Ge Xiaofeng. The Analysis of the Legal System of Export Control of Dual-Use Items in the United States[J]. Journal of International Economic Cooperation, 2018(1):46-50.)
[10] 杨宇田, 陈峰. 列入美国技术出口管制部门受限名单的企事业单位分析[J]. 情报杂志, 2018,37(10):90-96.
[10] ( Yang Yutian, Chen Feng. Analysis of Entities Included in the Restricted List of U.S. Technology Export Control Department[J]. Journal of Intelligence, 2018,37(10):90-96.)
[11] 陆天驰, 闵超, 高伊林, 等. 竞争情报视角下的中美人工智能技术领域差距分析——以美国商品管制清单为例[J]. 情报杂志, 2019,38(11):25-33.
[11] ( Lu Tianchi, Min Chao, Gao Yilin, et al. An Analysis of the Gap of Artificial Intelligence Technology Between China and the United States from the Perspective of Competitive Intelligence: A Case Study of American Commodity Control List[J]. Journal of Intelligence, 2019,38(11):25-33.)
[12] Fellbaum C, Miller G. WordNet: An Electronic Lexical Database[M]. Cambridge, MA: MIT Press, 1998.
[13] Brown K. The Encyclopedia of Language and Linguistics[M]. Oxford: Elsevier, 2005.
[14] Miller G A. WordNet: A Lexical Database for English[J]. Communications of the ACM, 1995,38(11):39-41.
[15] Deerwester S, Dumais S T, Furnas G W, et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science, 1990,41(6):391-407.
doi: 10.1002/(ISSN)1097-4571
[1] 邵琦,牟冬梅,王萍,靳春妍. 基于语义的突发公共卫生事件网络舆情主题发现研究*[J]. 数据分析与知识发现, 2020, 4(9): 68-80.
[2] 叶光辉,徐彤. 基于演化分析的动态城市画像研究*[J]. 数据分析与知识发现, 2020, 4(9): 100-110.
[3] 代建华, 邓育彬. 基于情感膨胀门控CNN的情感-原因对提取*[J]. 数据分析与知识发现, 2020, 4(8): 98-106.
[4] 余本功, 朱梦迪. 基于层级注意力多通道卷积双向GRU的问题分类研究*[J]. 数据分析与知识发现, 2020, 4(8): 50-62.
[5] 余传明, 王曼怡, 林虹君, 朱星宇, 黄婷婷, 安璐. 基于深度学习的词汇表示模型对比研究*[J]. 数据分析与知识发现, 2020, 4(8): 28-40.
[6] 王思丽, 祝忠明, 杨恒, 刘巍. 基于模式和投影学习的领域概念上下位关系自动识别研究 [J]. 数据分析与知识发现, 0, (): 1-.
[7] 翁梦娟,姚长青,韩红旗,王莉军,冉亚鑫. 不均衡数据集下基于CNN的中图分类标引方法 *[J]. 数据分析与知识发现, 2020, 4(7): 87-95.
[8] 唐晓波,高和璇. 基于关键词词向量特征扩展的健康问句分类研究 *[J]. 数据分析与知识发现, 2020, 4(7): 66-75.
[9] 邱尔丽,何鸿魏,易成岐,李慧颖. 基于字符级CNN技术的公共政策网民支持度研究 *[J]. 数据分析与知识发现, 2020, 4(7): 28-37.
[10] 王建冬,于施洋. 构建国家经济大脑的实践探索与初步设想 *[J]. 数据分析与知识发现, 2020, 4(7): 2-17.
[11] 徐红霞,于倩倩,钱力. 基于主题模型和情感分析的话题交互数据观点对抗性分析 *[J]. 数据分析与知识发现, 2020, 4(7): 110-117.
[12] 李轲禹,王昊,龚丽娟,唐慧慧. 学术数据库中研究主题术语的质量测度及分布研究*[J]. 数据分析与知识发现, 2020, 4(6): 91-108.
[13] 魏庭新,柏文雷,曲维光. 词向量和语义知识相结合的汉语未登录词语义预测研究*[J]. 数据分析与知识发现, 2020, 4(6): 109-117.
[14] 杨恒,王思丽,祝忠明,刘巍,王楠. 基于并行协同过滤算法的领域知识推荐模型研究*[J]. 数据分析与知识发现, 2020, 4(6): 15-21.
[15] 焦启航,乐小虬. 对比关系句子生成方法研究[J]. 数据分析与知识发现, 2020, 4(6): 43-50.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn