Advanced Search

数据分析与知识发现, 2020, 4(2/3): 89-100 doi: 10.11925/infotech.2096-3467.2019.0613

专辑

Word2Vec对海关报关商品文本特征降维效果分析*

龚丽娟, 王昊,,, 张紫玄, 朱立平

南京大学信息管理学院 南京 210023

江苏省数据工程与知识服务重点实验室 南京 210023

Reducing Dimensions of Custom Declaration Texts with Word2Vec

Gong Lijuan, Wang Hao,,, Zhang Zixuan, Zhu Liping

School of Information Management, Nanjing University, Nanjing 210023, China

Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China

通讯作者: 王昊,ORCID:0000-0002-0131-0823,E-mail:ywhaowang@nju.edu.cn

收稿日期: 2019-06-5   修回日期: 2019-08-8   网络出版日期: 2020-02-25

基金资助: *本文系江苏省研究生科研与实践创新计划项目“大数据环境下海关商品归类风险分析和规避研究”.  SJCX18_0009
横向课题“海关税收大数据分析咨询项目”的研究成果之一

Received: 2019-06-5   Revised: 2019-08-8   Online: 2020-02-25

摘要

【目的】 对海关平台的高维报关商品特征实现有效降维,提高海关平台的工作效率。【方法】 以国内某海关4个月的商品文本作为语料,从词语相似度与相关度两个微观层面评估生成词向量的质量,并结合SVM算法将传统0-1矩阵、频次降维、信息增益方法与Word2Vec词向量进行对比,以探究其对海关商品文本特征的降维效果。【结果】 对于海关报关商品文本,Word2Vec词向量是一种较为理想的降维方法,且词向量维度为500时,分类效率最高,准确率为93.01%。【局限】 主要针对数据量最多的5大类别进行研究,尚未对其他类别的分类效果进一步探讨。【结论】 Word2Vec用于海关商品文本的降维效果较为理想,能够保证较高的准确率与数据的完整性,并显著降低特征维度。

关键词: Word2Vec ; 支持向量机 ; 自动归类 ; 特征降维

Abstract

[Objective] This study tries to reduce the dimension of custom declaration texts, aiming to improve the efficiency of custom platforms.[Methods] We collected the declaration texts from a Chinese custom in four months as the corpus. Then, we evaluated the quality of the word vectors from the microscopic perspectives of word similarity and relevance. We also combined the traditional 0-1 matrix, frequency reduction and information gain with the SVM algorithm. Finally, we compared the results of these methods with the performance of Word2Vec word vector.[Results] Word2Vec word vector is an ideal dimension reduction method for customs declaration texts, and the classification efficiency was the highest when the word vector dimension reached 500, and the accuracy rate was 93.01%.[Limitations] We only studied the five categories with larger data volume.[Conclusions] The proposed method ensures data accuracy and integrity, which significantly reduces feature dimensions.

Keywords: Word2Vec ; SVM ; Automatic Classification ; Feature Reduction

PDF (905KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

龚丽娟, 王昊, 张紫玄, 朱立平. Word2Vec对海关报关商品文本特征降维效果分析*. 数据分析与知识发现[J], 2020, 4(2/3): 89-100 doi:10.11925/infotech.2096-3467.2019.0613

Gong Lijuan. Reducing Dimensions of Custom Declaration Texts with Word2Vec. Data Analysis and Knowledge Discovery[J], 2020, 4(2/3): 89-100 doi:10.11925/infotech.2096-3467.2019.0613

1 引 言

随着经济全球化的发展,海关平台在国家日常管理中扮演的角色愈发重要[1],同时海关累积的海量进出口报关数据对其决策工作具有重要的参考与应用价值[2]。商品归类是海关基础业务之一,商品归类正确与否对海关办公效率以及国家政策的执行都有重要意义[3]。尽管大部分的进出口商品交易都是合法的,但仅依靠传统的人工方式进行审核,对工作人员的专业背景与商品类目掌握程度具有较高要求[4],受人为影响较大,难以满足海量数据的归类要求。因此,对海关报关商品实现自动归类成为目前亟待解决的问题之一。

国际上通用的进出口商品分类体系为《商品名称及编码协调制度》[5],其采用6位编码,将全部国际贸易商品分为22类、98章,编码前2位代表“章”,“章”的分类有按商品原材料的属性分类以及按商品的用途或性能分类两种方法[6]。中国采用10位编码,其中前8位等效采用HS编码。在海关商品数据中,商品所属类别与其文字描述密切相关,因此,对海关报关商品的归类可转换为文本分类问题。但海关商品类目繁多、数量庞大,若利用传统分类方法,容易导致特征矩阵高维稀疏,影响分类速度及效果[7],降低海关部门工作效率。

Word2Vec[8]作为深度学习用于自然语言处理领域的典型代表之一,其基于上下文将词语映射到低维实数空间,实现文本向量化[9],是近年来备受关注的特征降维工具之一。本文以海关报关商品文本作为语料,分别采用传统One-Hot模型、信息增益、频次降维与Word2Vec词向量方法实现文本表示,结合SVM算法完成分类并对结果进行对比分析,以探讨Word2Vec用于海关商品文本的降维效果。同时本文侧重于从词语间的相似度与相关度两个微观层面评估词向量表示文本的质量,以分析其如何对分类效果产生影响。

2 相关研究

对于海关报关数据量庞大,依靠人工方法进行管理效率有限的情况,在20世纪90年代中期各国海关便推出了一些针对海关自动化处理业务的应用系统[10],如美国海关的自动化瞄准系统[11]及预进口复审系统[12],其中后者旨在加快进口通关速度,解决商品分类等问题;韩国海关开发EDI系统实现了商品归类等问题[13];印度的海关信息技术系统和风险系统管理,为印度出口商提供全面的一站式服务[14]

对海关报关商品的归类实质是文本分类问题。近年来,不少学者在文本分类上做了许多研究,如薛峰等[15]以论文标题和摘要等数据为基础,提出一种基于分类置信度的二次过滤结构的文本分类方法;王杨等[16]利用TF-IDF+SVM方法对极短文本进行分类;吴艾薇等[17]结合中心向量法与KNN算法进行短文本分类,这些研究均获得了较为理想的效果。

Word2Vec自推出以来,许多学者利用其生成的词向量直接或间接表示文本,并用于文本分类。如谢斌红等[18]利用Word2Vec生成词向量表征文本,结合卷积神经网络方法实现隐患信息的自动分类;王煜涵等[19]利用词向量挖掘Twitter文本的情感倾向;谢宗彦等[20]通过词向量构建酒店在线评论情感分析模型;谢日敏等[21]将词向量和TF-IDF方法结合,用于中文图书分类。

尽管Word2Vec在不少领域都取得了不错的效果,但在多义词处理上仍存在局限性,其使用唯一的词向量表示多个语义。针对这一局限,Huang等[22]曾提出利用多个词向量表示多义词,即取各词上下文各5个词对应的词向量做加权平均,将得到的词向量进行聚类,根据聚类结果对处在不同类别下的同一个词打上不同的标签,并看作不同的词重新训练词向量。之后,有学者在此基础上提出基于Skip-Gram模型的最大期望算法,通过该算法实现多义词多个语义的多个向量表示[23],以区分多义词的不同语义。

Word2Vec作为近年来备受关注的特征降维工具,不少学者在使用前容易忽略对文本结构的分析以及对生成词向量的质量评估,而直接将其用于实验研究。考虑到词向量的质量是保证结果有效性的前提[24],本文除了探讨Word2Vec应用于海关报关商品自动归类问题上的降维效果之外,还侧重于从词语相似度和相关度两个微观层面评估生成词向量的质量。

3 数据与方法

3.1 研究总体框架

本文方法分为数据预处理、文本表示、词向量的微观层面分析、SVM分类实验与结果分析5个部分,整体框架如图1所示。数据预处理部分主要包括剔除缺失或无效数据、分词以及去停用词等过程。通过传统0-1矩阵与Word2Vec词向量两种方法表示文本,并从词语的相似度与相关度两个微观层面分析生成词向量的质量,探究Word2Vec相比于传统文本表示方法所带来的降维效果。此外,为探究Word2Vec是否是应用于海关报关商品数据上较优的降维方法,笔者加入信息增益与频次降维两种常见的方法用于对比,实验采用的分类器均为支持向量机[25]

图1

图1   研究框架

Fig.1   General Framework


3.2 数据来源及预处理

本文数据来源于国内某海关2016年3月-2016年6月的报关数据,所涉及数据主要包括海关商品名称(Goods)、商品描述(Description)和海关HS编码(HS_id)三个字段,共计515 186条商品记录,各字段数据具体信息如表1所示。其中,HS_id字段为10位编码,Goods和Description两个字段为文本,例如:在商品名称字段中,“人造棉印花布”是“人造棉”、“印花”和“布”三个词语的简单组合,其对应的商品描述内容为“机织|印花|平纹|100%人造棉|150CM|188G/M2|无品牌”。对商品不同层面的描述均使用“|”进行分隔,两个字段的文本内容均为词语的简单组合,且词语间无明显上下文逻辑关系。

表1   用于实验的数据信息

Table 1  Data for Experiments

字段名称字段表示主要内容
商品名称Goods通常是商品名称或对商品的直接描述,不允许为空值
商品描述Description通常是对商品的具体说明,如尺寸、原材料、成分、用途等,允许为空值
HS编码HS_id10位编码,前两位编码为“章”

新窗口打开| 下载CSV


在数据预处理过程中,剔除商品描述字段内容为空的无效记录(共计19 253条记录),最终得到有效实验数据共计495 933条记录。由于文本中部分英文和数字具有一定的特殊含义,如“PVC”是手套材质、“SAMSON”是麦克风品牌名称、“C01”是麦克风型号、“POPULUS”是杨树的英文名等,因此在分词与去停用词过程中,主要针对原始数据中的符号以及无实际意义仅起连接作用的单字词进行停用处理,分词工具采用Jieba分词。

3.3 基于SVM的海关报关商品归类

为充分利用文本信息,将Goods和Description两个字段进行拼接、清洗、分词与去停用词等预处理,最终得到36 020个术语。本实验主要分为两部分:

(1)构建传统0-1矩阵用来表示文本,即根据术语是否在记录中出现作为权重,将样本中所有商品记录向量组合在一起,形成记录×术语矩阵(Record×Terms Matrix, RTM),矩阵值为0或1;

(2)利用Word2Vec生成每个词对应的词向量,对记录中各词的词向量进行累加以表示单个记录。由于HS编码前2位是根据商品原材料的属性以及商品的用途或性能两个方面进行划分的,因此采用HS编码前2位作为分类标记,利用台湾大学林智仁等开发的LIBSVM软件包[26]完成实验。

考虑到得到的术语数量过多,容易出现构建特征矩阵困难或特征矩阵过于稀疏冗长的问题,因此对文本特征进行初次降维是必要的。有研究表明,利用TF-IDF方法提取特征并用于HS编码召回实验时,编码前5位召回的准确率不足70%,且该方法在其他实验上的效果也不太理想[27]。因此,实验采用根据词语频次进行特征筛选的方法完成初次降维,即剔除频次小于3的术语,最终得到7 824个术语作为特征。

3.4 基于Word2Vec的词向量化

(1) 词向量表示方法

词向量最早由Hinton[28]提出,经典原模型由Bengio等[29]建立。其表示方法主要有One-Hot Representation[30]和Distributed Representation[31]两种。其中前者根据词语是否在文本中出现作为权重,向量长度即词典的大小。这种表示方法虽然简单,但特征矩阵可能稀疏冗长,并且在语义表达方面能力有限。而后者能够刻画词语的语义信息,通过低维的向量表示文本,弥补了前者的缺点。

(2) Word2Vec

Word2Vec是谷歌在2013年推出的面向大众的自然语言处理工具,其算法借鉴神经网络语言模型(Neural Network Language Model, NNLM)的思想,根据给定语料库,将文本中的词映射到一个低维、稠密的实数向量空间,每一维都代表了词的浅层语义特征[32],从而实现特征降维。其包含CBOW(Continuous Bag Of Words)和Skip-Gram两种训练模型[31,33],从不同的角度描述了周围词与当前词的关系。

3.5 评价指标

使用总体正确率(P)、各类别正确率( Micro_Pi)、各类别召回率( Micro_Ri)及调和平均值( Micro_F1i)这4个指标对实验结果进行评价,各指标计算方法分别如公式(1)-公式(4)所示。其中, P_num为分类正确的条目数, Sum_num为测试条目总数, TP_num为识别为正的正样本数量, FP_num为识别为正的负样本数量, FN_num为识别为负的正样本数量, i为分类标记号。

P=P_numSum_num×100%
Micro_Pi=TP_numTP_num+FP_num×100%
Micro_Ri=TP_numTP_num+FN_num×100%
Micro_F1i=2×Micro_Pi×Micro_RiMicro_Pi+Micro_Ri×100%

4 实验结果分析

4.1 商品分类实验及分析

结合中国海关HS编码的特点,采取HS编码前2位作为分类标记。由于来源数据中不同类目下数据量差异较大,且部分类目的数据量过少,因此为保证一定的数据量,选择来源数据中数据量最大的5个类进行实验,其类别编码与对应商品类型信息如表2所示。同时为保证训练充分,用于训练的各类别商品记录数据量较为均衡,用于实验的数据情况及结果如表3所示,得到的各类别分类结果如图2所示。

表2   用于实验的类别编码及对应商品类型

Table 2  Category Codes and Corresponding Product Types

序号类别编码商品类型
185电机、电气设备及其零件;录音机及放声机、电视图像、声音的录制和重放设备及其零件、附件
284核反应堆、锅炉、机器、机械器具及其零件
339塑料及其制品
490光学、照相、电影、计量、检验、医疗或外科用仪器及设备、精密仪器及设备;上述物品的零件、附件
573钢铁制品
6其他除了以上5类的其他所有商品类别

新窗口打开| 下载CSV


表3   用于实验的数据情况及结果

Table 3  Data and Results in the Experiment

序号类别编码训练测试总计特征维度P
1852 4475623 0097 82492.90%
2842 3636252 988
3392 5554533 008
4902 5404472 987
5732 6263712 997
6其他2 4695423 011
总计15 0003 00018 000

新窗口打开| 下载CSV


图2

图2   HS编码1-2位作为分类标记的实验结果

Fig.2   Experimental Result of HS Code 1-2 Bits as Classification Mark


结合表2表3图2可以看出:(1)以One-Hot模型表示文本时,虽然特征维度较高,但得到的整体准确率较高,为92.90%;(2)在划分的6个类别中,“39”类的准确率最高,达到97.14%,其原因一方面可能由于该类训练集与测试集比例最大,训练相对充分,另一方面可能由于该类商品的文本内容与其他类别相比具有较高的区分度;(3)“其他”与“90”类的分类准确率相对较低,对原始记录进行分析发现,“90”类商品描述文本与其余各类具有一定的相同或相似部分,“其他”类中包含类别较多,因此可能导致其准确率较低。不难看出,进行初步降维后整体分类效果比较理想,特征维度已由原来的36 020降低至7 824,但就海关日常办公而言,这样的特征维度依然过高,容易影响海关的办公效率,因此,对特征进行二次降维是十分必要的。

4.2 Word2Vec的结果及分析

采用Python中的Word2Vec-0.9.2[34]工具包实现词向量化,训练模型默认为CBOW,特征向量维度为100,窗口大小为5。从词语间的相似度与相关度两方面分析其生成词向量的质量。(1) 词语间的相似度通过计算向量余弦相似度能够定量地度量词语间的相似度,两向量的夹角余弦值越接近于1,即两向量越接近[35],两词相似度越高。通过对词语间相似度的计算,Word2Vec认为两词相似主要分为以下三种情况。①若两词具有紧密的词共现关系,那么认为这两词相似。词共现指两词间具有统计关系[36],若两词经常在同一窗口单元中共同出现,则说明它们能够表达该文本一定的语义信息,因此可认为两词相似。例如:“胶合板”的相似词如表4所示。

表4   “胶合板”的相似词TOP10

Table 4  Similar Words to “Plywood”

相似词相似度描述
杨木0.913 592大多与“胶合板”“木制”“POPULUS”“多层”等词共现
0.894 916大多与“胶合板”“木制”“多层”“覆膜”共现
木制0.877 032大多与“胶合板”“木制”共现
桦木0.820 524大多与“胶合板”“杨木”“原木”共现
覆膜0.818 699大多与“胶合板”共现
白杨木0.782 977大多与“胶合板”“多层板”“杨木”共现
Poplar0.777 427大多与“杨木”“木制”共现
木托盘0.775 225大多与“胶合板”“木制”“杨木”共现
松木0.774 623大多与“胶合板”“木制”共现
白杨树0.761 025大多与“胶合板”共现

新窗口打开| 下载CSV


表4可以发现:1)给定词“胶合板”的高相似词均与其具有紧密的词共现关系;2)对原始记录进行分析发现,相似词列表中各词的HS编码前2位大部分对应于“44”,这与含“胶合板”这一商品对应相同的类别,从这一点看,Word2Vec在度量文本相似度上效果较为理想;3)符合此规律的词有“手套”“杨木”“拉丁”“学名”等。

②若两个词共现关系较弱,但具有类似的上下文词语,那么认为两词相似。

若两个词经常与同一批词共同出现,即具有相似的上下文,可认为两词是可替换的。例如:“CJBCO”一词与“PVC”“手套”“工业用”“品牌”“其他”“无”等词具有紧密的词共现关系,但与相似词列表中各词存在较弱的词共现或无词共现关系,其相似词列表如表5所示。

表5   “CJBCO”的相似词TOP10

Table 5  Similar Words to “CJBCO”

相似词相似度描述
日医0.972 201大多与“PVC”“手套”“工业用”“品牌”“型”“其他”共现
MYECO0.934 574大多与“PVC”“手套”“品牌”“其他”“无”共现
超轻0.906 915大多与“PVC”“手套”“工业用”“品牌”“型”“其他”共现
褐黄0.894 948大多与“PVC”“手套”“无”“品牌”“型”共现
假花0.833 605大多与“无”“其他”共现
SC550.826 973大多与“PVC”“品牌”共现
安全网0.824 389大多与“PVC”“无”“其他”共现
淋浴房0.823 842大多与“无”“其他”共现
超薄0.823 199大多与“PVC”“手套”“工业用”“无”“品牌”“其他”共现
鞋带0.820 205共4条,大多与“PVC”“无”“品牌”“其他”共现

新窗口打开| 下载CSV


表5可以发现:1)“CJBCO”的高相似词均与其存在十分弱的词共现关系,但两者具有十分类似或固定的上下文词语,且相似词列表中各词数据量较小;2)对原始记录分析发现,含“CJBCO”的商品记录对应的HS编码前2位均为“39”,且在相似词列表中“日医”“MYECO”“超轻”“褐黄”与其所属类别相同,而表5中诸如“假花”“安全网”“沐浴房”“鞋带”则对应为其他多个类别,但这类具有相似上下文却属于不同类别的商品数据量十分少,因此对分类效果的影响可能不大。

③在多义词的处理上存在一定局限,难以捕获准确的语义。

在给定语料中,对于“苹果”一词,既有以水果这一语义出现,如苹果罐头、苹果味、苹果干、冻干苹果等词,也有以产品品牌这一语义出现,如苹果手机、苹果iPhone、苹果iPod、苹果iWatch等词,两种语义差异较大,且以品牌这一语义出现的数据居多。给定词“苹果”的相似词如表6所示。

表6   “苹果”的相似词TOP10

Table 6  Similar Words to “Apple”

相似词相似度描述
Touch0.666 321大多与“苹果”“iPod”“iOS”共现
苹果汁0.630 865大多与“苹果”共现
iPod0.629 926大多与“苹果”“iPod”“iOS”共现
Letv0.623 023大多与“移动电话”“电话机”“TD”“LTE”“通讯”共现
0.614 639大多与“苹果”共现
果粒0.611 279大多与“饮料”以及其他水果名共现,如“菠萝”“葡萄”
MAX4700.597 105大多与“Letv”共现
草莓0.595 512无明显词共现
西番莲0.591 664大多与“饮料”与一些水果名共现
X5220.583 301大多与“Letv”共现

新窗口打开| 下载CSV


表6可以看出:1)对原始海关记录分析发现,“苹果”一词以水果含义出现的商品记录数据量较少,对应类别较多且分散,而品牌含义的商品记录数据量大,且以“85”类和“84”类为主,因此高相似度词均反映为品牌这一语义;2)由于“苹果”的两种语义使用相同的词向量表示,反映在相似词列表和相似度数值上,Word2Vec对其两种语义区分效果较差;3)类似的词汇还有“糖果”,其在原始记录中以冰糖果木材和食用糖果两种含义出现,其中以木材含义的商品记录居多,且对应类别大多为“44”类,相比于“苹果”,可食用这一含义对应的商品记录数量十分少且集中,因此该词的高相似词大多与木材有关,语义区分效果比“苹果”好;4)具有多个语义的术语在原始海关商品记录中所占比例很小,其存在可能不会对整体分类效果带来太大影响。

从词语相似度的分析可以看出:

①Word2Vec基于局部上下文提取语义,认为词共现关系紧密或上下文环境相似的两词具有较高相似度,对于海关商品描述这类无明显逻辑关系的文本,这样的“相似度”更多的是词语间的“关联性”,而非语义相似;

②当词语相似度较高时,其商品所属HS编码前2位往往较为集中,这一结果理论上能够对分类效果产生积极影响。

(2) 词语间的相关度

利用Word2Vec生成的词向量可分析词语间的相关度。相关度体现在以任何形式的相互关联上,能够反映文本的组合方式[37],如上下位关系、同义关系、部件-整体关系等[38]。本文得到的词语间相关度主要有上下位关系、品牌关系、用途关系和成分关系4种。

①上下位关系

词语的上下位关系大致等同于逻辑上的种属关系。部分上下位关系结果如表7所示,其中,Relationship为给定关系,Example为根据给定关系得到的关系。

表7   词语之间的上下位关系

Table 7  Subordinate Relation Between Words

RelationshipExample1Example2
菜刀-厨具
菜刀-厨具
菜刀-厨具
镊子-手术器械
镊子-手术器械
镊子-手术器械
支架-固定装置
支架-固定装置
支架-固定装置
沙发-休息
羽毛球-羽毛球拍
苹果-芒
玻璃杯-餐桌
沙发-架子
洗洁精-厨房
哑铃-健身
椅子-沙发
羽毛球-野营
哑铃-铃片
坐垫-椅
手套-劳保
羽毛球-羽毛球拍
轮胎-子午线
哑铃-健身
坐垫-座椅
沙发-软垫
螺丝-螺钉

新窗口打开| 下载CSV


表7可以看出:Word2Vec能够捕获词语间一定的上下位关系,但效果并不理想。对原始商品记录分析可以发现,来源数据中以上下位关系进行商品描述的文本较少,即使出现,也可能在分词阶段被切分为多个词,从而表现为其他关系。例如:通过“镊子-手术器械”这一上下位关系,得到“洗洁精-厨房”“哑铃-健身”这些与给定关系较为接近的词语对(其中,“厨房”“健身”分别是厨房用品、健身器材的分词结果),但“哑铃-健身”也可理解为用途关系。

②品牌关系

给定“商品-商品品牌”这个关系,得到的关系如表8所示。

表8   “商品-商品品牌”关系

Table 8  “Commodity-Commodity Brand” Relationship

RelationshipExample1Example2
牙膏-高露洁
牙膏-高露洁
牙膏-高露洁
手机-苹果
牙膏-狮王
漱口水-那氏
纸尿裤-花王
纸尿裤-花王
纸尿裤-花王
卫生巾-花王
麦克风-受话器
桌子-客厅
电脑-笔记本电脑
漱口水-口腔
牙膏-狮王
洗衣机-滚筒
牙膏-刷牙
卫生巾-MERRIES
纸尿裤-王牌
坐垫-座椅
床垫-填充物
床垫-垫子
洗衣粉-漱口水
手机-移动电话
牙刷-牙齿
毛巾-盥洗
电脑-计算机

新窗口打开| 下载CSV


表8可以看出:1)根据给定关系,得到如“卫生巾-花王”“纸尿裤-王牌”等反映相同层面关系的词(其中“王牌”是花王牌和狮王牌分词之后的结果);2)对于“卫生巾-MERRIES”这一关系,“MERRIES”是纸尿裤的品牌,而非卫生巾,但“MERRIES”属于“花王”的子品牌,因此在这一关系的识别上出现误差,其他的识别效果也不理想。这一现象与报关单填写不规范、品牌关系复杂、子品牌较多有关,且同一品牌的商品种类较多,可能会对商品分类效果带来一定消极影响。

③用途关系

给定“商品-商品用途”这个关系,得到的关系如表9所示。可以看出:1)通过给定关系得到的结果效果较好,如“毛巾-盥洗”“漱口水-清洁”“灯具-照明”等;2)分析原始记录发现,相当一部分商品的用途描述较长,在分词时容易被切分为多个词语,从而导致在关系识别时出现误差,如沙发的用途大多描述为“家庭用”“家庭或办公用”“家庭客厅用”“坐具”等,且在包含“沙发”的商品描述中,用途描述的前后文往往是材质或成分的说明,这些因素或多或少对关系的捕获带来消极影响。

表9   “商品-商品用途”关系

Table 9  “Commodity-Commodity Use” Relationship

RelationshipExample1Example2
牙刷-刷牙
牙刷-刷牙
牙刷-刷牙
毛巾-盥洗
毛巾-盥洗
毛巾-盥洗
沙发-休息
手套-劳保
手套-劳保
毛巾-盥洗
纸尿裤-花王
支架-底座
洗洁精-洁厕
牙膏-狮王
灯-照明用
日光灯-吊灯
洗洁精-除菌
烤箱-蒸汽
洗洁精-厨房
漱口水-清洁
沙发-架子
文具-厨具
手套-浸胶
坐垫-椅
毛巾-盥洗
毛巾-健身
灯具-照明

新窗口打开| 下载CSV


④成分关系

给定“商品-商品成分/材质”这个关系,得到的结果如表10所示。

表10   “商品-商品成分/材质”关系

Table 10  “Commodity-Commodity Composition / Material” Relationship

RelationshipExample1Example2
胶合板-杨木
胶合板-杨木
胶合板-杨木
胶合板-杨木
假花-塑料
假花-塑料
T恤衫-针织
T恤衫-针织
手套-乳胶
裤子-马甲
桌子-椅子
杯子-餐具
短袜-无袖
胶合板-Paulownia
胶合板-杨
棉签-硬管
拼板-南洋
坐垫-椅
毛巾-盥洗
假花-KD53624B2
沙发-休息
手套-雨衣
拼板-楹
床单-被套

新窗口打开| 下载CSV


表10可以看出:1)根据“商品-商品成分/材质”这一关系,得到的结果一般,其中效果较好的有“手套-乳胶”“胶合板-杨”(“杨”是“杨木制”的分词结果);2)分析原始记录发现,海关平台对同一类商品的材质或成分描述没有固定标准,且用途描述常常出现在材质描述的前后文中,从而影响关系识别的准确率。例如“沙发”材质或成分的描述往往跟在用途描述之后,因此在关系识别时容易出现“沙发-休息”这样的结果。

从词语之间的相关度分析,可以发现:

①在给定的4种关系中,Word2Vec对用途关系的识别效果较理想,上下位关系识别效果较差,这可能与语料中商品描述多为用途描述、鲜有上下位关系描述有关;

②在商品描述文本中,对材质、用途与品牌的描述通常出现在同一上下文环境中,因此容易在词语相关度的判断上带来较大误差;

③若商品名称或某一关系的描述文本较长,容易在分词过程中失去部分信息,或者出现分词结果是另一商品的描述的情况,从而影响关系识别的准确性。如“坐垫”既是商品名称,也是“坐垫椅”的分词结果,虽然该词在以上4种关系的识别中均表现得不太理想,但Word2Vec能够基于上下文将“坐垫”与“椅”联系起来,识别出两者属于同一类别,并认为两者相似或相关。

4.3 词向量化后商品归类实验结果及分析

本实验的实验数据与4.1节保持一致,利用Word2Vec实现词向量化,即每个术语对应一个词向量,将每条记录所包含术语的词向量进行累加以表示单条记录。为与4.1节的特征保持在同一个数量级,初次实验中笔者将词向量维度设置为1 000,得到整体准确率为93.37%,各类别分类结果如图3所示。

图3

图3   词向量化后1 000维度的商品分类实验结果

Fig.3   Product Classification Results in 1,000 Dimensions after Word Vectorization


图3可以看出:

(1)词向量维度为1 000时,除“其他”类别外,各类的准确率均达到90%以上,整体效果较理想;

(2)总体来说,“84”类、“39”类和“73”类的识别准确率较高,分析原始记录发现,这三类商品描述文本具有较高的区分度,而其余类别商品描述具有部分相同或相似术语,区分度较低;

(3)“其他”类别商品数据类目繁多,可能导致识别准确率相对较差。

将这一实验结果与4.1节进行对比,可以发现:

(1)就整体效果而言,相比于传统One-Hot模型,使用Word2Vec在略微提高整体准确率的同时,能显著压缩文本特征。

(2)就各类别商品分类情况而言,“85”类、“39”类和“73”类的准确率相对稳定,“其他”类别的分类准确率下降较为明显,可能是由于传统One-Hot模型根据术语出现与否作为特征,词语间相互独立,因此当“其他”类别中某一商品记录与其余5类具有较大差异时,也不会对其准确率带来较大影响,而Word2Vec基于上下文信息生成词向量,当“其他”类别数据中类别较多、类别间差异较大时,可能导致关系难以捕获从而降低其分类准确率。

(3)“84”类和“90”类分类准确率得到明显提高,不难发现,“84”类商品主要是车辆、家电、办公用品及其零件,“90”类商品包含较多的车辆零件信息,两类商品描述文本具有较多相似部分,但Word2Vec词向量能够捕获一定的语义并对两者加以区分,给“84”类商品的分类效果带来积极影响。

考虑到特征为1 000维度时,不论是海关平台实际应用还是用于后续的深度学习模型上,其维度依然过高,因此,尝试不断降低词向量维度,观察不同维度词向量对分类效果的影响,实验结果如图4所示。

图4

图4   不同维度词向量对分类准确率的影响

Fig.4   Word Vectors of Different Dimensions on Classification Accuracy


图4可以看出:

(1)随着特征维度的增加,整体准确率呈现不断上升的趋势,当词向量维度为500维时,整体准确率依然保持在93%以上;

(2)当词向量维度为100维时,整体准确率降至86.77%,其原因可能是过多特征的丢失。不难看出,Word2Vec应用在海关报关商品文本上具有较为理想的降维效果,且词向量维度为500维时分类效率最佳。

为探究Word2Vec是否是海关商品归类问题上较优的降维方法,笔者加入频次降维(Term Frequency, TF)与信息增益(Information Gain, IG)两种常见方法,并与词向量为500维的实验结果进行对比,实验数据与4.1节保持一致,根据术语是否出现作为权重构建特征矩阵,两个实验的数据情况及整体准确率分别如表11表12所示,不同降维方法的分类结果对比如图5所示。需要说明的是,频次降维的具体过程为取频次最高的前500个术语作为特征,但存在多个排名为500的术语,因此取频次大于66次的术语作为特征,共得到506个术语,整体准确率为84.33%;信息增益具体过程是计算所有术语的信息增益值,取数值最大的前500个术语作为特征,整体准确率为84.77%。

表11   TF实验的数据情况及结果

Table 11  Data and Results of TF Experiments

序号类别编码训练测试总计特征维度整体准确率
1852 1624982 66050684.33%
2842 0485732 621
3392 3564252 781
4902 2213432 564
5732 1814072 588
6其他2 2685042 772
总计13 2362 75015 986

新窗口打开| 下载CSV


表12   IG实验的数据情况及结果

Table 12  Data and Results of IG Experiments

序号类别编码训练测试总计特征维度整体准确率
1852 1594972 65650084.77%
2842 0295702 599
3392 3564252 781
4902 2243432 567
5732 1814072 588
6其他2 2625022 764
总计13 2112 74415 955

新窗口打开| 下载CSV


图5

图5   不同降维方法对分类的影响效果

Fig.5   Effect of Different Dimensionality Reduction Methods on Classification


综合表11表12图5可以看出:

(1)Word2Vec的整体准确率明显高于TF与IG两种方法;

(2)利用TF与IG方法降维时,原始训练与测试数据中均出现相当一部分数据丢失,从而导致无法识别这些商品,相比之下Word2Vec则不存在数据丢失的问题;

(3)在海关商品文本特征的降维上,Word2Vec具有较为理想的降维效果,有理由推测,对于同一类别数据内容较为相似或具有一定重复次数的规范化文本,使用Word2Vec能够有效实现降维。

5 结 语

本研究将国内某海关平台4个月的报关商品名称与商品描述的文本作为语料,HS编码前2位作为分类标记,分别通过传统0-1矩阵与Word2Vec词向量的方法构建文本特征矩阵,并结合SVM算法进行分类实验,以探究Word2Vec词向量在海关商品文本的降维效果。侧重于从词语间的相似度与相关度两个微观层面,分析其生成词向量用于文本表示的质量,进而探究其如何影响分类。最后,为探究Word2Vec是否是海关商品归类问题上较为理想的降维方法,加入频次降维与信息增益两种常见方法完成对比实验。

研究结果表明,相比于传统One-Hot模型,将Word2Vec应用于海关报关商品文本上时,降维效果显著,且在词向量维度为500时,整体准确率略高于One-Hot模型,分类效率最高。在与频次降维、信息增益两种方法进行对比时不难看出,Word2Vec不仅在整体准确率上具有明显的优势,还能够保证数据的完整性,避免出现部分商品无法识别的情况。总的来说,在海关报关商品自动归类问题上,Word2Vec具有较为理想的降维效果,这一结论能够为后续将深度学习模型应用于海关平台的研究提供参考。

但本文也存在一些不足之处:由于海关报关数据存在一定季节性差异,本文数据仅涉及2016年3月至6月,可能代表性不足;仅从词语的相似度和相关度两个微观角度分析生成词向量的质量,未来可考虑通过聚类与短语分析等方法进行补充分析。

作者贡献声明:

龚丽娟:参与讨论研究思路,进行实验,论文撰写与修订;

王昊:提出研究思路,设计研究方案;

张紫玄:参与讨论研究思路,辅助进行实验;

朱立平:参与讨论研究思路。

利益冲突声明:

所有作者声明不存在利益冲突关系。

支撑数据:

支撑数据由作者自存储, E-mail:echogong@smail.nju.edu.cn。

[1] 朱立平. haiguan.json. 由海关处获得的原始数据.

[2] 龚丽娟. wenben.dbf. 经整理后实验数据.

参考文献

Zhang S, Zhao S .

The Implication of Customs Modernization on Export Competitiveness in China[A]// Impact of Trade Facilitation on Export Competitiveness: A Regional Perspective

[M]. United Nations Economic and Social Commission for Asia and the Pacific, 2009,66:121-131.

[本文引用: 1]

Laporte B .

Risk Management Systems: Using Data Mining in Developing Countries’ Customs Administrations

[J]. World Customs Journal, 2011,5(1):17-27.

[本文引用: 1]

胥丽娜 .

对外经贸实务

[J].对外经贸实务, 2015(11):70-73.

[本文引用: 1]

( Xu Lina .

The Risk of Customs Commodity Classification Errors and Its Prevention

[J]. Practice in Foreign Economic Relations and Trade,2015(11):70-73.)

[本文引用: 1]

宗慧民 . 海关商品归类学[M]. 北京: 中国海关出版社, 2009.

[本文引用: 1]

( Zong Huimin. Customs Commodity Classification[M]. Beijing: China Customs Press, 2009.)

[本文引用: 1]

秦阳 . 国际海关研究[M]. 拉萨: 西藏人民出版社, 1996.

[本文引用: 1]

( Qin Yang. International Customs Research[M]. Lhasa: Tibet People’s Publishing House, 1996.)

[本文引用: 1]

世界海关组织. 海关商品归类手册[M]. 王雯译.北京: 中国海关出版社, 2002.

[本文引用: 1]

( World Customs Organization. Customs Commodity Classification Manual[M]. Translated by Wang Wen. Beijing: China Customs Press, 2002.)

[本文引用: 1]

代六玲, 黄河燕, 陈肇雄 .

中文文本分类中特征抽取方法的比较研究

[J]. 中文信息学报, 2004,18(1):27-33.

[本文引用: 1]

( Dai Liuling, Huang Heyan, Chen Zhaoxiong .

A Comparative Study on Feature Selection in Chinese Text Categorization

[J]. Journal of Chinese Information Processing, 2004,18(1):27-33.)

[本文引用: 1]

Al-Amin M, Islam M S, Uzzal S D .

Sentiment Analysis of Bengali Comments with Word2Vec and Sentiment Information of Words

[C]//Proceedings of the 2017 International Conference on Electrical, Computer and Communication Engineering. IEEE, 2017: 186-190.

[本文引用: 1]

周顺先, 蒋励, 林霜巧 , .

基于Word2Vector的文本特征化表示方法

[J]. 重庆邮电大学学报:自然科学版, 2018,30(2):272-279.

[本文引用: 1]

( Zhou Shunxian, Jiang Li, Lin Shuangqiao , et al.

Characteristic Representation Method of Document Based on Word2Vector

[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science Edition, 2018,30(2):272-279.)

[本文引用: 1]

杨海 .

现代海关制度建设中的难点及对策研究

[D]. 武汉:华中科技大学, 2008.

[本文引用: 1]

( Yang Hai .

A Research on Crux and the Counterplan Within Construction of the Modern Customs System

[D]. Wuhan: Huazhong University of Science and Technology, 2008.)

[本文引用: 1]

Zdanowicz J S .

Detecting Money Laundering and Terrorist Financing via Data Mining

[J]. Communications of the ACM, 2004,47(5):53-55.

[本文引用: 1]

唐麒麟, 李长生 .

中国海关

[J]. 中国海关, 1994(11):44-45.

[本文引用: 1]

( Tang Qilin, Li Changsheng .

Introduction to the US Customs “Pre-Import Review System”

[J]. China Customs, 1994(11):44-45.)

[本文引用: 1]

操辉 .

中国海关

[J].中国海关, 2001(7):60-61.

[本文引用: 1]

( Cao Hui .

South Korea Customs Develops Risk Management System Wholeheartedly

[J]. China Customs, 2001(7):60-61.)

[本文引用: 1]

张荣忠 .

中国海关

[J].中国海关, 2004(8):47-48.

[本文引用: 1]

( Zhang Rongzhong .

Great Progress in Indian Customs

[J]. China Customs, 2004(8):47-48.)

[本文引用: 1]

薛峰, 胡越, 夏帅 , .

基于论文标题和摘要的短文本分类研究

[J]. 合肥工业大学学报:自然科学版, 2018,41(10):1343-1349.

[本文引用: 1]

( Xue Feng, Hu Yue, Xia Shuai , et al.

Research on Short Text Classification Based on Paper Title and Abstract

[J]. Journal of Hefei University of Technology: Natural Science, 2018,41(10):1343-1349.)

[本文引用: 1]

王杨, 许闪闪, 李昌 , .

基于支持向量机的中文极短文本分类模型[J/OL]

计算机应用研究, 2020,37(2). DOI: 10.19734/j.issn.1001-3695.2018.06.0514.

[本文引用: 1]

( Wang Yang, Xu Shanshan, Li Chang , et al.

Classification Model Based on Support Vector Machine for Chinese Extremely Short Text[J/OL]

Application Research of Computers, 2020,37(2). DOI: 10.19734/j.issn.1001-3695.2018.06.0514.)

[本文引用: 1]

吴艾薇, 雷景生 .

面向电力客户投诉信息的短文本分类算法的改进技术

[J]. 上海电力学院学报, 2017,33(6):597-600.

[本文引用: 1]

( Wu Aiwei, Lei Jingsheng .

An Improved Technique for Short-text Classification Algorithm for Power Customer Complaint Information

[J]. Journal of Shanghai University of Electric Power, 2017,33(6):597-600.)

[本文引用: 1]

谢斌红, 马非, 潘理虎 , .

煤矿安全隐患信息自动分类方法

[J]. 工矿自动化, 2018,44(10):10-14.

[本文引用: 1]

( Xie Binhong, Ma Fei, Pan Lihu , et al.

Automatic Classification Method of Coal Mine Safety Hidden Danger Information

[J]. Industry and Automation, 2018,44(10):10-14.)

[本文引用: 1]

王煜涵, 张春云, 赵宝林 , .

卷积神经网络下的Twitter文本情感分析

[J]. 数据采集与处理, 2018,33(5):921-927.

[本文引用: 1]

( Wang Yuhan, Zhang Chunyun, Zhao Baolin , et al.

Sentiment Analysis of Twitter Data Based on CNN

[J]. Journal of Data Acquisition and Processing, 2018,33(5):921-927.)

[本文引用: 1]

谢宗彦, 黎巎, 周纯洁 .

基于Word2Vec的酒店评论情感分类研究

[J]. 北京联合大学学报:自然科学版, 2018,32(4):34-39.

[本文引用: 1]

( Xie Zongyan, Li Nao, Zhou Chunjie .

Research on Emotional Classification of Hotel Comments Based on Word2Vec

[J]. Journal of Beijing Union University: Natural Science, 2018,32(4):34-39.)

[本文引用: 1]

谢日敏, 陈杰, 游贵荣 , .

基于Word2Vec的中文图书分类研究

[J]. 云南民族大学学报:自然科学版, 2018,27(4):335-339.

[本文引用: 1]

( Xie Rimin, Chen Jie, You Guirong , et al.

A Word2Vec-Based Study of the Classification of Chinese Books

[J]. Journal of Yunnan Nationalities University: Natural Science Edition, 2018,27(4):335-339.)

[本文引用: 1]

Huang E H, Socher R, Manning C D , et al.

Improving Word Representations via Global Context and Multiple Word Prototypes

[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Association for Computational Linguistics, 2012: 873-882.

[本文引用: 1]

Tian F, Dai H, Bian J , et al.

A Probabilistic Model for Learning Multi-Prototype Word Embeddings

[C]// Proceedings of the 25th International Conference on Computational Linguistics: Technical Papers. 2014: 151-160.

[本文引用: 1]

白淑霞, 鲍玉来, 张晖 .

基于词向量包的自动文摘方法

[J]. 现代情报, 2017,37(2):8-13.

[本文引用: 1]

( Bai Shuxia, Bao Yulai, Zhang Hui .

Automatic Summarization Based on Bag of Word Vector

[J]. Journal of Modern Information, 2017,37(2):8-13.)

[本文引用: 1]

Zhang K, Xu H, Tang J , et al.

Keyword Extraction Using Support Vector Machine

[C]// Proceedings of the 7th International Conference on Web-Age Information Management. Springer, 2006: 85-96.

[本文引用: 1]

LIBSVM[CP/OL]. [2016-12-22].https://www.csie.ntu.edu.tw/~cjlin/libsvm/.

URL     [本文引用: 1]

张紫玄, 王昊, 朱立平 , .

中国海关HS编码风险的识别研究

[J]. 数据分析与知识发现, 2019,3(1):72-84.

[本文引用: 1]

( Zhang Zixuan, Wang Hao, Zhu Liping , et al.

Identifying Risks of HS Codes by China Customs

[J]. Data Analysis and Knowledge Discovery, 2019,3(1):72-84.)

[本文引用: 1]

Hinton G E .

Learning Distributed Representations of Concepts

[C]//Proceedings of the 8th Annual Conference of the Cognitive Science Society. 1989: 1-12.

[本文引用: 1]

Bengio Y, Ducharme R, Vincent P , et al.

Neural Probabilistic Language Models[A]// Innovations in Machine Learning: Theory and Applications

[M]. Springer, 2006: 137-186.

[本文引用: 1]

Mathew J, Radhakrishnan D .

An FIR Digital Filter Using One-Hot Coded Residue Representation

[C]// Proceedings of the 10th European Signal Processing Conference. IEEE, 2000: 1885-1888.

[本文引用: 1]

Mikolov T, Chen K, Corrado G , et al.

Efficient Estimation of Word Representations in Vector Space

[OL]. arXiv Preprint,arXiv:1301.3781.

[本文引用: 2]

Zheng X Q, Chen H Y, Xu T Y .

Deep Learning for Chinese Word Segmentation and POS Tagging

[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, Seattle, WA, USA. 2013: 647-657.

[本文引用: 1]

Mikolov T, Sutskever I, Chen K , et al.

Distributed Representations of Words and Phrases and Their Compositionality

[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. 2013,2:3111-3119.

[本文引用: 1]

Word2Vec 0.9.2[CP/OL]. [2017-09-19]. https://pypi.org/project/Word2Vec/.

URL     [本文引用: 1]

郑开雨, 竹翠 .

计算机与现代化

[J].计算机与现代化, 2018(6):1-6.

[本文引用: 1]

( Zheng Kaiyu, Zhu Cui .

Context Semantic-based Naive Bayesian Algorithm for Text Classification

[J].Computer and Modernization,2018(6):1-6.)

[本文引用: 1]

白秋产, 金春霞, 章慧 , .

词共现文本主题聚类算法

[J]. 计算机工程与科学, 2013,35(7):164-168.

[本文引用: 1]

( Bai Qiuchan, Jin Chunxia, Zhang Hui , et al.

Topic-Text Clustering Algorithm Based on Word Co-Occurrence

[J]. Computer Engineering & Science, 2013,35(7):164-168.)

[本文引用: 1]

田久乐, 赵蔚 .

基于同义词词林的词语相似度计算方法

[J]. 吉林大学学报:信息科学版, 2010,28(6):602-608.

[本文引用: 1]

( Tian Jiule, Zhao Wei .

Words Similarity Algorithm Based on Tongyici Cilin in Semantic Web Adaptive Learning System

[J]. Journal of Jilin University: Information Science Edition, 2010,28(6):602-608.)

[本文引用: 1]

陈二静, 姜恩波 .

文本相似度计算方法研究综述

[J]. 数据分析与知识发现, 2017,1(6):1-11.

[本文引用: 1]

( Chen Erjing, Jiang Enbo .

Review of Studies on Text Similarity Measures

[J]. Data Analysis and Knowledge Discovery, 2017,1(6):1-11.)

[本文引用: 1]

/

版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn