Word2Vec对海关报关商品文本特征降维效果分析*
Reducing Dimensions of Custom Declaration Texts with Word2Vec
通讯作者: 王昊,ORCID:0000-0002-0131-0823,E-mail:ywhaowang@nju.edu.cn。
收稿日期: 2019-06-5 修回日期: 2019-08-8 网络出版日期: 2020-02-25
基金资助: |
|
Received: 2019-06-5 Revised: 2019-08-8 Online: 2020-02-25
【目的】 对海关平台的高维报关商品特征实现有效降维,提高海关平台的工作效率。【方法】 以国内某海关4个月的商品文本作为语料,从词语相似度与相关度两个微观层面评估生成词向量的质量,并结合SVM算法将传统0-1矩阵、频次降维、信息增益方法与Word2Vec词向量进行对比,以探究其对海关商品文本特征的降维效果。【结果】 对于海关报关商品文本,Word2Vec词向量是一种较为理想的降维方法,且词向量维度为500时,分类效率最高,准确率为93.01%。【局限】 主要针对数据量最多的5大类别进行研究,尚未对其他类别的分类效果进一步探讨。【结论】 Word2Vec用于海关商品文本的降维效果较为理想,能够保证较高的准确率与数据的完整性,并显著降低特征维度。
关键词:
[Objective] This study tries to reduce the dimension of custom declaration texts, aiming to improve the efficiency of custom platforms.[Methods] We collected the declaration texts from a Chinese custom in four months as the corpus. Then, we evaluated the quality of the word vectors from the microscopic perspectives of word similarity and relevance. We also combined the traditional 0-1 matrix, frequency reduction and information gain with the SVM algorithm. Finally, we compared the results of these methods with the performance of Word2Vec word vector.[Results] Word2Vec word vector is an ideal dimension reduction method for customs declaration texts, and the classification efficiency was the highest when the word vector dimension reached 500, and the accuracy rate was 93.01%.[Limitations] We only studied the five categories with larger data volume.[Conclusions] The proposed method ensures data accuracy and integrity, which significantly reduces feature dimensions.
Keywords:
本文引用格式
龚丽娟, 王昊, 张紫玄, 朱立平.
Gong Lijuan.
1 引 言
2 相关研究
Word2Vec作为近年来备受关注的特征降维工具,不少学者在使用前容易忽略对文本结构的分析以及对生成词向量的质量评估,而直接将其用于实验研究。考虑到词向量的质量是保证结果有效性的前提[24],本文除了探讨Word2Vec应用于海关报关商品自动归类问题上的降维效果之外,还侧重于从词语相似度和相关度两个微观层面评估生成词向量的质量。
3 数据与方法
3.1 研究总体框架
图1
3.2 数据来源及预处理
本文数据来源于国内某海关2016年3月-2016年6月的报关数据,所涉及数据主要包括海关商品名称(Goods)、商品描述(Description)和海关HS编码(HS_id)三个字段,共计515 186条商品记录,各字段数据具体信息如表1所示。其中,HS_id字段为10位编码,Goods和Description两个字段为文本,例如:在商品名称字段中,“人造棉印花布”是“人造棉”、“印花”和“布”三个词语的简单组合,其对应的商品描述内容为“机织|印花|平纹|100%人造棉|150CM|188G/M2|无品牌”。对商品不同层面的描述均使用“|”进行分隔,两个字段的文本内容均为词语的简单组合,且词语间无明显上下文逻辑关系。
表1 用于实验的数据信息
Table 1
字段名称 | 字段表示 | 主要内容 |
---|---|---|
商品名称 | Goods | 通常是商品名称或对商品的直接描述,不允许为空值 |
商品描述 | Description | 通常是对商品的具体说明,如尺寸、原材料、成分、用途等,允许为空值 |
HS编码 | HS_id | 10位编码,前两位编码为“章” |
在数据预处理过程中,剔除商品描述字段内容为空的无效记录(共计19 253条记录),最终得到有效实验数据共计495 933条记录。由于文本中部分英文和数字具有一定的特殊含义,如“PVC”是手套材质、“SAMSON”是麦克风品牌名称、“C01”是麦克风型号、“POPULUS”是杨树的英文名等,因此在分词与去停用词过程中,主要针对原始数据中的符号以及无实际意义仅起连接作用的单字词进行停用处理,分词工具采用Jieba分词。
3.3 基于SVM的海关报关商品归类
为充分利用文本信息,将Goods和Description两个字段进行拼接、清洗、分词与去停用词等预处理,最终得到36 020个术语。本实验主要分为两部分:
(1)构建传统0-1矩阵用来表示文本,即根据术语是否在记录中出现作为权重,将样本中所有商品记录向量组合在一起,形成记录×术语矩阵(Record×Terms Matrix, RTM),矩阵值为0或1;
(2)利用Word2Vec生成每个词对应的词向量,对记录中各词的词向量进行累加以表示单个记录。由于HS编码前2位是根据商品原材料的属性以及商品的用途或性能两个方面进行划分的,因此采用HS编码前2位作为分类标记,利用台湾大学林智仁等开发的LIBSVM软件包[26]完成实验。
考虑到得到的术语数量过多,容易出现构建特征矩阵困难或特征矩阵过于稀疏冗长的问题,因此对文本特征进行初次降维是必要的。有研究表明,利用TF-IDF方法提取特征并用于HS编码召回实验时,编码前5位召回的准确率不足70%,且该方法在其他实验上的效果也不太理想[27]。因此,实验采用根据词语频次进行特征筛选的方法完成初次降维,即剔除频次小于3的术语,最终得到7 824个术语作为特征。
3.4 基于Word2Vec的词向量化
(1) 词向量表示方法
(2) Word2Vec
3.5 评价指标
使用总体正确率(P)、各类别正确率(
4 实验结果分析
4.1 商品分类实验及分析
表2 用于实验的类别编码及对应商品类型
Table 2
序号 | 类别编码 | 商品类型 |
---|---|---|
1 | 85 | 电机、电气设备及其零件;录音机及放声机、电视图像、声音的录制和重放设备及其零件、附件 |
2 | 84 | 核反应堆、锅炉、机器、机械器具及其零件 |
3 | 39 | 塑料及其制品 |
4 | 90 | 光学、照相、电影、计量、检验、医疗或外科用仪器及设备、精密仪器及设备;上述物品的零件、附件 |
5 | 73 | 钢铁制品 |
6 | 其他 | 除了以上5类的其他所有商品类别 |
表3 用于实验的数据情况及结果
Table 3
序号 | 类别编码 | 训练 | 测试 | 总计 | 特征维度 | P |
---|---|---|---|---|---|---|
1 | 85 | 2 447 | 562 | 3 009 | 7 824 | 92.90% |
2 | 84 | 2 363 | 625 | 2 988 | ||
3 | 39 | 2 555 | 453 | 3 008 | ||
4 | 90 | 2 540 | 447 | 2 987 | ||
5 | 73 | 2 626 | 371 | 2 997 | ||
6 | 其他 | 2 469 | 542 | 3 011 | ||
总计 | 15 000 | 3 000 | 18 000 |
图2
图2
HS编码1-2位作为分类标记的实验结果
Fig.2
Experimental Result of HS Code 1-2 Bits as Classification Mark
结合表2、表3和图2可以看出:(1)以One-Hot模型表示文本时,虽然特征维度较高,但得到的整体准确率较高,为92.90%;(2)在划分的6个类别中,“39”类的准确率最高,达到97.14%,其原因一方面可能由于该类训练集与测试集比例最大,训练相对充分,另一方面可能由于该类商品的文本内容与其他类别相比具有较高的区分度;(3)“其他”与“90”类的分类准确率相对较低,对原始记录进行分析发现,“90”类商品描述文本与其余各类具有一定的相同或相似部分,“其他”类中包含类别较多,因此可能导致其准确率较低。不难看出,进行初步降维后整体分类效果比较理想,特征维度已由原来的36 020降低至7 824,但就海关日常办公而言,这样的特征维度依然过高,容易影响海关的办公效率,因此,对特征进行二次降维是十分必要的。
4.2 Word2Vec的结果及分析
采用Python中的Word2Vec-0.9.2[34]工具包实现词向量化,训练模型默认为CBOW,特征向量维度为100,窗口大小为5。从词语间的相似度与相关度两方面分析其生成词向量的质量。(1) 词语间的相似度通过计算向量余弦相似度能够定量地度量词语间的相似度,两向量的夹角余弦值越接近于1,即两向量越接近[35],两词相似度越高。通过对词语间相似度的计算,Word2Vec认为两词相似主要分为以下三种情况。①若两词具有紧密的词共现关系,那么认为这两词相似。词共现指两词间具有统计关系[36],若两词经常在同一窗口单元中共同出现,则说明它们能够表达该文本一定的语义信息,因此可认为两词相似。例如:“胶合板”的相似词如表4所示。
表4 “胶合板”的相似词TOP10
Table 4
相似词 | 相似度 | 描述 |
---|---|---|
杨木 | 0.913 592 | 大多与“胶合板”“木制”“POPULUS”“多层”等词共现 |
杨 | 0.894 916 | 大多与“胶合板”“木制”“多层”“覆膜”共现 |
木制 | 0.877 032 | 大多与“胶合板”“木制”共现 |
桦木 | 0.820 524 | 大多与“胶合板”“杨木”“原木”共现 |
覆膜 | 0.818 699 | 大多与“胶合板”共现 |
白杨木 | 0.782 977 | 大多与“胶合板”“多层板”“杨木”共现 |
Poplar | 0.777 427 | 大多与“杨木”“木制”共现 |
木托盘 | 0.775 225 | 大多与“胶合板”“木制”“杨木”共现 |
松木 | 0.774 623 | 大多与“胶合板”“木制”共现 |
白杨树 | 0.761 025 | 大多与“胶合板”共现 |
从表4可以发现:1)给定词“胶合板”的高相似词均与其具有紧密的词共现关系;2)对原始记录进行分析发现,相似词列表中各词的HS编码前2位大部分对应于“44”,这与含“胶合板”这一商品对应相同的类别,从这一点看,Word2Vec在度量文本相似度上效果较为理想;3)符合此规律的词有“手套”“杨木”“拉丁”“学名”等。
②若两个词共现关系较弱,但具有类似的上下文词语,那么认为两词相似。
若两个词经常与同一批词共同出现,即具有相似的上下文,可认为两词是可替换的。例如:“CJBCO”一词与“PVC”“手套”“工业用”“品牌”“其他”“无”等词具有紧密的词共现关系,但与相似词列表中各词存在较弱的词共现或无词共现关系,其相似词列表如表5所示。
表5 “CJBCO”的相似词TOP10
Table 5
相似词 | 相似度 | 描述 |
---|---|---|
日医 | 0.972 201 | 大多与“PVC”“手套”“工业用”“品牌”“型”“其他”共现 |
MYECO | 0.934 574 | 大多与“PVC”“手套”“品牌”“其他”“无”共现 |
超轻 | 0.906 915 | 大多与“PVC”“手套”“工业用”“品牌”“型”“其他”共现 |
褐黄 | 0.894 948 | 大多与“PVC”“手套”“无”“品牌”“型”共现 |
假花 | 0.833 605 | 大多与“无”“其他”共现 |
SC55 | 0.826 973 | 大多与“PVC”“品牌”共现 |
安全网 | 0.824 389 | 大多与“PVC”“无”“其他”共现 |
淋浴房 | 0.823 842 | 大多与“无”“其他”共现 |
超薄 | 0.823 199 | 大多与“PVC”“手套”“工业用”“无”“品牌”“其他”共现 |
鞋带 | 0.820 205 | 共4条,大多与“PVC”“无”“品牌”“其他”共现 |
③在多义词的处理上存在一定局限,难以捕获准确的语义。
在给定语料中,对于“苹果”一词,既有以水果这一语义出现,如苹果罐头、苹果味、苹果干、冻干苹果等词,也有以产品品牌这一语义出现,如苹果手机、苹果iPhone、苹果iPod、苹果iWatch等词,两种语义差异较大,且以品牌这一语义出现的数据居多。给定词“苹果”的相似词如表6所示。
表6 “苹果”的相似词TOP10
Table 6
相似词 | 相似度 | 描述 |
---|---|---|
Touch | 0.666 321 | 大多与“苹果”“iPod”“iOS”共现 |
苹果汁 | 0.630 865 | 大多与“苹果”共现 |
iPod | 0.629 926 | 大多与“苹果”“iPod”“iOS”共现 |
Letv | 0.623 023 | 大多与“移动电话”“电话机”“TD”“LTE”“通讯”共现 |
芒 | 0.614 639 | 大多与“苹果”共现 |
果粒 | 0.611 279 | 大多与“饮料”以及其他水果名共现,如“菠萝”“葡萄” |
MAX470 | 0.597 105 | 大多与“Letv”共现 |
草莓 | 0.595 512 | 无明显词共现 |
西番莲 | 0.591 664 | 大多与“饮料”与一些水果名共现 |
X522 | 0.583 301 | 大多与“Letv”共现 |
从表6可以看出:1)对原始海关记录分析发现,“苹果”一词以水果含义出现的商品记录数据量较少,对应类别较多且分散,而品牌含义的商品记录数据量大,且以“85”类和“84”类为主,因此高相似度词均反映为品牌这一语义;2)由于“苹果”的两种语义使用相同的词向量表示,反映在相似词列表和相似度数值上,Word2Vec对其两种语义区分效果较差;3)类似的词汇还有“糖果”,其在原始记录中以冰糖果木材和食用糖果两种含义出现,其中以木材含义的商品记录居多,且对应类别大多为“44”类,相比于“苹果”,可食用这一含义对应的商品记录数量十分少且集中,因此该词的高相似词大多与木材有关,语义区分效果比“苹果”好;4)具有多个语义的术语在原始海关商品记录中所占比例很小,其存在可能不会对整体分类效果带来太大影响。
从词语相似度的分析可以看出:
①Word2Vec基于局部上下文提取语义,认为词共现关系紧密或上下文环境相似的两词具有较高相似度,对于海关商品描述这类无明显逻辑关系的文本,这样的“相似度”更多的是词语间的“关联性”,而非语义相似;
②当词语相似度较高时,其商品所属HS编码前2位往往较为集中,这一结果理论上能够对分类效果产生积极影响。
(2) 词语间的相关度
①上下位关系
词语的上下位关系大致等同于逻辑上的种属关系。部分上下位关系结果如表7所示,其中,Relationship为给定关系,Example为根据给定关系得到的关系。
表7 词语之间的上下位关系
Table 7
Relationship | Example1 | Example2 |
---|---|---|
菜刀-厨具 菜刀-厨具 菜刀-厨具 镊子-手术器械 镊子-手术器械 镊子-手术器械 支架-固定装置 支架-固定装置 支架-固定装置 | 沙发-休息 羽毛球-羽毛球拍 苹果-芒 玻璃杯-餐桌 沙发-架子 洗洁精-厨房 哑铃-健身 椅子-沙发 羽毛球-野营 | 哑铃-铃片 坐垫-椅 手套-劳保 羽毛球-羽毛球拍 轮胎-子午线 哑铃-健身 坐垫-座椅 沙发-软垫 螺丝-螺钉 |
由表7可以看出:Word2Vec能够捕获词语间一定的上下位关系,但效果并不理想。对原始商品记录分析可以发现,来源数据中以上下位关系进行商品描述的文本较少,即使出现,也可能在分词阶段被切分为多个词,从而表现为其他关系。例如:通过“镊子-手术器械”这一上下位关系,得到“洗洁精-厨房”“哑铃-健身”这些与给定关系较为接近的词语对(其中,“厨房”“健身”分别是厨房用品、健身器材的分词结果),但“哑铃-健身”也可理解为用途关系。
②品牌关系
给定“商品-商品品牌”这个关系,得到的关系如表8所示。
表8 “商品-商品品牌”关系
Table 8
Relationship | Example1 | Example2 |
---|---|---|
牙膏-高露洁 牙膏-高露洁 牙膏-高露洁 手机-苹果 牙膏-狮王 漱口水-那氏 纸尿裤-花王 纸尿裤-花王 纸尿裤-花王 | 卫生巾-花王 麦克风-受话器 桌子-客厅 电脑-笔记本电脑 漱口水-口腔 牙膏-狮王 洗衣机-滚筒 牙膏-刷牙 卫生巾-MERRIES | 纸尿裤-王牌 坐垫-座椅 床垫-填充物 床垫-垫子 洗衣粉-漱口水 手机-移动电话 牙刷-牙齿 毛巾-盥洗 电脑-计算机 |
从表8可以看出:1)根据给定关系,得到如“卫生巾-花王”“纸尿裤-王牌”等反映相同层面关系的词(其中“王牌”是花王牌和狮王牌分词之后的结果);2)对于“卫生巾-MERRIES”这一关系,“MERRIES”是纸尿裤的品牌,而非卫生巾,但“MERRIES”属于“花王”的子品牌,因此在这一关系的识别上出现误差,其他的识别效果也不理想。这一现象与报关单填写不规范、品牌关系复杂、子品牌较多有关,且同一品牌的商品种类较多,可能会对商品分类效果带来一定消极影响。
③用途关系
给定“商品-商品用途”这个关系,得到的关系如表9所示。可以看出:1)通过给定关系得到的结果效果较好,如“毛巾-盥洗”“漱口水-清洁”“灯具-照明”等;2)分析原始记录发现,相当一部分商品的用途描述较长,在分词时容易被切分为多个词语,从而导致在关系识别时出现误差,如沙发的用途大多描述为“家庭用”“家庭或办公用”“家庭客厅用”“坐具”等,且在包含“沙发”的商品描述中,用途描述的前后文往往是材质或成分的说明,这些因素或多或少对关系的捕获带来消极影响。
表9 “商品-商品用途”关系
Table 9
Relationship | Example1 | Example2 |
---|---|---|
牙刷-刷牙 牙刷-刷牙 牙刷-刷牙 毛巾-盥洗 毛巾-盥洗 毛巾-盥洗 沙发-休息 手套-劳保 手套-劳保 | 毛巾-盥洗 纸尿裤-花王 支架-底座 洗洁精-洁厕 牙膏-狮王 灯-照明用 日光灯-吊灯 洗洁精-除菌 烤箱-蒸汽 | 洗洁精-厨房 漱口水-清洁 沙发-架子 文具-厨具 手套-浸胶 坐垫-椅 毛巾-盥洗 毛巾-健身 灯具-照明 |
④成分关系
给定“商品-商品成分/材质”这个关系,得到的结果如表10所示。
表10 “商品-商品成分/材质”关系
Table 10
Relationship | Example1 | Example2 |
---|---|---|
胶合板-杨木 胶合板-杨木 胶合板-杨木 胶合板-杨木 假花-塑料 假花-塑料 T恤衫-针织 T恤衫-针织 | 手套-乳胶 裤子-马甲 桌子-椅子 杯子-餐具 短袜-无袖 胶合板-Paulownia 胶合板-杨 棉签-硬管 | 拼板-南洋 坐垫-椅 毛巾-盥洗 假花-KD53624B2 沙发-休息 手套-雨衣 拼板-楹 床单-被套 |
从表10可以看出:1)根据“商品-商品成分/材质”这一关系,得到的结果一般,其中效果较好的有“手套-乳胶”“胶合板-杨”(“杨”是“杨木制”的分词结果);2)分析原始记录发现,海关平台对同一类商品的材质或成分描述没有固定标准,且用途描述常常出现在材质描述的前后文中,从而影响关系识别的准确率。例如“沙发”材质或成分的描述往往跟在用途描述之后,因此在关系识别时容易出现“沙发-休息”这样的结果。
从词语之间的相关度分析,可以发现:
①在给定的4种关系中,Word2Vec对用途关系的识别效果较理想,上下位关系识别效果较差,这可能与语料中商品描述多为用途描述、鲜有上下位关系描述有关;
②在商品描述文本中,对材质、用途与品牌的描述通常出现在同一上下文环境中,因此容易在词语相关度的判断上带来较大误差;
③若商品名称或某一关系的描述文本较长,容易在分词过程中失去部分信息,或者出现分词结果是另一商品的描述的情况,从而影响关系识别的准确性。如“坐垫”既是商品名称,也是“坐垫椅”的分词结果,虽然该词在以上4种关系的识别中均表现得不太理想,但Word2Vec能够基于上下文将“坐垫”与“椅”联系起来,识别出两者属于同一类别,并认为两者相似或相关。
4.3 词向量化后商品归类实验结果及分析
本实验的实验数据与4.1节保持一致,利用Word2Vec实现词向量化,即每个术语对应一个词向量,将每条记录所包含术语的词向量进行累加以表示单条记录。为与4.1节的特征保持在同一个数量级,初次实验中笔者将词向量维度设置为1 000,得到整体准确率为93.37%,各类别分类结果如图3所示。
图3
图3
词向量化后1 000维度的商品分类实验结果
Fig.3
Product Classification Results in 1,000 Dimensions after Word Vectorization
从图3可以看出:
(1)词向量维度为1 000时,除“其他”类别外,各类的准确率均达到90%以上,整体效果较理想;
(2)总体来说,“84”类、“39”类和“73”类的识别准确率较高,分析原始记录发现,这三类商品描述文本具有较高的区分度,而其余类别商品描述具有部分相同或相似术语,区分度较低;
(3)“其他”类别商品数据类目繁多,可能导致识别准确率相对较差。
将这一实验结果与4.1节进行对比,可以发现:
(1)就整体效果而言,相比于传统One-Hot模型,使用Word2Vec在略微提高整体准确率的同时,能显著压缩文本特征。
(2)就各类别商品分类情况而言,“85”类、“39”类和“73”类的准确率相对稳定,“其他”类别的分类准确率下降较为明显,可能是由于传统One-Hot模型根据术语出现与否作为特征,词语间相互独立,因此当“其他”类别中某一商品记录与其余5类具有较大差异时,也不会对其准确率带来较大影响,而Word2Vec基于上下文信息生成词向量,当“其他”类别数据中类别较多、类别间差异较大时,可能导致关系难以捕获从而降低其分类准确率。
(3)“84”类和“90”类分类准确率得到明显提高,不难发现,“84”类商品主要是车辆、家电、办公用品及其零件,“90”类商品包含较多的车辆零件信息,两类商品描述文本具有较多相似部分,但Word2Vec词向量能够捕获一定的语义并对两者加以区分,给“84”类商品的分类效果带来积极影响。
考虑到特征为1 000维度时,不论是海关平台实际应用还是用于后续的深度学习模型上,其维度依然过高,因此,尝试不断降低词向量维度,观察不同维度词向量对分类效果的影响,实验结果如图4所示。
图4
图4
不同维度词向量对分类准确率的影响
Fig.4
Word Vectors of Different Dimensions on Classification Accuracy
从图4可以看出:
(1)随着特征维度的增加,整体准确率呈现不断上升的趋势,当词向量维度为500维时,整体准确率依然保持在93%以上;
(2)当词向量维度为100维时,整体准确率降至86.77%,其原因可能是过多特征的丢失。不难看出,Word2Vec应用在海关报关商品文本上具有较为理想的降维效果,且词向量维度为500维时分类效率最佳。
为探究Word2Vec是否是海关商品归类问题上较优的降维方法,笔者加入频次降维(Term Frequency, TF)与信息增益(Information Gain, IG)两种常见方法,并与词向量为500维的实验结果进行对比,实验数据与4.1节保持一致,根据术语是否出现作为权重构建特征矩阵,两个实验的数据情况及整体准确率分别如表11与表12所示,不同降维方法的分类结果对比如图5所示。需要说明的是,频次降维的具体过程为取频次最高的前500个术语作为特征,但存在多个排名为500的术语,因此取频次大于66次的术语作为特征,共得到506个术语,整体准确率为84.33%;信息增益具体过程是计算所有术语的信息增益值,取数值最大的前500个术语作为特征,整体准确率为84.77%。
表11 TF实验的数据情况及结果
Table 11
序号 | 类别编码 | 训练 | 测试 | 总计 | 特征维度 | 整体准确率 |
---|---|---|---|---|---|---|
1 | 85 | 2 162 | 498 | 2 660 | 506 | 84.33% |
2 | 84 | 2 048 | 573 | 2 621 | ||
3 | 39 | 2 356 | 425 | 2 781 | ||
4 | 90 | 2 221 | 343 | 2 564 | ||
5 | 73 | 2 181 | 407 | 2 588 | ||
6 | 其他 | 2 268 | 504 | 2 772 | ||
总计 | 13 236 | 2 750 | 15 986 |
表12 IG实验的数据情况及结果
Table 12
序号 | 类别编码 | 训练 | 测试 | 总计 | 特征维度 | 整体准确率 |
---|---|---|---|---|---|---|
1 | 85 | 2 159 | 497 | 2 656 | 500 | 84.77% |
2 | 84 | 2 029 | 570 | 2 599 | ||
3 | 39 | 2 356 | 425 | 2 781 | ||
4 | 90 | 2 224 | 343 | 2 567 | ||
5 | 73 | 2 181 | 407 | 2 588 | ||
6 | 其他 | 2 262 | 502 | 2 764 | ||
总计 | 13 211 | 2 744 | 15 955 |
图5
图5
不同降维方法对分类的影响效果
Fig.5
Effect of Different Dimensionality Reduction Methods on Classification
(1)Word2Vec的整体准确率明显高于TF与IG两种方法;
(2)利用TF与IG方法降维时,原始训练与测试数据中均出现相当一部分数据丢失,从而导致无法识别这些商品,相比之下Word2Vec则不存在数据丢失的问题;
(3)在海关商品文本特征的降维上,Word2Vec具有较为理想的降维效果,有理由推测,对于同一类别数据内容较为相似或具有一定重复次数的规范化文本,使用Word2Vec能够有效实现降维。
5 结 语
本研究将国内某海关平台4个月的报关商品名称与商品描述的文本作为语料,HS编码前2位作为分类标记,分别通过传统0-1矩阵与Word2Vec词向量的方法构建文本特征矩阵,并结合SVM算法进行分类实验,以探究Word2Vec词向量在海关商品文本的降维效果。侧重于从词语间的相似度与相关度两个微观层面,分析其生成词向量用于文本表示的质量,进而探究其如何影响分类。最后,为探究Word2Vec是否是海关商品归类问题上较为理想的降维方法,加入频次降维与信息增益两种常见方法完成对比实验。
研究结果表明,相比于传统One-Hot模型,将Word2Vec应用于海关报关商品文本上时,降维效果显著,且在词向量维度为500时,整体准确率略高于One-Hot模型,分类效率最高。在与频次降维、信息增益两种方法进行对比时不难看出,Word2Vec不仅在整体准确率上具有明显的优势,还能够保证数据的完整性,避免出现部分商品无法识别的情况。总的来说,在海关报关商品自动归类问题上,Word2Vec具有较为理想的降维效果,这一结论能够为后续将深度学习模型应用于海关平台的研究提供参考。
但本文也存在一些不足之处:由于海关报关数据存在一定季节性差异,本文数据仅涉及2016年3月至6月,可能代表性不足;仅从词语的相似度和相关度两个微观角度分析生成词向量的质量,未来可考虑通过聚类与短语分析等方法进行补充分析。
作者贡献声明
龚丽娟:参与讨论研究思路,进行实验,论文撰写与修订;
王昊:提出研究思路,设计研究方案;
张紫玄:参与讨论研究思路,辅助进行实验;
朱立平:参与讨论研究思路。
利益冲突声明
所有作者声明不存在利益冲突关系。
支撑数据
支撑数据由作者自存储, E-mail:echogong@smail.nju.edu.cn。
[1] 朱立平. haiguan.json. 由海关处获得的原始数据.
[2] 龚丽娟. wenben.dbf. 经整理后实验数据.
参考文献
The Implication of Customs Modernization on Export Competitiveness in China[A]// Impact of Trade Facilitation on Export Competitiveness: A Regional Perspective
[M].
Risk Management Systems: Using Data Mining in Developing Countries’ Customs Administrations
[J].
对外经贸实务
[J].
The Risk of Customs Commodity Classification Errors and Its Prevention
[J].
中文文本分类中特征抽取方法的比较研究
[J].
A Comparative Study on Feature Selection in Chinese Text Categorization
[J].
Sentiment Analysis of Bengali Comments with Word2Vec and Sentiment Information of Words
[C]//
基于Word2Vector的文本特征化表示方法
[J].
Characteristic Representation Method of Document Based on Word2Vector
[J].
现代海关制度建设中的难点及对策研究
[D].
A Research on Crux and the Counterplan Within Construction of the Modern Customs System
[D].
Detecting Money Laundering and Terrorist Financing via Data Mining
[J].
中国海关
[J].
Introduction to the US Customs “Pre-Import Review System”
[J].
中国海关
[J].
South Korea Customs Develops Risk Management System Wholeheartedly
[J].
中国海关
[J].
Great Progress in Indian Customs
[J].
基于论文标题和摘要的短文本分类研究
[J].
Research on Short Text Classification Based on Paper Title and Abstract
[J].
基于支持向量机的中文极短文本分类模型[J/OL]
Classification Model Based on Support Vector Machine for Chinese Extremely Short Text[J/OL]
面向电力客户投诉信息的短文本分类算法的改进技术
[J].
An Improved Technique for Short-text Classification Algorithm for Power Customer Complaint Information
[J].
煤矿安全隐患信息自动分类方法
[J].
Automatic Classification Method of Coal Mine Safety Hidden Danger Information
[J].
卷积神经网络下的Twitter文本情感分析
[J].
Sentiment Analysis of Twitter Data Based on CNN
[J].
基于Word2Vec的酒店评论情感分类研究
[J].
Research on Emotional Classification of Hotel Comments Based on Word2Vec
[J].
基于Word2Vec的中文图书分类研究
[J].
A Word2Vec-Based Study of the Classification of Chinese Books
[J].
Improving Word Representations via Global Context and Multiple Word Prototypes
[C]//
A Probabilistic Model for Learning Multi-Prototype Word Embeddings
[C]//
基于词向量包的自动文摘方法
[J].
Automatic Summarization Based on Bag of Word Vector
[J].
Keyword Extraction Using Support Vector Machine
[C]//
中国海关HS编码风险的识别研究
[J].
Identifying Risks of HS Codes by China Customs
[J].
Learning Distributed Representations of Concepts
[C]//
Neural Probabilistic Language Models[A]// Innovations in Machine Learning: Theory and Applications
[M].
An FIR Digital Filter Using One-Hot Coded Residue Representation
[C]//
Efficient Estimation of Word Representations in Vector Space
[OL].
Deep Learning for Chinese Word Segmentation and POS Tagging
[C]//
Distributed Representations of Words and Phrases and Their Compositionality
[C]//
计算机与现代化
[J].
Context Semantic-based Naive Bayesian Algorithm for Text Classification
[J].
词共现文本主题聚类算法
[J].
Topic-Text Clustering Algorithm Based on Word Co-Occurrence
[J].
基于同义词词林的词语相似度计算方法
[J].
Words Similarity Algorithm Based on Tongyici Cilin in Semantic Web Adaptive Learning System
[J].
/
〈 |
|
〉 |
