Please wait a minute...
Advanced Search
数据分析与知识发现  2023, Vol. 7 Issue (5): 33-47     https://doi.org/10.11925/infotech.2096-3467.2022.0585
  研究论文 本期目录 | 过刊浏览 | 高级检索 |
基于多数据源融合的创业板上市公司财务造假异常检测*
李爱华(),王迪文,续维佳,李子沫,姚思涵
中央财经大学管理科学与工程学院 北京 100081
Financial Fraud Detection for Growth Enterprise Market Listed Companies Based on Data Fusion
Li Aihua(),Wang Diwen,Xu Weijia,Li Zimo,Yao Sihan
School of Management Science and Engineering, Central University of Finance and Economics, Beijing 100081, China
全文: PDF (2938 KB)   HTML ( 14
输出: BibTeX | EndNote (RIS)      
摘要 

【目的】 研究创业板上市公司财务造假检测识别问题,构建异常检测模型对公司财务欺诈进行检测和识别。【方法】 构建基于数据融合的财务造假异常检测框架,在数据层融合结构化和文本数据、财务及非财务信息的多源异构数据并构造特征,在信息层组合不同的采样和集成分类模型,在知识层融合领域现状构造模型评价指标。【结果】 非平衡处理后模型各项评价指标优于未处理的结果,优化后SMOTE+ENN+LightGBM模型的Fβ达到0.773 8。此外,包含多种类型特征的检测结果优于仅包含单类特征的检测结果。【局限】 本文方法主要用于发掘市场中可疑的财务造假公司,无法区分和判断具体的造假类别。【结论】 非平衡处理有利于提升模型对异常样本的识别能力,融合多源异构数据对财务造假的识别有积极作用,为监管部门检测上市公司财务造假提供了参考。

服务
把本文推荐给朋友
加入引用管理器
E-mail Alert
RSS
作者相关文章
李爱华
王迪文
续维佳
李子沫
姚思涵
关键词 财务造假数据融合异常检测非平衡数据    
Abstract

[Objective] This paper builds ensemble models to detect financial frauds of Growth Enterprise Market (GEM) listed companies. [Methods] We constructed a financial fraud anomaly detection framework based on data fusion. In the data layer, we fused structured, text, and multi-source heterogeneous data to construct financial and non-financial information features. In the information layer, we combined different sampling and ensemble classification models. In the knowledge layer, we fused current domain information to construct the model evaluation indicators. [Results] After non-balance processing, the evaluation indicators of the model were better than those of the un-processed results. The optimized SMOTE+ENN+LightGBM model achieved an Fβ of 0.7738. In addition, the detection results containing multiple types of features were better than those containing only single-class features. [Limitations] The proposed method mainly identifies suspicious financial fraud companies. It cannot distinguish or determine specific types of fraud. [Conclusions] Non-balance processing is beneficial for improving the model’s ability to find abnormal samples, and the fusion of multi-source heterogeneous data positive affects the identification of financial frauds in listed companies.

Key wordsFinancial Fraud    Data Fusion    Anomaly Detection    Unbalance Data
收稿日期: 2022-06-07      出版日期: 2022-11-09
ZTFLH:  F275  
基金资助:*国家自然科学基金项目(71932008);中央高校基本科研业务费专项基金项目的研究成果之一(20170065)
通讯作者: 李爱华,ORCID:0000-0003-4425-1955,E-mail:aihuali@cufe.edu.cn。   
引用本文:   
李爱华, 王迪文, 续维佳, 李子沫, 姚思涵. 基于多数据源融合的创业板上市公司财务造假异常检测*[J]. 数据分析与知识发现, 2023, 7(5): 33-47.
Li Aihua, Wang Diwen, Xu Weijia, Li Zimo, Yao Sihan. Financial Fraud Detection for Growth Enterprise Market Listed Companies Based on Data Fusion. Data Analysis and Knowledge Discovery, 2023, 7(5): 33-47.
链接本文:  
https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/10.11925/infotech.2096-3467.2022.0585      或      https://manu44.magtech.com.cn/Jwk_infotech_wk3/CN/Y2023/V7/I5/33
造假方式 造假项目 数据类型 公司数量 案例公司
虚构财务 会计报表 结构化 48 华泽钴镍、*ST烯碳、连城兰花
虚假记载 公开文件 非结构化 33 辅仁药业、中安消、新绿股份
重大遗漏 信息披露文件 非结构化 31 欣泰电气、天马轴承、北大方正
Table 1  财务造假方式
Fig.1  造假动因理论发展路径
特征维度 作者 时间 模型与方法 指标 结论
公司治理与财务维度结合 Chen等[21] 2014 决策树、随机森林、粗糙集理论、神经网络 资产净利率等21个财务指标;董事会规模及持股比等11个公司治理指标 若董事会规模越大,则公司组织结构越复杂,牵涉到利益越广,进而使管理层更难实施舞弊操纵
李书信等[22] 2019 主成分分析、多数原则确定阈值 3个收益类指标,2个现金流指标以及报表之间的勾稽关系 综合评分法具有较好的财务造假预警能力
姚欣[23] 2019 逻辑回归 3个财务指标和3个公司内部治理指标 对公司发生财务报表舞弊概率有影响
张悦等[24] 2022 决策树、代价敏感学习 5个上市公司基本信息指标、8个公司治理等非财务特征和16个财务特征 上市公司财务造假的识别可以从“动机+现实+可能”角度研究财务压力、公司综合能力以及异常项目
袁先智等[25] 2022 吉布斯随机搜索抽样 以常用财务比率、财务报表科目增长率等为出发点选择183个特征 筛选出8个预测公司财务欺诈行为的有效特征;公司监事会人数多少与公司财务欺诈无本质关联
时间维度与财务维度结合 连竑彬[26] 2008 分层逻辑分析 选择虚增利润的年报中的财务数据 构建了我国上市公司舞弊的及时甄别模型,证明了将财务指标的时间变化因素纳入甄别模型能够有效提高模型的判别准确率
余玉苗等[27] 2010 逻辑回归 固定资产增长率、经营现金流量对流动负债比率、每股投资活动现金净流量、每股收益、股权集中度 突破以往静态研究视角,从发生财务舞弊公司的前一年与舞弊当年的财务指标的动态增量信息视角入手,证明5个财务指标的变动对财务舞弊产生重要影响
文本维度与财务维度结合 Cecchini等[28] 2010 自适应文本分析 财务数据指标、MD&A文本信息 MD&A的文本补充了量化的财务信息
董伟[29] 2017 集成语言模型、文本分析 财务报表中的文本信息、社交媒体中的文本信息 基于系统性功能语言理论提出系统、全面的欺诈识别指标集;新的财报文本分析方法比现有的基于财务指标的方法准确率高
张春梅等[30] 2021 逻辑回归 2个反映新闻情感的指标与5个反映上市公司财务状况的指标 基于财务指标和新闻情感的财务造假模型最有效
Table 2  基于多源数据的财务造假检测研究
特征大类 特征符号 特征名称 特征大类 特征符号 特征名称
资产指标 x1 应收款项占比 非财务指标 x32 股权质押比
x2 应收变化率 x33 机构持股比例
x3 存货占比 x34 董事会规模
x4 存货变化率 x35 审计会计师 事务所是否变更
x5 应付款项占比 x36 审计意见
x6 应付变化率 x37 所属行业
x7 软资产比例 pressmonth 年报披露时间
x8 资产减值损失占比 股票指标 x38 年换手率
x9 存货周转率 x39 每股收益
x10 应收账款周转率 x40 每股企业自由现金流量
x11 总资产周转率 文本重要性 all_count 总词数
x12 有息债务率 all_use_count 总有用词数
x13 流动比率 useall_per 总有用词占比
x14 资产负债率 fir_count 概述部分词数
现金指标 x15 货币资金变化率 fir_use_count 概述部分有用词数
x16 现金销售率 usefir_per 概述部分有用词占比
x17 自由现金流比净利润 sec_count 展望部分词数
x18 现金占比 sec_use_count 展望部分有用词数
盈利指标 x19 营业总收入倍数 usesec_per 展望部分有用词占比
x20 营业外收入占比 文本可靠性 express_count 自我主张词数
x21 营业收入增长率 express_count_ratio 自我主张词频
x22 营业利润增长率 future 形容词数
x23 净利润增长率 future_ratio 形容词频
x24 当年净利润是否为负 文本相关性 accounting_count 财务专业词数
x25 前一年净利润是否为负 accounting_count_ratio 财务专业词频
x26 总资产净利率 文本关联性 fir_tech_count “技术”词数
x27 扣非净资产收益率是否小于6% sec_risk_count “风险”词数
x28 归属母公司股东的净利润-扣除非经常损益(同比增长率) 文本情感性 positive
positive_ratio
negative
negative_ratio
正向词数
正向词频
负向词数
负向词频
非财务指标 x29 融资余额变化率
x30 融券余额变化率
x31 股权集中度
Table 3  财务欺诈检测的特征
类别 算法 实施层面
欠采样法 ClusterCentroids[31] 抽样层面
EasyEnsemble[32] 抽样+分类层面
过采样法 SMOTE[33] 抽样层面
综合采样法[34] SMOTE+Tomek 抽样层面
SMOTE+ENN 抽样层面
Table 4  非平衡处理方法
Fig.2  基于数据融合的财务造假异常检测研究框架
模型 采样 F β Recall Precision Accuracy AUC
决策树 原始训练集 nan 0.000 0 nan 0.944 6 0.500 0
ClusterCentroids 0.324 7 0.625 0 0.333 3 0.446 4 0.530 4
SMOTE 0.544 6 0.687 5 0.189 7 0.820 1 0.757 7
SMOTE+Tomek 0.327 1 0.437 5 0.100 0 0.750 9 0.750 9
SMOTE+ENN 0.521 7 0.750 0 0.139 5 0.730 1 0.739 5
随机森林 原始训练集 nan 0.000 0 nan 0.944 6 0.500 0
ClusterCentroids 0.391 6 0.812 5 0.069 1 0.384 1 0.585 7
SMOTE 0.602 4 0.625 0 0.454 5 0.937 7 0.790 5
SMOTE+Tomek 0.625 0 0.625 0 0.625 0 0.958 5 0.801 5
SMOTE+ENN 0.654 8 0.687 5 0.458 3 0.937 7 0.819 9
GBDT 原始训练集 0.133 3 0.125 0 0.333 3 0.937 7 0.555 2
ClusterCentroids nan 0.000 0 nan 0.944 6 0.500 0
SMOTE 0.658 7 0.687 5 0.478 3 0.941 2 0.821 8
SMOTE+Tomek 0.679 0 0.687 5 0.611 1 0.958 5 0.830 9
SMOTE+ENN 0.650 9 0.687 5 1.000 0 0.982 7 0.843 8
XGBoost 原始训练集 0.135 1 0.125 0 0.500 0 0.944 6 0.558 8
ClusterCentroids 0.399 0 1.000 0 0.062 3 0.166 1 0.558 6
SMOTE 0.618 6 0.750 0 0.240 0 0.854 7 0.805 4
SMOTE+Tomek 0.645 2 0.750 0 0.285 7 0.820 1 0.882 4
SMOTE+ENN 0.558 4 0.687 5 0.207 5 0.837 4 0.766 8
LightGBM 原始训练集 nan 0.000 0 0.000 0 0.941 2 0.498 2
ClusterCentroids 0.369 5 1.000 0 0.055 4 0.055 4 0.500 0
SMOTE 0.709 7 0.687 5 0.750 0 0.972 3 0.867 7
SMOTE+Tomek 0.628 9 0.625 0 0.666 7 0.961 9 0.803 3
SMOTE+ENN 0.710 1 0.750 0 0.480 0 0.941 2 0.851 2
EasyEnsemble(基模型XGBoost) 0.562 2 0.875 0 0.133 3 0.678 2 0.770 8
Table 5  实验结果
Fig.3  各模型结果评价
优化情况 F β Recall Precision Accuracy AUC
优化前 0.710 1 0.750 0 0.480 0 0.941 2 0.851 2
优化后 0.773 8 0.812 5 0.541 7 0.951 6 0.886 1
Table 6  模型优化前后结果对比
Fig.4  优化后LightGBM模型输出特征重要性前20名
特征 采样 F β Recall Precision Accuracy AUC
财务特征:1
非财务特征:1
文本特征:1
原始训练集 nan 0.000 0 0.000 0 0.941 2 0.498 2
ClusterCentroids 0.369 5 1.000 0 0.554 0 0.554 0 0.500 0
SMOTE 0.709 7 0.687 5 0.750 0 0.972 3 0.867 7
SMOTE+Tomek 0.628 9 0.625 0 0.666 7 0.961 9 0.803 3
SMOTE+ENN 0.710 1 0.750 0 0.480 0 0.941 2 0.851 2
财务特征:1
非财务特征:1
文本特征:0
原始训练集 nan 0.000 0 nan 0.944 6 0.500 0
ClusterCentroids 0.369 5 1.000 0 0.554 0 0.554 0 0.500 0
SMOTE 0.645 2 0.625 0 0.909 1 0.975 8 0.810 7
SMOTE+Tomek 0.580 6 0.562 5 0.818 2 0.968 9 0.777 6
SMOTE+ENN 0.573 2 0.562 5 0.692 3 0.961 9 0.773 9
财务特征:1
非财务特征:0
文本特征:0
原始训练集 nan 0.000 0 nan 0.944 6 0.500 0
ClusterCentroids 0.369 5 1.000 0 0.554 0 0.554 0 0.500 0
SMOTE 0.552 1 0.562 5 0.473 7 0.941 2 0.762 9
SMOTE+Tomek 0.538 9 0.562 5 0.391 3 0.927 3 0.755 6
SMOTE+ENN 0.601 1 0.687 5 0.282 1 0.885 8 0.792 5
Table 7  数据融合实验结果
[1] Fligstein N, Roehrkasse A. All the Incentives were Wrong: Opportunism and the Financial Crisis[C]// Proceedings of Annual Meetings of the American Sociological Association. 2013.
[2] 宋新平, 丁永生, 张革夫. 集成分类法在财务欺诈风险识别中的应用[J]. 计算机工程与应用, 2008, 44(34): 226-230.
doi: 10.3778/j.issn.1002-8331.2008.34.069
[2] (Song Xinping, Ding Yongsheng, Zhang Gefu. Application of Integrated Classification Method in Identifying Risk of Fraudulent Financial Report[J]. Computer Engineering and Applications, 2008, 44(34): 226-230.)
doi: 10.3778/j.issn.1002-8331.2008.34.069
[3] Lin C C, Chiu A A, Huang S Y, et al. Detecting the Financial Statement Fraud: The Analysis of the Differences Between Data Mining Techniques and Experts’ Judgments[J]. Knowledge-Based Systems, 2015, 89: 459-470.
doi: 10.1016/j.knosys.2015.08.011
[4] 夏明, 李海林, 吴立源. 基于神经网络组合模型的会计舞弊识别[J]. 统计与决策, 2015(16): 49-52.
[4] (Xia Ming, Li Hailin, Wu Liyuan. Identification of Accounting Fraud Based on Neural Network Combination Model[J]. Statistics & Decision, 2015(16): 49-52.)
[5] Albrecht W S, Wernz G W, Williams T L. Fraud: Bringing Light to the Dark Side of Business[M]. Irwin Professional Pub., 1995.
[6] Persons O S. Using Financial Statement Data to Identify Factors Associated with Fraudulent Financial Reporting[J]. Journal of Applied Business Research, 2011, 11(3): 38-46.
[7] 贺建刚, 孙铮, 周友梅. 金字塔结构、审计质量和管理层讨论与分析——基于会计重述视角[J]. 审计研究, 2013(6): 68-75.
[7] (He Jiangang, Sun Zheng, Zhou Youmei. Pyramid Structures, Audit Quality and the Usefulness of MD & A—Evidence from Accounting Restatements[J]. Auditing Research, 2013(6): 68-75.)
[8] 王克敏, 王华杰, 李栋栋, 等. 年报文本信息复杂性与管理者自利——来自中国上市公司的证据[J]. 管理世界, 2018, 34(12): 120-132.
[8] (Wang Kemin, Wang Huajie, Li Dongdong, et al. Complexity of Annual Report and Management Self-Interest: Empirical Evidence from Chinese Listed Firms[J]. Management World, 2018, 34(12): 120-132.)
[9] Purda L, Skillicorn D. Accounting Variables, Deception, and a Bag of Words: Assessing the Tools of Fraud Detection[J]. Contemporary Accounting Research, 2015, 32(3): 1193-1223.
doi: 10.1111/1911-3846.12089
[10] Bell T B, Carcello J V. A Decision Aid for Assessing the Likelihood of Fraudulent Financial Reporting[J]. Auditing: A Journal of Practice & Theory, 2000, 19(1): 169-184.
doi: 10.2308/aud.2000.19.1.169
[11] Fanning K M, Cogger K O. Neural Network Detection of Management Fraud Using Published Financial Data[J]. International Journal of Intelligent Systems in Accounting, Finance & Management, 1998, 7(1): 21-41.
[12] Waltz E, Llinas J. Multisensor Data Fusion[M]. Boston: Artech House, 1990.
[13] 陈科文, 张祖平, 龙军. 多源信息融合关键问题、研究进展与新动向[J]. 计算机科学, 2013, 40(8): 6-13.
[13] (Chen Kewen, Zhang Zuping, Long Jun. Multisource Information Fusion: Key Issues, Research Progress and New Trends[J]. Computer Science, 2013, 40(8): 6-13.)
[14] Li A H, Xu W J, Shi Y. A New Data Fusion Framework of Business Intelligence and Analytics in Economy, Finance and Management[C]// Proceedings of the 2020 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology. IEEE, 2021: 940-945.
[15] Shen J L, Liu R Y, Xie M G. iFusion: Individualized Fusion Learning[J]. Journal of the American Statistical Association, 2020, 115(531): 1251-1267.
doi: 10.1080/01621459.2019.1672557
[16] Kashinath S A, Mostafa S A, Mustapha A, et al. Review of Data Fusion Methods for Real-Time and Multi-Sensor Traffic Flow Analysis[J]. IEEE Access, 2021, 9: 51258-51276.
doi: 10.1109/ACCESS.2021.3069770
[17] Lau B P L, Marakkalage S H, Zhou Y R, et al. A Survey of Data Fusion in Smart City Applications[J]. Information Fusion, 2019, 52: 357-374.
doi: 10.1016/j.inffus.2019.05.004
[18] 杜德林, 黄洁, 王姣娥. 基于多源数据的中国智慧城市发展状态评价[J]. 地球信息科学学报, 2020, 22(6): 1294-1306.
doi: 10.12082/dqxxkx.2020.190702
[18] (Du Delin, Huang Jie, Wang Jiaoe. Assessment of Smart City Development Status in China Based on Multi-Source Data[J]. Journal of Geo-Information Science, 2020, 22(6): 1294-1306.)
doi: 10.12082/dqxxkx.2020.190702
[19] 吴建华, 张颖, 原雪梅. 动态贝叶斯信用评级的宏观经济冲击模型[J]. 数理统计与管理, 2022, 41(6): 969-981.
[19] (Wu Jianhua, Zhang Ying, Yuan Xuemei. Macroeconomic Shock Model for Dynamic Bayesian Credit Rating[J]. Journal of Applied Statistics and Management, 2022, 41(6): 969-981.)
[20] Wang Q L, Xu W, Huang X T, et al. Enhancing Intraday Stock Price Manipulation Detection by Leveraging Recurrent Neural Networks with Ensemble Learning[J]. Neurocomputing, 2019, 347: 46-58.
doi: 10.1016/j.neucom.2019.03.006
[21] Chen F H, Chi D J, Zhu J Y. Application of Random Forest, Rough Set Theory, Decision Tree and Neural Network to Detect Financial Statement Fraud-Taking Corporate Governance into Consideration[C]// Proceedings of the 10th International Conference on Intelligent Computing. 2014: 221-234.
[22] 李书信, 倪晴, 曹起, 等. 基于财务造假识别模型的公司授信风险预警研究及应用[J]. 国际金融, 2019(1): 30-33.
[22] (Li Shuxin, Ni Qing, Cao Qi, et al. Research and Application of Corporate Credit Risk Early Warning Based on Financial Fraud Identification Model[J]. International Finance, 2019(1): 30-33.)
[23] 姚欣. 我国上市公司财务舞弊影响因素实证分析[J]. 行政事业资产与财务, 2019(20): 83-84.
[23] (Yao Xin. An Empirical Analysis on the Influencing Factors of Financial Fraud of Listed Companies in China[J]. Assets and Finances in Administration and Institution, 2019(20): 83-84.)
[24] 张悦, 宋海涛. 基于代价敏感学习的财务造假识别研究[J]. 财会研究, 2022(2): 22-29.
[24] (Zhang Yue, Song Haitao. Research on Financial Fraud Identification Based on Cost-Sensitive Learning[J]. Research of Finance and Accounting, 2022(2): 22-29.)
[25] 袁先智, 周云鹏, 严诚幸, 等. 财务欺诈风险特征筛选框架的建立和应用[J]. 中国管理科学, 2022, 30(3): 43-54.
[25] (Yuan Xianzhi, Zhou Yunpeng, Yan Chengxing, et al. The Framework for the Risk Feature Extraction Method on Corporate Financial Fraud George[J]. Chinese Journal of Management Science, 2022, 30(3): 43-54.)
[26] 连竑彬. 中国上市公司财务报表舞弊现状分析及甄别模型研究[D]. 厦门: 厦门大学, 2008.
[26] (Lian Hongbin. Fraudulent Financial Statements of Chinese Listed Companies: Analysis of the Status Quo and the Fraud-Detecting Model[D]. Xiamen: Xiamen University, 2008.)
[27] 余玉苗, 吕凡. 财务舞弊风险的识别——基于财务指标增量信息的研究视角[J]. 经济评论, 2010(4): 124-130.
[27] (Yu Yumiao, Lü Fan. The Identification of Financial Fraud: Based on Incremental Information of Financial Index[J]. Economic Review, 2010(4): 124-130.)
[28] Cecchini M, Aytug H, Koehler G J, et al. Making Words Work: Using Financial Text as a Predictor of Financial Events[J]. Decision Support Systems, 2010, 50(1): 164-175.
doi: 10.1016/j.dss.2010.07.012
[29] 董伟. 挖掘和分析文本来识别公司财务欺诈:针对财务报表和社交媒体的分析[D]. 合肥: 中国科学技术大学, 2017.
[29] (Dong Wei. Mining and Analyzing the Text for Corporate Fraud Detection: An Investigation of Financial Statements and Social Media[D]. Hefei: University of Science and Technology of China, 2017.)
[30] 张春梅, 赵明清, 吴学子. 基于新闻情感的上市公司财务造假识别方法研究[J]. 山东科技大学学报(自然科学版), 2021, 40(1): 91-99.
[30] (Zhang Chunmei, Zhao Mingqing, Wu Xuezi. Financial Fraud Identification Method for Listed Companies Based on News Sentiment[J]. Journal of Shandong University of Science and Technology (Natural Science), 2021, 40(1): 91-99.)
[31] Ng W W Y, Hu J J, Yeung D S, et al. Diversified Sensitivity-Based Undersampling for Imbalance Classification Problems[J]. IEEE Transactions on Cybernetics, 2015, 45(11): 2402-2412.
doi: 10.1109/TCYB.2014.2372060 pmid: 25474818
[32] Liu X Y, Wu J X, Zhou Z H. Exploratory Undersampling for Class-Imbalance Learning[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2009, 39(2): 539-550.
doi: 10.1109/TSMCB.2008.2007853
[33] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic Minority Over-Sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.
doi: 10.1613/jair.953
[34] Batista G E A P A, Prati R C, Monard M C. A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data[J]. ACM SIGKDD Explorations Newsletter, 2004, 6(1): 20-29.
doi: 10.1145/1007730.1007735
[35] Quinlan J R. Induction of Decision Trees[J]. Machine Learning, 1986, 1(1): 81-106.
[36] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.
doi: 10.1023/A:1010933404324
[37] Friedman J H. Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.
doi: 10.1214/aos/1013203450
[38] Chen T Q, Guestrin C. XGBoost: A Scalable Tree Boosting System[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016: 785-794.
[39] Ke G L, Meng Q, Finley T, et al. LightGBM: A Highly Efficient Gradient Boosting Decision Tree[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. ACM, 2017: 3149-3157.
[40] Van Rijsbergen C J. Information Retrieval[M]. Butterworths, 1979.
[1] 李国锋, 李祚娟, 王哲吉, 吴梦. 基于多任务学习的税务稽查选案研究*[J]. 数据分析与知识发现, 2022, 6(6): 128-140.
[2] 李纲, 余辉, 毛进. 基于多层语义相似的技术供需文本匹配模型研究*[J]. 数据分析与知识发现, 2021, 5(12): 25-36.
[3] 李广建,王锴,张庆芝. 基于多源数据的美国出口管制分析框架及其实证研究*[J]. 数据分析与知识发现, 2020, 4(9): 26-40.
[4] 胡正银,刘蕾蕾,代冰,覃筱楚. 基于领域知识图谱的生命医学学科知识发现探析*[J]. 数据分析与知识发现, 2020, 4(11): 1-14.
[5] 齐惠颖,江雨荷. 基于多组学数据融合构建乳腺癌生存预测模型 *[J]. 数据分析与知识发现, 2019, 3(8): 88-93.
[6] 翟东升,郭程,张杰,李登杰. 采用异常检测的技术机会识别方法研究[J]. 现代图书情报技术, 2016, 32(10): 81-90.
[7] 牛亚真, 祝忠明. 个性化服务中关联数据驱动的用户语义建模框架[J]. 现代图书情报技术, 2012, (10): 1-7.
[8] 汪名森,王强. Mashup系统构建研究[J]. 现代图书情报技术, 2009, 25(5): 34-38.
[9] 钱旭,顾巍,陈凌晖,丁晓峰 . 网络蠕虫检测系统的设计和实现[J]. 现代图书情报技术, 2007, 2(1): 44-48.
[10] 丁晓峰,李周贤,刘炳华,顾巍,吴楠宁 . 在SSH协议下的入侵检测[J]. 现代图书情报技术, 2006, 1(4): 60-62.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
版权所有 © 2015 《数据分析与知识发现》编辑部
地址:北京市海淀区中关村北四环西路33号 邮编:100190
电话/传真:(010)82626611-6626,82624938
E-mail:jishu@mail.las.ac.cn