Please wait a minute...
Data Analysis and Knowledge Discovery  2022, Vol. 6 Issue (1): 22-34    DOI: 10.11925/infotech.2096-3467.2021.1422
Current Issue | Archive | Adv Search |
Comprehensive Management System and Technical Framework of Data Quality in the Data Circulation Transaction Scenario
Huang Qianqian1,2,Zhao Zheng2(),Liu Zhaoyin3
1School of Information Resource Management, Renmin University of China, Beijing 100872, China
2Department of Big Data Development, State Information Center, Beijing 100045, China
3Department of Research and Consulting, Greater Bay Area Big Data Research Institute, Shenzhen 518048, China
Download: PDF (772 KB)   HTML ( 37
Export: BibTeX | EndNote (RIS)      
Abstract  

[Objective] In the context of data transaction, in order to strengthen data circulation management and improve data circulation transaction rules, a set of comprehensive data quality management system and technical framework under the scenario of data circulation transaction are constructed according to the focus of data product quality evaluation and management. [Methods] Using literature research method, we reviewed the current literature of data quality assessment and commonly used methods of data quality inspection at home and abroad. Combining industry experience and specific scenarios of data transactions, we proposed a quality evaluation model containing raw data sets, desensitized data sets, modeled data, and AI-based data, along with a management system to improve the data quality before, during, and after data transactions. [Results] This paper raises a data quality evaluation model in transaction context that based on the “6543” structure, namely six types of main indicators, five types of subjects, four types of products, and three types of evaluation methods. Provide testing and optimization solutions to data normativeness and completeness in the pre-transaction phase, data accuracy and consistency during the transaction phase, as well as data timeliness and accessibility in post-transaction phase. [Limitations] The data quality model and management system have not been systematically used in real transaction scenarios, and there is a lack of actual testing. [Conclusions] The proposed quality evaluation model and quality management system play an important role in realizing the quality evaluation and improvement of data products in the whole process of data transaction.

Key wordsData Product      Data Quality Assessment      Data Quality Management      Technical Framework     
Received: 18 December 2021      Published: 22 February 2022
ZTFLH:  TP391  
Corresponding Authors: Zhao Zheng     E-mail: pmlzzz0426@163.com

Cite this article:

Huang Qianqian,Zhao Zheng,Liu Zhaoyin. Comprehensive Management System and Technical Framework of Data Quality in the Data Circulation Transaction Scenario. Data Analysis and Knowledge Discovery, 2022, 6(1): 22-34.

URL:

https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/10.11925/infotech.2096-3467.2021.1422     OR     https://manu44.magtech.com.cn/Jwk_infotech_wk3/EN/Y2022/V6/I1/22

评估指标 规范性 完整性
数据标准 数据模型 业务规则 元数据 安全规范 脱敏规范 模型规范 AI模型规范 数据元素完整性 数据记录完整性 模型功能完整性
指标含义 评价数据产品是否符合数据标准 数据符合模
型的度量
数据符合
业务规则
的度量
数据符合元数据定义的度量,评价内容包括但不限于数据项类型、格式、值域等与元数据的一致性 评价产品安全和隐私方面规则的建立与实施情况,包括但不限于数据权限管理、旧数据销毁规则等 评价数据集中满足脱敏要求的元素数量占总元素数量的比例 模型的代码、输出等符合模型规则的度量 AI模型的代码、算法、输出等规则符合模型规范的度量 按照业务规则要求,数据集中应被赋值的数据元素的赋值程度 按照业务规则要求,数据集中应被赋值的数据记录的赋值程度 按照业务规则要求,AI化数据所使用数据集中应被赋值的数据记录的赋值程度
原始数据集 / / / /
脱敏数据集 / / /
模型化数据集 / / /
AI化数据 / /
评估指标 准确性
唯一性 重复率 脏数据
出现率
格式正确性 结果正确性 建模过程
准确度
建模应用
准确度
拟合程度 对抗性
样本防御
数据集标注覆盖度 数据集
标注准确度
指标含义 特定字段、记录、文件或数据集唯一性的度量 特定字段、记录、文件或数据意外重复的度量 特定字段、记录、文件或数据意外重复的度量 数据格式(数据类型、数值范围、数据长度、精准度等)是否满足预期要求 输出结果是否能正确对应其反映的实际信息的相关特征 评价AI化数据在建模过程的模型准确性 评价AI化数据在建模应用的模型准确性 评价AI模型的拟合程度 评估模型对于对抗性样本的防御能力 训练数据集中已标注数据的度量 训练数据集中所抽取样本标注的准确性度量
原始数据集 / / / / / / /
脱敏数据集 / / / / / / /
模型化数据集 / / / / / /
AI化数据 / / / / /
评估指标 一致性 时效性 可访问性 场景类指标
关联数据一致性 相同数据一致性 数据特征一致性 时间段正确性 时间点及时性 时序性 数据可访问性 模型响应时间
指标含义 同一数据在不同位置存储或被不同应用或用户使用时,数据的一致性;数据发生变化时,存储在不同位置的同一数据被同步修改 根据一致性约束规则检查关联数据的一致性,包括但不限于数据值逻辑关系和存在关系等 评价脱敏后数据对原始数据特征的体现程度,包括但不限于数据结构特征与数据统计特征 评价数据产品的更新频率(按天/周/月/季/年等)符合用户需求的程度 评价数据产品的更新延迟率影响用户需求的程度 数据集中同一实体的数据元素之间的相对时序关系 评价同一数据产品在需要时的可获取性 评价AI模型在同一需求下的响应时间符合业务需求的程度。 根据场景需求新增的指标
原始数据集 / /
脱敏数据集 /
模型化数据集 / /
AI化数据 /
Data Product Quality Assessment Framework
Data Product Quality Assessment Procedure
报告项 所属
一级指标
释义 0阶 1阶 2阶 3阶
报告名称 / 报告名称 必须 必须 必须 必须
报告范围 / 数据产品涉及的范围 可选 可选 可选 可选
数据质量评估 / 评估数据质量的方法 必选 必选 必选 必选
数据描述 / 数据质量测量的数学描述 必选 必选 必选 必选
数据质量测量值 / 数据质量得到的测量值 必选 必选 必选 必选
数据质量测量值单位 / 数据质量测量值所用单位 必选 必选 必选 必选
数据标准 规范性 数据符合数据标准的测量 必选 必选 可选 可选
数据模型 数据符合模型的度量 必选 必选 可选 可选
元数据 数据符合元数据定义的度量 必选 必选 可选 可选
业务规则 数据符合业务规则的度量 必选 必选 可选 可选
安全规范 安全和隐私方面的规则 必选 必选 必选 必选
脱敏规范 数据集中满足脱敏要求的元素数量 / 必选 / /
模型规范 模型的输出等符合模型规则的度量 / / 必选 /
AI模型规范 AI模型的代码、算法、输出等规则符合模型规范的度量 / / / 必选
数据元素完整性 完整性 数据集中应被赋值的数据元素的赋值程度 必选 必选 必选 可选
数据记录完整性 数据集中应被赋值的数据记录的赋值程度 必选 必选 必选 可选
模型功能完整性 模型输出结果对指定任务和用户目标的实现程度 / / / 必选
唯一性 准确性 特定字段、记录、文件或数据集唯一性的度量 必选 必选 可选 /
重复率 特定字段、记录、文件或数据意外重复的度量 必选 必选 可选 /
脏数据出现率 正确字段、记录、文件或数据之外无效数据的度量 必选 必选 可选 /
数据格式合规性 数据格式是否与预期一致 必选 必选 可选 /
结果正确性 输出结果是否能正确对应其反映的实际信息的相关特征 / / 必选 /
建模过程的准确度 评价AI化数据在建模过程的模型准确性 / / / 可选
建模应用的准确度 评价AI化数据在建模应用的模型准确性 / / / 必选
拟合程度 评价否获取了数据集的特征信息进行有效地建模 / / / 可选
对抗性样本防御 评估模型对于对抗性样本的防御能力 / / / 可选
数据集标注准确度 数据集中所抽取样本标注的准确性度量 / / / 可选
数据集标准覆盖度 数据集中已标注数据的度量 / / / 可选
关联数据一致性 一致性 关联数据是否统一 必选 必选 可选 可选
相同数据一致性 同一数据在不同位置存储或被不同应用或用户使用时,数据是否一致 必选 必选 必选 可选
数据特征一致性 对原始数据特征的体现程度 / 必选 / /
时间段正确性 时效性 评价数据的更新频率(按天/周/月/季/年等),符合客户需求的程度。 必选 必选 必选 必选
时间点及时性 评价数据的更新延迟率,影响客户需求的程度。 必选 必选 必选 必选
时序性 数据之间相对顺序是否与预期一致 必选 必选 必选 可选
数据可访问性 可访问性 数据产品在需要时的可获取性 必选 必选 必选 必选
模型响应时间 评价模型在同一需求下的响应时间,符合业务需求的程度 / / / 必选
评估方式 / 各指标的评估方式 必选 必选 必选 必选
评估方法 / 各指标的评估方法 必选 必选 必选 必选
检查方式 / 所用检查策略信息(完全、取样) 必选 必选 必选 必选
抽样方法 / 抽样方法信息 抽样时必选 抽样时必选 抽样时必选 抽样时必选
抽样方法类型 / 抽样方法类型 抽样时必选 抽样时必选 抽样时必选 抽样时必选
抽样过程 / 抽样过程详细描述 抽样时必选 抽样时必选 抽样时必选 抽样时必选
样本数及比例 / 样本大小及占全体的比率 抽样时必选 抽样时必选 抽样时必选 抽样时必选
Data Product Quality Assessment Report
Data Product Transaction Quality Management Flowchart
[1] 刘鹤 坚持和完善社会主义基本经济制度 人民日报, 2019-11-22(006)
[1] ( Liu He. Upholding and Improving the Socialist Basic Economic System[J]. People's Daily, 2019-11-22(006)
[2] Ijab M T, Ahmad A, Kadir R A, et al. Towards Big Data Quality Framework for Malaysia's Public Sector Open Data Initiative [C]//Proceedings of International Visual Informatics Conference. Springer, Cham, 2017.
[3] 邵艳红. 我国政府开放数据质量评价指标体系构建研究[D]. 保定: 河北大学, 2019.
[3] ( Shao Yanhong. The Research on Construction of Quality Evaluation Index System of Chinese Open Government Data[D]. Baoding: Hebei University, 2019.)
[4] 翟军, 陶晨阳, 李晓彤. 开放政府数据质量评估研究进展及启示[J]. 图书馆, 2018(12):74-79.
[4] ( Zhai Jun, Tao Chenyang, Li Xiaotong. Progress and Inspiration of Research on Quality Assessment for Open Government Data[J]. Library, 2018(12):74-79.)
[5] 张文文. 基于用户视角的政府统计数据质量综合评估[D]. 济南:山东大学, 2019.
[5] ( Zhang Wenwen. Comprehensive Evaluation of the Quality of Government Statistical Data from the Perspective of Users[D]. Ji'nan: Shandong University, 2019.)
[6] 莫祖英, 邝苗苗. 基于用户视角的政府开放数据质量评价模型及实证研究[J]. 大学图书情报学刊, 2020, 38(4):84-89.
[6] ( Mo Zuying, Kuang Miaomiao. Empirical Research and Quality Evaluation Model of Government Open Data Based on User Perspective[J]. Journal of Academic Library and Information Science, 2020, 38(4):84-89.)
[7] 刘博浩. 我国开放政府数据质量评价研究[D]. 郑州: 郑州大学, 2019.
[7] ( Liu Bohao. Research on the Evaluation of Open Government Data Quality in China[D]. Zhengzhou:Zhengzhou University, 2019.)
[8] Behkamal B, Kahani M, Bagheri E. Quality Metrics for Linked Open Data [C]//Proceedings of the 26th International Conference on Database and Expert Systems Applications. Springer, Cham, 2015.
[9] Graves A, Hendler J. Visualization Tools for Open Government Data [C]//Proceedings of the 14th Annual International Conference on Digital Government Research. 2013: 136-145.
[10] Kubler S, Robert J, Neumaier S, et al. Comparison of Metadata Quality in Open Data Portals Using the Analytic Hierarchy Process[J]. Government Information Quarterly, 2018, 35(1):13-29.
doi: 10.1016/j.giq.2017.11.003
[11] 廖书妍. 数据清洗研究综述[J]. 电脑知识与技术, 2020, 16(20):44-47.
[11] ( Liao Shuyan. A Review of the Development of Data Cleaning[J]. Computer Knowledge and Technology, 2020, 16(20):44-47.)
[12] Monge A E, Elkan C. The Field Matching Problem: Algorithms and Applications [C]//Proceedings of Conference on Knowledge Discovery and Data Mining. 1996.
[13] 周芝芬. 基于数据仓库的数据清洗方法研究[D]. 上海: 东华大学, 2004.
[13] ( Zhou Zhifen. Research of Data Cleaning Method Based on Data Warehouse[D]. Shanghai: Donghua University, 2004.)
[14] Hernández M A, Stolfo S J. Real-world Data is Dirty: Data Cleansing and the Merge/Purge Problem[J]. Data Mining and Knowledge Discovery, 1998, 2(1):9-37.
doi: 10.1023/A:1009761603038
[15] 《国家数据质量评价标准》: GB/T 36344-2018[S]. 北京: 全国信息技术标准化技术委员会, 2018.
[15] (Information Technology—Evaluation Indicators for Data Quality: GB/T 36344-2018[S]. Beijing: National Information Technology Standardization Technical Committee, 2018.)
[16] 《政府数据数据脱敏工作指南》:DB52/T 1126-2016[S]. 贵州:贵州省质量技术监督局, 2016.
[16] (Governmental Data Work Instructions for Data Masking: DB52/T 1126-2016[S]. Guizhou: Guizhou's Bureau of Quality and Technical Supervision, 2016.)
[17] 《人工智能深度学习算法评估规范》: AIOSS-01-2018[S]. 北京:中国人工智能开源软件发展联盟, 2018.
[17] (Artificial Intelligence—Assessment Specification for Deep Learning Algorithms: AIOSS-01-2018[S]. Beijing: China Artificial Intelligence Open Source Software Development League, 2018.)
[1] Chen Donghua, Zhang Runtong. Public Opinion Analysis of Online Posts about Vaccine Reactions Based on Topic Modeling and Multi-label Classification [J]. 数据分析与知识发现, 0, (): 1-.
[2] Xie Xingyu, Yu Bengong. Automatic Classification of E-commerce Comments with Multi-Feature Fusion Model[J]. 数据分析与知识发现, 2022, 6(1): 101-112.
[3] Zhang Le, Leng Jidong, Lv Xueqiang, Yuan Menglong, You Xindong. Discovering Chinese New Words Based on Multi-sense Word Embedding[J]. 数据分析与知识发现, 2022, 6(1): 113-121.
[4] Zhang Yujie, Bai Rujiang, Xu Haiyun, Han Jing, Zhao Mengmeng. Assisted TCM Diagnosis and Treatment for Diabetes with Multi NLP Tasks[J]. 数据分析与知识发现, 2022, 6(1): 122-133.
[5] Du Ziran, Dou Yue, Yi Chengqi, Hong Boran, Gu Mingze, Li Lin. TID-MOP:The Comprehensive Framework of Security Management and Control in the Scenario of Data Exchange[J]. 数据分析与知识发现, 2022, 6(1): 13-21.
[6] Dou Yue, Yi Chengqi, Huang Qianqian, Mo Xinyao, Wang Jiandong, Yu Shiyang. Constructing a Common Data Circulation Infrastructure Platform for the National Unified Data Factor Market——Technical Path and Policy Thinking of Constructing the National “Data Networking” Root Service System[J]. 数据分析与知识发现, 2022, 6(1): 2-12.
[7] Zeng Jianpeng, Zhao Zheng, Du Ziran, Hong Boran. Unified Privacy Computing Framework in Data Circulation Scenario Based on the Practice of Shenzhen Data Exchange[J]. 数据分析与知识发现, 2022, 6(1): 35-42.
[8] Wang Xiaoqing, Sun Zhanwei, Wu Junhong, Du Ziran, Qian Chengjiang. Research Progress of Data Traceability from the Perspective of Data Element Circulation[J]. 数据分析与知识发现, 2022, 6(1): 43-54.
[9] Wang Xuefeng, Ren Huichao, Liu Yuqin. Visualization Method for Technology Theme Map with Clustering[J]. 数据分析与知识发现, 2022, 6(1): 91-100.
[10] Yu Bengong, Zhang Shuwen. Aspect-Level Sentiment Analysis Based on BAGCNN[J]. 数据分析与知识发现, 2021, 5(12): 37-47.
[11] Zhou Wenyuan, Wang Mingyang, Jing Yu. Automatic Classification of Citation Sentiment and Purposes with AttentionSBGMC Model[J]. 数据分析与知识发现, 2021, 5(12): 48-59.
[12] Wu Yanwen, Cai Qiuting, Liu Zhi, Deng Yunze. Digital Resource Recommendation Based on Multi-Source Data and Scene Similarity Calculation[J]. 数据分析与知识发现, 2021, 5(11): 114-123.
[13] Li Zhenyu, Li Shuqing. Deep Collaborative Filtering Algorithm with Embedding Implicit Similarity Groups[J]. 数据分析与知识发现, 2021, 5(11): 124-134.
[14] Dong Miao, Su Zhongqi, Zhou Xiaobei, Lan Xue, Cui Zhigang, Cui Lei. Improving PubMedBERT for CID-Entity-Relation Classification Using Text-CNN[J]. 数据分析与知识发现, 2021, 5(11): 145-152.
[15] Yu Chuanming, Zhang Zhengang, Kong Lingge. Comparing Knowledge Graph Representation Models for Link Prediction[J]. 数据分析与知识发现, 2021, 5(11): 29-44.
  Copyright © 2016 Data Analysis and Knowledge Discovery   Tel/Fax:(010)82626611-6626,82624938   E-mail:jishu@mail.las.ac.cn