CQC-6D模型首度解读:构建人工智能高质量数据集的中国方案


本期人物:王锋
中国质量认证中心区块链与数据服务部部长、数据智能创新工作室负责人、产业教授、江苏省数字经济学会专家会员,主要从事数据产品质量、高质量数据集、数据标注质量、数据安全合规、可信数据空间、数据资产价值评估及入表、检测认证等若干方向研究,致力于推动数字化认证、数据全要素服务等。
王部长,作为数据质量评价领域的专家,请您先跟我们科普一下,什么是“高质量数据集”?它与传统数据集相比,有哪些核心特征和评判标准?
A1:王锋
——高质量数据集特指为人工智能服务的一类数据产品。其具有鲜活度、真实性、大样本、完整性、多样性、高知识密度等特性,需满足技术可行、实用便捷与质量保障三个递进要求。
(一)数据及相关词的定义
1.数据:根据《数据安全法》第三条,数据是指任何以电子或者其他方式对信息的记录。例如线上交流的录音是以电子方式记录信息,是数据;用本子做笔记是以其他方式记录信息,也是数据。因此,数据有多种表现形式,从不同维度有不同划分。
2.数据集:数据集就是数据的集合,这些数据按照一定的组织方式汇聚在一起,以便进行存储、管理、分析和应用。
3.数据资源:当数据积累到一定规模,除原本记录事物信息的功能外,还具有进一步挖掘更高价值的潜力,就变成了数据资源。
4.数据产品:作为产品的数据集就是数据产品,它是从数据集中衍生出来的信息服务。当前在全国数据交易所(场内交易)有大量上架的数据产品,每个数据交易所都有几千个。
5.数据资产:有三个核心定义,一是主体合法拥有或控制;二是能够进行货币计量;三是能够带来直接或者间接的经济利益,满足这三个核心要素的数据资源就是数据资产。

(二)高质量数据集的定义及特征
1.定义:其本质是一类数据产品。国家数据局刘烈宏局长提出,“满足技术可行、实用便捷、质量保障这三个递进要求,达到质量保障这一级别 AI ready 程度的数据集可称为高质量数据集”;《高质量数据集建设指南》(国家标准征求意见稿)将其定义为经过采集加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。综合来看,高质量数据集有预设场景,即给人工智能服务,并非泛指满足完整性、一致性、及时性等很多高质量特性的数据集,而是特指服务于人工智能场景的数据集。
2.与传统数据集相比的特征:具有鲜活度、真实性、大样本、完整性、多样性、高知识密度等特性,要满足技术可行、实用便捷与质量保障这三个递进要求。

您在文章中提到,中国质量认证中心颁发了全国首张人工智能高质量数据集证书,能否结合这个具体案例,详细介绍一下评价过程中采用了哪些关键技术手段来确保数据集的质量?这些技术如何解决数据权限控制、质量审核等实际问题?
A2:王锋
——往前追溯,这项工作我们已开展多年。
在2022年世界人工智能大会-数据要素流通技术前沿探索论坛上,我们为中国工商银行所属工银科技(北京)有限公司颁发了国内首张数据产品质量评价证书,填补了数据要素流通领域第三方认证服务的空白,同时也为数据要素流通市场树立了实践样板。2023年,我们颁发了全国首个电力行业数据产品质量评价证书,并与评估机构携手发布了数据资产价值评估报告。这一首创实践案例是在数据交易所提供市场参考价的基础上,以市场法公允价值与成本法参考相结合进行评估。

随着人工智能发展,我们积极响应国家“人工智能+”行动,立项研发人工智能高质量数据集相关评价。截至目前,已发布到第四批证书,整体通过率约30%,相关新闻已在网上发布。例如,首张人工智能高质量数据集证书颁给了江苏的企业——数族科技(江苏省数字经济学会会员单位),其凭借企业经营指标特性数据集获证。

简单介绍一下数族科技数据集情况:
典型性与特性:该数据集具有典型性,全面覆盖静态评估、动态评估以及一致性管控。它包含文本、图像两种数据模态,涵盖工商、司法、知识产权、发票、税务等企业经营数据维度,能反映企业各项经营特性指标,应用场景广泛。我们推崇在特定场景下设计建设数据集,该数据集就体现了这一理念。
规模与特性体现:评估的数据集中,文本清洗后达12 T,图像数据规模清洗后达18T,数据量大,具有大样本特性;同时具备高知识密度特性。此外,在多样性、完整性、干净性、一致性、稠密度、均衡性、原创性、安全性等众多指标(指标下还有二级、三级指标)下进行了评估,在动态模型训练阶段也满足相应要求。
——目前,我们仍在不断优化采用的关键技术,也在持续深入前沿探索。
工具与方法论提升:从最初为数据产品发证,到如今评估高质量数据集,我们的工具和方法论不断总结提升,不过目前工作开展时间不长,还有很多技术需要攻克。
依托可信数据空间探索:国家大力推进数据基础设施建设,当前有六条技术路线,其中第四条是可信数据空间。今年国家数据局发布了五类数据空间中的三个方向(企业可信数据空间、行业可信数据空间、城市可信数据空间)试点。我们依托可信数据空间基础设施,开展空间内的可信评测,进行前沿探索以解决当前遇到的问题 。
随着人工智能技术的快速发展,高质量数据集已成为推动AI模型精进与创新的基石。您参与制定的《人工智能高质量数据集评价技术规范》创新性地提出了“CQC-6D模型”评价体系,能否请您深入解析一下这一评价体系?在实际应用过程中,您发现哪个维度的评价最具挑战性?
A3:王锋
——"CQC-6D评价模型"主要从数据说明,数据模态,数据质量,模型应用,数据服务,数据管理六个维度评估高质量数据集,对齐了国家数标委的相关技术文件以及最新技术标准的动态,也满足国家数据局刘局长提到的三个递进要求。
“CQC-6D评价模型”从以下几个维度进行考量:
首先是数据集本身的内生质量要求:这涉及一些数据指标,如完整性、多样性、稠密性、干净性、可访问性以及模型的适配性等等。其次是动态评估:鉴于高质量数据集是为模型提升服务的,所以此维度关注其在相关人工智能模型上的赋能表现。再次是质量一致性管控:以矿泉水生产为例,不仅要保证抽样检测的矿泉水样品符合市场要求进入流通,还要保证整条生产线上生产的每一瓶水都满足要求,对于高质量数据集同样如此。
将“CQC-6D评价模型”进一步拆解成以下六个二级指标,从不同角度体现上述所说的静态、动态、一致性管控:
数据说明主要服务于训练数据集的选择,包含数据集的基本信息、内容特征、建设过程以及应用说明等内容,即评价不同方面数据说明文档的完整性。数据模态方面,以我们评价发证的高质量数据集为例,它有文本和图像两种模态,实际上还有很多其他模态,比如视频、音频、3D点云、时序、思维链条、大模型对话等等。数据指标则有一些和模型特性相关的特性指标,包括数据质量和模型应用指标。数据服务和数据管理这两块,则从侧面验证一致性管控的能力要求。

——从实际应用来看,当下整个行业普遍面临一些挑战。其中,最具挑战的维度是行业数据集评估标准缺失及模型动态验证的基础性工作。
一是多模态数据评估。二是不同行业数据集的评估,主要困难在于目前缺乏相应的标准。不过,值得欣喜的是,今年全国数标委积极行动,先后举办了两次数据标准周活动,上半年于成都开展,下半年则在11月3号至7号于南京举行。在第二批预研的数据标准项目中,目前已有49项标准以及26项技术文件。工作组聚焦于人工智能高质量数据集相关标准,涵盖建设指南、数据合成技术要求、数据质量评测系统相关要求、建设运营成熟度模型要求以及具身智能数据标注等诸多方面。
不仅如此,针对石油化工、风电、火电、煤炭、矿山、传媒等不同行业,也正在紧锣密鼓地起草标准文件。可以预见,相信随着行业在标准制定、场景拓展等领域的协同共进,这些难题将逐步得到化解。三是模型的动态基准提升和动态验证,这一块依然有很多基础性工作要做,这和产业发展是同步的过程,工作量不少,需要大家共同努力。

在您看来,对于普通企业而言,如何从零开始构建一套适合自身业务需求的高质量数据集体系?您能否分享一些实操经验?
A4:王锋
——企业未必都有建高质量数据集的需求,对于有需求的普通企业,建议先参照相应国家标准,做好以下基础性工作,再开展数据及相关业务探索。
一是梳理数据资源目录,进行数据分类分级。2024年,国家发布了标准GB/T 43697-2024《数据安全技术 数据分类分级规则》(推荐性国标),企业可从这方面入手。二是针对产业链上有价值的场景进行数据产品化及数据资源入表,财政部于2024年发布《企业数据资源相关会计处理的暂行规定》,资产负债表新增“数据资源”条目。对应数据资源入表工作,很多企业很重视并从战略角度推进,这既能衡量企业数字化水平,也是企业数字化转型的试金石,这些工作很多企业都能做。

——对于面向智能化转型、有高知识密度、数据量大、高价值数据的企业,可打造高质量数据集,但其建设过程具有挑战性,应先分析需求与自身产业链,明确场景、数据范围及可用性,再借助合适的数据采集手段来提升采集和标注的质量、转化率等。
1.数据需求:很多企业想建高质量数据集但没想好场景,这个顺序实则不妥。首先应先针对产业、企业、产业链找有价值的场景,结合自身数据特色,梳理出相应需求,明确数据范围、内容,如数据格式特征、可用性检查、数据质量模型构建等。
2.数据规划:这方面工作很多,包括构建数据图谱、属性清单、关系模型、实施计划、数据质量计划,预估投入的人力、时间、资源等。
3.数据采集:当前采集手段多,企业要通过适合自己的手段不断改进数据收集方法,提升数据采集质量。
4.数据预处理:这方面相关技术多,企业要有效进行数据转换,以最小内容损失完成相关数据验证、清洗、聚合,进行数据抽样、特征创建(创建比原始特征更有效捕捉数据主要信息的新特征)、特征选择(丰富内容),为数据增加额外上下文语境,因为是辅助模型的。
5.数据标注:去年国家发布了七个标注基地,如合肥、长沙、海口等,我们在宿迁市联合江苏钟吾大数据发展集团成立了数据标注测评中心,做了一些基础性工作,统一了数据标注质量标准维度、场景等,还要做好标注流程管理。

6.模型验证与评价:它不仅是对模型性能的一次全面审视,更是确保模型在实际场景中能够稳定、可靠运行的关键保障。因此,须严谨细致地做好与之相关的各项工作,涵盖从验证方法的选择、评价标准的制定,到验证数据的收集与处理,再到最终评价结果的解读与应用等各个环节,确保模型性能得到准确评估与有效验证。
行业前瞻
当前,多项政策的出台正在推动数据要素市场化。您认为,一些新兴技术(如区块链、隐私计算)将如何影响高质量数据集的建设?您团队在这方面是否有一些前瞻规划或创新举措?
A5:王锋
——我们团队在数据空间方面开展了一些创新工作。
当前,国家正积极推进数据基础设施建设工作。其中,区块链和隐私计算作为两条核心的技术路线,正发挥着关键作用。另外,数场、数据元件、数联网以及可信数据空间等相关建设工作也在同步推进。
特别是数据空间方面,目前已有企业、行业、城市等推进案例发布,还有个人和跨境数据空间的探索。依托数据空间,不光区块链和隐私计算会影响高质量数据集建设,当前的基础设施建设对整个数据市场发展都有深远影响,包括未来数据流通效率提升、场景级和商业模式打造等,都很大程度依赖基础设施。我们团队在这方面开展了一些创新工作:
1.发布白皮书与建设可信质量数据空间:今年11月份,我们发布了可信质量数据空间白皮书,正在打造一个可信质量数据空间,并同步探索数字化认证新模式。

2.提出架构与打造新型质量基础设施:以构建高水平新型质量基础设施为核心目标,我们提出了质量数据服务网络架构,依托该架构开展数字化认证新思路。运用区块链、隐私计算、可信数据空间等技术打造新型质量基础设施,通过质量认证数据“可用不可见、可用不出域、可控可计量”,研制覆盖全流程的数字化认证业务规范和标识,借助认证过程模型化实现认证结果智能判断。

从行业发展来看,质量认证数字化需要高水平质量认证基础设施支撑。质量数据可信流通、安全共享与高效利用是关键瓶颈和基础设施需求。现有质量数据存在分散隔离、标准不一、可信度不足等问题,导致工作效率偏低、跨域联动不畅、难以拓展数字化场景,当前靠人去工厂检查及一些数字化手段难以做到实时认证,比如难以提供深层次质量诊断服务,进而影响产业更高水平发展,也无法匹配企业发展到无人工厂阶段对认证评价服务的需求。质量数据服务网络建成后,将带来多方面的提升:能实现实时认证评价;能显著提升认证评价工作有效性,进而提升高质量数据集评价的有效性;能为行业提供公共服务,满足对质量数据的需求,例如助力中小企业质量提升场景等等。
对于即将踏入数据领域的青年,您有哪些建议可以分享吗?
A6:王锋
——建议青年及时跟踪技术发展及政策动态、深耕产业场景、关注“人工智能+”趋势,并构建自己的行业圈。
1.持续跟踪技术发展:数据产业技术路线丰富多样,像区块链、隐私计算等都是关键技术。以数据空间为例,它包含个人、跨境、企业、行业、城市五类。个人数据空间存在隐私保护、数据主权等问题;跨境数据空间需解决数据跨境流动规则、安全防护等破题点;企业、行业、城市数据空间也各有建设重点与未来场景。青年要紧跟技术前沿,深入了解这些技术的原理、应用场景及发展趋势,为职业发展筑牢根基。
2.及时关注政策动态:我国率先将数据作为生产要素,政策创新性强且迭代快。近期数据产权政策文件开始征求意见,其中新举措、新动向蕴含着产业发展方向。青年要密切关注政策变化,准确把握政策导向,以便在产业发展中顺势而为,抓住政策红利带来的机遇。
3.扎根产业实践:数据要素不能脱离产业单独存在,青年应投身到自身专业方向对应的产业中,在实践中结合数据要素推动产业发展。例如思考如何实现数据的产业化、产业的数据化,以及数据资源化、资源资产化、资产资本化。脱离产业的数据要素发展如同无本之木、无源之水,只有在产业实践中才能让数据要素发挥真正价值。
4.深刻理解产业场景:场景是连接技术与产业、打通研发与市场的桥梁,对推动科技创新和产业创新融合发展至关重要。国务院办公厅发布的37号文强调加快场景培育和开放,推动新场景大规模应用。在数据要素产业中,青年要对产业场景有深刻理解,因为只有如此,才能充分发挥数据要素的威力,避免在看似热度高的数据产业中因场景理解不足而感到失望。
5.结合人工智能发展:今年以来,人工智能发展势头迅猛,“人工智能 +”已成为普遍共识。人工智能的基础支撑包括算法、数据和算力,目前算力和算法并非短板,而高质量数据集是提升人工智能产业发展的关键,堪称人工智能的天花板。青年要关注如何通过打造高质量数据集来提升人工智能产业发展水平,思考在“人工智能 +”浪潮中能开展哪些工作。
6.积极拓展人脉打造生态圈:数据产业发展需要各方协同合作,青年要多结交数据产业内的朋友,倾听他们对市场的理解和见解。通过交流,不仅能拓宽视野,还能打造一个良好的生态圈,共同推动数据产业发展。
关于栏目简介:
《数字漫谈》栏目是江苏省数字经济学会的品牌科普栏目,由学会科普工作委员会承办,提供学会及分支机构秘书长与数字经济各领域专家、企业家等人才专题访谈。引领公众了解数字经济的奥秘与前沿技术。在这里,你能看见各路大咖,以通俗易懂的语言,为你解读数字经济的核心、发展趋势和实际应用。他们的分享将激发你的好奇心,引领你走进数字经济的奇妙世界。
无论你是数字经济领域的专业人士,还是对数字经济充满好奇的普通人,都能在《数字漫谈》中找到答案。栏目用深入浅出的方式,带你探索数字经济的奥秘,让你在轻松愉快的氛围中收获知识,启迪思维。一起加入《数字漫谈》的行列吧,共同开启一段数字经济的探索之旅。
首页推荐
- 百美村庄宁夏首村正式开村09-29
- “新思想 进乡村”乡村振兴培训班在河南滑县举行05-29
- 中国乡村发展基金会人道救援网络十周年工作会在杭举行05-17
- 菲仕兰爱心月嫂2024年项目启动,阶梯培训升级赋能04-24
热门推荐
图集
点击排行















