身份宝入选国家数据局高质量数据集标准验证试点典型单位

发布时间:2025-09-01 16:47:37
分享到:

由国家数据局主办的“2025中国国际大数据产业博览会”正在贵州贵阳盛大召开。会上,国家数据局正式公布“高质量数据集标准验证试点典型单位”名单,身份宝凭借高质量数据集建设领域的强劲实力,成功入选多个典型试点。




试点典型单位名单





背  景






当前,大模型技术应用快速发展,大模型能力边界几乎完全由数据的质量、规模和安全性来定义,数据是提升模型能力的关键和模型训练的基础,也是拓展智力上限和性能优化的支撑。数据决定了大模型的性能上限,高质量数据集则成为大模型训练及应用、驱动行业创新的关键资源。


然而,各行各业在推进“人工智能+”应用时,普遍面临着行业知识不足、数据处理低效与合规流通不畅等“数据瓶颈”。国家数据局局长刘烈宏强调:“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里。”

在国家数据局的指导下,全国数据标准化技术委员会启动了高质量数据集的《建设指南》《格式要求》《分类指南》及《质量评测规范》四个版块的标准及技术文件验证试点工作,身份宝悉数入选。这标志着在大模型时代,身份宝的高质量数据集建设能力得到进一步的国家级认可


技术驱动

自研智能化平台,

破解数据标注核心痛点


为解决行业数据集构建难、标注成本高等难题,身份宝自主研发了行业多模态数据集构建与应用平台,支撑各行业开展高质量数据集建设。


针对高质量数据集建设的核心环节——数据标注,身份宝不断技术创新,充分利用大模型及思维链能力,在数据标注关键技术实现融合突破。


1

智能化预标注,效率倍增

平台支持图文、音视频等150+标注类型,支持集成预训练模型实现自动预标注,预标注效率提升70%以上,极大降低人工标注成本。


2

动态反馈优化

提供可配置的标注工作流,构建“标注-验证-修正”闭环体系,利用半自动工作流支持标注结果反向调优模型,持续提升标注质量与模型精度。


3

场景化问答对生成

针对行业知识少,高质量语料总量有限,平台集成“多粒度角色分配”方法,基于大语言模型和提示词工程,可基于小模型自适应动态生成面向不同受众的多样化、场景化的文本问答对及思维链,数据多样性提升达300%,大大丰富了模型训练语料。


4

全链路安全合规

依托自身积累的亿级数据安全防护经验,平台具备ISO27001等信息安全认证和网络安全三级等保资质,为数据的安全治理与合规流通保驾护航。





目前,身份宝优秀的技术能力已在“妇儿微生物高质量数据集”建设中得到了成功验证。


未来,身份宝将继续深化行业高质量数据集标准实践,推动数据要素与大模型技术在更多关键领域释放价值,为培育新质生产力、推动社会经济高质量发展贡献力量。

(部分图片来源:新华社)



热点链接

关于发布数据领域重点标准验证试点典型单位的通知

国家数据局呼吁全社会强化数据要素价值认同



上一篇:身份宝上榜“厦门金砖创新合作项目”入库培育名单

下一篇:身份宝入选国家数据局“高质量数据集标准验证试点典型单位”