身份宝入选国家数据局高质量数据集标准验证试点典型单位
由国家数据局主办的“2025中国国际大数据产业博览会”正在贵州贵阳盛大召开。会上,国家数据局正式公布“高质量数据集标准验证试点典型单位”名单,身份宝凭借高质量数据集建设领域的强劲实力,成功入选多个典型试点。 试点典型单位名单 背 景 当前,大模型技术应用快速发展,大模型能力边界几乎完全由数据的质量、规模和安全性来定义,数据是提升模型能力的关键和模型训练的基础,也是拓展智力上限和性能优化的支撑。数据决定了大模型的性能上限,高质量数据集则成为大模型训练及应用、驱动行业创新的关键资源。 然而,各行各业在推进“人工智能+”应用时,普遍面临着行业知识不足、数据处理低效与合规流通不畅等“数据瓶颈”。国家数据局局长刘烈宏强调:“‘人工智能+’行动到哪里,高质量数据集的建设和推广就要到哪里。” 在国家数据局的指导下,全国数据标准化技术委员会启动了高质量数据集的《建设指南》《格式要求》《分类指南》及《质量评测规范》四个版块的标准及技术文件验证试点工作,身份宝悉数入选。这标志着在大模型时代,身份宝的高质量数据集建设能力得到进一步的国家级认可! 技术驱动 自研智能化平台, 破解数据标注核心痛点 为解决行业数据集构建难、标注成本高等难题,身份宝自主研发了行业多模态数据集构建与应用平台,支撑各行业开展高质量数据集建设。 针对高质量数据集建设的核心环节——数据标注,身份宝不断技术创新,充分利用大模型及思维链能力,在数据标注关键技术实现融合突破。 1 智能化预标注,效率倍增 平台支持图文、音视频等150+标注类型,支持集成预训练模型实现自动预标注,预标注效率提升70%以上,极大降低人工标注成本。 2 动态反馈优化 提供可配置的标注工作流,构建“标注-验证-修正”闭环体系,利用半自动工作流支持标注结果反向调优模型,持续提升标注质量与模型精度。 3 场景化问答对生成 针对行业知识少,高质量语料总量有限,平台集成“多粒度角色分配”方法,基于大语言模型和提示词工程,可基于小模型自适应动态生成面向不同受众的多样化、场景化的文本问答对及思维链,数据多样性提升达300%,大大丰富了模型训练语料。 4 全链路安全合规 依托自身积累的亿级数据安全防护经验,平台具备ISO27001等信息安全认证和网络安全三级等保资质,为数据的安全治理与合规流通保驾护航。 目前,身份宝优秀的技术能力已在“妇儿微生物高质量数据集”建设中得到了成功验证。 未来,身份宝将继续深化行业高质量数据集标准实践,推动数据要素与大模型技术在更多关键领域释放价值,为培育新质生产力、推动社会经济高质量发展贡献力量。 (部分图片来源:新华社) 热点链接