一、数据清洗(Data Cleaning)
对原始采集的多源异构数据进行规范化处理的过程,目的是剔除噪声、修正错误、补全缺失、去除重复、统一格式,消除数据不一致与异常问题,保障数据集的完整性、准确性、一致性,为后续模型训练提供高质量基础数据。
二、数据标注(Data Annotation)
在经过清洗的有效数据上,按照任务需求为样本添加结构化标签的人工标注过程。通过对文本、图像、音频、视频等数据进行标记、框选、分类、转写等操作,构建带监督信息的数据集,作为模型训练的监督信号,使 AI 模型能够学习特征规律并实现预测与推理。
简单概括:
数据清洗:数据预处理,保障数据质量
数据标注:赋予数据监督信息,支撑模型训练
一、数据清洗(Data Cleaning)
对原始采集的多源异构数据进行规范化处理的过程,目的是剔除噪声、修正错误、补全缺失、去除重复、统一格式,消除数据不一致与异常问题,保障数据集的完整性、准确性、一致性,为后续模型训练提供高质量基础数据。
二、数据标注(Data Annotation)
在经过清洗的有效数据上,按照任务需求为样本添加结构化标签的人工标注过程。通过对文本、图像、音频、视频等数据进行标记、框选、分类、转写等操作,构建带监督信息的数据集,作为模型训练的监督信号,使 AI 模型能够学习特征规律并实现预测与推理。
简单概括:
数据清洗:数据预处理,保障数据质量
数据标注:赋予数据监督信息,支撑模型训练
| 角色 | 职位 |
| 负责人 | AI数据标注 |
| 队员 | 产品经理 |
| 队员 | UI设计师 |