《数据集管理》---入门级AI学习(转岗AI产品看过来)
一、常见的数据类型
AI目前比较火的研究方向:计算机视觉、语音处理、自然语言处理1. 数据类型:
见下表所示,包括结构化数据(行列数据,能存储在数据库中可以用二维表结构来逻辑表达实现的一些数据)和非结构化数据(图像、视频、文本等)
2. 数据集定义
在机器学习任务中使用的**一组数据**。其中每一个数据成为一个样本。反映样本在某方面的表现或性质的**事项**或**属性**称为**特征**。二、数据集划分原则
1. 划分类型:
1). 训练集:“(过去经验)”,用来构建机器学习模型,从数据中确定模型参数的过程称为学习(训练)2). 验证集:“(现在经验)”,辅助构建模型,在构建过程中评估模型,进而调整模型超参数
3). 测试集:“(未来验证)”,用来评估训练好的最终模型的性能。
2. 训练集与测试机保证同分布方法:
`尽可能使训练数据集和测试数据集的数据分布的属性一致、找到尽可能多与测试集样本相匹配的训练数据集数据`
同分布:训练集和测试集都是由服从同一个分布的随机样本组成的。显示情况下训练集是过去的数据,测试集是当下的数据,由于时间的因素,它们很可能不是完全同分布的,所以需要去使用方法保证数据同分布,降低训练方差。
1). 留出法:将数据集拆分为互斥的训练集、验证集、测试集:70%:15%:15%
- 单次使用会导致模型不稳定→多次随机划分,重复进行实验评估后取平均值作为留出法的评估结果
- 保证数据集中样本比例的相似性→随机分层抽样
- 适合大数据集
缺点:不太适用于大数据
优点:很好的解决了留出法的相似性、不稳定问题
三、处理模型方差与偏差的方法
1. 偏差=训练集预测值-真实值 (模型的不正确,算法的拟合程度:欠拟合)
训练集误差
2. 方差=同样大小的训练集的变动所导致的学习性能的变化(模型的不稳定,数据扰动带来的影响)
验证集误差-训练集误差
3. 应对方法
1). 高偏差:- 尝试用更大的模型
- 延长训练时间
- 尝试用新的模型架构
- 减少正则化
- 获取更多的数据(包括数据合成和数据增强)
- 添加正则化
- 尝试提早停止训练
- 尝试用新的模型架构
4. 如何权衡偏差与方差(即模型复杂度过高→过拟合 模型复杂度过低→欠拟合)
#AI模拟面试##人工智能##产品##产品经理#
入门级AI学习-深度学习 文章被收录于专栏
内容:入门级AI课程学习(深度学习领域) 适用人群:初学者、入门级小白研发/产品/测试等 覆盖范围: 1.神经网络基础概念 2.数据集处理 3.网络构建 4.正则化 5.优化器 6.初始化 7.参数调节 8.深度置信网络 9.卷积神经网络 10.循环神经网络