机器学习
有监督学习
定义: 有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
特征:有标签,一组数据对应一组输出。
例如:
- 回归问题 (连续输出)
- 分类问题(二分类)(离散输出)
如何选择拟合函数。
无监督学习
- 定义: 无监督学习是根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。
- 特征:无标签,算法自动给出分类簇(cluster)
- 例如:
- 聚类问题(新闻专题、市场细分)
- 鸡尾酒聚会(分离混合音频)
- 聚类问题(新闻专题、市场细分)
线性模型(单变量线性回归Linear regression为例)
步骤
训练集
- m : 训练集样本大小
- x's : 输入变量(input)
- y's : 输出变量 (output)
- h(x) : 假设函数(hypothesis)
- 模型参数
(Parameter)
- h(x) : 假设函数(hypothesis)
最小化(minimize)
为代价函数
- 使预测值和实际值误差平方和最小化,找到误差平方和的
最小的
[线性回归]
- 简化模型(单变量)
- 左侧代表预测函数,右侧代表代价函数,目的是找到
- 未简化模型(双变量为例) : 左侧代表预测函数,右侧代表代价函数(等高线表示contour plots)目的是找到一组
使得代价函数最小,预测函数拟合数据。
- 右侧代价函数的3D图像
- 简化模型(单变量)
最小化代价函数算法(Batch梯度下降(General Algorithm))
特点
- 迭代算法,不仅适用于线性函数也适用于其他函数
- 收敛于局部最小值
- 参数
同步更新
- Batch梯度下降 : 每一步梯度下降都遍历整个训练集样本,计算偏导数,计算的是训练样本m的总和
符号
: 学习率
: 第j个参数
: 导数项
思路
1.初始化参数【init】
2.不停改变直到找到使代价函数最小化的
【update】
原理
参数更新的函数表示:
梯度下降图像:
自动调整,最终收敛于局部最小值,即偏导数等于零的情况。
特征缩放
不同特征的取值处于一个相近的范围内。
方法:
- 均值归一化
- 均值归一化
- 总结
数据可视化 -> 拟合-> 找到预测函数 ->代价函数最小化找到参数(梯度下降) ->