机器学习中的概念和名词解释
记录一些需要深入理解的概念及定义
基本概念
- 特征空间(feature space):所有特征向量存在的空间称为特征空间.特征空间的每一维对应于一个特征.
- 特征向量(feature vector):每个具体的输入是一个实例(instance),实例中每个点对应一个坐标向量.我们把一个实例称为特征向量.
- 实例(instance):也叫样本(sample).关于一个事件或对象的描述.
- 特征(feature):也叫属性(attribute).反应事件或对象在某个方面的表现或性质的事项.
- 假设空间(hypothesis space):监督学习的目的在于学习一个由输入到输出的映射,这个映射用模型来表示.模型属于有输入空间到输出空间的映射的集合,这个集合就是假设空间.学习的目的就是找到最好的映射(模型).
模型评估和选择
- 常用的模型选择方法:regularization正则化.cross-validation交叉验证
分类问题,回归问题,标注问题:
分类问题:"分门别类".文本类型分类,邮件问题,图像中有无人脸出现
回归问题: 函数拟合.线性及非线性回归,预测股市
标注问题: 隐马尔科夫模型,条件随机场.信息抽取,自然语言处理.文档单词标注.区分均方误差和最小二乘法:利用均方误差来实现最小化模型叫做最小二乘法 ????
机器学习算法的实现步骤
1.收集数据:网络上的数据集UCI
2.准备数据:python对数据的读取,利用pandas读取数据;处理数据中缺失值
3.分析数据:利用可视化工具观察数据
4.训练算法:利用处理好的数据training model
5.测试算法:观察错误率,对算法进行改进
6.使用算法:将代码算法进行封装,可以通过简单命令行进行新数据的预测