机器学习的工作流程
打造一个机器学习的应用程序,从工作流程方面熟悉整体的步骤,对后面深入学习有很大的帮助。
整个过程有六个步骤:
1. 获取
机器学习中的数据,可以来自不同的数据源,可能是csv文件,也可能是从服务器拉取出来的日志,或者是自己构建的web爬虫。
2. 检查
获取了数据,下一步进行合理地检查数据,最好的方法是发现不可能或几乎不可能的事情。无论数据是何种类型,检查最极端的情况。它们是否有意义?一个较好的实践是对数据进行简单的统计测试,并将数据可视化。可能有些数据是缺失的或不完整的。
3. 清洗
这一步的目标是将数据转化为适合模型使用的格式。这个阶段包括若干个过程,如过滤、聚集、输入和转化。所需的操作很大程度上取决于数据的类型,以及所使用的库和算法的类型。只有进入模型的数据质量好,模型的质量才能够得到保证。数据清洗这一步很关键。
4. 建模
数据准备完成后,下一阶段进行建模。我们将选择适当的算法,并在数据上训练一个模型。基本的步骤包括将数据分割为训练、测试和验证的集合,训练模型,预测。
5. 评估
模型构建完成后,怎么样确定模型训练得好不好?就需要进行评估。简单来说就是看模型的预测和实际值到底有多接近。
6. 部署
模型的表现能够令人满意,接下来就进行部署,将训练的模型在机器上跑起来,投入应用。
参考文献
[1](美)Alexander T.Combs.PYTHON机器学习实践指南[M].北京:人民邮电出版社.2017.