EndtoEnd Machine Learning Project Template – How To Bui

作者:禅与计算机程序设计艺术

1.简介

近年来,随着深度学习、机器学习和计算机视觉等高科技领域的应用日益广泛,许多企业也转向了机器学习解决方案提供商,如Google、Facebook、微软等。作为技术人员和数据科学家,如何快速建立起一个完整的数据科学项目流程及其背后的理论知识、数学基础和编程能力就显得尤为重要。这一系列的《机器学习实践》文章中,将从“机器学习”、“数据工程”以及“应用场景”三个方面深入阐述AI、机器学习、深度学习、图像处理等相关技术的最新进展以及如何把它们整合到真实的应用场景中。而这些文章中的每个章节都会围绕一个具体的问题进行探讨,并且会给出一些具体的解决办法。本文就是基于这一系列文章的一个扩展阅读——为想要从头开始建立自己的机器学习项目流程并进行深度理解的人们提供一个参考模板。

2.背景介绍

在接下来的章节中,我将以一个简单的数据科学项目示例——房价预测为例,为大家介绍整个数据科学项目的各个阶段及其所需要具备的基本技能和素养。该项目涉及到的技术栈主要包括数据采集、数据清洗、特征提取、模型训练、模型评估、模型部署和监控等,同时还要有较强的分析能力和团队协作精神。

3.基本概念术语说明

为了顺利完成数据科学项目的各个阶段,首先应该对相关的基础理论、关键术语以及工作流有一个全面的了解。

数据采集与清洗

数据采集(Data collection)是指从互联网、数据库、移动设备或者其他来源收集原始数据。数据的质量、数量、种类都直接影响最终得到的结果,所以一定要保证数据的准确性和完整性。数据清洗(Data cleaning)是指对数据进行初步的处理,目的是消除数据中的错误、缺失值或无效值。经过清洗之后的数据可以被用来进行后续的分析处理。

数据特征

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132493457