Feature Engineering for Machine Learning in Python

作者:禅与计算机程序设计艺术

1.简介

机器学习(Machine learning)

是人工智能领域的一个分支,其目的是通过训练算法模型对输入数据进行预测或分类,从而实现智能化的行为。目前,机器学习已经成为当今最火热的话题之一。无论是在医疗健康、金融、图像识别、文本处理、推荐系统、安全运维等方面,都可以利用机器学习进行高效自动化。
机器学习的应用非常广泛,包括但不限于图像识别、文本处理、生物信息分析、互联网搜索推荐、垃圾邮件过滤、产品销售预测、语音识别、智能助手等。在这些应用中,特征工程(Feature engineering)是一个十分重要的环节。它用于提取有效的信息和模式,并对特征进行转换、筛选和处理。
本文将给出《Feature Engineering for Machine Learning in Python》的导读,作者张超,Data Scientist, University of British Columbia (Vancouver)。

Feature Engineering

特征工程主要用来处理、提取数据的有效特征,使得机器学习算法能够更好地学习到数据的规律性,进而进行预测或分类。然而,现实世界的数据往往存在复杂、多样的特征,并且这些特征本身也是高度非线性、不平衡的。因此,如何从原始数据中获取有效且有意义的特征至关重要。
一般来说,特征工程包含以下几类方法:

  • 数据清洗:去除无用数据、异常值、缺失值;
  • 特征抽取:利用统计学方法、机器学习算法或者手动特征工程的方法从原始数据中抽取有用的特征;
  • 特征变换:

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132126856