机器学习基础数据处理

如何通过Python读取文本，分割符号为逗号、空格，怎么操作？
with open("housing.csv") as f:
f.read().split(", ")
如何通过pandas读取数据
read_csv(filename, name=name, sep=" ")
读取数据后，如何查看数据前几行
data.head(10)
如何查看数据维度
data.shape
如何查看数据的数据类型
data.dtypes
如何查看数据统计量
data.describe()
如何设置数据的精确度
set_option
如何将数据调整到0与1之间
MinMaxScaler(feature_range=(0, 1))
如何按列分离数据
X = array[:, 0: 8]
Y = array[:, 8]
如何分离训练集和测试集
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=4)
KNN(KNeighborsRegressor())、决策树DecisionTreeRegressor()、线性回归LinearRegression()、支持向量机SVR()、贝叶斯分类器这几种算法的函数名称
如何画直方图、密度图、箱型图、相关矩阵图、散点矩阵图
matplotlib
series dataframe

什么是机器学习?
答:机器学习是实现人工智能的一种途径，它和数据挖掘有一定的相似性，也是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科,(1 )监督学习(2)无监督学习(3)半监督学习(4)迁移学习(5)增强学习

Ｋ折交叉验证，
英文名叫做K-fold cross-validation，用来测试算法准确性。是常用的测试方法。将数据集分成K份，轮流将其中K-1份作为训练数据，1份作为测试数据，进行试验。

数据预处理（data preprocessing）是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前，首先将不规则分布的测网经过插值转换为规则网的处理，以利于计算机的运算。

监督学习算法:K-近邻算法(k-Nearest Neighbors), 决策树（Decision Trees）,朴素贝叶斯（Naive Bayesian）,逻辑回归（Logistic Regression）

无监督学习算法:K均值（K-Means）自编码器（Auto-Encoder）主成分分析（Principal Component Analysis）

机器学习基础数据处理

猜你喜欢