机器学习基础数据处理

如何通过Python读取文本,分割符号为逗号、空格,怎么操作?
with open("housing.csv") as f:
    f.read().split(", ")
如何通过pandas读取数据
read_csv(filename, name=name, sep=" ")
读取数据后,如何查看数据前几行
data.head(10)
如何查看数据维度
data.shape
如何查看数据的数据类型
data.dtypes
如何查看数据统计量
data.describe()
如何设置数据的精确度
set_option
如何将数据调整到0与1之间
MinMaxScaler(feature_range=(0, 1))
如何按列分离数据
X = array[:, 0: 8]
Y = array[:, 8]
如何分离训练集和测试集
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=4)
KNN(KNeighborsRegressor())、决策树DecisionTreeRegressor()、线性回归LinearRegression()、支持向量机SVR()、贝叶斯分类器这几种算法的函数名称
如何画直方图、密度图、箱型图、相关矩阵图、散点矩阵图
matplotlib
series dataframe
什么是机器学习?
答:机器学习是实现人工智能的一种途径,它和数据挖掘有一定的相似性,也是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科,(1 )监督学习(2)无监督学习(3)半监督学习(4)迁移学习(5)增强学习
K折交叉验证,
英文名叫做K-fold cross-validation,用来测试算法准确性。是常用的测试方法。将数据集分成K份,轮流将其中K-1份作为训练数据,1份作为测试数据,进行试验。
数据预处理(data preprocessing)是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。
监督学习算法:K-近邻算法(k-Nearest Neighbors), 决策树(Decision Trees),朴素贝叶斯(Naive Bayesian),逻辑回归(Logistic Regression)
无监督学习算法:K均值(K-Means)自编码器(Auto-Encoder)主成分分析(Principal Component Analysis) 

猜你喜欢

转载自www.cnblogs.com/acthis/p/12290178.html