《机器学习及实践》学习笔记(二)

#使用sklearn.cross_valiation里的train_test_split模块用于分割数据
from sklearn.cross_validation import train_test_split
#随机采样25%的数据用于预测,剩下75%用于构建训练集合
x_train,x_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=33)
#查验训练样本的数量和类别的分布
y_train.value_counts()
y_test.value_counts()

函数说明:

Series:

       Series和DataFrame是pandas中的两个基本数据结构。具体用法如下。

情况一:

import pandas as pd
s=pd.Series([1,2,3,4,5],index=['a','b','c','f','e'])
print (s)
a    1
b    2
c    3
f    4
e    5
dtype: int64

情况二:

import pandas as pd
s=pd.Series({'a':3,'b':4,'c':5,'f':6,'e':8})
print (s)
a    3
b    4
c    5
e    8
f    6
dtype: int64

value_counts():

           value_counts()是用于统计数据出现频率。

import pandas as pd
import 
data=pd.Series(['python','java','python','php','php','java','python','java'])
print(data.value_counts())
java      3
python    3
php       2
dtype: int64

猜你喜欢

转载自blog.csdn.net/ninety_two/article/details/82055731
今日推荐