《机器学习及实践》学习笔记（一） - 代码天地

《机器学习及实践》学习笔记（一）

数据库 2018-08-27 22:11:14 阅读次数: 0

gen一 .良、恶性乳腺癌肿瘤数据预处理（p38）

import pandas as pd
import numpy as np
column_names=['Sample code number','Clump Thickness','Uniformity of Cell Size',
              'Uniformity of Cell shape','Marginal Adhesion','Single Epithelial Cell Size',
             'Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']
data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer- 
                wisconsin/breast-cancer-wisconsin.data',names=column_names)
data=data.replace(to_replace='?',value=np.nan)
data=data.dropna(how='any')
data.shape

结果：（638,11）

二.函数说明:

dataframe对象的创建、修改、合并https://blog.csdn.net/u014281392/article/details/75331570

import pandas as pd
import numpy as np

创建dataframe

情况一：

df = pd.DataFrame([1, 2, 3, 4, 5], columns=['cols'], index=['a','b','c','d','e'])
print df

情况二：

df2 = pd.DataFrame([[1, 2, 3],[4, 5, 6]], columns=['col1','col2','col3'], index=['a','b'])
print df2

 col1  col2  col3
a     1     2     3
b     4     5     6

情况三：

df3 = pd.DataFrame(np.array([[1,2],[3,4]]), columns=['col1','col2'], index=['a','b'])
print df3

 col1  col2
a     1     2
b     3     4

情况四：

df4 = pd.DataFrame({'col1':[1,3],'col2':[2,4]},index=['a','b'])
print df4

 col1  col2
a     1     2
b     3     4

创建DataFrame对象的数据可以为列表，数组和字典，列名和索引为列表对象

基本操作

df2.index
Index(['a', 'b'], dtype='object')

df2.columns
Index(['col1', 'col2', 'col3'], dtype='object')

根据索引查看数据

索引为ａ这一行的数据

df2.iloc[0] 跟上面的操作等价，一个是根据索引名，一个是根据数字索引访问数据

df2.loc['a']
col1    1
col2    2
col3    3
Name: a, dtype: int64

df2.loc[['a','b']]
 col1  col2  col3
a     1     2     3
b     4     5     6

df.loc[df.index[1:3]]
   cols
b     2
c     3

print (df2[['col1','col3']])
   col1  col3
a     1     3
b     4     6

data.dropna过滤数据https://www.jb51.net/article/143055.htm

注：本段代码对数据的处理就是把丢失的数据删除，但是删除之后位置还在！

猜你喜欢

转载自blog.csdn.net/ninety_two/article/details/81952193

《机器学习及实践》学习笔记（一）

《机器学习Python实践》学习笔记（一）

Python机器学习与实践笔记（一）

机器学习实践(一)

《机器学习及实践》学习笔记（二）

重回机器学习-《python机器学习及实践》读书笔记一

机器学习笔记一

机器学习笔记（一）

机器学习学习笔记（一）

机器学习笔记一：关于机器学习

机器学习笔记(一)初识机器学习

机器学习笔记（一）-了解机器学习

讲座（机器学习从入门到实践）笔记

机器学习笔记12-----XGBoost实践

《美团机器学习实践》学习笔记：机器学习中的模型评价指标（一）——分类模型评估

基于Spark的机器学习实践 (一) - 初识机器学习

【机器学习】数据科学基础——机器学习基础实践（一）

机器学习&深度学习实践笔记（一）：pytorch基础与线性回归

“深度学习与实践” 笔记（一）

Python机器学习及实践一：简介篇

机器学习实践（一）—sklearn之概述

机器学习笔记一：概述

机器学习基础笔记一

机器学习笔记一：导论

周志华机器学习笔记（一）

Python机器学习笔记一

机器学习笔记一：简介

《机器学习实战》笔记（一）

机器学习入门笔记一

机器学习实战笔记（一）

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)