Getting Started with Data Analysis Notes (a)

pycharm + python3.6 + pandas

Course: Use pandas for data analysis

notes:

  1. Read
  2. Display Properties
  3. Rename
  4. delete
  5. Sequence
  6. filter

The fourth section represents part 4 corresponding courses

part 4 显示
# 加载pandas
import pandas as pd
#读取文件
movies = pd.read_csv
#默认显示前五行
movies.head()
#显示文件的各项属性
movies.describe()
#显示文件行列数
movies.shape()
#显示文件数据类型
movies.dtypes()

type(movies)

movies.describe(include=['object'])

part 5 重命名
加载pandas
import pandas as pd

# 读取文件
ufo = pd.read_csv()
# 读取文件前五行
ufo.head()
# 读取文件列标题
ufo.columns
# 对列标题重命名,方法一
ufo.rename(columns =
           {'Colors Reported': 'new name',
            'Shape Reported': 'new name'})
# 自定义新名字
ufo_cols = ['自定义新标题''自定义2']
# 重命名方法二
ufo.columns = ufo_cols

# 重命名方法三
ufo = pd.read_csv('路径', name=ufo_cols,
                  header=0)

part 6 删除
import pandas as pd

ufo = pd.read_csv()

# 去除文件的一个特定列
ufo.drop('Color Reported',
         axis=1, inplace=True)
# 去除文件两列
ufo.drop(['City', 'State'],
         axis=1, inplace=True)
# 去除特定行,【0,1】为index
ufo.drop([0, 1],
         axis=0, inplace=True)

part 7 排序

# 加载pandas
import pandas as pd
#读取文件
movies = pd.read_csv('文件路径')
# 将标题按照字母顺序排序,并显示排序后的标题
movies.title.sort_values()
# 按文件中顺序显示标题,只显示标题
movies['title']
# 对文件中所有行按指定的内容进行排序
# 文件中所有行,以标题为主,按照顺序排列,
# 显示的是所有内容,同理,可指定其他列标题
movies.sort_values('title')
# 同上,但为逆序排列
movies.sort_values('title',ascending=False)
# 同上,但是先以第一个列标题排序,
# 然后在第一个标题排好序的第一批
# 内容里按第二列标题排序
movies.sort_values(['title','duration'])
# 注意,排序不会变更源文件,
# 只是在排序命令行处显示排序结果

part 8 筛选
# 加载pandas
import pandas as pd
#读取文件
movies = pd.read_csv('文件路径')
# 筛选满足条件的数据
is_long = movies.duration >= 200
is_long.head
# 在表中直接筛选符合条件的数据
movies[movies.duration >= 200]
# 在筛选后的数据里只显示genre的数据
movies[movies.duration >= 200]['genre']
# 第二种方式
movies.loc[movies.duration >= 200, 'genre']
# 第三种方式
movies[movies.duration >= 200].genre

part 9 进行多个筛选操作
# 加载pandas
import pandas as pd
#读取文件
movies = pd.read_csv('文件路径')
# 同时设置多个筛选条件,与
movies[(movies.duration >= 200)
       and (movies.genre == 'Dramma')]

movies[(movies.duration >= 200)
       & (movies.genre == 'Dramma')]

# 只要满足一个即可,或
movies[(movies.duration >= 200)
       | (movies.genre == 'Dramma')]

# 对单列内的数据筛选,筛选genre这一列中
# 内容为Crime,Drama,Action的数据
movies[movies.genre.isin(['Crime',
                          'Drama',
                          'Action'])]
Published 10 original articles · won praise 0 · Views 641

Guess you like

Origin blog.csdn.net/weixin_44776845/article/details/104794348