기본 (DataFrame 시리즈)를 사용하여 데이터 분석을 판다

첫째, 팬더를 설치

팬더를 설치 PIP

 

둘째, 데이터 구조

팬더 공간이 DataFrame 초점을 맞추고 두 개의 데이터 구조가 있습니다.

이차원 데이터 모델은 데이터 등가 테이블에서 Excel DataFrame 당량, 가로축의 수평 및 수직 좌표의 두 종류가 인 Series 인덱스를 사용하는 것과 같은, 세로축은 설립, 컬럼에 의해 결정되는 DataFrame 객체는 세 요소를 식별 할 때 : 데이터, 가로축, 세로축.

 

세, DataFrame 기본적인 사용

1 DataFrame 데이터를 생성

  이하지 우리의 초점입니다 만들기, 우리가 직접 기존의 테이블을 읽을 수있는 다음과 같은 방법을 사용

판독 처리 공구 생크 DataFrame에서 엑셀 / CSV 2 개 데이터를 읽는

# 읽기 Test.xls를하고 시트 지정 
DF = pd.DataFrame (pd.read_excel ( ' Test.xls를을 ' , SHEET_NAME = ' 세부 ' ))

지정된 need_df 할당 3 개 추출 컬럼 이름

 # 열 이름을 지정,이 열이 핸들 package_num_df에 할당하고, 그 결과를 출력한다 
need_df DF = [[ ' 공장 ' , ' 창고 ' , ' 베일 수 ' , ' ' , ' 크기 ' , ' 책의 수 ' , ' 몇 미터 운반하는 ' ]]
 인쇄 (need_df를)

4 dataframe의 need_df에서 [포장 번호 = J-0001-04 검사하고, 그 결과를 출력

find_need_df = need_df.loc [need_df의 [ ' 捆包号' ] == ' J-0001-04 " ]
 인쇄 (find_need_df)

5 콘텐츠 dataframe가 새 테이블에 재 할당 할 수 있습니다, dataframe는 메모리에만 존재하고 원래 excle 테이블 데이터를 변경하지 않습니다 (dataframe의 DF = 1 개 데이터 라벨 라벨을 제거하고 결과를 인쇄

# 행 번호 = 전체 라인 1, 축 기본 = 0, 인플레 이스 기본값 = (엑셀 원본 데이터를 삭제하지 마십시오) 플래그가 true 거짓을 삭제 한 후 메모리 1 삭제에 저장 DF 라인 번호 표시 
입술 =을 df.drop (= 레이블. 1, 축 = 0, 상대 고정 = 참)  
 인쇄 (DF)

= need_df.loc find_need_df [need_df [ ' 베일 호 ' ] == ' 오리지널 데이터 DF

드롭 데이터 DF 후

 

6 쓰기 엑셀 / CSV

# 로컬 디렉토리, 파일 이름 형식이 개발 설치 
wb_path = os.path.join (dir_path, ' work_book을 ' )
ctime이 = datetime.datetime.now ().의 strftime ( " %의 Y의 m %의 %의 D_ %의 H의 %의 M ' )
df.to_excel ( ' % S / % s_detail.xls ' % (wb_path, ctime이))

若遇到 # ModuleNotFoundError: No module named 'xlwt' ,则需要安装xlwt模块

find_need_df.to_csv('temp.csv', mode='a', encoding='gbk')

 

 

三、数据透视表

未完待续 

추천

출처www.cnblogs.com/lich1x/p/11319364.html