큰 CSV 파일에서 잘못된 데이터를 정리하는 방법

d_frEak :

나는 큰 CSV 파일을 가지고 그래서 (5 기가 바이트 가정)와 나는 테이블에 데이터를 삽입 할하지만 데이터의 길이가 동일하지 않습니다 오류를 반환

난 내가 여덟 열이있는 정확한 데이터 예를 들어 원하는 것보다 일부 데이터는 더 열이있는 것을 발견하지만, 일부 데이터는 구가 (이 사람 / 시스템 오류 일 수 있음)이있다

나는 단지 여덟 열 데이터를 먹고 싶어하지만, 데이터가 너무 거대하기 때문에, 나는 수동으로 또는 사용하여 파이썬에서 구문 분석 할 수 없습니다

방법의 모든 추천을 할까?

어떤 리눅스 명령은 환영 그래서 나는 리눅스를 사용하고

SQL에서 나는 COPY ... FROM ... CSV HEADER를 사용하고 있습니다; 명령은 테이블에 CSV를 가져옵니다

로미오 Ninov :

당신이 사용할 수있는 awk이 목적을 위해. 당신에게 필드 구분 기호를 가정하면 쉼표 (입니다 ,)이 코드는 작업을 수행 할 수 있습니다

awk -F\, 'NF==8 {print}' input_file >output_file

추천

출처http://43.154.161.224:23101/article/api/json?id=7397&siteId=1