pyspark读取csv文件创建DataFrame - 代码天地

pyspark读取csv文件创建DataFrame

其他 2018-05-31 09:36:53 阅读次数: 0

mark一下，感谢作者分享！

方法一：用pandas辅助

from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sc = SparkContext()
sqlContext=SQLContext(sc)
df=pd.read_csv(r’game-clicks.csv’)
sdf=sqlc.createDataFrame(df)
文件不大的情况下可以

方法二：纯spark

from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext()
sqlContext = SQLContext(sc)
sqlContext.read.format(‘com.databricks.spark.csv’).options(header=’true’, inferschema=’true’).load(‘game-clicks.csv’)
需要com.databricks.spark.csv环境

方法三：pyspark.sql import SparkSession（spark 2.X）

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName(‘dataFrameApply’).getOrCreate()
filepath = “main.csv”
tttt = spark.read.csv(filepath,header=’true’,inferSchema=’true’,sep=’,’)
print(tttt)
有时候因为数据格式和编码的问题会出错

检查csv文件是否标准
filepath = “main_amount.csv”
main_amount = sc.textFile(filepath)
print(main_amount.count())

header = main_amount.first()
main_amount_data = main_amount.filter(lambda lines: lines != header)

header_columns = header.split(‘,’)
main_amount_data = main_amount_data.map(lambda line: line.split(‘,’))

print(len(header_columns)) 输出12列
//print(main_amount_data.take(2))

fields_len = main_amount_data.map(lambda fields: len(fields)).countByValue()
print(fields_len)

输出：{12: 64200, 13: 11310, 15: 2928, 14: 218, 17: 6, 18: 4, 16: 3}

发现列数不一致,并且部分数据行超过header_columns。
1、用pandas读将不会自动分割‘，’
2、com.databricks.spark.csv和SparkSession下read.csv会报错

猜你喜欢

转载自blog.csdn.net/weixin_38569817/article/details/80426175

pyspark读取csv文件创建DataFrame

pyspark 读取csv文件创建DataFrame的两种方法

pyspark 读取csv 到dataframe 参数

pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理

【pyspark】一 dataframe 读写parquet、json、csv等文件

pySpark创建空DataFrame

（2）pyspark建立RDD以及读取文件成dataframe

PySpark DataFrame创建透视表

【python】pyspark读取获取文件、加载已存在的文件、读取csv文件修改列名

读取csv文件并转换为DataFrame格式

PYTHON Pandas批量读取csv文件到DATAFRAME

pandas chunksize读取大文件csv；dataframe 转json

创建csv文件并根据csv文件读取数据（基于tensorflow）

Python对csv文件简单的创建和读取

pyspark 数据的读取与保存；pyspark的dataframe转化与展示

Python Pandas DataFrame 读取 CSV 文件 read_csv 参数详解

Pyspark 读取本地csv文件，插入parquet格式的hive表中

PySpark DataFrame

pyspark -- DataFrame

python读取csv转换为dataframe

DataFrame读取本地文件

spark1.6.1读取csv文件，转为为DataFrame和使用SQL

Python从本地连续读取csv文件，并合并为Dataframe

Pandas DataFrame二维数组说明、DataFrame的创建、从文件中读取DataFrame对象知识---初学基础

CSV文件内容读取

读取csv的文件信息

java 读取 CSV 文件

java读取csv文件

Unity读取.csv文件

Numpy读取csv文件

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)