如何进行数据表数据测试?

1. 通过Databricks 连接AWS,拿到的数据表内容是DataFrame. 我们需要用toPandas()方法来进行数据转化

df = data_df.toPandas()

2.获取某一指定的列:

test = df['test'] # 获取test 整个列

3. 遍历某一指定列的值:

for i in test:
   print("列值: %s" % i)

4. 比较两个列:

 def compare_diff_cloumn(df1,df2):
    df1_cols = set(df1.columns)
    df2_cols = set(df2.columns)
    return list(df2_cols.difference(df1_cols))

compare_diff_cloumn(df1, df2)
发布了7 篇原创文章 · 获赞 0 · 访问量 4974

猜你喜欢

转载自blog.csdn.net/jhonefer/article/details/104309004