1. 通过Databricks 连接AWS,拿到的数据表内容是DataFrame. 我们需要用toPandas()方法来进行数据转化
df = data_df.toPandas()
2.获取某一指定的列:
test = df['test'] # 获取test 整个列
3. 遍历某一指定列的值:
for i in test:
print("列值: %s" % i)
4. 比较两个列:
def compare_diff_cloumn(df1,df2):
df1_cols = set(df1.columns)
df2_cols = set(df2.columns)
return list(df2_cols.difference(df1_cols))
compare_diff_cloumn(df1, df2)