スパークデータフレームの正規表現マッチ

fake_data =ヴァルhivecontext.read 
.format(「com.databricks.spark.csv」
.OPTION(「ヘッダ」、「真の」)// ここでは、CSVの最初の行のプロパティが存在する場合、次いで、「偽」ではない 
.OPTION (「InferSchema」、trueに .toString)// これは自動的に属性行のデータ型を推論します。
.OPTION( "DELIMITER"、 "" 
.LOAD( "ファイル:/// C:CSV \\ \\ \\ fix_price.csvユーザー")// ファイルへのパス
をインポートorg.apache.spark.sql.functions .regexp_extract 
fake_data.show()
ヴァルデータ = fake_data.select(REGEXP_EXTRACT(fake_data( "GID")、 "D \\ ^ {2}"、0).alias( "GID" ))
のデータ。

正規表現マッチングをスパークのみデータデータフレームを処理するための機能を見つけるために一時的に使用することができます

----------------
オリジナルリンクします。https://blog.csdn.net/qingumeng4466/article/details/78932970

おすすめ

転載: www.cnblogs.com/AlanWilliamWalker/p/11681240.html