fake_data =ヴァルhivecontext.read .format(「com.databricks.spark.csv」) .OPTION(「ヘッダ」、「真の」)// ここでは、CSVの最初の行のプロパティが存在する場合、次いで、「偽」ではない .OPTION (「InferSchema」、trueに .toString)// これは自動的に属性行のデータ型を推論します。 .OPTION( "DELIMITER"、 "" ) .LOAD( "ファイル:/// C:CSV \\ \\ \\ fix_price.csvユーザー")// ファイルへのパス をインポートorg.apache.spark.sql.functions .regexp_extract fake_data.show() ヴァルデータ = fake_data.select(REGEXP_EXTRACT(fake_data( "GID")、 "D \\ ^ {2}"、0).alias( "GID" )) のデータ。
正規表現マッチングをスパークのみデータデータフレームを処理するための機能を見つけるために一時的に使用することができます
----------------
オリジナルリンクします。https://blog.csdn.net/qingumeng4466/article/details/78932970