データクリーニングの演習の概要

1はじめに

ソースデータベースには、4つの
ここに画像の説明を挿入
ファイルが含ま
れています。最初の1つのファイルは、後でラベル付けされたTrainData-ラベル付けされたトレーニングセットです。ファイルはタブ区切りで、ヘッダー行の後に25,000行が続き、各レビューのID、感情、テキストが含まれています。
testData-テストセット。タブ区切りファイルのヘッダー行には、各レビューのIDとテキストを含む25,000行が続きます。あなたの仕事は、それぞれの感情を予測することです。
unlabeledTrainData-ラベルのない追加のトレーニングセット。タブ区切りファイルには、ヘッダー行の後に、各レビューのIDとテキストを含む50,000行が続きます。
sampleSubmission-正しい形式のカンマ区切りのサンプル提出ファイル。

データのインポート:OSError:ファイルからの初期化に失敗しました

問題の原因:ファイルパス(win10)をコピーすると、ファイル名ではなくフォルダー名のみを含めて、アドレスバーから直接コピーされます。

データのトークン化エラー。Cエラー:4行目の11フィールドが必要です、23を見ました

問題の原因:pd.read_csvが読み込まれた場合のみ

train=pd.read_csv('D:\Kaggle/word2vec-nlp-tutorial\labeledTrainData\labeledTrainData.tsv',)

それは間違っていますが、追加した場合:

train=pd.read_csv('D:\Kaggle/word2vec-nlp-tutorial\labeledTrainData\labeledTrainData.tsv',header=0, \
                    delimiter="\t", quoting=3)

就是
#ここでは、「header = 0」はファイルの最初の行に列名が含まれていることを示し、
「delimiter = \ t」はフィールドがタブで区切られていることを示し
、quoting = 3はPythonに二重引用符を無視するように指示します。ファイルを読み取ろうとしてエラーが発生する可能性があります。

正規表現

re.sub( 'a'、 'b'、コンテキスト)

コンテキスト内のaのコンテンツをb
r'a 'で置き換えます。これは、生文字列のネイティブ文字列を意味します。エスケープされません
[]は、グループメンバーシップグループの文字
^は、そうでないことを意味します

nltkライブラリとそのインポート

最初に私の前に、すべてのコンピュータ上でNLTKパッケージをダウンロードした
ここに画像の説明を挿入
が、私はしてみてください

from nltk.corpus import stopwords # Import the stop word list
print(stopwords.words("english"))

しかし、エラーが発生しました:
ここに画像の説明を挿入
最初はパスの問題だと思いましたが、それを追加した後、それは無効(おそらく間違っていました)で、ストップワードライブラリをダウンロードして、最後に成功しました。間違った手順が記述されていない場合は、最初にパスを追加してみて、機能しない場合はダウンロードしてください。

import nltk
nltk.data.path.append(r"D:\NLP\nlp_data")
import nltk
nltk.download("stopwords")

from nltk.corpus import stopwords # Import the stop word list
print(stopwords.words("english"))

魔法の道の問題

train=pd.read_csv('D:\K\word2vec-nlp-tutorial\labeledTrainData\labeledTrainData.tsv',header=0, \
                    delimiter="\t", quoting=3)
test = pd.read_csv("D:/K/word2vec-nlp-tutorial/testData/testData.tsv", header=0, delimiter="\t", \
                   quoting=3 )

初めてwin10デフォルトパスシンボル
OK
を使用したとき2回目にデフォルトパスシンボルを使用しました。/に変わります。サイケデリック

元の記事を14件公開しました 賞賛されました0 訪問771

おすすめ

転載: blog.csdn.net/kunAUGUST/article/details/105340719
おすすめ