1 はじめに
データ拡張に EDA (Easy Data Augmentation) を使用する場合は、シノニム ライブラリを使用してシノニムの抽出を完了する必要があります。
Synonyms は中国語の同義語のツールキットであり、テキストの配置、推奨アルゴリズム、類似性計算、セマンティックシフト、キーワード抽出、概念抽出、自動要約、検索エンジンなどの多くの自然言語理解 (NLP) タスクに使用できます。このツールキットは現在、同義語の検索や文の類似性の比較などのタスクを実行でき、語彙数は 125,792 です。この中国語の同義語ツールキットで使用される基本テクノロジーは Word2vec です。
2. 問題が発生しました
同義語のインストール後、初めて単語ベクトル ファイルがダウンロードされますが、単語ベクトル ファイルの URL をダウンロードするとエラーが報告されます: https://gitee.com/chatopera/cskefu/attach_files/610602/download /words.vector.gz 403 エラーが発生し、ブラウザ経由でこの URL へのアクセスが拒否されました。
3. 解決策
GitHub で提供されているダウンロード アドレスを介して単語ベクトル ファイルを手動でダウンロードし、指定された場所に単語ベクトル ファイルを配置します。
ダウンロードリンク:
https://github.com/chatopera/Synonyms/releases/download/3.15.0/words.vector.gz
Word ベクター ファイルの保存場所: /home/zhenhengdong/anaconda3/lib/python3.9/site-packages/synonyms/data
単語ベクトル ファイルをダウンロードして指定した場所に配置すると、インポートされた同義語が再び正しくなります。