word2vecでgensim

gensim.models インポートWord2Vec 
Word2Vec(自己例文 =なし、サイズ= 100、アルファ= 0.025、ウィンドウ= 5、min_count = 5 
                 max_vocab_size =なし、サンプル= 1E-3、種子= 1、労働= 3、min_alpha = 0.0001 
                 SG = 0、HS = 0、負= 5、cbow_mean = 1、hashfxn =ハッシュ、ITER = 5、null_word = 0、
                 trim_rule =なし、sorted_vocab = 1、batch_words = MAX_WORDS_IN_BATCH、compute_loss = Falseに、コールバック= () ):
         「」」
        sentences` `のイテラブルからモデルを初期化し、それぞれの文章がある。
        トレーニングのために使用される言葉(Unicode文字列)のリスト。
 
        パラメータ
        ----------
        文:反復可能オブジェクトの反復可能な
           コーパスは、それがリストであってもよいし、分析する、またはファイルトラバーサルから読み取られます。大規模コーパスのために、BrownCorpus、Text8CorpusまたはlineSentenceの建物を使用することをお勧めします。
        SG:INT {1,0} 
           定義トレーニングアルゴリズムSG = 1:スキップ-グラム(入力ワード出力コンテキスト); SG = 0 :. CBOW ( 入力コンテキスト出力ワード)、デフォルトのSG = 0、すなわちCBOWモデル
        サイズ:INT 
           請求次元ベクトル又はベクトルワードは、デフォルト値は100であり、
        ウィンドウ:INT 
            ワードベクトルの最大距離コンテキスト、スキップグラムアルゴリズムとcbow予測がスライディングウインドウに基づいて行われます。デフォルトは5です。実際の使用では、サイズは、動的に実際のニーズウィンドウに応じて調整することができます。間の一般的なコーパス推奨値は[5,10]。
        アルファ:フロートは
           直線的にトレーニング中min_alphaまでデクリメント初期学習率、である。
        min_alpha:フロート
            アルゴリズムがサポートが徐々に反復ステップの間に低減され、min_alphaはステップサイズの最小値を与える。
        SEED:int型 
           の最小カットオフ値は、min_count単語が破棄されるよりも、単語の出現頻度の数は、デフォルト値は5です。 
           乱数発生器のためのハッシュ値、ワード+ `STR(シード) ` 各単語のための初期ベクトルとして
        min_count:int型
        max_vocab_sizeは:int型
           ベクター構築中にワードRAMの制限を設定する、Noneに設定さ制限はありません。10百万のワードタイプは、RAM 1GBのほぼすべてを必要とする
        サンプル:フロートが
            ランダムに配置されたしきい値が高頻度語をダウンサンプリングされ、デフォルトは1E-3、範囲(0,1e-5)です。
        労働者:INTを
           制御するための平行訓練の数
        HS:INT {1,0} 
           word2vecソリューション2を選択:0である場合、それは負のサンプリングであり、それは陰性であり、試料の負の数が0より大きい場合には、階層ソフトマックスであります。デフォルトは0、つまり負のサンプリングです。
        陰性:INT 
           0より大きい、negativesamplingを使用して、ノイズワード(典型的には5~20)の数が提供されている場合。
        cbow_mean:INT {1,0} 
           のみCBOW投影を行う場合、それは単語ベクトルとコンテキストの使用、次いで、0であり; 1、平均ベクトルワードコンテキストに比べ。デフォルト値は、1であるデフォルト値を変更することは推奨されません。
        hashfxn:機能
            重みを初期化するハッシュ関数で、デフォルトのPythonのハッシュ関数を使用します。
        ITER:int型
           確率的勾配降下法の反復の最大数、デフォルト5。大規模コーパスでは、この値を増やすことができます。
        trim_rule:機能
            の並べ替えルールの語彙を設定するため、削除しようとする、残すそれらの単語を指定します。Noneに設定することができます(min_countが使用されます)。
        sorted_vocab:INT {1,0} 
           の場合は1(デフォルト)の場合、その単語の割当ワードインデックスは、第1の周波数に基づいて降順にソートします。
        batch_words:int型の
            バッチあたりの単語のスレッドに渡された番号は、デフォルトは10000です。
       
        -------- 
        初期化や電車`Word2Vec`モデル

       gensim.modelsからインポートWord2Vecの
       文章を= [[ "CAT"、 "言う"、 "ニャー"]、["犬"、 "言います"、」ウーフ「]] 
       モデル= Word2Vec(文章、min_count =。1)
       say_vector Wordのモデル= [ 'と言う'] GET#ベクトル

 

おすすめ

転載: www.cnblogs.com/jeshy/p/11434241.html