nlp比赛常用模型

tfidf

tf是啥?词频

idf是啥?逆词频

 

max_df 选择词频的上界

min_df  选择词频的下界

max_features 选择的最大特征数

利用sklearn tfidf实例

导包

from sklearn.feature_extraction.text import TfidfVectorizer

实例化 

word_vec = TfidfVectorizer(analyzer='word',
            ngram_range=(1,2),#(1,3)
            min_df=3,  # 4  5
            max_df=0.9, # 0.95 1.0 
            use_idf=True,
            smooth_idf=True, 
            sublinear_tf=True)

用fit_transform训练

用transform预测

tfdif获取的稀疏矩阵可以直接调用

用于训练模型的例子

 

用于划分训练集验证集的例子

from sklearn.model_selection import train_test_split
#cross_validation
#切分训练集 验证集
X_train, X_eval, y_train, y_eval  = train_test_split(train_term_doc,train['label'],test_size=0.2,shuffle=True,random_state=2019)

lightgbm 

 

 train_set 表示训练集

num_boost_round表示迭代次数

early_stopping_rounds 早停

verbose_val是否显示每轮的Loss

objective 定义任务单分类还是多分类

num_leaves

metric

min_child_weight

lambda L2正则防止过拟合

subsample 对训练集进行采样,防止过拟合

feature_fraction 防止过拟合 特征选择50%

seed

nthread 设置16个线程

num_class 设置分类的个数

device_type 设置cpu训练还是gpu训练

 SVD词向量

n-gram

 

Guess you like

Origin blog.csdn.net/weixin_45955767/article/details/121173890