xgboost / lightgbm for NLP 添加一些 写死的/hardcode 的比如同义词 “特征”/规则

two-text-match这个任务,如果我把

"谁写的","谁的著作"

这两个词看为同义词,则我强行指定 分别出现这两个词的 这对句子match程度为1

如果我把

"古代流放", "流放"

不看成同义词,则我强行指定 分别出现这两个词的 这对句子match程度为-1

然后

add_data = train_x[train_x["hardcode"]==1] # 过滤
for i in range(1000): # 为了在训练时多出现
    train_x = train_x.append(add_data)
    for j in range(add_data.shape[0]):
        train_y.append(1) # 设定训练label
add_data2 = train_x[train_x["hardcode"]==-1] # 过滤
for i in range(1000):  # 为了在训练时多出现
    train_x = train_x.append(add_data2)
    for j in range(add_data2.shape[0]):
        train_y.append(0) # 设定训练label

猜你喜欢

转载自blog.csdn.net/guotong1988/article/details/80847355