fasttext的使用，预料格式，调用方法 - 代码天地

fasttext的使用，预料格式，调用方法

其他 2020-02-20 00:34:10 阅读次数: 0

数据格式：分词后的句子+\t__label__+标签

fasttext_model.py

from fasttext import FastText
import numpy as np

def get_data_path(by_word=True,train=True):
    if by_word:
        return "./classify/data_by_word_train.txt" if train else "./classify/data_by_word_test.txt"
    else:
        return "./classify/data_train.txt" if train else "./classify/data_test.txt"

def prepar_model():
    data_path = get_data_path(by_word=True,train=True)
    model = FastText.train_supervised(data_path,dim=100,epoch=20,wordNgrams=2)
    model.save_model("./fasttext_model/classify_by_word_100_20_2.model")

def ceshi_model():
    model = FastText.load_model("./fasttext_model/classify_by_word_100_20_2.model")
    test_data_path = get_data_path(by_word=True, train=False)

    sentences = []
    labels = []
    for line in open(test_data_path,encoding="utf-8").readlines():
        line = line.strip()
        temp_ret = line.split("\t")
        if len(temp_ret)==2:
            sentences.append(temp_ret[0])
            labels.append(temp_ret[1])

    ret = model.predict(sentences)[0]
    ret = [i[0] for i in ret]
    acc = np.mean([1 if labels[i] == ret[i] else 0 for i in range(len(labels))])
    print(acc)

if __name__ == '__main__':
    prepar_model()
    ceshi_model()

　　

猜你喜欢

转载自www.cnblogs.com/LiuXinyu12378/p/12334002.html

fasttext的使用，预料格式，调用方法

fasttext使用

fasttext(1) -- 认识 fasttext 和初步使用

fasttext使用指南

fasttext（2）-- 安装 & 使用

fasttext 的安装和使用

在 Windows下使用 fastText

fasttext

fasttext工具的使用及迁移学习

windows+python3.6下安装fasttext+fasttext在win上的使用+gensim（fasttext）

scala——函数的格式和用法+lazy惰性使用+方法和函数的区别+方法调用方式

iframe的使用及方法调用

JAVA方法的三种调用格式

使用Facebook的FastText简化文本分类

使用Clion调试fastText源代码

Java方法的三种调用格式以及方法重载

递归的使用：调用方法自身

链式调用使用方法

使用 python nltk 库对预料库进行自动词性标注

java使用 zipoutputstream 进行解压缩时提示:不可预料的压缩文件末端

极简使用︱Gemsim-FastText 词向量训练与使用

vue setTimeout()调用方法与不调用方法的使用

python 字符串格式化调用方法

6.2 JAVA方法的三种调用格式

ThinkPHP远程调用模块的操作方法 URL 参数格式

JSON格式自动解析遇到的调用方法问题.fromJson() ..readValue()

python-类与对象的基本含义、格式和调用方法

【Sklearn】3种模型保存的文件格式及调用方法

使用fasttext实现文本处理及文本预测

【论文复现】使用fastText进行文本分类

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)