Use una oración para entrenar el tokenizador chino y fusionarlo con el tokenizador LLaMA

Enterprise 2023-07-28 20:24:32 views: null

Cero, descarga de datos, procesamiento

#!/usr/bin/env python
# -*- coding:utf-8 _*-
"""
@description: 搜集多个数据集 合并数据集 todo
"""
import glob

from tqdm import tqdm
import json
import json
import os

from tqdm import tqdm
from zhconv import convert



# =====================================================
# 中文wiki数据集
# =====================================================

# 中文wiki下载地址: https://dumps.wikimedia.org/zhwiki/
# 利用wikiextractor处理文本格式
# pip install wikiextractor
# -b 10M 其中10M是指单个文件允许的最大的占用硬盘的大小
# ./zhwiki 指输出数据存放文件夹
#

Supongo que te gusta

Origin blog.csdn.net/u013250861/article/details/131898300

Use una oración para entrenar el tokenizador chino y fusionarlo con el tokenizador LLaMA

Use una oración para entrenar el tokenizador chino y fusionarlo con el tokenizador LLaMA

Jcseg es un tokenizador chino ligero basado en el algoritmo mmseg

tokenizador personalizado de búsqueda elástica

Tokenizador para LLM

Java llama a Midjourney para el dibujo de IA. La versión nativa captura paquetes y es compatible con chino.

Docker: instalación y configuración de Elasticsearch tokenizador IK

Se lanzó el "reconocimiento facial de ballenas" y la Universidad de Hawái utilizó 50 000 imágenes para entrenar el modelo de reconocimiento, con una precisión promedio de 0,869.

[Tensorflow2.0] Use una sola GPU para entrenar el modelo

Cómo declarar una función Kotlin con el tipo de retorno 'vacío' para una persona que llama java?

Docker instala nginx y tokenizador IK personalizado

[PNL, Huggingface, Colab] Use Trainer para entrenar el modelo y guardar los parámetros del modelo

Instalación de Jenkins y pantalla en chino, instale el complemento para crear una tarea de shell asociada

[MFA] En el entorno de Windows, use Montreal-Forced-Aligner para entrenar y alinear el audio

Vocabulario de tokenizador de tokenizador de transformadores de Pytorch para agregar nuevas palabras e incrustar

[Motor U3D] ¿No hay opción para cambiar chino y cambiar el modo chino?

Configure y use el servidor en la nube para entrenar el modelo de red neuronal: entrene el modelo yolov5 en el servidor Ali GPU

es6 una oración para juzgar si dos arreglos contienen el mismo elemento

La aplicación web llama a mediaDevices.getUserMedia para escanear el código QR para obtener el contenido y saltar con los parámetros.

Use el módulo tkinter de Python para escribir un ajedrez chino atractivo y poderoso

Use el script para actualizar la página y cepille "Chino universitario" durante 1000 minutos

Conceptos básicos de ES y complemento de tokenizador IK

Cómo declarar una Kotlin Lambda con el tipo de retorno 'vacío' para una persona que llama java?

(7) tokenizador de ElasticSearch

Uso de Keras para entrenar una red Lenet para el reconocimiento de dígitos escritos a mano

Calcular el número de palabras en una oración en lenguaje C y la implementación de Python

Una sinfonía de poder y belleza 丨 Reunión nacional de prueba de manejo de medios Yuanhang Y6 celebrada en Chengdu, que demuestra el lujo del estilo chino + el máximo rendimiento con fuerza.

Use la versión de GPU de tensorflow-1.14.0 para entrenar el conjunto de datos en colab

Use las bibliotecas opencv y tesseract de python para identificar el chino en el área especificada en la imagen

Configure una computadora para entrenar el conjunto de datos de imagenet

Recomendado

Clasificación

Diario

Más

2024-05-29(1)

2024-05-28(0)

2024-05-27(1)

2024-05-26(1)

2024-05-25(0)

2024-05-24(13)

2024-05-23(34)

2024-05-22(10)

2024-05-21(34)

2024-05-20(5)