PNL Varios

Después de venir a Beijing por más de una semana, estaba a punto de recuperarme de mi enfermedad inicial y finalmente pasé llama y ViT. Lo escribo aquí——

Solía ​​​​hacer imágenes antes, y la migración de modelos grandes es básicamente conocimiento relacionado con la PNL. Todavía hay una brecha entre muchas cosas y CV. Además, los modelos grandes requieren una alta potencia informática. Las operaciones basadas en la nube son un hábito para mí. Para operar localmente, el ingeniero de arrastrar y soltar todavía se siente un poco incómodo, por lo que complementó algunos conocimientos de PNL, modelos a gran escala, computación en la nube, marcos domésticos, Linux, Docker y hardware:

MindFormersEs una biblioteca de herramientas de procesamiento de lenguaje natural lanzada por HUAWEI CLOUD que proporciona una gran cantidad de modelos previamente entrenados y aplicaciones de tareas posteriores, que cubren un kit de desarrollo de proceso completo para capacitación, ajuste, evaluación, razonamiento e implementación de modelos grandes. Basado en la suite MindSpore Transformers, proporciona modelos de preentrenamiento de Transformer convencionales en la industria y aplicaciones de tareas posteriores SOTA, que cubren una gran cantidad de funciones paralelas.

CausalLanguageModelDatasetclass es la clase utilizada en la biblioteca MindFormer para construir conjuntos de datos de modelos de lenguaje causal .

En las tareas de procesamiento del lenguaje natural, el modelo de lenguaje causal (modelo de lenguaje causal) es un tipo de modelo común, que aprende principalmente la relación causal en la secuencia del texto, es decir, la influencia de una palabra o frase en palabras o frases posteriores (a menudo usadas en tareas de generación, resumen y clasificación)

La clase CausalLanguageModelDataset proporciona una manera conveniente de crear y manipular conjuntos de datos para modelos de lenguaje causal. Los datos se pueden leer automáticamente desde el directorio o archivo del conjunto de datos especificado y se pueden realizar operaciones como preprocesamiento, procesamiento por lotes y aleatorización según sea necesario. Además, esta clase admite la división del conjunto de datos en conjuntos de entrenamiento, validación y prueba para evaluación y ajuste utilizando diferentes subconjuntos de datos durante el entrenamiento; al usar la clase CausalLanguageModelDataset, es más fácil construir y entrenar modelos de lenguajes causales para obtener un mejor rendimiento y resultados
.

Además de los modelos de lenguaje causal, existen otros tipos de modelos de lenguaje natural:

  • Modelo de lenguaje estadístico: este tipo de modelo de lenguaje predice la siguiente palabra o carácter en función de una distribución de probabilidad. Por lo general, usan n-gramas, o n-gramas, para representar secuencias de texto y usan estimación de máxima verosimilitud u otros métodos para calcular probabilidades.

  • Modelo de lenguaje de red neuronal: este tipo de modelo de lenguaje utiliza una red neuronal para aprender una distribución de probabilidad sobre secuencias de texto. Por lo general, constan de un codificador y un decodificador, donde el codificador convierte una secuencia de entrada en un estado oculto y el decodificador genera una secuencia de salida basada en el estado oculto.

  • Modelo de lenguaje transformador (modelo de lenguaje transformador): este tipo de modelo de lenguaje es una arquitectura de red neuronal basada en un mecanismo de autoatención, que se usa ampliamente en tareas de procesamiento del lenguaje natural, como traducción automática, resumen de texto, etc.

La recopilación de datos de volcado y la recopilación de datos de creación de perfiles son herramientas de análisis de rendimiento, pero sus escenarios de aplicación son diferentes:

  • La recopilación de datos de volcado se utiliza principalmente para diagnosticar problemas como fallas del programa y pérdidas de memoria.
  • La recopilación de datos de perfiles se utiliza principalmente para analizar los cuellos de botella en el rendimiento del programa, como qué funciones se llaman con más frecuencia y qué líneas de código son más largas.

Cuaderno ModelArts LLama:

 	1  git clone -b dev https://gitee.com/mindspore/mindformers.git
    2  cd mindformers
    3  bash build.sh

	cp /user/config/nbstart_hccl.json ./
	bash run_distribute.sh /home/ma-user/work/mindformers/nbstart_hccl.json /home/ma-user/work/mindformers/configs/llama/run_llama_7b.yaml [0,8] train
    tail -f ../output/log/rank_0/info.log

El cuaderno ModelArts ejecuta ViT:

git clone -b dev https://gitee.com/mindspore/mindformers.git
cd mindformers
bash build.sh
wget https://bj-aicc.obs.cn-north-309.mtgascendic.cn/dataset
ll
mv dataset imageNet2012.tar
ll
tar -xvf imageNet2012.tar 
ls
top  	# 进程的资源占用情况
bash run_distribute.sh /home/ma-user/work/mindformers/scripts/nbstart_hccl.json /home/ma-user/work/mindformers/configs/vit/run_vit_base_p16_224_100ep.ymal [0,8] train

Supongo que te gusta

Origin blog.csdn.net/weixin_44659309/article/details/131916609
Recomendado
Clasificación