Prólogo: A medida que más y más modelos de lenguaje grandes, como Llama 2 y Tongyi Qianwen 7B, son de código abierto, los desarrolladores pueden crear sus propios sistemas de diálogo, agentes, etc. basados en estos modelos de código abierto. Pero debido a nuestras condiciones nacionales, los desarrolladores deben tomar algunas consideraciones especiales de "seguridad" en estos modelos para garantizar que no aparezca "información dañina" en la interacción con los usuarios. Este blog le enseñará cómo crear un sistema de filtrado de palabras sensible para un modelo de lenguaje grande.
Tabla de contenido
preparación del corpus
Hay muchos corpus de este tipo en Github, aquí hay dos ejemplos, puede descargar el corpus: