Una introducción a la industria de la inteligencia artificial (IA)

Inteligencia artificial (IA)

Todo comenzó en 1950, cuando Alan Turing publicó " Máquinas informáticas e inteligencia ".

Inteligencia Artificial ( Artificial Intelligence), la abreviatura en inglés es AI. Es una nueva ciencia técnica que estudia y desarrolla teorías, métodos, tecnologías y sistemas de aplicación para simular, ampliar y ampliar la inteligencia humana. La inteligencia artificial utiliza computadoras y máquinas para imitar las capacidades de la mente humana para resolver problemas y tomar decisiones. La IA es un campo muy amplio que cubre muchos subcampos, como el aprendizaje automático, la visión por computadora, el reconocimiento de voz, el procesamiento del lenguaje natural, etc.

Hay tres elementos para el desarrollo de la inteligencia artificial: datos, algoritmos y potencia informática (CPU, GPU, TPU). La CPU es principalmente adecuada para tareas intensivas en IO y la GPU es principalmente adecuada para tareas informáticas intensivas. Programas de computación intensiva: Los llamados programas de computación intensiva significan que la mayor parte de su tiempo de ejecución se dedica a operaciones de registro. La velocidad de los registros es equivalente a la velocidad del procesador. Casi no hay demora en la lectura y escritura de datos. de los registros. Puedes hacer una comparación y leer La latencia de la memoria es de unos pocos cientos de ciclos de reloj. Sin mencionar la velocidad de lectura del disco duro, incluso un SSD es muy lento.

Las categorías técnicas cubiertas por la inteligencia artificial, el aprendizaje automático y el aprendizaje profundo están disminuyendo gradualmente. La inteligencia artificial es el concepto más amplio. El aprendizaje automático es actualmente una forma relativamente eficaz de implementar la inteligencia artificial. El aprendizaje profundo es la rama más popular de los algoritmos de aprendizaje automático, ha logrado avances significativos en los últimos años y ha reemplazado a la mayoría de los algoritmos de aprendizaje automático tradicionales.

Ciencia de los datos

La ciencia de datos es una disciplina integral multidisciplinaria que incluye adquisición de datos, análisis de datos, gestión de datos, aprendizaje automático, optimización estadística y visualización de datos, y gradualmente se ha convertido en un método para explorar el origen de grandes conjuntos de datos y convertir grandes datos en ejecutables inteligentes. y método eficaz.

La minería de datos no es algo nuevo, fue propuesta hace muchos años. A medida que el campo de la inteligencia artificial ha ido atrayendo la atención en los últimos años, también se ha empezado a mencionar la minería de datos. La minería de datos se refiere al proceso de búsqueda de información oculta en grandes cantidades de datos mediante algoritmos. La minería de datos a menudo se asocia con la informática y logra los objetivos anteriores a través de muchos métodos, como estadísticas, procesamiento analítico en línea, recuperación de inteligencia, aprendizaje automático, sistemas expertos (que se basan en reglas generales anteriores) y reconocimiento de patrones.

Procesamiento del lenguaje naturalPNL

PNL es la abreviatura de procesamiento del lenguaje natural, que se refiere a una tecnología que utiliza informática e inteligencia artificial para procesar y analizar el lenguaje natural humano . La PNL moderna es una disciplina híbrida que combina lingüística, informática y aprendizaje automático. Está diseñado para permitir que las computadoras comprendan, procesen y generen el lenguaje natural utilizado por los humanos. La PNL se puede aplicar a la clasificación de textos, extracción de información, traducción automática, reconocimiento de voz, análisis de sentimientos, sistemas de respuesta a preguntas, generación de lenguaje natural y muchos otros campos.

Funciona así:

Recibir el lenguaje natural, que evolucionó a través del uso humano natural y que utilizamos todos los días para comunicarnos.
Traducir lenguaje natural, generalmente mediante algoritmos basados en probabilidades.
Analice el lenguaje natural y genere los resultados.

En resumen, este es un proceso de creación de un algoritmo.

aprendizaje automático

El aprendizaje automático clásico o “no profundo” depende más de la intervención humana para aprender. Los expertos humanos determinan jerarquías de características para comprender las diferencias entre las entradas de datos, lo que a menudo requiere datos más estructurados para el aprendizaje.

Parámetros del modelo

Los parámetros del modelo son variables de configuración internas del modelo cuyos valores pueden estimarse a partir de los datos. Los parámetros son la clave de los algoritmos de aprendizaje automático. Son parte de un modelo aprendido a partir de datos históricos de entrenamiento.

aprendizaje profundo

El aprendizaje profundo puede considerarse como un " aprendizaje automático escalable " .

La "profundidad" en el aprendizaje profundo se refiere a una red neuronal compuesta por más de tres capas, incluidas la entrada y la salida, y puede considerarse un algoritmo de aprendizaje profundo.

La diferencia entre el aprendizaje profundo y el aprendizaje automático es cómo aprende cada algoritmo. El aprendizaje profundo puede automatizar gran parte del proceso de extracción de características, eliminando parte de la intervención manual requerida y permitiendo el uso de conjuntos de datos más grandes.

El aprendizaje automático "profundo" puede utilizar conjuntos de datos etiquetados, también conocido como aprendizaje supervisado, para determinar el algoritmo, pero no necesariamente tiene que utilizar conjuntos de datos etiquetados. Puede capturar datos no estructurados en formatos sin procesar (por ejemplo, texto, imágenes) y determinar automáticamente una jerarquía de características que distinguen diferentes categorías de datos.

Marco Tensorflow

TensorFlow es uno de los marcos de aprendizaje profundo desarrollado por el equipo de Google, es un software de código abierto diseñado íntegramente en base al lenguaje Python. La intención original de TensorFlow es implementar los conceptos de aprendizaje automático y aprendizaje profundo de la manera más sencilla y combina la tecnología de optimización del álgebra computacional para permitirle calcular muchas expresiones matemáticas.

Redes neuronales

La red neuronal es la base del aprendizaje profundo. Es una red compuesta por múltiples neuronas. Cada neurona recibe entradas de otras neuronas y convierte estas entradas en salidas a través de una función de activación. Las redes neuronales se pueden entrenar utilizando el algoritmo de retropropagación, que optimiza los pesos y sesgos de la red para que se ajuste mejor a los datos.

Las redes neuronales, también conocidas como redes neuronales artificiales (ANN) o redes neuronales simuladas (SNN), son un subconjunto del aprendizaje automático y el núcleo de los algoritmos de aprendizaje profundo. Su nombre y estructura están inspirados en el cerebro humano, imitando la forma en que las neuronas biológicas se transmiten señales entre sí.

Una red neuronal artificial (RNA) consta de capas de nodos, incluida una capa de entrada, una o más capas ocultas y una capa de salida. Cada nodo también se denomina neurona artificial y está conectado a otro nodo con pesos y umbrales asociados. Si la salida de cualquier nodo está por encima de un umbral específico, entonces ese nodo se activa y los datos se envían a la siguiente capa de la red. De lo contrario, los datos no pasarán a la siguiente capa de la red.

Las redes neuronales dependen de datos de entrenamiento para aprender y mejorar su precisión con el tiempo. Sin embargo, cuando se ajustan para lograr precisión, estos algoritmos de aprendizaje se convierten en herramientas poderosas en informática e inteligencia artificial, lo que nos permite clasificar y agrupar datos rápidamente. Las tareas de reconocimiento de voz o de imágenes pueden tardar sólo unos minutos en completarse, mientras que el reconocimiento manual realizado por expertos humanos puede tardar horas. Una de las redes neuronales más famosas es el algoritmo de búsqueda de Google .

modelo de lenguaje grande

Un modelo de lenguaje grande ( Large Language ModelLLM abreviado), también conocido como modelo de lenguaje grande, es un modelo de inteligencia artificial diseñado para comprender y generar el lenguaje humano. Están capacitados con grandes cantidades de datos de texto y pueden realizar una amplia gama de tareas, incluido el resumen de texto, la traducción, el análisis de opiniones y más. Los LLM se caracterizan por su gran escala y contienen miles de millones de parámetros, lo que les ayuda a aprender patrones complejos en datos lingüísticos. Estos modelos suelen basarse en arquitecturas de aprendizaje profundo, como transformadores, lo que les ayuda a lograr un rendimiento impresionante en una variedad de tareas de PNL.

LLM es una red neuronal entrenada con grandes cantidades de datos de texto. El proceso de capacitación permite que el modelo aprenda patrones en el texto, incluida la gramática, la sintaxis y las asociaciones de palabras. Estos modelos utilizan estos patrones aprendidos para generar texto similar al humano, lo que los hace ideales para tareas de procesamiento del lenguaje natural (PLN).

Por GPT（Generative Pre-trained Transformer）ejemplo, GPT ha aparecido durante varias generaciones. GPT 3 tiene 45 TBdatos de entrenamiento de , por lo que los datos en toda Wikipedia solo equivalen al 0,6% de sus datos de entrenamiento. Durante este entrenamiento, llamamos a este corpus, que es material lingüístico. Se puede decir que la cantidad de este corpus contiene la esencia de todas nuestras civilizaciones lingüísticas humanas. Esta es una base de datos muy, muy grande.

Después de tanto aprendizaje, algunos científicos informáticos que se dedican a la IA no esperaban que se produjera tal cambio y no pudieron explicar razonablemente la aparición de este fenómeno, es decir, cuando la cantidad de datos excede un cierto punto crítico. En este punto, el modelo logró mejoras significativas en el rendimiento y desarrolló capacidades que no existían en modelos pequeños, como el aprendizaje en contexto. Esto ha causado dos problemas: los principales gigantes de la IA han aumentado la cantidad de parámetros de entrenamiento para lograr mejores resultados, y han surgido consideraciones de seguridad de la IA debido a cambios cualitativos inexplicables.

Capacidades emergentes de grandes modelos lingüísticos

Aprendizaje contextual. GPT-3 introduce formalmente capacidades de aprendizaje contextual: suponiendo que el modelo de lenguaje haya recibido instrucciones en lenguaje natural y múltiples descripciones de tareas, puede generar el resultado esperado de la instancia de prueba completando la secuencia de palabras del texto de entrada sin entrenamiento ni gradiente adicionales. actualizaciones. .
Siguieron las instrucciones. Al ajustar una combinación de conjuntos de datos multitarea formateados con descripciones en lenguaje natural (es decir, instrucciones), LLM funciona bien en tareas pequeñas que también se describen en forma de instrucciones. En esta capacidad, el ajuste de instrucciones permite a LLM realizar nuevas tareas al comprender las instrucciones de las tareas sin utilizar muestras explícitas, lo que puede mejorar en gran medida las capacidades de generalización.
Razonamiento paso a paso. Para modelos de lenguaje pequeños, a menudo resulta difícil resolver tareas complejas que implican múltiples pasos de razonamiento, como los problemas planteados en materias matemáticas. Al mismo tiempo, a través de la estrategia de razonamiento de la cadena de pensamiento, LLM puede resolver dichas tareas para llegar a la respuesta final utilizando el mecanismo rápido que involucra pasos de razonamiento intermedios. Presumiblemente, esta capacidad puede adquirirse mediante el entrenamiento en codificación.

AutoML

Es aprendizaje automático automatizado, aprendizaje automático automático.