El campo de la inteligencia artificial implica tanto conocimiento que inevitablemente te perderás si aprendes demasiado. Recientemente vi un sitio web alemán que enumeraba una hoja de ruta para expertos en IA, que era muy detallada. Con un mapa en la mano, puedes conocer claramente los puntos de habilidad que faltan y el siguiente paso.
https://i.am.ai/roadmap/
Traduzcamos y resumamos brevemente, y estoy particularmente de acuerdo con varias de las opiniones:
1. La popularidad y las tendencias no son necesariamente las mejores para un proyecto.
Debería comprender por qué una herramienta sería más adecuada para algunos casos que otra y recordar que lo moderno nunca significa lo mejor para el trabajo.
2. Antes de ingresar al campo del aprendizaje profundo, es mejor estar familiarizado con el análisis de big data y el aprendizaje automático tradicional.
3. Conocimientos básicos
3.1 Conceptos básicos
Conceptos básicos de matrices y álgebra lineal, conceptos básicos de bases de datos (bases de datos relacionales y no relacionales, operaciones SQL y noSQL), datos tabulares, exportación e importación de transformaciones de formatos de datos, expresiones regulares...
3.2 Pitón
Sintaxis básica (expresiones, variables, estructuras de datos, funciones, paquetes de instalación, estilo de programación);
Biblioteca de informática científica Numpy, biblioteca de procesamiento de tablas Pandas;
Entornos virtuales, Jupyter, etc...
3.3 Fuente de datos
Minería de datos, web scraping, conjuntos de datos públicos, competencias de Kaggle
3.4 Análisis de datos de la EDA
Análisis de componentes PCA, reducción de dimensionalidad, normalización, limpieza de datos, procesamiento de valores perdidos, estimación imparcial, extracción de valores de características, reducción de ruido, muestreo...
Resulta que los científicos de datos y los ingenieros de big data son dos direcciones diferentes.
4. Ruta del científico de datos
4.1 Estadísticas
Teoría de probabilidad (aleatoriedad, distribuciones de probabilidad, probabilidad condicional y teorema de Bayes), funciones de distribución continua, funciones de distribución acumulativa, estadística resumida, análisis de estimaciones, espacios de confianza, métodos de Monte Carlo.
4.2 Visualización
Sugerencias de gráficos (se recomiendan varios tipos), bibliotecas de visualización de Python (Matplotlab, seaborn, ipyvolume), visualización web (D3.js, Dash), inteligencia empresarial de BI (Tableau, PowelBI)
5. Campo del aprendizaje automático
5.1 Descripción general
Conceptos, entradas y atributos, función de valor y descenso de gradiente, sobreajuste y desajuste, validación de entrenamiento y conjuntos de prueba, exactitud y exactitud, sesgo y varianza, análisis de datos de elevación
5.2 Método
Aprendizaje supervisado (regresión, clasificación), aprendizaje no supervisado (agrupación, aprendizaje de reglas de asociación, reducción de dimensionalidad), aprendizaje conjunto (impulso, embolsado, apilamiento), aprendizaje por refuerzo (Q-learning)
5.3 Escenarios de uso
Análisis de sentimiento, filtrado colaborativo, etiquetado, predicción.
5.4 Biblioteca de herramientas
sklearn, spcay
Después de terminar el aprendizaje automático, finalmente entré al campo del aprendizaje profundo.
6. Campo del aprendizaje profundo
6.1 Artículos relacionados
6.2 Red neuronal
Conceptos de redes neuronales, función de pérdida, función de activación, inicialización de peso, desaparición de gradiente y explosión de gradiente.
6.3 Arquitectura
Red neuronal directa, codificador automático, red neuronal convolucional, red neuronal recurrente, transformador (codificador, decodificador, módulo de atención), red siamesa, red generativa adversaria (GAN), red residual
6.4 Formación
Optimizador, tasa de aprendizaje, lote normal, tamaño de lote, regularización, capacitación multitarea, transferencia de aprendizaje, aprendizaje curricular
6.5 Herramientas
Bibliotecas de aprendizaje profundo, Tensorflow, PyTorch, Tensorboard, MLFlow
6.6 Optimización del modelo
Destilación de modelos, cuantificación de modelos, búsqueda de redes neuronales.
¡Después de aprender esta ruta, te convertirás en un científico de datos!
7. Ruta del ingeniero de datos
Resumen de formato de datos, descubrimiento de datos, fuentes y recopilación de datos, integración de datos, fusión de datos, transformación y llenado de datos, exploración de datos, OpenRefine, uso de ETL, lago de datos, Docker
8. Ruta del ingeniero de big data
8.1 Arquitectura de grandes datos
8.2 Principio
Escalado vertical y horizontal, reducción de mapas, ganancia de datos, nodos de nombres y datos, seguimiento de tareas
8.3 Herramientas
Consulta el listado de Big Data, Hadoop, Spark, Onnx, MLFlow, Cloud Services...
Las siguientes herramientas relacionadas con la implementación de la nube están más allá de mi campo de conocimiento actual... En resumen, el diseño general anterior es bastante claro, intentemos completar lentamente las piezas que faltan.