Biblioteca de aprendizaje automático Mlib
MLib es una biblioteca de aprendizaje de máquina de chispas. Su objetivo es hacer que el aprendizaje automático sea fácil de usar y escalable. Desde una perspectiva de alto nivel, se proporcionan las siguientes herramientas:
Algoritmos de aprendizaje automático: como clasificación, regresión, agrupamiento y filtrado colaborativo
Procesamiento de características: extracción de características, conversión, reducción de dimensionalidad y selección
Pipeline: herramientas de construcción, evaluación y optimización de tuberías.
Persistencia: guardar y cargar algoritmos, modelos, tuberías
Conjunto de herramientas: álgebra lineal, estadísticas, procesamiento de datos, etc.
Después de spark2.0, el paquete spark.mllib basado en la API RDD ha entrado en la etapa de mantenimiento. Las API en el paquete spark ml se basan en el marco de datos.
Se espera que las API basadas en RDD de Mlib se eliminen en spark3.0.