Notas de aprendizaje y traducción del documento oficial de Spark mlib (1)

Biblioteca de aprendizaje automático Mlib

MLib es una biblioteca de aprendizaje de máquina de chispas. Su objetivo es hacer que el aprendizaje automático sea fácil de usar y escalable. Desde una perspectiva de alto nivel, se proporcionan las siguientes herramientas:

Algoritmos de aprendizaje automático: como clasificación, regresión, agrupamiento y filtrado colaborativo

Procesamiento de características: extracción de características, conversión, reducción de dimensionalidad y selección

Pipeline: herramientas de construcción, evaluación y optimización de tuberías.

Persistencia: guardar y cargar algoritmos, modelos, tuberías

Conjunto de herramientas: álgebra lineal, estadísticas, procesamiento de datos, etc.

Después de spark2.0, el paquete spark.mllib basado en la API RDD ha entrado en la etapa de mantenimiento. Las API en el paquete spark ml se basan en el marco de datos.

Se espera que las API basadas en RDD de Mlib se eliminen en spark3.0.


30 artículos originales publicados · elogiados 74 · 230,000 vistas +

Supongo que te gusta

Origin blog.csdn.net/ruiyiin/article/details/77113289
Recomendado
Clasificación