Cómo construir una plataforma de capacitación de modelos grandes de computación eficiente y de alto rendimiento en la era SAM

Palabras clave: SAM; PCB; SA-1B; Prompt; CV; NLP; PLM; BERT; ZSL; tarea; zero-shot; datos; H100, H800, A100, A800, LLaMA, Transformer, OpenAI, GQA, RMSNorm, SFT, RTX 4090, A6000, AIGC, CHATGLM, LLVM, LLM, GLM, NLP, AGI, HPC, GPU, CPU, CPU+GPU, Nvidia, Nvidia, Intel, AMD, informática de alto rendimiento, servidor de alto rendimiento, blue ocean Brain, multi Potencia informática heterogénea, informática de alto rendimiento, entrenamiento de modelos grandes, inteligencia artificial general, servidor GPU, clúster GPU, clúster GPU de entrenamiento de modelos grandes, modelo de lenguaje grande, aprendizaje profundo, aprendizaje automático, visión por computadora, IA generativa, ML, DLC, ChatGPT, segmentación de imágenes, modelo de lenguaje previamente entrenado, PLM, visión artificial, servidor de IA

Resumen: Segment Anything Model (SAM) es un modelo de IA innovador lanzado recientemente por Meta Company, que se utiliza especialmente para tareas de segmentación de imágenes en el campo de la visión por computadora. Basándose en el paradigma de aprendizaje de ChatGPT, se combinan tareas específicas y de preentrenamiento para mejorar significativamente la capacidad de generalización del modelo. SAM está diseñado para simplificar el proceso de segmentación de imágenes, reducir la dependencia del conocimiento de modelado profesional y reducir los recursos informáticos necesarios para la capacitación a gran escala.

En el campo de la visión por computadora, el modelo SAM es un ChatGPT basado en el campo CV, que proporciona poderosas funciones de segmentación de imágenes. Sin embargo, para utilizar el modelo SAM, necesitamos configurar el entorno del modelo grande SAM. Si bien la configuración de un entorno SAM puede presentar algunos desafíos, una vez configurado, podremos aprovechar al máximo el poder del modelo SAM.

Para configurar el entorno SAM, debemos asegurarnos de que el servidor tenga suficientes recursos informáticos y espacio de almacenamiento para respaldar el funcionamiento eficiente del modelo SAM. Los modelos SAM suelen requerir grandes cantidades de recursos informáticos y capacidades de almacenamiento para una segmentación de imágenes precisa. Sin embargo, también es necesario prestar atención al impacto de la implementación local de SAM en el servidor. La implementación del modelo SAM puede tener cierto impacto en el rendimiento y la estabilidad del servidor.

La plataforma de entrenamiento de modelos grandes Blue Ocean Brain proporciona potentes clústeres informáticos, sistemas de almacenamiento de alta velocidad y conexiones de red de gran ancho de banda para acelerar el proceso de entrenamiento de modelos; también utiliza un marco informático distribuido eficiente y computación paralela para que se pueda llevar a cabo el entrenamiento de modelos. simultáneamente en múltiples nodos informáticos, lo que acorta considerablemente el tiempo de capacitación. Tiene funciones como programación de tareas, gestión de recursos y seguimiento para mejorar la eficiencia y manejabilidad de la formación. Además, se encuentra disponible un amplio conjunto de herramientas y bibliotecas para el desarrollo, la depuración y la optimización de modelos. También se proporciona soporte para la implementación e inferencia de modelos. Una vez que se completa la capacitación del modelo, la plataforma puede implementar el modelo entrenado en el entorno de producción para su uso en aplicaciones prácticas.

Si no se puede mostrar la imagen, actualice la página.

Modelo SAM: ChatGPT en el campo CV


1. ¿Qué es el modelo SAM?

El modelo SAM es un modelo de inteligencia artificial lanzado por Meta y se describe en el sitio web oficial como "puede segmentar cualquier objeto en cualquier imagen con un solo clic". Tomando modelos de segmentación de imágenes anteriores como base y entrenando en un enorme conjunto de datos, este modelo tiene como objetivo resolver múltiples tareas posteriores y convertirse en un modelo general.

Los puntos centrales de este modelo son:

1. Extraer lecciones de las ideas inspiradoras de ChatGPT y adoptar un paradigma de aprendizaje rápido para mejorar la eficiencia del aprendizaje;

2. Crear el conjunto de datos de segmentación de imágenes más grande hasta la fecha, Segment Anything 1-Billion (SA-1B), que contiene 11 millones de imágenes y más de mil millones de máscaras;

3. Construya un modelo de segmentación general y automático que pueda aplicarse de manera flexible a nuevas tareas y campos en condiciones de muestra cero, y los resultados sean mejores que los resultados del aprendizaje supervisado anterior.

IMG_257

Artículo oficial del modelo SAM.

2. Aviso: aplique el pensamiento de aprendizaje de ChatGPT en el campo del CV

SAM utiliza rutas de tecnología avanzada para lograr avances en la tecnología de visión por computadora subyacente y tiene una amplia versatilidad y capacidades de migración de muestra cero. El aprendizaje basado en indicaciones se utiliza para el aprendizaje y la capacitación, es decir, las indicaciones se utilizan como entrada del modelo. A diferencia de los métodos tradicionales de aprendizaje supervisado, este método ha sido ampliamente utilizado impulsado por el equipo GPT-3.

1. ¿Qué está haciendo el modelo antes del aviso? 

El modelo de lenguaje preentrenado (PLM) es un modelo avanzado de procesamiento del lenguaje natural (NLP) que desempeña un papel importante en la interacción persona-computadora. La PNL tiene como objetivo mejorar la comunicación y la comprensión entre humanos y computadoras, y PLM es uno de los modelos de vanguardia en este campo.

Algoritmos y modelos comunes para el procesamiento del lenguaje natural (PNL)

Los modelos previamente entrenados se pueden dividir en cuatro generaciones según el paradigma de aprendizaje y la etapa de desarrollo:

1) Aprendizaje de funciones: extraiga texto que codifica funciones de texto estableciendo reglas, como el modelo TF-IDF.

2) Aprendizaje estructural: el aprendizaje profundo se introduce y aplica en PNL, el modelo representativo es Word2Vec. Lo que tienen en común los modelos preentrenados de primera y segunda generación es que la salida se utiliza como entrada para tareas posteriores, pero no realiza directamente las tareas posteriores. Los modelos posteriores aplican tanto los resultados previos al entrenamiento como el modelo mismo a las tareas posteriores.

IMG_259

Etapas de desarrollo y características de modelos preentrenados (PLM)

3) Ajuste fino posterior: se utiliza el entrenamiento previo y el ajuste fino posterior. Los modelos representativos incluyen BERT y GPT.

4) Aprendizaje rápido: mejorado aún más sobre la base de BERT y GPT, utilizando el método de aprendizaje basado en avisos (Aprendizaje basado en avisos). Este método procesa la información de entrada a través de una plantilla específica y transforma la tarea en una forma más adecuada para el procesamiento de modelos de lenguaje previamente entrenados. Los modelos representativos incluyen ChapGPT, GPT3.5 y SAM.

El modelo previamente capacitado es como un graduado de la escuela secundaria, mientras que las tareas posteriores son equivalentes a cursos profesionales en la universidad. Los graduados de la escuela secundaria que estudian cursos relacionados con campos de aplicación futuros pueden convertirse en estudiantes universitarios equipados con habilidades y conocimientos profesionales para cumplir con los requisitos de puestos profesionales.

IMG_260

Ramas del aprendizaje basado en indicaciones

2. Ventajas de Prompt: unificación de tareas previas a la capacitación y posteriores

Como se muestra en la figura siguiente (izquierda), el paradigma tradicional de ajuste fino de PLM+ adolece de grandes diferencias entre aguas arriba y aguas abajo y problemas de desajuste de aplicaciones. En la etapa previa al entrenamiento, se utilizan métodos de regresión automática o codificación automática, pero para Para realizar tareas de ajuste posteriores, es necesario disponer de muchos datos nuevos que se adapten a diferentes formatos y requisitos.

IMG_261

Preentrenamiento tradicional + modelo de ajuste fino y paradigma rápido

A medida que los parámetros del modelo se vuelven cada vez más grandes, el costo para las empresas de implementar modelos es muy alto. Al mismo tiempo, para cumplir con varias tareas posteriores, cada tarea debe ajustarse, lo que también es un gran desperdicio. Existen principalmente dos desventajas:

1) La cantidad de muestras necesarias para el ajuste fino es muy grande

2) El modelo es muy específico y el costo de implementación es alto.

En respuesta a las deficiencias anteriores, el equipo PT-3 propuso que después de leer una gran cantidad de texto sin supervisión, el modelo de lenguaje puede resolver eficazmente el problema "cultivando una amplia gama de habilidades y capacidades de reconocimiento de patrones". Los experimentos muestran que en un escenario de pocas muestras, el modelo puede lograr buenos resultados sin actualizar ningún parámetro. El paradigma de preentrenamiento y ajuste fino es adaptar el modelo a las tareas posteriores mediante una capacitación exhaustiva. Prompt, por otro lado, unifica las tareas posteriores en tareas previas al entrenamiento en forma de plantillas específicas, organiza los datos de las tareas posteriores en formas de lenguaje natural y aprovecha al máximo las capacidades del modelo previo al entrenamiento.

IMG_262

La diferencia entre los paradigmas de ajuste fino y rápido

Tomando la tarea de clasificación de emociones como ejemplo, utilizar el método tradicional de ajuste fino requiere preparar un conjunto de datos ajustado, que contiene evaluaciones de películas/libros y sentimientos después de la lectura manual. El conjunto de datos de ajuste debe ser lo suficientemente grande para cumplir con los requisitos de la tarea compleja. Sin embargo, el tamaño del conjunto de datos de ajuste fino puede exceder el tamaño del conjunto de datos previo al entrenamiento, lo que hace que el propósito del entrenamiento previo pierda significado.

Por el contrario, el uso de Prompt puede manejar mejor las tareas de clasificación de emociones y hacer un uso completo de las capacidades del modelo previamente entrenado para evitar ajustes pesados ​​en la preparación del conjunto de datos. El mensaje puede generar la predicción de la palabra en la posición de MÁSCARA en función de la oración de entrada y luego inferir la actitud del usuario hacia el trabajo.

IMG_263

Capacitación previa + ajuste de tareas posteriores (PLM + ajuste fino) maneja tareas de clasificación de emociones (escribir reseñas de películas)

El paradigma rápido tiene las siguientes ventajas:

1) Reduce en gran medida la cantidad de muestras necesarias para el entrenamiento del modelo y se puede entrenar con pocas muestras o incluso ninguna muestra.

2) Mejorar la versatilidad del modelo, reducir costos y mejorar la eficiencia en aplicaciones prácticas.

En la actualidad, los modelos grandes como GPT-4 ya no abren completamente todos los parámetros del modelo y los usuarios solo pueden usar el modelo para hacer predicciones a través de la interfaz API. Se puede ver que la importancia del proyecto Prompt en las tareas posteriores es evidente.

3. ZSL: el aprendizaje de muestra cero reduce los costos, aumenta la eficiencia y mejora las capacidades de generalización del modelo.

1. ¿Qué es la capacidad de aprendizaje de muestra cero?

El aprendizaje de disparo cero (ZSL) es un problema difícil en el aprendizaje automático. Su objetivo es permitir que el modelo clasifique e identifique "objetos desconocidos" que nunca antes se han visto. La siguiente imagen muestra un caso clásico de cómo conocer a las cebras. Un "niño" ha visto muchos animales en el zoológico, como caballos, pandas, leones, tigres, etc., pero nunca ha visto una cebra. A través de la descripción de la maestra, el "niño" aprendió que las cebras tienen cuatro patas, rayas blancas y negras y cola. Finalmente, el "niño" identificó fácilmente a la cebra.

De manera similar, el modelo también puede utilizar el aprendizaje de disparo cero para extraer características de categorías que se han visto (como parecerse a un caballo, con rayas, blanco y negro) y luego identificar aquellas categorías que nunca antes se han visto en función del descripción de las características de la categoría desconocida. En otras palabras, el modelo aplica conocimientos y características previamente aprendidos al reconocimiento de objetos desconocidos.

Ejemplo de aprendizaje de disparo cero (ZSL)

2. Se reconoce la capacidad de aprendizaje de muestra cero de SAM

SAM tiene una capacidad de segmentación de muestra cero que puede generar máscaras de alta calidad a partir de varias entradas de mensajes (incluidos puntos, cuadros y texto). Hay muchos artículos en el mundo académico que analizan las capacidades ZSL de SAM, por ejemplo, "SAM.MD: capacidades de segmentación de imágenes médicas de disparo cero del modelo Segment Anything" prueba el efecto ZSL de SAM e ingresa algunos puntos y cuadros como indicaciones en la tarea de segmentación de imágenes. Los resultados muestran que los usuarios expertos pueden lograr una segmentación rápida y semiautomática en la mayoría de los escenarios a través de SAM. Aunque SAM no mostró un rendimiento líder en segmentación totalmente automática en experimentos, puede convertirse en un catalizador potencial para promover el desarrollo de herramientas de segmentación semiautomática para los médicos.

IMG_265

Aplicación de la capacidad de aprendizaje de muestra cero de SAM en imágenes de TC

4. SA-1B: el conjunto de datos de segmentación más grande hasta la fecha, lo que ayuda a aumentar la eficiencia del modelo

1. Motor de datos: utilice el motor de datos para generar máscaras.

SAM utiliza el conjunto de datos para el entrenamiento y utiliza el método de imagen de anotación interactiva de SAM para anotar los datos. Además, se adoptan métodos novedosos de recopilación de datos para combinar el poder de los modelos y anotadores para mejorar la eficiencia y la calidad de la recopilación de datos. Todo el proceso se puede dividir en tres etapas para hacer que el motor de datos de SAM sea más completo y eficiente.

Diagrama esquemático de SAM utilizando el motor de datos para recopilar datos progresivamente

1) Etapa manual: en la etapa de anotación manual asistida por el modelo, el etiquetador utiliza el modelo SAM como herramienta auxiliar para hacer clic, seleccionar un marco o ingresar texto en la imagen para generar una MÁSCARA, y el modelo actualizará la MÁSCARA en en tiempo real de acuerdo con la entrada del etiquetador, y proporciona algunas MÁSCARAS opcionales para que los etiquetadores elijan y modifiquen. Este enfoque permite a los anotadores segmentar objetos de forma rápida y precisa en imágenes sin necesidad de dibujar manualmente. Su propósito es recopilar MÁSCARA de alta calidad para entrenar y mejorar el modelo SAM.

2) Etapa semiautomática: el modelo SAM ya tiene ciertas capacidades de segmentación y puede predecir automáticamente objetos en la imagen. Sin embargo, debido a la imperfección del modelo, puede haber errores u omisiones al predecir MASK. La tarea principal del anotador es verificar y corregir los resultados de predicción del modelo para garantizar la precisión e integridad de MASK. El objetivo de esta etapa es recopilar más MÁSCARAS para mejorar aún más el rendimiento y las capacidades de generalización del modelo SAM.

3) Etapa completamente automática: el modelo SAM ha alcanzado un alto nivel y puede segmentar con precisión todos los objetos en la imagen sin ninguna intervención manual. Por lo tanto, el trabajo del anotador pasa a validar y validar la salida del modelo para garantizar que no haya errores. Esta etapa tiene como objetivo utilizar las capacidades de anotación automática del modelo SAM para expandir rápidamente la escala y cobertura del conjunto de datos.

2. Conjunto de datos: utilice el motor de datos para generar máscaras

A través del método paso a paso de "anotación manual asistida por modelo-anotación semiautomática-modelo máscara de segmentación completamente automática", el equipo de SAM creó con éxito un conjunto de datos de segmentación de imágenes llamado SA-1B. El conjunto de datos se caracteriza por una escala sin precedentes, alta calidad, rica diversidad y protección de la privacidad.

1) Cantidad y calidad de imágenes: SA-1B contiene 11 millones de fotografías diversas, de alta definición y con protección de privacidad proporcionadas y autorizadas por una gran empresa fotográfica, que cumplen con los requisitos de licencia de datos pertinentes y están disponibles para uso informático Uso de investigación visual .

2) Cantidad y calidad de máscaras de segmentación: SA-1B contiene 1,1 mil millones de máscaras de segmentación fina, que son generadas automáticamente por el motor de datos desarrollado por Meta, lo que demuestra las poderosas capacidades de anotación automatizada del motor.

3) Resolución de imagen y número de máscaras: la resolución promedio de cada imagen es de 1500x2250 píxeles y cada imagen contiene aproximadamente 100 máscaras.

4) Comparación del tamaño del conjunto de datos: SA-1B es más de 400 veces más grande que el conjunto de datos de segmentación existente; en comparación con la anotación de máscara basada en polígonos completamente manual (como el conjunto de datos COCO), el método que utiliza SAM es 6,5 veces más rápido ; que en el pasado Los trabajos de etiquetado de datos más grandes se realizan dos veces más rápido.

IMG_267

SA-1B es 400 veces más grande que los conjuntos de datos segmentados existentes

El objetivo del conjunto de datos SA-1B es entrenar un modelo general que pueda segmentar cualquier objeto a partir de imágenes de mundo abierto. Este conjunto de datos no solo proporciona una poderosa base de entrenamiento para el modelo SAM, sino que también proporciona un nuevo recurso de investigación y un punto de referencia para el campo de la segmentación de imágenes.

Además, en el artículo SA-1B, el autor realiza un análisis RAI (Responsible AI, Responsible Intelligence) y señala que las imágenes de este conjunto de datos tienen características más sólidas en términos de representación interregional.

El conjunto de datos SA-1B tiene una fuerte representación interregional.

5. Ventajas principales de SAM: reduce los requisitos de capacitación y mejora el rendimiento de la segmentación

El objetivo principal de SAM es lograr la segmentación universal de objetivos sin requerir conocimientos de modelado profesional, reducir los requisitos informáticos de capacitación y máscaras autoetiquetadas. Para lograr gradualmente este objetivo, SAM adopta los siguientes tres métodos para construir un modelo de segmentación general en el campo de la imagen:

1) Escala y calidad de los datos

SAM tiene capacidades de migración de muestra cero y recopila una gran cantidad de datos de segmentación de imágenes de alta calidad (11 millones de imágenes y 1,1 mil millones de máscaras) para construir el conjunto de datos SA-1B, que actualmente es el conjunto de datos de segmentación de imágenes más grande, superando con creces a los anteriores. unos.conjunto de datos.

2) Eficiencia y flexibilidad del modelo

SAM se basa en la arquitectura del modelo Transformer y combina mecanismos de atención y redes neuronales convolucionales para lograr un modelo de segmentación de imágenes eficiente y guiable. El modelo es capaz de manejar imágenes de tamaños y escalas arbitrarios y puede generar diferentes resultados de segmentación basados ​​en diferentes señales de entrada.

El modelo de segmentación sugestionable de SAM se divide en tres partes

3) Generalización y transferencia de tareas.

SAM logra capacidades de generalización y transferencia para tareas de segmentación de imágenes. Crea un modelo de segmentación de imágenes capaz de realizar transferencias de disparo cero mediante la adopción de un método que genera tareas de segmentación. Esto significa que SAM puede adaptarse a nuevas distribuciones de imágenes y tareas sin requerir datos de entrenamiento adicionales ni ajustes. Esta característica hace que SAM funcione bien en múltiples tareas de segmentación de imágenes, incluso superando a algunos modelos supervisados.

Actualmente, SAM ya cuenta con las siguientes funciones:

Aprender conceptos de objetos le permite comprender los conceptos y características de los objetos en imágenes.

Genere máscaras para objetos invisibles Genere máscaras precisas para objetos invisibles en imágenes o videos.

La alta versatilidad tiene una amplia gama de aplicaciones y se puede adaptar a diferentes escenarios y tareas.

Admite múltiples métodos interactivos SAM permite a los usuarios utilizar múltiples métodos interactivos para la segmentación de imágenes y videos, como la segmentación de selección total para identificar automáticamente todos los objetos en la imagen y la segmentación de selección de cuadros (la segmentación se puede completar simplemente seleccionando la parte seleccionada por el usuario).

Segmentación de selección de cajas (BOX)

En el campo de la segmentación de imágenes, SAM es un modelo revolucionario. Introduce un nuevo paradigma y forma de pensar, proporcionando nuevas perspectivas y direcciones para la investigación de modelos básicos en el campo de la visión por computadora. La aparición de SAM ha cambiado la comprensión de la gente sobre la segmentación de imágenes y ha traído enormes avances y avances en el campo.

2. Basado en la creación secundaria de SAM, los modelos derivados mejoran el rendimiento

Desde la introducción de SAM, esta tecnología ha despertado gran interés y discusión en el campo de la inteligencia artificial, y ha derivado una serie de modelos y aplicaciones relacionados, como SEEM y MedSAM. Estos modelos son ampliamente utilizados en diferentes campos como ingeniería, imágenes médicas, imágenes de teledetección, agricultura, etc. Basándose en los conceptos y métodos de SAM y mediante mejoras y optimización adicionales, SAM tiene una gama de aplicaciones más amplia.

1) PARECER: La interacción y la semántica se generalizan más y se mejora la calidad de la segmentación.

SEEM es más general que SAM tanto en interacción como en espacio semántico.

SEEM es un nuevo modelo interactivo basado en SAM, que utiliza la poderosa capacidad de generalización de muestra cero de SAM para lograr la tarea de segmentar todos los objetos en cualquier imagen. El modelo combina SAM con un detector para generar máscaras de objetos correspondientes utilizando los cuadros delimitadores emitidos por el detector como señales de entrada. SEEM puede proporcionar múltiples modalidades de entrada (como texto, imágenes, graffiti, etc.) según el usuario, y completar todas las tareas de segmentación de contenido y reconocimiento de objetos en imágenes o videos a la vez.

Esta investigación se ha experimentado en múltiples conjuntos de datos públicos y su calidad y eficiencia de segmentación son mejores que las de SAM. Vale la pena mencionar que SEEM es la primera interfaz universal que admite varios tipos de entrada de usuario, incluidos texto, puntos, graffiti, cuadros e imágenes, lo que proporciona poderosas capacidades de combinación.

SEEM realiza reconocimiento de imágenes basado en puntos y graffiti ingresados ​​por el usuario

SEEM tiene características de clasificación y reconocimiento: puede ingresar directamente una imagen de referencia y especificar un área de referencia, segmentando así otras imágenes y encontrando objetos consistentes con el área de referencia. Al mismo tiempo, el modelo también tiene una función de segmentación de muestra cero, que puede segmentar con precisión objetos de referencia para videos que están borrosos o sufren deformaciones severas. Con entradas como primeros fotogramas y grafitis proporcionados por el usuario, SEEM puede funcionar bien en aplicaciones como escenas de carreteras y escenas deportivas.

SEEM segmenta otras imágenes basándose en imágenes de referencia

2) MedSAM: Mejorar la percepción y aplicar segmentación de imágenes médicas

Para evaluar el rendimiento de SAM en tareas de segmentación de imágenes médicas, la Universidad de Shenzhen y otras universidades colaboraron para crear el conjunto de datos COSMOS 553K (el conjunto de datos de segmentación de imágenes médicas más grande hasta el momento). Los investigadores utilizaron este conjunto de datos para realizar análisis integrales, multiángulo y detallados. evaluación a escala. Este conjunto de datos plantea mayores desafíos considerando los diversos modos de obtención de imágenes, los límites complejos y las amplias escalas de objetos de las imágenes médicas. A través de esta evaluación, se puede obtener una comprensión más completa del desempeño de los SAM en tareas de segmentación de imágenes médicas.

Marco detallado para pruebas de imágenes médicas de segmentación SAM

Según los resultados de la evaluación, aunque SAM tiene el potencial de convertirse en un modelo de segmentación de imágenes médicas generales, su desempeño en las tareas de segmentación de imágenes médicas actualmente no es lo suficientemente estable. Especialmente en el modo de segmentación Everything totalmente automático, SAM tiene poca adaptabilidad a la mayoría de las tareas de segmentación de imágenes médicas y es necesario mejorar su capacidad para percibir objetivos de segmentación médica. Por lo tanto, la aplicación de SAM en el campo de la segmentación de imágenes médicas requiere más investigación y mejora.

Conjunto de datos COSMOS 553K y efecto de segmentación para probar el rendimiento de segmentación de imágenes médicas de SAM

.

Por lo tanto, en el campo de la segmentación de imágenes médicas, la investigación debe centrarse en cómo utilizar una pequeña cantidad de imágenes médicas para ajustar de manera efectiva el modelo SAM para mejorar su confiabilidad y construir un modelo Segment Anything adecuado para imágenes médicas. Con este objetivo, MedSAM propone un método de ajuste sencillo para adaptar SAM a tareas generales de segmentación de imágenes médicas. A través de experimentos integrales en 21 tareas de segmentación 3D y 9 ​​tareas de segmentación 2D, MedSAM demuestra que su rendimiento de segmentación es mejor que el modelo SAM predeterminado. Este estudio proporciona un método eficaz para la segmentación de imágenes médicas, lo que permite que el modelo SAM se adapte mejor a las características de las imágenes médicas y logre mejores resultados de segmentación.

Esquema MedSAM

3) SAM-Track: amplíe los campos de aplicación SAM y mejore el rendimiento de la segmentación de video 

El último proyecto de código abierto SAM-Track fue desarrollado por investigadores del Laboratorio ReLER de la Universidad de Zhejiang para mejorar las capacidades del modelo SAM en el campo de la segmentación de vídeo. SAM-Track puede segmentar y rastrear cualquier objeto y admite varias escenas espaciotemporales, como Street View, AR, celdas, animación y fotografía aérea. Este proyecto puede lograr la segmentación y el seguimiento de objetivos en una sola tarjeta y puede rastrear más de 200 objetos al mismo tiempo, lo que proporciona a los usuarios potentes capacidades de edición de vídeo.

En comparación con la tecnología tradicional de segmentación de video, SAM-Track tiene mayor precisión y confiabilidad. Puede reconocer objetos de forma adaptativa en diferentes escenas y realizar segmentación y seguimiento de manera rápida y precisa, de modo que los usuarios puedan realizar fácilmente la edición y posproducción de video para lograr mejores efectos visuales. En general, SAM-Track es un logro de investigación significativo basado en SAM, que brinda nuevas posibilidades para la investigación y aplicaciones en el campo de la segmentación y el seguimiento de video. Su aparición trae más oportunidades y desafíos a la edición, postproducción y otros campos de video.

3. SAM y los modelos derivados permiten aplicaciones en múltiples escenarios

El modelo SAM es un modelo de segmentación de imágenes eficiente y preciso. Tiene un amplio potencial de aplicación en el campo de la visión por computadora. Puede potenciar el campo de la visión artificial industrial para lograr una reducción de costos, una capacitación rápida y una menor dependencia de los datos. En la industria AR/CR, la conducción automática y el monitoreo de seguridad, SAM se puede utilizar para capturar y segmentar imágenes dinámicas. Aunque puede implicar desafíos en tecnología, potencia informática y privacidad ética, su potencial de desarrollo es enorme. 

Además, SAM puede resultar difícil para las tareas de segmentación en algunos escenarios específicos, pero se puede mejorar mediante ajustes finos o el uso de módulos adaptadores. En los campos de las imágenes médicas y el procesamiento de imágenes de teledetección, SAM puede adaptarse a tareas de segmentación mediante un simple ajuste o entrenamiento con una pequeña cantidad de datos anotados. Además, SAM también se puede utilizar junto con otros modelos o sistemas, como clasificadores para detección y reconocimiento de objetos o generadores para edición y transformación de imágenes. Esta combinación puede mejorar aún más la precisión y eficiencia de la segmentación de imágenes y brindar más escenarios de aplicación a diversas industrias.

1) Basado en reconstrucción 3D, potenciando AR y juegos. 

En el campo de AR/VR, los modelos SAM combinan tecnología de reconstrucción 3D y algoritmos de procesamiento de imágenes para brindar a los usuarios una experiencia visual más realista e inmersiva. A través del modelo SAM, los usuarios pueden convertir imágenes 2D en escenas 3D y observarlas y manipularlas en dispositivos AR o VR para realizar la simulación y restauración del mundo real. Esta combinación de tecnologías brinda a los usuarios una experiencia interactiva altamente inmersiva, permitiéndoles interactuar con objetos en el mundo virtual y disfrutar de una experiencia visual más realista.

Además, el modelo SAM también combina algoritmos de aprendizaje profundo para reconocer y rastrear la vista y los gestos del usuario para lograr una interacción más inteligente. Por ejemplo, cuando el usuario mira un objeto, el modelo SAM puede enfocar automáticamente y proporcionar información más detallada; cuando el usuario hace gestos, el modelo SAM también puede responder rápidamente y realizar el ajuste y cambio de escena.

2) Rastree objetos en movimiento y potencie el monitoreo de seguridad 

En el campo de la segmentación de imágenes, SAM es un modelo eficiente y preciso que puede segmentar videos e imágenes dinámicas y genera dos aplicaciones derivadas, SEEM y SAM-Track. Estos modelos derivados aprovechan al máximo la capacidad de generalización de disparo cero de SAM para lograr una segmentación precisa de los objetos objetivo en videos borrosos o severamente deformados mediante el uso de imágenes de referencia e información ingresada por el usuario, como graffiti y texto.

Por ejemplo, en videos como parkour, deportes y juegos, los algoritmos tradicionales de segmentación de imágenes a menudo no pueden manejar de manera efectiva fondos complejos y objetos objetivo que se mueven rápidamente. Sin embargo, el modelo SEEM no solo puede identificar con precisión objetos de referencia, sino que también elimina la interferencia de fondo, mejorando así la precisión de la segmentación. En resumen, el modelo SAM y sus aplicaciones relacionadas muestran un excelente rendimiento y precisión en el manejo de problemas de segmentación de imágenes con características dinámicas.

SEEM puede segmentar con precisión objetos de referencia en videos de parkour, deportes y juegos.

Además de las aplicaciones en escenas deportivas, SEEM y SAM-Track también pueden potenciar campos como la seguridad y la videovigilancia para segmentar con precisión objetos en vídeos para su posterior identificación y procesamiento. SEEM y SAM-Track pueden juzgar con precisión el objeto objetivo y realizar una segmentación precisa a través de la información solicitada de entrada.

3) Resolver el problema de la cola larga y potenciar la conducción autónoma

Aunque la tecnología de conducción autónoma se ha implementado con éxito en más del 90% de los escenarios de carretera, todavía existen problemas en el 10% de los escenarios de cola larga, principalmente debido a la imprevisibilidad de las condiciones de la carretera y las condiciones de conducción de los vehículos. Estos escenarios de cola larga incluyen situaciones extremas como emergencias, terrenos complejos y condiciones climáticas adversas, como fuertes lluvias, tormentas de nieve y truenos y relámpagos, que plantean un enorme desafío para las capacidades de identificación y toma de decisiones de los sistemas de conducción autónoma. Además, en el tráfico urbano, también es necesario considerar el impacto de factores como los vehículos no motorizados, los peatones y los edificios en el sistema de conducción autónoma.

Para resolver el problema de la cola larga, la tecnología de conducción autónoma necesita integrar más algoritmos y sensores y mejorar el nivel de inteligencia del sistema mediante métodos como la recopilación de datos y el aprendizaje profundo. Por ejemplo, la capacidad de identificar y rastrear objetos objetivo se puede mejorar integrando datos de sensores como radar, cámara y lidar. Al mismo tiempo, se pueden utilizar algoritmos de aprendizaje profundo para simular y predecir escenarios complejos. Además, se introduce tecnología de inteligencia artificial para permitir que el sistema de conducción automática aprenda y optimice continuamente en escenarios de cola larga para mejorar su adaptabilidad y capacidades de generalización.

Hay muchas escenas de cola larga en escenas de carreteras urbanas.

En el campo de la conducción autónoma, la segmentación de imágenes juega un papel clave en la detección y comprensión del entorno de la carretera. SAM (Segment Anything Model) puede lograr una percepción precisa de la escena marcando y segmentando diferentes objetos y regiones en las imágenes. Los métodos tradicionales de anotación manual consumen mucho tiempo y son propensos a errores, mientras que la segmentación automatizada de SAM puede reducir significativamente los costos y mejorar la precisión.

SAM puede detectar elementos clave como marcas viales, líneas de carril, peatones y semáforos en tiempo real en el sistema de conducción autónoma. Al combinarse con otros modelos de aprendizaje profundo, como los modelos de detección de objetivos y planificación de rutas, SAM puede comprender con precisión el entorno circundante y ayudar a los sistemas de conducción autónoma a tomar decisiones seguras y eficientes.

Tomando como ejemplo el reconocimiento de peatones y el seguimiento de líneas de carril, SAM puede predecir las trayectorias de movimiento de peatones y vehículos y ayudar a reducir el riesgo de posibles accidentes de tráfico.

4) Mejorar el rendimiento de la segmentación y potenciar las imágenes de teledetección

Las imágenes de teledetección son una herramienta importante para obtener información de la superficie terrestre a través de medios de teledetección como satélites y aviones, tienen las características de diversidad, cobertura total y alta precisión y desempeñan un papel indispensable en el desarrollo de la ciencia y la tecnología modernas. Las imágenes de teledetección se utilizan ampliamente en campos como el monitoreo ambiental, la gestión de recursos naturales, la planificación urbana y la alerta temprana de desastres.

Los datos de teledetección incluyen datos de teledetección óptica, datos espectrales, datos de radar SAR, datos de UAV y otros tipos. El procesamiento de datos de teledetección generalmente se divide en dos etapas: la primera etapa procesa los datos satelitales recibidos a través del sistema de procesamiento terrestre de teledetección, incluida la corrección atmosférica, la homogeneización del color y el recorte de imágenes, etc., para obtener imágenes que puedan identificarse y procesarse aún más. ; la segunda etapa La segunda etapa es procesar e interpretar aún más las imágenes de detección remota sobre esta base, principalmente para identificar objetos en las imágenes.

Debido a la diversidad, complejidad y gran cantidad de datos de las imágenes de teledetección, existen muchos desafíos y dificultades en el proceso de procesamiento.

El procesamiento de imágenes pasa por tres etapas:

Etapa de interpretación manual: depende completamente de anotadores para la interpretación de imágenes, pero este método es costoso y la eficiencia de interpretación es baja;

Etapa de IA+detección remota: con el apoyo de la tecnología de IA y la potencia informática, se alivia eficazmente la dificultad de interpretación de imágenes y se logra la colaboración entre humanos y máquinas. A medida que aumenta el número de plataformas de observación y satélites, como la teledetección y la cartografía, la combinación de IA y teledetección ofrece más posibilidades de interpretación de imágenes;

La era de los grandes modelos de teledetección: con el lanzamiento de grandes modelos de redes neuronales, se espera que la interpretación de imágenes de teledetección entre en la etapa de grandes modelos.

Etapa de desarrollo del procesamiento de imágenes de teledetección.

El modelo de segmentación de imágenes de teledetección grande SAM es una tecnología emergente que proporciona un nuevo método para el procesamiento de imágenes de teledetección. Basado en algoritmos de aprendizaje profundo, SAM puede segmentar, identificar y generar imágenes de teledetección de manera eficiente, mejorando así significativamente la eficiencia de la interpretación de imágenes de teledetección. Al utilizar el modelo SAM para la segmentación de imágenes de teledetección, los usuarios pueden generar de forma rápida y precisa mapas y modelos tridimensionales de alta calidad, mejorando así la eficiencia y precisión del monitoreo ambiental y la gestión de recursos. Además, el modelo SAM también admite la fusión de datos de múltiples fuentes, combinando imágenes de detección remota con otros datos para producir resultados de análisis más completos y precisos. Mejorar la eficiencia del procesamiento de datos de teledetección no solo sienta una base sólida para las aplicaciones de teledetección, sino que también brinda un espacio de desarrollo más amplio para aplicaciones de teledetección posteriores.

Los modelos grandes se utilizan en el procesamiento de imágenes de teledetección.

Aunque los grandes modelos SAM todavía enfrentan desafíos cuando se enfrentan a algunas tareas difíciles de segmentación de imágenes de teledetección, como baja precisión al enfrentar tareas como sombras, segmentación de coberturas y localización de animales crípticos. La tarea de segmentación de imágenes de teledetección requiere que el modelo tenga mayores capacidades de percepción y reconocimiento. Actualmente, el modelo SAM no puede "segmentar todo" por completo, especialmente en el procesamiento de detalles, y hay margen de mejora adicional. Sin embargo, mediante la mejora y optimización continuas, se puede mejorar el rendimiento del modelo SAM.

Además, RS-promter es un método de aprendizaje rápido para la segmentación de instancias de imágenes de detección remota basado en el modelo básico SAM que fue creado por un equipo de expertos después del lanzamiento de SAM. Este método, llamado RSPrompter, permite a SAM generar resultados de segmentación de imágenes de detección remota semánticamente discernibles sin crear mensajes manualmente. El objetivo de RSPrompter es generar automáticamente mensajes para obtener automáticamente máscaras semánticas a nivel de instancia. Este enfoque no sólo es aplicable a SAM, sino que también puede extenderse a otros modelos básicos.

El modelo SAM sigue siendo un desafío a la hora de manejar tareas difíciles de segmentación de imágenes de teledetección, pero su rendimiento se puede mejorar mediante mejoras y optimizaciones, incluida la introducción de más conjuntos de datos, la adopción de arquitecturas de redes neuronales más avanzadas y métodos mejorados basados ​​en RS-promter. .

Apuntador basado en anclas

Los investigadores realizaron una serie de experimentos para verificar el efecto de RSPrompter. Estos experimentos no solo demuestran la eficacia de cada componente de RSPrompter, sino que también demuestran su mejor rendimiento en comparación con otras técnicas avanzadas de segmentación de instancias y métodos basados ​​en SAM en tres conjuntos de datos públicos de teledetección.

Los modelos grandes aportan impulsores y desafíos a la industria de la información aeroespacial

La introducción de modelos de gran tamaño aporta nuevos impulsos y desafíos al campo de las imágenes de teledetección. En la aplicación de datos de teledetección espaciotemporal multimodal, los modelos grandes tienen amplias aplicaciones en fotografía aérea basada en radar de apertura sintética (SAR), óptica, satélites multiespectrales y drones. Con la ayuda de una infraestructura de modelos grandes de código abierto, se lleva a cabo el desarrollo de modelos personalizados para datos de teledetección para lograr capacidades de construcción de modelos grandes de teledetección integral y de proceso completo. Además, el modelo grande admite el procesamiento de parámetros de modelos a gran escala y volúmenes de datos anotados, logrando un procesamiento y análisis de datos de teledetección más eficiente y preciso, y brinda soporte técnico para áreas como la recuperación inteligente y envío de imágenes, extracción inteligente y compilación de objetos de superficie y líneas de productos de gemelos digitales.

En el futuro, se combinará el entrenamiento de modelos grandes y la implementación de modelos pequeños para lograr mejores resultados de aplicación. Es difícil que los métodos tradicionales de procesamiento de imágenes cumplan con los requisitos del procesamiento de imágenes de teledetección, por lo que el uso de modelos grandes para procesar imágenes de teledetección se ha convertido en una dirección importante de la investigación actual. La potenciación del modelo SAM mejora aún más la importancia y el valor de aplicación de las imágenes de teledetección, brinda nuevas oportunidades y desafíos para la investigación y aplicación en este campo y también brinda apoyo técnico para que las personas comprendan y utilicen mejor los recursos terrestres.

5) Impulsadas por aplicaciones de potencia informática, las funciones que potencian la visión artificial se clasifican principalmente en cuatro tipos: identificación, medición, posicionamiento y detección.

identificar

Al identificar las características del objeto objetivo, como forma, color, caracteres, código de barras, etc., se logra un cribado de alta velocidad y alta precisión. 

Medición

Convierta la información de píxeles de la imagen en unidades de medida de uso común para calcular con precisión las dimensiones geométricas del objeto de destino. La visión artificial tiene ventajas en mediciones morfológicas complejas y alta precisión. 

posición

Obtenga la información de posición bidimensional o tridimensional del objeto objetivo.

Detección

Principalmente para la inspección de apariencia, el contenido cubre una amplia gama de temas. Por ejemplo, pruebas de integridad después del ensamblaje del producto, detección de defectos de apariencia (como rayones, irregularidades).

Cuatro funciones principales y dificultades de la visión artificial.

La visión artificial se denomina "el ojo de la fabricación inteligente" y se utiliza ampliamente en el campo de la automatización industrial. Un sistema de visión artificial típico incluye una fuente de luz, una lente, una cámara y un sistema de control de visión (incluido el software de análisis del procesamiento de la visión y el hardware del controlador de visión). Según las diferentes tecnologías, la visión artificial se puede dividir en tecnología de imágenes basada en hardware y tecnología de análisis visual basada en software. El desarrollo de la visión artificial se ve afectado por cuatro fuerzas impulsoras centrales, incluidas las imágenes, los algoritmos, la potencia informática y las aplicaciones. Cada aspecto juega un papel importante en la promoción del desarrollo de la visión artificial y es indispensable.

Historia del desarrollo de la visión artificial

El desarrollo de la tecnología de visión artificial se ve afectado por dos fuerzas impulsoras fundamentales.

Impulsado por aplicaciones: con la adopción gradual de la tecnología de visión artificial en las industrias manufactureras tradicionales y el auge de las industrias emergentes, la demanda de visión artificial continúa aumentando. En el campo de la fabricación inteligente, la tecnología de visión artificial puede ayudar a las empresas a realizar una producción automatizada y mejorar la eficiencia de la producción y la calidad del producto. En el campo de la atención médica inteligente, la tecnología de visión artificial puede ayudar a los médicos en el diagnóstico y el tratamiento, mejorando los estándares médicos y los efectos del tratamiento.

Potencia informática/unidad de algoritmo: con el aumento de la potencia informática de la CPU y la rápida evolución de los algoritmos de IA, especialmente la aplicación de tecnologías como el aprendizaje profundo, la tecnología de visión artificial se ha vuelto más eficiente y precisa en el procesamiento y análisis de imágenes. La promoción de equipos informáticos de alto rendimiento y el avance continuo de los algoritmos brindan un fuerte apoyo al desarrollo de la tecnología de visión artificial.

La introducción de grandes modelos de IA ha supuesto importantes avances en la industria de la visión artificial. Actualmente, el campo de la visión artificial utiliza tecnologías avanzadas, incluido el aprendizaje profundo, el procesamiento y análisis 3D, la fusión de percepción de imágenes y el procesamiento de imágenes acelerado por hardware. Estas tecnologías y modelos han mejorado enormemente las capacidades de aplicación inteligente de la visión artificial, han mejorado la complejidad y precisión del reconocimiento de imágenes, al tiempo que reducen los costos y mejoran la eficiencia.

La red liviana de reconocimiento facial basada en inteligencia artificial se puede utilizar para análisis de video en tiempo real, monitoreo de seguridad, etc.

La IA tiene una amplia gama de aplicaciones en el campo de la visión artificial. Las redes de aprendizaje profundo como CNN se utilizan para detectar e identificar objetos, clasificar imágenes para comprender escenas, mejorar la calidad de la imagen y los efectos de recuperación, lograr análisis en tiempo real y detección de anomalías, y realizar reconstrucción 3D y tecnologías de realidad aumentada. Al mismo tiempo, la IA brinda a la visión artificial la capacidad de "comprender" las imágenes que ve, brindando oportunidades ilimitadas de innovación y desarrollo a diversos escenarios de aplicaciones.

Entre ellos, SAM, como importante modelo de IA a gran escala en el campo visual, puede promover la innovación y el progreso en el campo de la visión artificial. Por ejemplo, SAM se puede aplicar directamente en ciudades inteligentes para mejorar la eficiencia de tareas como el seguimiento del tráfico y el reconocimiento facial. En el campo de la fabricación inteligente, SAM puede mejorar las capacidades de inspección visual y control de calidad. Además, SAM también se puede combinar con la tecnología OVD para generar automáticamente la información requerida y mejorar la comprensión semántica, mejorando así la experiencia interactiva del usuario. En resumen, la aplicación de la IA en el campo de la visión artificial y el uso de modelos SAM han aportado un enorme potencial y oportunidades a diversos campos.

Proceso básico de detección de objetivos OVD

Configuración del entorno de modelo grande SAM


Para implementar el "Modelo de segmentación de cualquier cosa", debe seguir estos pasos:

Recopile y etiquete datos de entrenamiento: recopile datos de imágenes de los objetos que el modelo segmentará y los etiquetará.

Realice el preprocesamiento de datos: antes del entrenamiento, preprocese las imágenes (cambie el tamaño de la imagen, recorte áreas irrelevantes o aplique técnicas de aumento) para mejorar la precisión y la capacidad de generalización del modelo.

Construya y entrene el modelo: elija un modelo adecuado y entrénelo utilizando datos preprocesados ​​(arquitectura de red adecuada, ajuste de hiperparámetros y optimización de la función de pérdida del modelo).

Evaluación y ajuste del modelo: evalúe el modelo entrenado para garantizar su desempeño en las tareas de segmentación. Se puede realizar un ajuste del modelo, como ajustar umbrales, agregar datos de entrenamiento o utilizar técnicas como el aprendizaje por transferencia.

Implementación e inferencia: implemente el modelo entrenado en el entorno de destino y utilice nuevos datos de imagen para la inferencia.

El siguiente es el proceso de operación específico:

Asegúrese de que el sistema cumpla con los siguientes requisitos: la versión de Python es mayor o igual a 3.8, la versión de PyTorch es mayor o igual a 1.7 y la versión de torchvision es mayor o igual a 0.8.

Puede consultar el tutorial oficial para operar: https://github.com/facebookresearch/segment-anything

1. Las siguientes son varias formas de instalar las bibliotecas principales:

1. Instale usando pip (es necesario configurar Git):

instalación de pipas

git+https://github.com/facebookresearch/segment-anything.git

2. Instalación local (es necesario configurar Git):

git clone [email protected]:faceboo\kresearch/segment-anything.git

segmento de cd-cualquier cosa

instalación de pip -e.

3. Descarga manual + instalación local manual:

El asistente de mensajes privados obtiene el archivo zip, lo descomprime y ejecuta el siguiente comando:

segmento de cd-cualquier cosa-principal

instalación de pip -e.

2. Instale bibliotecas dependientes:

Para instalar bibliotecas dependientes, puede ejecutar el siguiente comando:

pip instalar opencv-python pycocotools matplotlib onnxruntime onnx

Tenga en cuenta que si encuentra errores al instalar matplotlib, puede intentar instalar una versión específica de matplotlib, como la versión 3.6.2. Se puede instalar una versión específica de matplotlib con el siguiente comando:

instalación de pip matplotlib == 3.6.2

3. Descargue el archivo de peso:

Puede descargar uno de los tres archivos de peso desde los enlaces siguientes:

1. predeterminado o vit_h: modelo ViT-H SAM.

2. vit_l: modelo ViT-L SAM.

3. vit_b: modelo ViT-B SAM.

Si encuentra que la velocidad de descarga es demasiado lenta, envíe un mensaje privado al asistente para obtener el archivo de peso.

Al descargar y utilizar uno de los archivos de peso, podrá utilizar el modelo previamente entrenado correspondiente en un modelo "Segmentar cualquier cosa".

Cómo configurar el servidor del modelo SAM de entrenamiento


En el campo de la visión por computadora, la segmentación de imágenes es una tarea clave que implica segmentar con precisión diferentes objetos o regiones de una imagen. Como ChatGPT basado en el campo CV, el modelo SAM proporciona potentes capacidades para tareas de segmentación de imágenes. Sin embargo, para utilizar el modelo SAM, debe configurar un servidor adecuado para el entorno SAM y cumplir con los requisitos del modelo SAM en cuanto a recursos informáticos y espacio de almacenamiento.

Configurar servidores adecuados para su entorno SAM es clave para aprovechar al máximo el modelo SAM. Para cumplir con los requisitos del modelo SAM en cuanto a recursos informáticos y espacio de almacenamiento, es necesario garantizar que el servidor tenga suficientes recursos de CPU y GPU, espacio de almacenamiento y conexiones de red de alto rendimiento.

1. Necesidades de recursos informáticos

Dado que el modelo SAM se basa en algoritmos de aprendizaje profundo, se requieren operaciones matriciales a gran escala y entrenamiento de redes neuronales. Por lo tanto, normalmente se requiere una gran cantidad de recursos informáticos para una segmentación de imágenes eficiente. Por lo tanto, al configurar el entorno SAM, debe asegurarse de que el servidor tenga suficientes recursos de CPU y GPU para admitir los requisitos informáticos del modelo SAM. Especialmente cuando se procesan conjuntos de datos de imágenes a gran escala, el servidor debe tener altas capacidades de computación paralela para garantizar el funcionamiento eficiente del modelo.

1.GPU

1) Memoria GPU: los modelos SAM requieren una gran cantidad de memoria para almacenar los parámetros del modelo y los datos de la imagen. Por tanto, es fundamental elegir una GPU con suficiente capacidad de memoria.

2) Potencia informática de GPU: el modelo SAM se basa en algoritmos de aprendizaje profundo y requiere operaciones matriciales a gran escala y entrenamiento de redes neuronales. Por lo tanto, elegir una GPU con mayor potencia informática puede mejorar la eficiencia de ejecución del modelo SAM. Por ejemplo, elija una GPU con más núcleos CUDA y una frecuencia de reloj alta.

2 、 CPU

Aunque la GPU juega un papel importante en el modelo SAM, la CPU también es un componente que no se puede ignorar en la configuración del servidor. En el modelo SAM, la CPU es la principal responsable del preprocesamiento de datos, la carga de modelos y otras tareas que no requieren mucha computación. Por lo tanto, al elegir una CPU, debes considerar los siguientes factores:

1) Número de núcleos de CPU: dado que la CPU puede procesar múltiples tareas en paralelo, elegir una CPU con más núcleos puede mejorar el rendimiento general del modelo SAM.

2) Frecuencia de reloj de la CPU: el preprocesamiento de modelos SAM y otras tareas que no requieren un uso intensivo de computación generalmente requieren frecuencias de reloj más altas. Por tanto, elegir una CPU con una frecuencia de reloj más alta puede acelerar la ejecución de estas tareas.

3. Recomendaciones de CPU+GPU de uso común

1)AMD EPYC 7763 + Nvidia A100 80GB

AMD 7763 es un chip EPYC de gama alta de 64 núcleos y la memoria de tarjeta única A100 de 80 GB tiene hasta 80 GB, lo que puede admitir la capacitación de modelos grandes.

2) Doble AMD EPYC 7742 + 8 AMD Instinct MI50

El 7742 es la CPU de servidor de 32 núcleos de la generación anterior de AMD, y las CPU duales pueden proporcionar 64 núcleos. MI50 es la GPU de gama alta de AMD, con 16 GB de memoria y 8 imágenes pueden proporcionar suficientes recursos informáticos.

3) Doble Intel Xeon Platinum 8280 + 8 Nvidia V100 32 GB

El 8280 es la CPU insignia de 28 núcleos de la serie Intel Scalable, con CPU duales que proporcionan 56 núcleos. V100 Tarjeta única de 32 GB Memoria de 32 GB.

4) AMD EPYC 7713 + 8 Nvidia RTX A6000

El RTX A6000 se basa en la arquitectura Ampere y tiene 48 GB de memoria, que es más económico que el A100 y tiene una memoria bastante grande.

5) Doble Intel Xeon Gold 6300 + 8 AMD Instinct MI100

La serie Intel Xeon Gold 6300 proporciona CPU Xeon multinúcleo de menor costo, y MI100 puede lograr un mejor rendimiento de costos cuando se usan juntos.

6) Para la CPU, el procesador AMD EPYC serie 7003 es una buena opción. Esta es la CPU de servidor EPYC de tercera generación de AMD, que utiliza el proceso TSMC de 5 nm y tiene hasta 96 núcleos Zen 3 para proporcionar un potente rendimiento de procesamiento multiproceso. Para modelos específicos, puede elegir el EPYC 7773X de 72 núcleos o el EPYC 7713 de 64 núcleos.

Para las GPU, la GPU A100 Tensor Core de Nvidia es actualmente la primera opción para entrenar grandes redes neuronales. Se basa en la arquitectura Ampere, tiene hasta 6912 Tensor Cores y puede proporcionar un rendimiento de punto flotante Tensor de hasta 19,5 TFLOPS. Se pueden configurar de 4 a 8 bloques de A100 para satisfacer las necesidades de capacitación.

Además, la GPU Instinct MI100 de AMD también es una buena opción. Utiliza la arquitectura CDNA, tiene 120 unidades informáticas y puede proporcionar hasta 11,5 TFLOPS de rendimiento de punto flotante de media precisión. Más rentable que el A100.

4. Requisitos de almacenamiento

Al realizar tareas de segmentación de imágenes, el modelo SAM necesita cargar y almacenar una gran cantidad de parámetros del modelo y datos de imagen. Por lo tanto, el servidor necesita tener suficiente espacio de almacenamiento para almacenar el modelo SAM y los datos relacionados. Además, para mejorar la eficiencia operativa del modelo SAM, también podemos considerar el uso de dispositivos de almacenamiento de alta velocidad, como SSD (Solid State Drive), para acelerar la lectura y escritura de datos.

5. Requisitos de red de alto rendimiento

Al realizar tareas de segmentación de imágenes, el modelo SAM necesita recibir y enviar una gran cantidad de datos a través de la red. Por lo tanto, el servidor debe tener una conexión de red estable y de alta velocidad para garantizar una transmisión de datos rápida y las capacidades de respuesta en tiempo real del modelo. Especialmente cuando se procesan tareas de segmentación de imágenes en tiempo real, el servidor debe tener una conexión de red de baja latencia y alto ancho de banda para cumplir con los requisitos en tiempo real.

Plataforma de entrenamiento modelo grande Blue Ocean Brain


La plataforma de entrenamiento de modelos grandes Blue Ocean Brain proporciona un potente soporte de potencia informática, incluido un acelerador de IA basado en la interconexión de alta velocidad de módulos de aceleración abiertos. Está configurado con memoria de alta velocidad y admite una topología totalmente interconectada para cumplir con los requisitos de comunicación del paralelismo tensorial en el entrenamiento de modelos grandes. Admite la expansión de E/S de alto rendimiento y se puede extender al clúster de IA de Wanka para satisfacer las necesidades de comunicación de grandes canalizaciones de modelos y paralelismo de datos. Potente sistema de refrigeración líquida intercambiable en caliente y tecnología de administración de energía inteligente, cuando el BMC recibe una falla de la fuente de alimentación o una advertencia de error (como corte de energía, sobretensión, sobrecalentamiento), automáticamente fuerza a la CPU del sistema a ingresar a ULFM (modo de frecuencia ultrabaja) para lograr el menor consumo de energía). Comprometidos a proporcionar a los clientes soluciones informáticas de alto rendimiento ecológicas y respetuosas con el medio ambiente mediante "ahorro de energía y bajas emisiones de carbono". Se utiliza principalmente en aprendizaje profundo, educación académica, biomedicina, exploración terrestre, meteorología y oceanografía, centros de supercomputación, inteligencia artificial y big data y otros campos.

1. ¿Por qué necesitamos un modelo grande?

1. El efecto del modelo es mejor.

El efecto de los modelos grandes en varias escenas es mejor que el de los modelos normales.

2. Mayor capacidad creativa

Los modelos grandes pueden realizar generación de contenido (AIGC) para facilitar la producción de contenido a gran escala.

3. Personalización flexible de escenarios.

Al dar ejemplos, podemos personalizar una gran cantidad de escenarios de aplicación para modelos grandes.

4. Datos menos etiquetados

Al aprender una pequeña cantidad de datos de la industria, los modelos grandes pueden hacer frente a las necesidades de escenarios comerciales específicos.

2. Características de la plataforma

1. Programación heterogénea de recursos informáticos

Una solución integral basada en servidores de uso general y hardware dedicado para programar y gestionar múltiples recursos informáticos heterogéneos, incluidas CPU, GPU, etc. A través de potentes funciones de gestión de virtualización, los recursos informáticos subyacentes se pueden implementar fácilmente y se pueden ejecutar varios modelos de manera eficiente. Al mismo tiempo, las capacidades de aceleración de hardware de diferentes recursos heterogéneos se utilizan al máximo para acelerar la velocidad de ejecución y generación del modelo.

2. Almacenamiento de datos estable y confiable

Admite múltiples protocolos de tipo de almacenamiento, incluidos servicios de almacenamiento de bloques, archivos y objetos. Agrupar recursos de almacenamiento para lograr la libre circulación de modelos y datos generados, mejorando la utilización de los datos. Al mismo tiempo, se adoptan mecanismos de protección de datos como copias múltiples, dominios de fallas de múltiples niveles y autorrecuperación de fallas para garantizar el funcionamiento seguro y estable de los modelos y los datos.

3. Red distribuida de alto rendimiento

Proporciona red y almacenamiento de recursos informáticos, los reenvía a través de mecanismos de red distribuida, transmite de forma transparente el rendimiento de la red física y mejora significativamente la eficiencia y el rendimiento de la potencia informática del modelo.

4. Garantía de seguridad integral

En términos de alojamiento de modelos, se adopta un estricto mecanismo de gestión de permisos para garantizar la seguridad del almacén de modelos. En términos de almacenamiento de datos, se proporcionan medidas como la implementación privatizada y el cifrado del disco de datos para garantizar la seguridad y la controlabilidad de los datos. Al mismo tiempo, durante el proceso de distribución y operación del modelo, se proporcionan funciones integrales de autenticación de cuenta y auditoría de registros para garantizar completamente la seguridad del modelo y los datos.

Tres, configuración común

Actualmente, H100, H800, A800, A100 y otras tarjetas gráficas GPU se utilizan comúnmente para el entrenamiento de modelos grandes. Las siguientes son algunas de las configuraciones más utilizadas.

1. Configuraciones comunes del servidor H100

NVIDIA H100 está equipada con el motor Tensor Core y Transformer de cuarta generación (precisión FP8), que puede proporcionar una velocidad de entrenamiento 9 veces mayor para modelos multiexpertos (MoE) en comparación con la generación anterior. Al combinar NVlink de cuarta generación que ofrece interconexión de GPU a GPU de 900 GB/s, sistemas de conmutador NVLINK que aceleran las comunicaciones por GPU entre nodos, PCIe 5.0 y el software NVIDIA Magnum IO™, ofrece todo, desde pequeñas empresas hasta empresas de gran escala. Clústeres de GPU unificados Escalabilidad eficiente.

Los servidores acelerados equipados con H100 pueden proporcionar la potencia informática correspondiente y aprovechar el ancho de banda de memoria de 3 TB/s de NVLink y NVSwitch y la escalabilidad por GPU para manejar el análisis de datos con alto rendimiento y soportar grandes conjuntos de datos mediante expansión. Al combinar NVIDIA Quantum-2 InfiniBand, el software Magnum IO, Spark 3.0 acelerado por GPU y NVIDIA RAPIDS™, las plataformas de centros de datos de NVIDIA pueden acelerar estas grandes cargas de trabajo con un rendimiento y una eficiencia excepcionales.

CPU: Intel Xeon Platino 8468 48C 96T 3,80 GHz 105 MB 350 W *2

Memoria: Memoria dinámica de acceso aleatorio 64 GB DDR5 4800 MHz*24

Almacenamiento: Unidad de estado sólido de 3,2 TB U.2 PCIe de 4.ª generación*4

GPU: Nvidia Vulcan PCIe H100 80 GB * 8

Plataforma: HD210 *1

Refrigeración: sistema de refrigeración integrado de refrigeración líquida CPU+GPU*1

Red: Adaptador de puerto único NVIDIA IB 400 Gb/s*8

Fuente de alimentación: fuente de alimentación redundante de alta eficiencia de 2000 W (2+2)*1

2. Configuraciones comunes del servidor A800

La potencia informática de aprendizaje profundo de NVIDIA A800 puede alcanzar los 312 teraFLOPS (TFLOPS). Su entrenamiento de aprendizaje profundo, operaciones de punto flotante de tensor por segundo (FLOPS) y operaciones de inferencia de teraflops de tensor por segundo (TOPS) son 20 veces mayores que las de la GPU NVIDIA Volta. El uso de NVIDIA NVLink ofrece el doble de rendimiento que la generación anterior. Cuando se combina con NVIDIA NVSwitch, esta tecnología puede interconectar hasta 16 GPU A800 y aumentar las velocidades hasta 600 GB/s para un rendimiento excepcional de las aplicaciones en un solo servidor. La tecnología NVLink se puede aplicar en A800: la GPU SXM se conecta a través de la placa base del servidor HGX A100 y la GPU PCIe puede conectar hasta 2 GPU a través del puente NVLink.

CPU: Intel 8358P 2,6G 11,2 UFI 48M 32C 240W *2

Memoria: DDR4 3200 64G *32

Disco de datos: 960G 2.5 SATA 6Gb R SSD *2

Disco duro: 3,84 T 2,5-E4x4R SSD *2

Red: Tarjeta de red de fibra óptica de 10G de doble puerto (incluido el módulo)*1

          Tarjeta de red de fibra óptica sin módulo 25G SFP28 de doble puerto (MCX512A-ADAT)*1

     GPU: HV HGX A800 8-GPU 8OGB *1

     Fuente de alimentación: módulo de potencia de 3500W*4

     Otros: módulo óptico multimodo 25G SFP28*2

     Tarjeta HCA HDR 200G de un solo puerto (Modelo: MCX653105A-HDAT) *4

       Tarjeta RAID de 8 puertos SAS de 2 GB y 12 Gb*1

    Cable de alimentación 16A estándar nacional 1,8 m *4

       Riel de soporte*1

       La placa base reserva la interfaz PCIE4.0x16*4

       Soporte 2 M.2 *1

       Garantía original de fábrica 3 años*1

3. Configuraciones comunes del servidor A100

La GPU NVIDIA A100 Tensor Core puede lograr una excelente aceleración en diferentes escalas para escenarios de aplicaciones de IA, análisis de datos y HPC, lo que ayuda de manera efectiva a los centros de datos elásticos de mayor rendimiento. A100 utiliza la arquitectura NVIDIA Ampere, que es el motor de la plataforma del centro de datos NVIDIA. A100 ofrece un rendimiento hasta 20 veces mejor que la generación anterior y se puede dividir en siete instancias de GPU para adaptarse dinámicamente a las necesidades cambiantes. El A100 está disponible en versiones de memoria gráfica de 40 GB y 80 GB, y el A100 de 80 GB duplica la memoria de la GPU y proporciona un ancho de banda de memoria ultrarrápido (más de 2 terabytes por segundo [TB/s]) para manejar modelos y conjuntos de datos muy grandes.

CPU: Intel Xeon Platino 8358P_2,60 GHz_32C 64T_230W *2

RAM: memoria de servidor DDR4 RDIMM de 64 GB*16

SSD1: unidad de estado sólido SATA de 480 GB y 2,5 pulgadas*1

SSD2: unidad de estado sólido NVMe de 3,84 TB y 2,5 pulgadas*2

GPU:NVIDIA TESLA A100 80G SXM *8

Tarjeta de red 1: tarjeta de red de doble puerto 100G IB Mellanx*2

Tarjeta de red 2: tarjeta de red de doble puerto 25G CX5*1

4. Configuraciones comunes del servidor H800

H800 es el procesador de nueva generación de NVIDIA, basado en la arquitectura Hopper, que presenta una mejora significativa en la eficiencia para tareas como sistemas de recomendación profunda, modelos de lenguaje de IA a gran escala, genómica y gemelos digitales complejos. En comparación con el A800, el rendimiento del H800 se ha mejorado 3 veces y el ancho de banda de la memoria también se ha mejorado significativamente, alcanzando los 3 TB/s.

Aunque el H800 no es el más potente en términos de rendimiento, debido a las restricciones estadounidenses, el H100 más potente no se puede suministrar al mercado chino. Los expertos de la industria dijeron que la principal diferencia entre el H800 y el H100 está en la velocidad de transmisión. En comparación con la generación anterior del A100, la velocidad de transmisión del H800 sigue siendo ligeramente menor, pero en términos de potencia informática, el H800 es tres veces mayor que el A100.

CPU: Procesador Intel Xeon Platinum 8468, 48C64T, caché de 105 M, 2,1 GHz, 350 W * 2

Memoria: 64GB 3200MHz RECC DDR4 DIMM *32

Disco duro del sistema: Intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15 mm 3DWPD *4

GPU: NVIDIA Tesla H800 -80GB HBM2 *8

Red GPU: NVIDIA 900-9x766-003-SQO PCle 1 puerto IB 400 OSFP Gen5 *8

Red de almacenamiento: IB de 200 GbE de doble puerto *1

Tarjeta de red: tarjeta de interfaz de red 25G puerto dual*1

5. Configuraciones comunes del servidor A6000

CPU:AMD EPYC 7763 64C 2,45 GHz 256 MB 280 W*2

Memoria: 64 GB DDR4-3200 ECC REG RDIMM*8

Unidad de estado sólido: SSD SATA de lectura intensiva de 2,5" y 960 GB*1

Disco de datos: 3,5" 10TB 7200RPM SATA HDD*1

GPU: NVIDIA RTX A6000 48GB*8

plataforma:

Servidor GPU 4U montado en bastidor, admite dos procesadores AMD EPYC serie 7002/7003, admite hasta 280 W TDP, admite hasta 32 ranuras de memoria, admite 8 discos duros SAS/SATA/SSD intercambiables en caliente de 3,5/2,5 pulgadas (incluidos 2 Ranuras híbridas NVMe), tarjeta SAS o RAID externa opcional, admite múltiples modos RAID, interfaz de administración IPMI independiente, ranura 11xPCIe 4.0.

Fuente de alimentación redundante de titanio de 2200 W (2+2) (96 % de eficiencia de conversión), sin unidad óptica, incluidos rieles

6. Configuraciones comunes del servidor AMD MI210

Procesador: AMD EPYC 7742 64C 2,25 GHz 256 MB 225 W * 2

Memoria: 64 GB DDR4-3200 ECC REG RDIMM*8

Unidad de estado sólido: SSD SATA de lectura intensiva de 2,5" y 960 GB*1

Disco de datos: 3,5" 10TB 7200RPM SATA HDD*1

GPU: AMD MI210 64GB 300W *8

plataforma:

Servidor GPU 4U montado en bastidor, admite dos procesadores AMD EPYC serie 7002/7003, admite hasta 280 W TDP, admite hasta 32 ranuras de memoria, admite 8 discos duros SAS/SATA/SSD intercambiables en caliente de 3,5/2,5 pulgadas (incluidos 2 Ranuras híbridas NVMe), tarjeta SAS o RAID externa opcional, admite múltiples modos RAID, interfaz de administración IPMI independiente, ranura 11xPCIe 4.0.

Fuente de alimentación redundante de titanio de 2200 W (2+2) (96 % de eficiencia de conversión), sin unidad óptica, incluidos rieles

7. Configuraciones comunes del servidor AMD MI250

Procesador: AMD EPYC™ 7773X 64C 2,2 GHz 768 MB 280 W *2

Memoria: 64 GB DDR4-3200 ECC REG RDIMM*8

Unidad de estado sólido: SSD SATA de lectura intensiva de 2,5" y 960 GB*1

Disco de datos: 3,5" 10TB 7200RPM SATA HDD*1

GPU: AMD MI250 128 GB 560 W * 6

plataforma:

Servidor GPU 4U montado en bastidor, admite dos procesadores AMD EPYC serie 7002/7003, admite hasta 280 W TDP, admite hasta 32 ranuras de memoria, admite 8 discos duros SAS/SATA/SSD intercambiables en caliente de 3,5/2,5 pulgadas (incluidos 2 Ranuras híbridas NVMe), tarjeta SAS o RAID externa opcional, admite múltiples modos RAID, interfaz de administración IPMI independiente, ranura 11xPCIe 4.0.

Fuente de alimentación redundante de titanio de 2200 W (2+2) (96 % de eficiencia de conversión), sin unidad óptica, incluidos rieles

Supongo que te gusta

Origin blog.csdn.net/LANHYGPU/article/details/132400499
Recomendado
Clasificación