WEBASSEMBLY, MODELOS DE IDIOMA GRANDE Y KUBERNETES ESENCIALES

El equipo de la comunidad de código abierto de China realizó su primera transmisión en vivo, contando la historia detrás de la comunidad de código abierto de China en nombre de compartir".

WebAssembly hace que descargar y ejecutar un LLM completo en su máquina sea rápido y fácil sin ninguna configuración importante.

Traducido de WebAssembly, Large Language Models y Kubernetes Matter , autor Torsten Volk.

WebAssembly (WASM) hace que sea increíblemente fácil desarrollar, construir, ejecutar y operar exactamente el mismo código en cualquier hardware que pueda encontrar debajo de su escritorio, en el centro de datos, en su cuenta de AWS o en la unidad de control de un 30- Cosechadora de toneladas en un campo de maíz.

Si bien hablé de esta visión con el director ejecutivo de Fermyon, Matt Butcher, en la KubeCon 2022 en Detroit , ahora existen casos de uso reales listos para producción que brindan un valor tangible.

LlamaEdge: una línea de código para ejecutar LLM en cualquier lugar

El proyecto de código abierto Llama Edge promete que con solo pegar una línea de código en una terminal básicamente en cualquier máquina, en unos segundos aparecerá un navegador que mostrará una interfaz de usuario muy similar a la que estamos acostumbrados a ver en ChatGPT . Por supuesto, no tenemos el hardware para ejecutar ChatGPT en nuestra computadora portátil, ni OpenAI ofrece esa opción desde una perspectiva de licencia; sin embargo, hay docenas de variantes de código abierto que podemos ejecutar. De forma predeterminada, LlamaEdge instala una versión pequeña de Gemma LLM de Google en su máquina local para una gratificación instantánea y funciona muy bien.

Pero, ¿cómo puedo descargar y ejecutar un LLM completo en mi máquina de manera tan rápida y sencilla sin ninguna configuración importante? Aquí es donde entra wasmEdge para salvar el día. Llama Edge se ejecuta como código precompilado (código de bytes) además del tiempo de ejecución de WasmEdge. Solo requiere 30 MB (¡no GB!) de espacio en disco más el espacio necesario para descargar el LLM de su elección. Una vez descargado, Llama Edge aprovecha la capacidad de wasmEdge para aprovisionar continuamente recursos de CPU, GPU, RAM y disco sobre prácticamente cualquier sistema operativo (Windows, Linux y derivados) y cualquier silicio (Intel, AMD, Nvidia, etc.). Se requiere configuración. Ahora abra una terminal en su máquina y vea: Este único comando…

bash <(curl -sSfL '<a href="https://raw.githubusercontent.com/LlamaEdge/LlamaEdge/main/run-llm.sh">https://raw.githubusercontent.com/LlamaEdge/LlamaEdge/main/run-llm.sh</a>')

…produce una interfaz de usuario sin ninguna configuración adicional.

Los componentes son los nuevos contenedores.

"Los componentes son los nuevos contenedores", dice Liam Randall , director ejecutivo de Cosmonic , considerando que pude configurar un LLM completo en menos de un minuto en la misma MacBook en la que estoy escribiendo este artículo, incluida su interfaz de usuario tipo ChatGPT, Randall. La declaración tiene mucho sentido. Si tuviera que instalar el mismo LLM sin WASM, tendría que seguir una serie de pasos específicos de MacOS: 1) instalar homebrew, 2) instalar los paquetes necesarios, 3) buscar y clonar el Llama LLM requerido, 4) instalar el Dependencias de Python, 5) convertir y cuantificar los archivos del modelo y 6) probar mi instalación. Sin embargo, como estoy ejecutando WasmEdge, no tengo que preocuparme por ninguno de estos pasos y el tiempo de ejecución de Python ni siquiera tiene que existir. LlamaEdge sólo requiere wasmEdge para ejecutarse, nada más.

¿Pero necesito aprender Rust?

Como desarrollador de Python , prefiero poder utilizar LLM sin tener que aprender Rust . Solo necesito una línea de código de línea de comando para configurar el LLM, y luego otra línea de código si quiero seleccionar un LLM específico en lugar del LLM predeterminado:

bash <(curl -sSfL 'https://raw.githubusercontent.com/LlamaEdge/LlamaEdge/main/run-llm.sh') --model llama-2-7b-chat

El comando anterior lleva al usuario a la selección de LLM lista para usar.

Todavía no escribí ni una sola línea de código Rust real, pero copié y pegué los comandos necesarios del sitio web LlamaEdge GitHub y ahora puedo hablar con mi nuevo LLM. Volviendo a la afirmación de Randall acerca de que los componentes son el nuevo contenedor, ahora puedo simplemente importar este modelo como un componente en cualquier aplicación Python futura que tenga. Al mismo tiempo, puedo compartir este componente con mi equipo o clientes para que ellos también puedan incorporar mi LLM en sus propias aplicaciones.

Esto me recuerda una conversación que tuve con Tim Enwall de Fermyon en AWS Re:Invent sobre la posibilidad de ofrecer componentes WASM como un servicio de suscripción. Como analista de la industria, si crea su propio LLM y lo perfecciona utilizando publicaciones anteriores, puede compilarlo en un WASM y vender suscripciones a su gemelo digital.

Otro caso de uso: gestión de canalización de datos para registro y otras áreas

La plataforma de gestión de canalización de datos de observabilidad FluentBit de Calyptia permite a los desarrolladores escribir complementos en forma de programas WASM. Los desarrolladores pueden utilizar Rust, TinyGo y Python para escribir funciones para procesar datos de canalización.

Ahora podemos volver a conectar esto con nuestro ejemplo de LlamaEdge y hacer que nuestra canalización WASM "hable" con LlamaEdge, analice los registros en tiempo real, extraiga información significativa e incluso automatice respuestas basadas en el contenido de los registros. Imagine un escenario en el que su programa de canalización WASM detecta una anomalía en los datos de registro, como un aumento inusual en el tráfico o una posible violación de seguridad. Luego puede consultar a LlamaEdge LLM para comprender mejor el contexto y sugerir acciones inmediatas, o derivar el problema al miembro apropiado del equipo.

Al integrar LLM en el proceso de datos, el proceso de respuesta y monitoreo de incidentes se vuelve más inteligente y proactivo. Esto podría revolucionar la forma en que procesamos los datos de registro, transformando los procesos reactivos en procesos dinámicos y automatizados que no solo generan alertas sino que también brindan posibles soluciones. El procesamiento de datos de telemetría de manera descentralizada dentro de un canal de datos es particularmente interesante porque puede reducir la cantidad de datos que deben incorporarse a una o más plataformas de observabilidad corporativa. Dado que muchas plataformas de observabilidad cobran a los clientes empresariales en función del volumen de datos entrantes, se producen importantes ahorros de costes.

Plataforma Fermyon para Kubernetes: mayor densidad, menor costo

Fermyon lanzó el marco SpinKube para Kubernetes, lo que permite que las aplicaciones WASM se ejecuten en Kubernetes con mayor densidad y, por lo tanto, con menor costo en comparación con los contenedores. SpinKube aprovecha la naturaleza liviana del módulo WASM para empaquetar más aplicaciones en cada nodo del servidor, reduciendo los recursos informáticos necesarios.

El marco SpinKube está diseñado para ser fácil de usar para los desarrolladores y proporcionar una integración perfecta con los entornos Kubernetes existentes. Los desarrolladores pueden implementar sus aplicaciones WASM como las aplicaciones en contenedores tradicionales sin tener que aprender nuevas herramientas o flujos de trabajo. Esta facilidad de uso acelera los ciclos de desarrollo y simplifica la implementación.

Además, SpinKube garantiza la seguridad y el aislamiento a nivel de aplicación, un aspecto clave de un entorno multiinquilino. Cada aplicación WASM se ejecuta en su propia zona de pruebas aislada, lo que proporciona un entorno de ejecución seguro que minimiza el riesgo de que las vulnerabilidades afecten al sistema host u otras aplicaciones.

El compromiso de Fermyon con los estándares abiertos y el desarrollo impulsado por la comunidad se refleja en la arquitectura de SpinKube. La plataforma admite una amplia gama de lenguajes y herramientas de programación, lo que la hace accesible a una comunidad de desarrolladores más amplia. Esta inclusión fomentará la innovación y fomentará la adopción de la tecnología WASM en diversas industrias.

En resumen, Fermyon para Kubernetes representa un avance importante en la computación nativa en la nube. Al aumentar la densidad y reducir los costos mientras se mantiene la facilidad de uso, la seguridad y los estándares abiertos, SpinKube se posiciona como un actor clave en el futuro de la implementación de aplicaciones de Kubernetes. Es importante mencionar aquí que Fermyon donó SpinKube al sandbox de CNCF.

Conclusión: LLM, productividad de los desarrolladores y presión de los costos operativos, la fuerza impulsora del éxito de WASM

La capacidad inherente de WASM de ejecutarse siempre dondequiera que haya un tiempo de ejecución de WebAssembly hace que esta tecnología esté destinada a "mover LLM a donde están los datos".

Esto es excelente por razones de cumplimiento, ya que las empresas pueden simplemente "acoplar" el LLM requerido a sus fuentes de datos relevantes sin tener que solicitar permiso para mover datos potencialmente confidenciales. Esta portabilidad, combinada con el pequeño tamaño del tiempo de ejecución de WASM y la capacidad de ejecutar aplicaciones WASM en Kubernetes (junto a los contenedores tradicionales), puede hacer que ejecutar algunas inferencias de LLM o capacitación de modelos en una infraestructura de servidor inactiva durante el fin de semana sea muy fácil y, por lo tanto, más barato. más fácil. Una vez que llegue el lunes, podremos cancelar nuestras solicitudes WASM-LLM o trasladarlas a otro lugar. Por supuesto, este principio no sólo se aplica a LLM, sino que puede aplicarse a muchos otros casos de uso.

Si Bytecode Alliance y el Grupo Comunitario WebAssembly del W3C pueden acelerar la implementación del modelo de componentes WebAssembly para que WASM pueda usarse comúnmente, esta tecnología cambiará las reglas del juego. WASI 0.2 es un buen paso adelante, pero aún queda mucho trabajo por hacer para preparar la plataforma para el mercado masivo.

Este artículo se publicó por primera vez en Yunyunzhongsheng ( https://yylives.cc/ ), todos son bienvenidos a visitarlo.