¿Cómo puede el gran modelo de una empresa convertirse en una "enciclopedia" de sus propios datos?

Autor |

Editora |

En el entorno empresarial actual, la gestión y aplicación de big data se han convertido en un componente central de la toma de decisiones y las operaciones corporativas. Sin embargo, con el crecimiento explosivo del volumen de datos, cómo utilizarlos de manera efectiva se ha convertido en un desafío común.

Este artículo analizará la integración de la arquitectura de big data y los grandes modelos, y cómo integrar los grandes modelos en la arquitectura de big data de la empresa, y cómo utilizar Apache SeaTunnel y WhaleStudio para "enciclopedia" los datos internos de la empresa y utilizar big data y grandes modelos para mejorar la eficiencia operativa del negocio.

La posición de los grandes modelos en la arquitectura general de big data de la empresa.

Hoy en día, tanto las grandes como las pequeñas empresas se encontrarán con el mismo problema: hay una gran cantidad de datos acumulados en la empresa, pero ¿cómo utilizarlos?

La aparición de grandes modelos ha abierto una forma completamente nueva de utilizar los datos. La pregunta es ¿cómo obtener una gran cantidad de datos de la empresa y convertirlos en "su" gran modelo?

¿Y cómo inyectar grandes modelos en los datos internos de la empresa y convertirlos en "enciclopedias"?

Descripción general de Big Data y arquitectura de Big Model

Para responder mejor a estas preguntas, primero debemos descubrir dónde encajan los grandes modelos en la compleja estructura de datos de la empresa. Actualmente, el diagrama de estructura de big data mundialmente popular es el siguiente:

archivo

Cuando las empresas manejan big data, generalmente los dividen en dos categorías: datos en tiempo real y datos por lotes. Los datos en tiempo real pueden provenir de diversas fuentes, como Internet de vehículos, registros de bases de datos, secuencias de clics, etc., mientras que los datos por lotes pueden incluir archivos, informes, archivos CSV, etc. Estos datos pueden procesarse mediante diversas herramientas y tecnologías, como Apache Kafka, Amazon Kinesis, etc., y finalmente integrarse en el sistema de análisis de big data de la empresa.

Los grandes modelos desempeñan un papel vital en la arquitectura de big data. Son capaces de procesar y analizar grandes cantidades de datos para proporcionar a las empresas conocimientos y predicciones profundos. Los modelos grandes se pueden integrar de dos formas principales:

  1. Optimización basada en modelos de código abierto: las empresas pueden utilizar grandes modelos de código abierto y optimizarlos en función de sus propios datos para mejorar el rendimiento del modelo. Aunque este método es complicado y difícil de operar para los usuarios comunes, puede entrenar un modelo altamente personalizado. Para conocer métodos de capacitación específicos, consulte "Entrene su propio ChatGPT privado con el dinero de una taza de Starbucks ".
  2. Vectorización de datos: otro enfoque es vectorizar los datos, que consiste en convertir los datos a un formato que sea fácil de procesar y consultar para modelos grandes, y luego colocarlos rápidamente en la propia base de datos vectorial de la empresa.

Ésta es la posición y el papel del modelo grande en la arquitectura de big data. Como componente técnico central de la arquitectura de big data, el modelo grande juega un papel insustituible en la conversión de datos, el análisis predictivo y las aplicaciones inteligentes. darse cuenta del valor del big data.

Autopista de datos: Apache SeaTunnel y WhaleStudio

La sincronización de datos es otro vínculo clave en la arquitectura de big data. Utilizando herramientas como Apache NiFi, Apache Spark, Sqoop, etc., se puede lograr la sincronización de datos en tiempo real y por lotes entre diferentes sistemas y bases de datos. Estas herramientas admiten entornos de nube híbrida y entre nubes y son capaces de procesar datos de una variedad de fuentes de datos y sincronizarlos con una base de datos o almacén de datos de destino. Sin embargo, debido a que dependen del código abierto, el soporte de fuentes de datos es muy limitado.

Apache SeaTunnel: una nueva generación de herramienta de sincronización de datos de múltiples fuentes en tiempo real, la autopista del big data

Existe una metáfora muy vívida que puede resumir de manera simple y clara el papel de Apache SeaTunnel: la autopista del big data. Puede sincronizar datos en tiempo real y por lotes de varias fuentes de datos, como MySQL, RedShift, Kafka, etc., con la base de datos de destino. A diferencia de Apache NiFi y Apache Spark, la nueva generación de herramientas de sincronización de datos de múltiples fuentes en tiempo real, Apache SeaTunnel, actualmente puede admitir la sincronización de datos y la integración de cientos de bases de datos de origen/destino , y admite la sincronización de datos entre nubes y nubes híbridas, que es conveniente Diferentes usuarios realizan además big data y entrenamiento de modelos grandes.

archivo

Caso típico de Apache SeaTunnel

Actualmente Apache SeaTunnel cuenta con una gran cantidad de usuarios alrededor del mundo, uno de los usuarios típicos es JP Morgan (JP Morgan Chase Bank).

archivo

JPMorgan Chase, un gigante financiero reconocido mundialmente con más de 200.000 empleados, incluidos más de 30.000 profesionales de datos (ingenieros, analistas, científicos y consultores), está luchando con sistemas heredados complejos y un entorno de datos emergente. Operando en un laberinto de más de 10 plataformas de datos diferentes, la agencia necesitaba un enfoque sólido, seguro y eficiente para la integración de datos.

El desafío más importante para JPMorgan Chase es la ingesta y el procesamiento de datos a través de complejos controles de privacidad y acceso que, si bien son críticos para la protección de datos, a menudo retrasan el proceso de integración de datos. Junto con la fase de transición de la empresa a AWS, que todavía está en marcha dos años después, y los experimentos con soluciones de bases de datos modernas como Snowflake, la necesidad de soluciones flexibles de integración de datos es aguda.

En busca de agilidad, JPMorgan Chase comparó varios productos populares de sincronización de datos, como Fivetran y Airbyte, pero finalmente eligió una alternativa que admite clústeres Spark para lograr el mejor rendimiento: Apache SeaTunnel.

La razón es que SeaTunnel es compatible con su infraestructura Spark existente. Una ventaja clave es la perfecta integración de Apache SeaTunnel con la base de código Java, lo que permite que los trabajos de migración de datos se activen directamente desde el entorno de codificación principal de JPMorgan Chase Bank. J.P. Morgan utiliza SeaTunnel para ingerir datos de fuentes como archivos Oracle, DB2, PostgreSQL, DynamoDB y SFTP, procesa los datos en un clúster Spark y, finalmente, los carga en S3, el repositorio de datos centralizado de J.P. Morgan, y posteriormente integra Go to Snowflake. y Amazon Athena para análisis avanzados.

Una característica destacada de Apache SeaTunnel es su capacidad para manejar explícitamente la conversión de tipos de datos para garantizar la integridad de los datos entre diferentes sistemas, que es una parte importante del diverso ecosistema de datos de JPMorgan Chase Bank.

¿Por qué necesitamos Apache SeaTunnel?

Dado que ya existen varias herramientas populares de procesamiento de datos, como Flink y Spark, ¿por qué necesitamos Apache SeaTunnel? Al igual que JPMorgan Chase, profundice en la herramienta y descubrirá que no es una pregunta difícil de responder.

  • Apache SeaTunnel admite la versión de desarrollo, que actualmente admite más de 130 conectores, y la versión comercial (WhaleTunnel) admite más de 150 bases de datos, lo que no tiene comparación con otros productos;

archivo

  • Ventaja de rendimiento de SeaTunnel: 30 veces más rápido que Airbyte y 30% más rápido que DataX (para obtener informes de rendimiento, consulte el "Último informe de comparación de rendimiento: ¡SeaTunnel es 30 veces más rápido que Airbyte!"

archivo

  • Fácil de implementar: Apache SeaTunnel se puede implementar en 3 minutos y admite la ejecución en Spark/Flink/Zeta.

archivo

Fácil de usar

En términos de uso, Apache SeaTunnel también se adhiere al propósito de servir a una amplia gama de profesionales de big data, y su principal objetivo de diseño es la simplicidad y facilidad de uso.

  • Los trabajos de sincronización se pueden crear utilizando código similar a SQL.
  • Admite operaciones de conector de origen, conector receptor y transformación.

archivo

¿Quieres una manera más fácil? WhaleStudio en el mercado de AWS

Si crear código para realizar la integración de datos es un desafío, existen opciones más simples y sencillas disponibles. WhaleStudio, un producto comercial creado por White Whale de código abierto basado en Apache DolphinScheduler y Apache SeaTunnel, es un sistema DataOps distribuido y nativo de la nube con una potente interfaz visual que agrega funciones de nivel empresarial requeridas por clientes comerciales y usuarios sin conocimientos básicos. el conocimiento puede comenzar fácilmente:

  • Mapeo y procesamiento de datos WYSIWYG
  • Programación de operaciones y procesamiento de datos totalmente visuales, no se requiere procesamiento de código
  • Totalmente compatible con AWS y arquitecturas de nube híbrida y multinube
  • Colaboración y desarrollo entre equipos
  • Conexiones de alto rendimiento a más de 150 fuentes de datos, incluidas
    • AWS S3, Aurora, desplazamiento al rojo
    • SAVIA
    • Oráculo, MySQL
    • Maldita sea, iceberg

En pocas palabras, el proceso de uso de WhaleStudio y la integración de modelos grandes se puede resumir de la siguiente manera:

  1. Conexión de la fuente de datos: primero, debe configurar la fuente de datos en WhaleStudio. Esto incluye archivos CSV, bases de datos, servicios de almacenamiento en la nube y más. Los usuarios pueden agregar componentes de fuente de datos al flujo de trabajo arrastrando y soltando y configurando parámetros de conexión.
  2. Transformación de datos: es posible que sea necesario limpiar y transformar los datos durante la transferencia para que se ajusten al sistema de destino. WhaleStudio proporciona una variedad de herramientas de transformación de datos, incluido el filtrado de datos, el mapeo de campos, la fusión de datos, etc.
  3. Carga de datos: los datos transformados deben cargarse en la base de datos o almacén de datos de destino. WhaleStudio admite una variedad de sistemas de destino, incluidas bases de datos relacionales, bases de datos NoSQL y servicios de datos en la nube.
  4. Integración de API: para que el modelo grande comprenda los datos, es necesario convertirlos a un formato específico a través de una API. WhaleStudio puede llamar a API externas y generar los datos transformados en modelos grandes.
  5. Monitoreo de procesos: los usuarios pueden monitorear el estado del flujo de datos en tiempo real, ver el progreso de la sincronización de datos y cualquier error que pueda ocurrir.
  6. Sincronización y actualización de datos.
    1. Tareas programadas: WhaleStudio admite tareas programadas, lo que permite a los usuarios configurar flujos de datos para que se ejecuten automáticamente en momentos específicos para garantizar actualizaciones de datos en tiempo real.
    2. Control de versiones de datos: a través del control de versiones, los usuarios pueden rastrear el historial de cambios de los flujos de datos y retroceder a versiones anteriores cuando sea necesario.

Cómo inyectar grandes modelos en datos internos de la empresa y convertirlos en "enciclopedias"

archivo

Como se mencionó anteriormente, la "autopista" de datos está disponible, entonces, ¿cómo colocar los datos en el modelo grande a través de la "autopista" y utilizarlos?

La figura anterior muestra un ejemplo de cómo el modelo grande puede convertir los datos internos de la empresa en una "enciclopedia". Todos los artículos sobre libros en la base de datos MySQL se ingresan en el modelo grande gráficamente, es decir, en forma de vectores. El modelo grande comprende y, en última instancia, cuestiona y responde los datos de entrada en un idioma. Este proceso se explica detalladamente con un caso práctico a continuación.

Caso práctico: uso del modelo grande WhaleStudio+ en AWS para transformar la recuperación de bibliotecas de la recuperación de títulos de libros a la recuperación semántica

Las soluciones de búsqueda de libros existentes, como las utilizadas por las bibliotecas públicas, dependen en gran medida de la concordancia de palabras clave en lugar de una comprensión semántica del contenido real del título de un libro. Como resultado, es posible que los resultados de la búsqueda no satisfagan bien nuestras necesidades o incluso que sean bastante diferentes de los resultados que esperábamos. Esto se debe a que confiar únicamente en la concordancia de palabras clave no es suficiente porque no puede lograr una comprensión semántica y, por lo tanto, no puede comprender la verdadera intención del buscador.

Existen mejores formas de realizar búsquedas de libros de forma más precisa y eficiente. Mediante el uso de API específicas, los datos de los libros se pueden convertir a un formato que puedan ser entendidos por modelos grandes, permitiendo así funciones de búsqueda y preguntas y respuestas a nivel semántico. Este enfoque no sólo mejora la precisión de las búsquedas, sino que también proporciona a las empresas una nueva forma de aprovechar sus datos.

WhaleStudio es una poderosa plataforma de procesamiento e integración de datos que permite a los usuarios diseñar e implementar flujos de datos a través de una interfaz gráfica. WhaleStudio se utiliza para integrar datos de libros de bibliotecas en modelos grandes para una búsqueda semántica más profunda y respuesta a preguntas.

A continuación, demostraremos cómo utilizar WhaleStudio, Milvus y OpenAI para realizar una búsqueda por similitud y lograr una comprensión semántica de todo el título del libro, haciendo así que los resultados de la búsqueda sean más precisos.

Preparación

  1. Antes del experimento, debemos ir al sitio web oficial para obtener un token OpenAI.

  2. Implementar WhaleStudio en AWS MarketPlace

  3. Luego implemente un entorno experimental Milvus ( https://milvus.io/docs/install_standalone-docker.md).

  4. También necesitamos preparar los datos que se utilizarán para este ejemplo. Puede descargarlos desde aquí y colocarlos en /tmp/milvus_test/book ( https://www.kaggle.com/datasets/jealousleopard/goodreadsbooks).

  5. Configurar tareas de WhaleStudio

Cree un proyecto → cree una nueva definición de flujo de trabajo → cree una tarea SeaTunel → copie el script en la tarea

archivo

  1. código de secuencia de comandos
env {
  # You can set engine configuration here
  execution.parallelism = 1
  job.mode = "BATCH"
  checkpoint.interval = 5000
  #execution.checkpoint.data-uri = "hdfs://localhost:9000/checkpoint"
}

source {
  # This is a example source plugin **only for test and demonstrate the feature source plugin**
  LocalFile {
    schema {
      fields {
        bookID = string
        title_1 = string
        title_2 = string
      }
    }
    path = "/tmp/milvus_test/book"
    file_format_type = "csv"
  }
}

transform {
}

sink {
  Milvus {
    milvus_host = localhost
    milvus_port = 19530
    username = root
    password = Milvus
    collection_name = title_db
    openai_engine = text-embedding-ada-002
    openai_api_key = sk-xxxx
    embeddings_fields = title_2
  }
}
  1. Haga clic para ejecutar

archivo

  1. El preprocesamiento de datos simple también puede aprovechar la interfaz visual.

archivo

archivo

  1. Consultar la base de datos para confirmar que ya hay datos.

archivo

  1. Utilice el siguiente código para buscar títulos de libros semánticamente
import json
import random
import openai
import time
from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection, utility

COLLECTION_NAME = 'title_db'  # Collection name
DIMENSION = 1536  # Embeddings size
COUNT = 100  # How many titles to embed and insert.
MILVUS_HOST = 'localhost'  # Milvus server URI
MILVUS_PORT = '19530'
OPENAI_ENGINE = 'text-embedding-ada-002'  # Which engine to use
openai.api_key = 'sk-******'  # Use your own Open AI API Key here

connections.connect(host=MILVUS_HOST, port=MILVUS_PORT)

collection = Collection(name=COLLECTION_NAME)

collection.load()


def embed(text):
    return openai.Embedding.create(
        input=text, 
        engine=OPENAI_ENGINE)["data"][0]["embedding"]
def search(text):
    # Search parameters for the index
    search_params={
        "metric_type": "L2"
    }

    results=collection.search(
        data=[embed(text)],  # Embeded search value
        anns_field="title_2",  # Search across embeddings
        param=search_params,
        limit=5,  # Limit to five results per search
        output_fields=['title_1']  # Include title field in result
    )

    ret=[]
    for hit in results[0]:
        row=[]
        row.extend([hit.id, hit.score, hit.entity.get('title_1')])  # Get the id, distance, and title for the results
        ret.append(row)
    return ret

search_terms=['self-improvement', 'landscape']

for x in search_terms:
    print('Search term:', x)
    for result in search(x):
        print(result)
    print()
  1. resultado de la operación

archivo

Resultado: si seguimos el antiguo método de búsqueda de palabras clave, el título del libro debe contener palabras clave como superación personal y mejora, pero al proporcionar un modelo grande para la comprensión a nivel semántico, podemos recuperar títulos de libros que satisfagan mejor nuestras necesidades. Por ejemplo, en el ejemplo anterior, la palabra clave que buscamos es superación personal y los títulos de los libros mostrados son "La danza de las relaciones: el arte de llevarse bien con la intimidad y la independencia", "Ética a Nicómaco", etc. Obviamente, contener palabras clave relevantes satisface mejor nuestros requisitos.

Conclusión

Big data y grandes modelos brindan a las empresas conocimientos y capacidades de procesamiento de datos sin precedentes. A través de un diseño eficaz de la arquitectura de datos, la integración de grandes modelos, el procesamiento de datos por lotes y en tiempo real y la sincronización de datos, las empresas pueden utilizar mejor sus recursos de datos, mejorar la eficiencia operativa y mantenerse a la vanguardia en un mercado altamente competitivo.

Apache SeaTunnel y WhaleStudio sirven como autopistas de datos empresariales para ayudar a conectar rápidamente los datos empresariales internos y lograr la vectorización y la "enciclopedia" de los datos. Entre ellos, WhaleStudio, como herramienta de integración de datos, proporciona a las empresas una solución simple, eficiente y poderosa, que les permite sincronizar fácilmente datos en modelos grandes para lograr un análisis y una aplicación de datos más profundos, mejorando así las capacidades de procesamiento de datos y los conocimientos comerciales de la empresa.

¡Este artículo fue publicado por Beluga Open Source Technology !

¿Cuántos ingresos puede generar un proyecto desconocido de código abierto? El equipo chino de inteligencia artificial de Microsoft empacó colectivamente y se fue a los Estados Unidos, involucrando a cientos de personas. Huawei anunció oficialmente que los cambios de trabajo de Yu Chengdong estaban clavados en el "Pilar de la vergüenza de FFmpeg" durante 15 años. Hace, pero hoy tiene que agradecernos—— ¿Tencent QQ Video venga su humillación pasada? El sitio espejo de código abierto de la Universidad de Ciencia y Tecnología de Huazhong está oficialmente abierto para acceso externo : Django sigue siendo la primera opción para el 74% de los desarrolladores. El editor Zed ha logrado avances en el soporte de Linux. Un ex empleado de una conocida empresa de código abierto . dio la noticia: después de ser desafiada por un subordinado, la líder técnica se puso furiosa y grosera, fue despedida y quedó embarazada. La empleada Alibaba Cloud lanza oficialmente Tongyi Qianwen 2.5 Microsoft dona 1 millón de dólares a la Fundación Rust.
{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/dailidong/blog/11126562
Recomendado
Clasificación