Hongke Sharing | La plate-forme Google Vertex AI utilise Redis pour créer un grand modèle de langage

Source de l'article : Hongke Cloud Technology
Cliquez ici pour lire l'article original

Les deux composants de base du modèle de base et la couche de données hautes performances sont toujours la clé pour créer des applications de modèle de langage efficaces et évolutives.L'utilisation de Redis pour créer un grand modèle de langage peut permettre une recherche sémantique efficace et évolutive, une génération d'améliorations de récupération et une mise en cache LLM. mécanisme, mémoire LLM et persistance. Les grands modèles de langage pris en charge par Redis peuvent être appliqués à la recherche de documents, aux assistants d'achat virtuels, aux assistants du service client, etc., apportant des avantages aux entreprises.

1. Composants du modèle de langage

La capacité des applications à générer, comprendre et utiliser le langage humain devient de plus en plus importante. Des robots de service client aux assistants virtuels en passant par la génération de contenu, la demande des gens pour les fonctions des applications d'IA couvre de nombreux domaines, et la réalisation de tout cela nécessite Grâce à des connaissances de base modèles tels que PaLM 2 de Google, ces modèles sont soigneusement réglés pour générer un contenu qui ressemble aux styles d'expression humains.
Dans cet environnement dynamique, les deux composants fondamentaux d'un modèle de base et d'une couche de données hautes performances restent la clé pour créer des applications de modèle de langage efficaces et évolutives.

1. Modèle de base
Le modèle de base est la pierre angulaire des applications d'intelligence artificielle générative, dont le Large Language Model (LLM) est un sous-ensemble. LLM est formé sur de grandes quantités de texte, ce qui lui permet de générer un texte de style expression contextuel et de type humain pour une variété de tâches. L'amélioration de ces modèles pour les rendre plus complexes permet aux applications de répondre aux entrées des utilisateurs de manière plus raffinée et plus efficace. Le modèle de langage choisi peut avoir un impact significatif sur les performances, le coût et la qualité de service de votre application.
Cependant, les modèles tels que PaLM 2, bien que puissants, ont leurs limites. Par exemple, lorsque les données spécifiques à un domaine font défaut, le modèle peut ne pas être suffisamment pertinent et peut ne pas présenter des informations nouvelles ou précises en temps opportun. LLM a une limite stricte quant à la longueur du contexte (c'est-à-dire le nombre de phrases) pouvant être traité dans les invites. De plus, la formation ou le réglage fin de LLM nécessite une grande quantité de ressources informatiques, ce qui augmentera considérablement le coût. Équilibrer ces limites et avantages nécessite une stratégie prudente et le soutien d’une infrastructure solide.

2. Couche de données hautes performances
Les applications LLM efficaces sont prises en charge par une couche de données évolutive et hautes performances. Ce composant garantit des transactions à grande vitesse et une faible latence, ce qui est essentiel pour maintenir une interaction utilisateur fluide. Il joue un rôle clé dans :

  • Mettre en cache les réponses aux requêtes précalculées ou les intégrations
  • Persistance de l’historique des interactions passées
  • Effectuer des recherches sémantiques pour récupérer un contexte ou des connaissances pertinentes

Les bases de données vectorielles sont devenues une solution de couche de données populaire. L'investissement de Redis dans la recherche vectorielle est bien antérieur à l'engouement actuel pour les bases de données vectorielles, ce qui reflète notre vaste expérience, notamment en matière de performances. L'expérience de Redis en matière de recherche vectorielle se reflète dans la nouvelle version Redis 7.2, qui comprend un aperçu des capacités de recherche évolutives, augmentant de 16 fois le nombre de requêtes par seconde par rapport à la version précédente.
Les modèles de base et les bases de données vectorielles jouent un rôle essentiel dans les applications LLM dans différentes industries, générant ainsi un grand intérêt et un grand battage médiatique dans l'industrie. Par exemple, certaines des solutions de bases de données vectorielles autonomes les plus récentes, telles que Pinecone, ont annoncé d'énormes levées de fonds et ont déployé beaucoup d'efforts pour attirer l'attention des développeurs. Cependant, avec l’émergence de nouveaux outils chaque semaine, il peut être difficile de savoir quel outil répondra réellement aux besoins de votre entreprise.
Ce qui distingue GCP, c'est son offre unifiée, qui combine des modèles de base puissants, une infrastructure évolutive et un ensemble d'outils pour régler, déployer et maintenir ces modèles. Cela garantit le plus haut niveau de sécurité et de confidentialité des données.
Mais pour réellement réaliser le potentiel de ces avancées, une couche de données performante et évolutive est indispensable, et c’est là qu’intervient Redis.

3. Architecture d'inférence pour les applications de modèle de langage évolutives
Insérer la description de l'image ici
Architecture d'inférence GCP et Redis Enterprise pour les applications de modèle de langage

L'architecture d'inférence présentée ici convient aux cas d'utilisation généraux de modèles de langage. Il utilise une combinaison de Vertex AI (modèle de base PaLM 2), BigQuery et Redis Enterprise.

Architecture d'inférence GCP et Redis Enterprise pour les applications de modèle de langage.

Vous pouvez suivre le notebook Colab étape par étape dans le référentiel open source GitHub pour configurer cette architecture LLM.

  1. Installer des bibliothèques et des outils : installez les bibliothèques Python requises, authentifiez-vous auprès de Vertex AI et créez une base de données Redis.
  2. Créez une table BigQuery : chargez l'ensemble de données dans une table BigQuery de votre projet GCP.
  3. Générez des intégrations de texte : parcourez les enregistrements de l'ensemble de données et créez des intégrations de texte à l'aide de l'API d'intégration PaLM 2.
  4. Charger l'intégration : chargez le texte intégré et certaines métadonnées dans un serveur Redis en cours d'exécution.
  5. Créer un index vectoriel : exécutez des commandes Redis pour créer un schéma et une nouvelle structure d'index pour la recherche en temps réel.

Après avoir effectué les étapes de configuration nécessaires, cette architecture peut prendre en charge une variété d'applications LLM, telles que les chatbots et les assistants commerciaux virtuels.

deux. Application de Redis dans le modèle de langage (LLM)

Même les développeurs de logiciels et les architectes d'applications expérimentés ne sont peut-être pas familiers avec ce nouveau domaine de connaissances, et ce bref résumé devrait vous aider à vous y habituer rapidement.
1. Utilisez Redis pour mettre en œuvre une recherche sémantique efficace et évolutive.
La recherche sémantique extrait le contenu sémantiquement similaire d'un vaste corpus de connaissances. Dans ce processus, les connaissances sont transformées en vecteurs d'intégration numériques qui peuvent être comparés pour trouver les informations contextuelles les plus pertinentes pour la requête de l'utilisateur.
En tant que base de données vectorielles hautes performances, Redis est efficace pour indexer des données non structurées, permettant une recherche sémantique efficace et évolutive. Redis améliore la capacité d'une application à comprendre et à répondre rapidement aux requêtes des utilisateurs, et ses puissantes capacités d'indexation de recherche contribuent à permettre des interactions utilisateur réactives et précises.
2. Utilisez Redis pour implémenter la génération augmentée par récupération.La
méthode de génération augmentée par récupération (RAG) utilise la recherche sémantique et d'autres méthodes pour injecter dynamiquement des connaissances factuelles avant d'envoyer des invites à LLM. Cette technique minimise le besoin d'affiner le LLM sur des données propriétaires ou qui changent fréquemment. RAG permet une amélioration contextuelle du LLM, le rendant ainsi plus à même de gérer les tâches en cours, telles que répondre à des questions spécifiques, résumer le contenu récupéré ou générer du nouveau contenu.
En tant que base de données vectorielle et moteur de recherche en texte intégral, Redis facilite le bon fonctionnement des flux de travail RAG. Redis est souvent l'outil de choix pour cette tâche en raison de ses capacités de récupération de données à faible latence. Il garantit que le modèle de langage obtient le contexte requis rapidement et avec précision, favorisant ainsi l'exécution efficace des tâches par les applications d'intelligence artificielle.
Insérer la description de l'image ici
Exemple de schéma de génération augmentée de récupération (RAG)

3. Utilisez Redis pour implémenter le mécanisme de mise en cache de LLM.
La mise en cache est un moyen technique puissant pour améliorer la réactivité et l'efficacité informatique de LLM.
La mise en cache standard fournit un mécanisme permettant de stocker et de récupérer rapidement les réponses pré-générées aux requêtes courantes, réduisant ainsi la charge de calcul et les temps de réponse. Cependant, lorsque l’on utilise le langage humain dans le contexte de conversations dynamiques, il existe très peu de requêtes exactes, c’est là que la mise en cache sémantique entre en jeu.
La mise en cache sémantique comprend et exploite la sémantique sous-jacente d'une requête. La mise en cache sémantique identifie et récupère les réponses mises en cache qui sont sémantiquement suffisamment similaires à la requête d'entrée. Cette fonctionnalité augmente considérablement les taux de réussite du cache, améliorant ainsi les temps de réponse et l'utilisation des ressources.
Par exemple, dans un scénario de service client, plusieurs utilisateurs peuvent poser des questions fréquemment posées similaires en utilisant une formulation différente. La mise en cache sémantique permet à LLM de répondre à ces questions rapidement et précisément sans effectuer de calculs redondants. Insérer la description de l'image ici
Mécanisme de mise en cache LLM

Redis est bien adapté à la mise en œuvre de la mise en cache dans LLM, et son puissant ensemble de fonctionnalités inclut la prise en charge de la durée de vie (TTL) et des politiques d'expulsion pour la gestion des données temporaires. Combiné aux capacités de recherche sémantique de sa base de données vectorielles, Redis peut récupérer efficacement et rapidement les réponses mises en cache, améliorant considérablement la vitesse de réponse de LLM et les performances globales du système, même sous une charge importante.

4. Utiliser Redis pour implémenter la mémoire et la persistance.
La conservation des interactions passées et des métadonnées de session est cruciale pour garantir la cohérence contextuelle et le dialogue personnalisé. Cependant, LLM ne dispose pas de mémoire adaptative et s'appuie donc sur un système fiable pour des changements rapides de stockage des données de dialogue. .

Redis fournit une solution puissante pour gérer la mémoire LLM. Il fournit un accès efficace à l’historique des discussions et aux métadonnées de session en cas de forte demande. Redis utilise son stockage de structure de données pour gérer la gestion traditionnelle de la mémoire, tandis que ses capacités de base de données vectorielles aident à extraire du contenu interactif sémantiquement pertinent.

3. Scénarios d'application du LLM

1. Récupération de documents
Certaines entreprises ont besoin de traiter un grand nombre de documents, et les applications LLM peuvent devenir de puissants outils de découverte et de récupération de documents. La recherche sémantique permet de localiser avec précision les informations pertinentes à partir d'un large éventail de corpus de connaissances.
2. Assistant d'achat virtuel
LLM peut prendre en charge des assistants d'achat virtuels de commerce électronique complexes. Grâce à la compréhension du contexte et à la recherche sémantique, il peut comprendre les problèmes des clients, fournir des recommandations de produits personnalisées et même simuler des interactions conversationnelles en temps réel.
3. Assistant du service client
Le déploiement de LLM en tant qu'agent du service client peut complètement changer la façon dont les clients interagissent. En plus de répondre aux questions fréquemment posées, le système peut également mener des conversations complexes, fournir aux clients une assistance personnalisée et tirer les leçons des interactions client passées.

Quatre. Redis et Google Cloud : une combinaison puissante


1. GCP et Redis basés sur les connaissances font des applications LLM plus que de simples générateurs de texte avancés. En injectant rapidement des connaissances spécifiques de votre propre domaine au moment de l'exécution, ils garantissent que vos applications peuvent fournir des interactions basées sur des connaissances, précises et précieuses. Spécifiquement adaptées à votre base de connaissances organisationnelles.
2. Simplifiez votre architecture
Redis est plus qu'une simple base de données clé-valeur, c'est un outil polyvalent pour les données en temps réel et il simplifie considérablement votre architecture en éliminant le besoin de gérer plusieurs services pour différents cas d'utilisation. En tant qu'outil auquel de nombreuses organisations font déjà confiance pour la mise en cache et d'autres besoins, l'intégration de Redis dans les applications LLM offre une évolutivité transparente.
3. Optimiser les performances
Redis est synonyme de structures de données à faible latence et à haut débit. Combinée à la puissance de calcul extrême de GCP, vous disposez d'une application LLM qui est non seulement intelligente mais également réactive, même sous de lourdes charges.
4. Capacités au niveau de l'entreprise
Redis est un noyau de base de données open source éprouvé qui peut fournir des services fiables aux entreprises Fortune 100 du monde entier. Soutenu par la disponibilité cinq neuf (99,999 %) fournie par Redis Enterprise et alimenté par l'infrastructure robuste de GCP, vous pouvez être sûr qu'il répondra pleinement aux besoins de votre entreprise.
5. Accélérez le processus de mise sur le marché
Avec Redis Enterprise, vous pouvez vous concentrer davantage sur la création d'applications LLM au lieu de vous soucier des paramètres de base de données. La facilité de cette intégration accélère la mise sur le marché et offre à votre organisation un avantage concurrentiel.
Même si les nouvelles bases de données vectorielles et les produits d'IA générative attirent beaucoup d'attention sur le marché, la combinaison fiable de GCP et Redis est encore plus digne de confiance. Ces solutions éprouvées ne vont pas disparaître de sitôt et elles sont prêtes à alimenter vos applications LLM, aujourd'hui et pour les années à venir.

Hongke est le partenaire stratégique de l'usine d'origine Redis en Chine. Nous continuons à prêter attention aux besoins urgents actuels de diverses industries, à nous concentrer sur la réponse aux questions des entreprises, à développer des services exclusifs et à fournir des solutions de base de données et de veille économique à guichet unique. Pour en savoir plus sur les [Solutions de base de données de niveau entreprise] et le [Guide de mise en cache d'entreprise], bienvenue sur le site officiel de Hongke Cloud Technology !

Guess you like

Origin blog.csdn.net/hongke_Tech/article/details/132966376