Welche Themen beschäftigen alle im Hinblick auf LLM, Wissensgraphen und Graphdatenbanken?

12,23 Yuan Chuanghui·Shanghai Station, sprechen wir über die LLM-Infrastruktur

Aus der LLM-Artikelserie „Llama Index, ein großes Sprachmodell, angetrieben durch Wissensgraphen“ , „Text2Cypher“: Generierung von Graphabfragen basierend auf einem großen Sprachmodell》, 《Graph RAG: Knowledge Graph kombiniert mit LLM-Abrufverbesserung》 Nachdem wir uns nacheinander mit allen getroffen und eine Live-Übertragung zum Thema „LLM Night Talk“ gegeben haben, um anschließend mit allen über LLM, Wissensgraphen und Diagrammdatenbanken zu diskutieren Die Forschungs- und Entwicklungsmitarbeiter von NebulaGraph waren letzte Woche zu Gast bei der Open Source China·Expert Q&A-Veranstaltung und teilten die aktuelle Denkweise und Praxis von NebulaGraph in LLM mit allen in Open Source China.

Zu diesem Zeitpunkt ist mehr als ein halbes Jahr seit der Einführung von ChatGPT vergangen. Werfen wir einen Blick darauf, welche Inspiration und praktischen Vorteile diese LLM-Technologie allen bringen kann, nachdem die Hitze verflogen ist.

LLM-Keynote-Gast

Zwei NebulaGraph-Entwickler nehmen an dieser Frage-und-Antwort-Runde mit Experten teil:

Gusi ist: [GitHub ID @wey-gu](https://github . com/wey-gu), NebulaGraph-Evangelist, ist er der erste, der das Konzept von Graph RAG in der LlamaIndex-Community vorschlägt;
Cheng Xuntao: [GitHub ID @xtcyclist](https://github.com/ xtcyclist ), der Hauptentwickler von NebulaGraph, beschäftigt sich mit der Entwicklung von Graphdatenbanken und engagiert sich derzeit für eine bessere Integration von Graphdatenbanken mit LLM.

Problemsammlung

Was genau ist ein LLM?

iman123 fragte: Hallo Lehrer, LLM ist mittlerweile sehr beliebt. Ich verstehe, dass LLM tatsächlich auf vorhandenem Wissen und vorhandenen Daten basiert. Wenn man es zusammenfasst, kann man einiges davon bekommen nicht-kreative Ideen. Antworten und VorschlägeSie können ihn zum Beispiel nicht zulassen, dass er unbekannte Wissenschaften entdeckt oder erschafft. Ich weiß nicht, ob mein Verständnis richtig ist. Tatsächlich kann LLM einige sich wiederholende manuelle Kundendienstarbeiten ersetzen und in Zukunft die Arbeitseffizienz verbessern. Programmierer werden möglicherweise nicht vollständig ersetzt. Wenn Sie selbst Code schreiben, debuggen und Code ausführen können, wird es wie in der Matrix sein .

wey-gu: In der Tat. Die Analyse und Fehlerbehebung von geschriebenem Code kann jedoch mit Hilfe von Copilot und Cursor erfolgen KI-Hilfswerkzeuge können bereits intelligenter und reibungsloser sein als gedacht. Hier ist ein Beispiel: @xtcyclist hat eine Änderung des NebulaGraph-Kernels vorgeschlagen. Ich habe diese Hilfstools verwendet, um herauszufinden, wo und wie die Änderungen in NebulaGraph vorgenommen werden können Änderungen in wenigen Minuten. Generieren Sie beispielsweise Testcode, siehe: https://vimeo.com/858182792

Jemand von gmgn3 fragte: Hallo Lehrer, was sind die Vorteile des LLM mit großen Sprachmodellen?

wey-gu: Der Vorteil besteht darin, dass es sich um eine Wahrnehmungsschicht mit relativ ausreichendem Allgemeinwissen und der Fähigkeit handelt, Domänenprobleme (Kontextlernen, Suchverbesserung) bei ausreichendem Kontext zu lösen. Bei ausreichendem, relevantem und genauem Kontext ist es jedoch manchmal schwierig, Und zu diesem Zeitpunkt kann der Wissensgraph hilfreich sein.

clearsky1991 fragte: LLM ist jetzt sehr beliebt. Können Sie einige davon für den lokalen Gebrauch bereitstellen? Was sind die Anforderungen an die Computerkonfiguration? Gibt es kostenlose Open-Source-Projekte ähnlich wie ChatGPT 4, die Sie für den persönlichen lokalen Gebrauch empfehlen können?

wey-gu: Ja, zum Beispiel kann ChatGLM2-6B nach der Quantisierung auf der CPU laufen. Hier ist ein Beispiel dafür, wie ich ChatGLM2-6B und das lokale Einbettungsmodell verwende, um LLM + Graph zu erstellen. Sie können es zuerst ausprobieren: https://www.siwei.io/demo-dumps/local -llm/Graph_RAG_Local .htm

LLM und Wissensgraph

Ziehen Sie Ihre Hose hoch und stecken Sie die Frage ein: Kann das große Sprachmodell LLM dabei helfen, wichtige Informationen aus den analysierten Daten zu extrahieren, um Diagrammdaten zu generieren? Wie lande ich?

wey-gu: Natürlich können Sie LLM verwenden, um KG zu extrahieren und zu erstellen. Hier ist eine Demo: https://www.siwei.io/demos/text2cypher/ diskutiert eine solche Idee. REBEL: Beziehungsextraktion durch End-to-End-Sprachgenerierung. Wir können das LLM + NLP-Modell sogar noch weiter kombinieren, um dies auf der Grundlage der Wissensextraktion zu erreichen, wie zum Beispiel: Papierhttps://www.siwei.io/demo-dumps/kg-llm/KG_Building.ipynb und

Nan Xiaoshan-Programmierer fragte: Hallo Lehrer, was ist die Korrelation oder Ähnlichkeit zwischen dem großen Sprachmodell LLM und dem Wissensgraphen? Meiner Meinung nach gibt es viele Ähnlichkeiten zwischen den beiden. Beispielsweise zielt der Wissensgraph darauf ab, die semantischen Beziehungen der Welt zu erfassen und eine effektive Möglichkeit zu bieten, das Wissen über die Beziehungen zwischen Entitäten abzufragen und zu begründen, und das ist das große Sprachmodell auch weitgehend gleich. Semantische Beziehungen und semantisches Verständnis. Was sind die Gemeinsamkeiten und die größten Unterschiede zwischen den beiden?

xtcyclist: Der Wissensgraph trägt Semantik, erfasst jedoch keine semantischen Beziehungen. Er erfasst verschiedene Konzepte und ihre Beziehungen, dh die Beziehung zwischen Wissen und Wissen. Es gibt immer noch einen Unterschied zwischen Wissen, Sprache und Semantik. Sprache ist ein Wissensträger. Das große Sprachmodell ist ein Sprachmodell, das selbst nicht in der Lage ist, Wissen und die Beziehungen zwischen Wissen zu verwalten. Aus diesem Grund besteht die Notwendigkeit, Vektordatenbanken und Graphdatenbanken zu verwenden, um Domänenwissen im LLM-Stack zu verwalten.

Elven_Xu hat gefragt: Ich möchte eine Szenariofrage zu Knowledge Graph und LLM stellen. In Ihrer Antwort oben geht es auch um die Beziehung zwischen den beiden. Knowledge Graph ist wichtiger als Managementwissen und die Beziehung zwischen Wissen, während LLM wichtiger ist als Wissen. selbst, aber die Beziehung zwischen Wissen und Wissen kann auch über Vektordatenbanken verwaltet werden. Ich weiß nicht, ob ich das verstehe, oder? Wenn ich das richtig verstehe, bedeutet das, dass LLM den Wissensgraphen ersetzen kann? Wenn wir uns jetzt LLM zuwenden, können wir dann den Wissensgraphen abschneiden? Oder ist es nur teilweise fungibel? Ich verstehe es nicht ganz, ich möchte den Lehrer um Rat fragen, danke~

wey-gu: LLM und KG/Graph sind für beide Seiten von Vorteil und keiner kann den anderen ersetzen:

Bei der Anwendung von LLM + Daten/Wissen (kontextuelles Lernen) kann die Einführung von KG in Szenarien wie der feinkörnigen Datensegmentierung und dem Verständnis von Domänenwissen Illusionen erheblich lindern, die Ergebnissuche verbessern und die Wirkung intelligenter Anwendungen verbessern;
Eines der Hindernisse für die Anwendung von KG ist das Schreiben von Abfragen. Text2GraphQuery ist nach LLM sehr, sehr günstig und effizient geworden;
LLM kann während des Bauprozesses von KG sehr hilfreich sein

In einigen meiner vorherigen Freigaben, Artikel und Beispielcodes wurden die drei Szenarien erwähnt, in denen sich die beiden gegenseitig helfen. Sie können ihnen Aufmerksamkeit schenken.

Geschäftspraktiken von LLM

Bayi Chopper fragte: In der Diagrammdatenbank spiegeln sich Daten wie Beziehungen, Knoten, Attribute usw. wider. Wenn die Anwendungsschicht Daten erhält, werden diese hauptsächlich über GQL-Anweisungen abgerufen, also im Prozess der Kombination mit dem LLM-Großmodell , wie kombiniere ich es? Wenn beispielsweise in Suchszenarien Benutzereingaben über NLP in GQL-Anweisungen umgewandelt werden, scheint der Umfang zu groß zu sein (Benutzereingaben sind alles andere als seltsam) und können nicht fokussiert werden. Haben Sie gute Verarbeitungserfahrungen?

wey-gu: Vereinfacht gesagt gibt es zwei Ideen: Text2Cypher und Graph RAG. Ersteres wandelt die Frage direkt in die Diagrammabfragesprache Cypher um, während letzteres die Schlüsselinformationen aus der Frage extrahiert, den Untergraphen im Wissensgraphen durchsucht und dann den Kontext erstellt, damit LLM die Antwort generieren kann. Das Problem wurde durch einige Methoden (z. B. Chain-of-Thought) in nachfolgende kleinere Probleme zerlegt. Sie können sich die konkrete Implementierung ansehen: https://www.siwei.io/graph-rag/ oder https ://colab.research.google.com/drive/1tLjOg2ZQuIClfuWrAC2LdiZHCov8oUbs?usp=drive_open#scrollTo=iDA3lAm0LatM , und ich habe auch einen kleinen Kurs erstellt: https://youtube.com/watch?v=hb8uT-VBEwQ&t=2797s&pp=ygU

lvxb fragte: Kann LLM zur Klassifizierung und Erkennung von Kurztexten verwendet werden? Gibt es konkrete Fälle?

xtcyclist:: Natürlich ist die Textverarbeitung das, was große Sprachmodelle am besten können. Mein Doktorandenteam hat kürzlich ein öffentliches Konto für „Mei Tou 365“ erstellt. Sie nutzten LLM, um US-Aktiendaten und Finanznachrichten, sowohl lange als auch kurze, zu analysieren und anschließend Kommentarartikel zu generieren, die eine Textklassifizierung beinhalteten.

Technische Vor- und Nachteile von Graphdatenbanken

iman123 fragte: Ich bin schon einmal mit der Graphdatenbank Neo4j in Kontakt gekommen. Was sind die Vor- und Nachteile von NebulaGraph im Vergleich?

wey-gu: In Bezug auf die Graphdatenbank Neo4j und NebulaGraph kann man sagen, dass NebulaGraph einige Nachzüglervorteile hat. Letzteres wurde von unserem Gründerteam auf der Grundlage jahrelanger Ansammlung von Graphspeichersystemen und der Verwendung neuer Speichertechnikmethoden und -praktiken für verteilte und extrem große Daten entwickelt. Daher kann NebulaGraph für Szenarien mit großen Diagrammen, hoher Verfügbarkeit und hoher Parallelität oder für Szenarien, in denen Geschäftsdiagramme erweitert werden, für eine natürliche Skalierung verwendet werden. Zweitens ist NebulaGraph Open Source und basiert auf Apache 2.0, das eine verteilte Bereitstellung unterstützt.

xiaour fragte: Ich habe vor ein paar Jahren, als ich an der AI Music APP gearbeitet habe, Diagrammdatenbanken verwendet. Ich habe jedoch festgestellt, dass die auf dem Markt erhältlichen Diagrammdatenbanken im Streben nach ultimativer Leistung und Effizienz einige Engpässe aufweisen und oft eine große Kapazität erfordern Investition von Ressourcen oder Benutzern. Antwortverzögerungen tolerieren; wie gehen wir mit den widersprüchlichen Kosten und Vorteilen einer Investition in Graphdatenbanken um?

wey-gu: Sie können zurNebulaGraph-Community kommen, um über Ihre Engpässe zu sprechen. Dieses Projekt eignet sich besser für Online-Szenarien mit hoher Parallelität. Das verteilte Design, das von großen Sozial- und Lifestyle-Unternehmen verwendet wird, ermöglicht es, die Datenmenge zu erhöhen, ohne sich zu viele Gedanken über Skalierungsprobleme machen zu müssen. Als neues System muss Gallery bestimmte Kosten für Talentinvestitionen haben. Dieses ROI-Problem hat jedoch nach der Einführung von LLM einige qualitative Veränderungen erfahren:

KnowledgeGraph erstellen leicht gemacht;
Das Abfragen eines KnowledgeGraph (entweder menschlich oder maschinell) könnte sehr einfach werden.

Wenn der ROI in der Szene jedoch sinnvoll ist, wird im Allgemeinen dringend empfohlen, die Galerie hinzuzufügen, da diese viele potenzielle Möglichkeiten eröffnen kann. Stellen Sie sich vor, Sie könnten in Echtzeit Multi-Hop-Korrelationen auf dem Diagramm erhalten, einige Visualisierungstools verwenden, um intuitive Einblicke in Datenbeziehungen zu gewinnen, und dann einige Algorithmen auf dem Diagramm ausführen, um neue Funktionen und Schlussfolgerungen usw. zu erhalten.

F: Wie kann die Kombination aus Graphdatenbank und Big-Data-Framework-Computing-Engine im Hinblick auf die Effizienz oder die komplementären Vorteile von Graphalgorithmen besser genutzt werden?

wey-gu: Der Vorteil der Bildergalerie istEchtzeit, Diagrammabfrage und geringer Rechenaufwand Flexibler Ausdruck, der Nachteil besteht darin, dass er nicht für Operationen geeignet ist, die das gesamte Diagramm oder einen Teil der gesamten Diagrammdaten betreffen. Im Gegenteil, die Graph-Computing-Plattform eignet sich für den vollständigen Zugriff auf Graphen sowie für Iterations- und Berechnungsaufgaben. Standardmäßig ist jedoch die Echtzeitnatur der Daten der Graph-Computing-Plattform ein Mangel (Daten werden häufig aus dem Data Warehouse abgerufen). Ein Beispiel für eine Kombination besteht darin, dass die Computerplattform als Computerschicht fungiert und die Speicherschicht die Bibliothek bei Bedarf auswählt. Mit einer Speicher-Rechen-Trennarchitektur wie NebulaGraph ist die Graph-Computing-Plattform eine sehr reibungslose Kombination, selbst wenn es sich um die heterogene Rechen- und Abfrageschicht innerhalb des Clusters handelt.

Mit der NebulaGraph-Unternehmensversion NebulaGraph Explorer + NebulaGraph Analytics können wir beispielsweise die API oder die WYSIWYG-Schnittstelle im Browser verwenden, um komplexe Berechnungsaufgaben-Pipelines im Diagramm beliebig zu planen. Am unteren Rand dieses Systems können wir nach Bedarf galeriebasierte Abfragen auswählen oder die Abfrageebene umgehen und das gesamte Diagramm direkt vom unteren Rand der Datenbank aus scannen, um Diagrammberechnungsaufgaben durchzuführen.

Ein weiteres Beispiel ist, dass GNN das induktive Modell auf dem gesamten Diagramm trainiert und dann im Online-Geschäft den Untergraphen relevanter neuer Einfügepunkte (z. B. 3.000 Punkte) in Echtzeit aus NebulaGraph extrahiert und ihn dann als verwendet Eingabe in das Modell Das Schließen und Erhalten von Vorhersageergebnissen ist auch ein typischer Fall der Kombination von GNN + Bildergalerie. Das Beispielprojekt finden Sie hier:https://github.com/wey-gu/NebulaGraph-Fraud-Detection-GNN/

Verweise

Wenn Sie sich für LLM-bezogene Praktiken interessieren, können Sie das folgende Manuskript lesen, um mehr zu erfahren:

Anwendungspapier zur Graphdatenbank im CAE-Bereich:Ein graphbasierter Ansatz zur Verwaltung von CAE-Daten in einem Data Lake
Umfrage zu großen Sprachmodellen:https://arxiv.org/abs/2303.18223
"Überprüfung großer Sprachmodelle":https://github.com/RUCAIBox/LLMSurvey/blob/main/assets/LLM_Survey__Chinese_V1.pdf
Siweis LLM-Denken und -Praxis:https://www.siwei.io/categories/llm/

Vielen Dank für das Lesen dieses Artikels (///▽///)

Graph-Datenbank NebulaGraph Graph für LLM-Projekt rekrutiert Praktikanten, JD-Portal:Datenbankkern-Entwicklungsingenieur (Richtung großes Modell)