[2023 Yunqi] Großes Modell treibt das intelligente Upgrade der Datenentwicklungs- und Governance-Plattform DataWorks voran

Während große Modelle eine Welle von Innovationen in der KI-Technologie auslösten, ist auch Big Data in eine innovative Phase der tiefen Integration mit KI eingetreten. Auf der Yunqi-Konferenz 2023 veröffentlichte Tian Qixian, Produktmanager für Alibaba Cloud DataWorks, viele neue Produktfunktionen wie DataWorks Copilot, DataWorks AI Enhanced Analysis, DataWorks Lake Warehouse integriertes Datenmanagement usw. und machte DataWorks zu einem Big-Data-Entwicklungs- und Managementsystem, das über Plattformprodukte werden seit 14 Jahren entwickelt und werden ständig weiterentwickelt und entwickeln sich von „One-Stop“ zu „Intelligent“.

Daten+KI-Zweiradantrieb

Zu Beginn der AIGC-Ära sind „KI für Daten“ und „Daten für KI“ heute zu heißen Wörtern geworden. AI for Data, das ist einfacher zu verstehen. Durch große modellgesteuerte AI-Intelligenzassistenten kann die Effizienz von Datenplattform-Tools verbessert werden. DataWorks hat eine umfassende Toolkette für Unternehmen aus einer Hand aufgebaut und dabei auch kontinuierlich Datenbestände für Unternehmen wie Datenmodelle, Metadaten, Datenherkunft, Datenindikatoren usw. erstellt. Im Zeitalter der Großen Modelle, Diese können auch als unternehmensspezifisches Domänenwissen bezeichnet werden. Mit Hilfe des leistungsstarken semantischen Verständnisses, der Argumentation, des kontextuellen Lernens und der Speicherfähigkeiten des großen Modells und durch das Prompt Engineering des großen Modells kann die DataWorks-One-Stop-Plattform dies tun Die Bereitstellung intelligenter KI-Assistenten mit genaueren, zeitnaheren und umfassenderen Kontextinformationen ermöglicht es der KI, bessere Ergebnisse und Leistungen zu erzielen. Das sind Daten für KI. Mit einer guten Datengrundlage basieren viele der neuen Produkte, die wir heute veröffentlicht haben, auf den Fähigkeiten großer KI-Modelle und bieten durch den Zweiradantrieb von Daten + KI ein neues Paradigma für die Datenentwicklung und -analyse, wodurch die Effizienz von Unternehmen weiter verbessert wird bei der Gewinnung von Datenwert.

Yunqi veröffentlicht: Der intelligente SQL-Programmierassistent DataWorks Copilot verbessert die Effizienz der Datenentwicklung und -analyse um 30 %

DataWorks Copilot ist ein SQL-Programmierassistent, der auf dem großen NL2SQL-Modell basiert. Wir verwenden das auf öffentlichen Datensätzen trainierte und verfeinerte NL2SQL-Großmodell in Kombination mit Prompt Engineering, um umfangreiche, in natürlicher Sprache generierte SQL-Operationen bereitzustellen.

  • SQL-Generierung

Geben Sie die Beschreibung in natürlicher Sprache ein, die Sie abfragen und analysieren möchten, z. B. „Statistiken zu Produktverkaufsrankings in den letzten 7 Tagen“, und DataWorks Copilot generiert automatisch die entsprechende SQL-Anweisung.

  • SQL-Fortsetzung

Beim Schreiben von SQL-Code in der SQL-IDE kann DataWorks Copilot intelligente Code-Eingabeaufforderungen und Vorschläge bereitstellen, um die Effizienz der SQL-Programmierung zu verbessern.

  • SQL-Fehlerkorrektur

Wenn bei der Ausführung von SQL ein Fehler gemeldet wird, kann DataWorks Copilot Fehlerkorrekturdienste mit einem Klick bereitstellen, um ETL-Ingenieuren und -Analysten bei der schnellen Behebung von SQL-Fehlern zu helfen.

  • SQL-Kommentare

Das Schreiben von Codekommentaren war früher eine Belastung. Wir wollten keine Kommentare selbst schreiben, aber wir wollten, dass der Code anderer Leute Kommentare enthält. DataWorks Copilot kann Feldkommentarinformationen für Tabellenerstellungsanweisungen in Stapeln generieren und außerdem zeilenweise Kommentare zu SQL-Anweisungen hinzufügen, um die Lesbarkeit von SQL zu verbessern.

  • SQL-Erklärung

Einigen Geschäftsmitarbeitern oder Analysten wird von Data-Warehouse-Ingenieuren häufig ein relativ kompliziertes Abrufskript zur Verfügung gestellt. Einige der verwendeten erweiterten SQL-Syntax und -Funktionen verstehen die Bedeutung nicht, möchten aber die Abruflogik ändern. Suchen Sie in der Vergangenheit nach Informieren Sie sich überall oder fragen Sie andere um Rat. DataWorks Copilot kann SQL-Codes direkt interpretieren und so unseren Geschäftsmitarbeitern helfen, die SQL-Logik und -Nutzung schneller zu verstehen und die Effizienz der Datenanalyse und des SQL-Lernens zu verbessern.

Der intelligente SQL-Programmierassistent DataWorks Copilot wird seit einiger Zeit intern verwendet. Nach einigen unserer Beobachtungen kann er die ETL-Entwicklung und Datenanalyse um mehr als 30 % verbessern.

Von GUI bis LUI unterstützt DataWorks Copilot die ETL- Data-Warehouse-Entwicklung

Die grafische Benutzeroberfläche (GUI) erschien vor mehr als 40 Jahren. Die leistungsstarke Fähigkeit großer Modelle, natürliche Sprache zu verstehen, hat eine neue Benutzeroberfläche (LUI) in natürlicher Sprache hervorgebracht. Dies ist auch eine neue Art der Mensch-Computer-Interaktion. Eine Software Ob das Produkt LUI bereitstellen kann, ist auch eine der charakteristischen Funktionen großer Modellanwendungen, die von intelligenten KI-Assistenten zu nativen KI-Anwendungen übergehen. DataWorks denkt und erforscht auch, wie man komplexe Produktbetriebslogik hinter den Kulissen verbergen und große Modelle verwenden kann, um Benutzern eine einfache, direkte und humanere Benutzeroberfläche in natürlicher Sprache bereitzustellen.

Wir haben einige Produktübungen durchgeführt. Um einige Anwendungsszenarien zu nennen: In der tatsächlichen Arbeit bereitet das Auffinden einer Tabelle Kopfschmerzen. Um einen Indikator zu berechnen, muss das Geschäftspersonal einen Klassenkameraden aus Shucang fragen, welcher Tisch verwendet werden soll. Der Klassenkamerad aus Shucang befasst sich mit dieser Art von Beratung jeden Tag und ist sehr genervt. . DataWorks Copilot kann eine schnelle Tabellensuche in natürlicher Sprache ermöglichen, wodurch das Stellen von Fragen bei der Suche nach Tabellen entfällt und so die Datennutzungseffizienz von Unternehmen verbessert wird. Im ETL-Entwicklungsprozess sind einige Vorgänge relativ komplex oder umständlich, wie z. B. die Planungskonfiguration, Parameterkonfiguration und Konfiguration von Datenqualitätsregeln. In der Vergangenheit war es oft notwendig, zwischen verschiedenen Produktseiten hin und her zu springen und manuell zu konfigurieren. Jetzt DataWorks Copilot bietet eine konversationale Benutzeroberfläche in natürlicher Sprache. In einem einheitlichen Dialogfenster können viele produktübergreifende Werkzeugvorgänge durch Interaktion in natürlicher Sprache abgeschlossen werden. Wenn Sie beispielsweise einfach sagen: „Konfigurieren Sie eine bestimmte Qualitätsregel für eine bestimmte Tabelle“, kann die Regelkonfiguration abgeschlossen werden zur Datenqualitätsprüfung. In Zukunft werden wir die Abdeckung natürlichsprachlicher interaktiver Schnittstellen weiter ausbauen.

Klicken Sie auf den Link, um das Video anzusehen: https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/437757941217.mp4

Produktdemonstration für DataWorks Copilot

DataWorks Copilot bietet zwei Modelldienste: Der erste ist ein großes NL2SQL-Modell, das auf Training und Feinabstimmung öffentlicher Datensätze basiert. Derzeit können Sie sich direkt auf der offiziellen Website von Alibaba Cloud DataWorks für die Teilnahme am Einladungstest bewerben. Wenn einige Unternehmen höhere Erwartungen an unsere Modelleffekte haben oder hoffen, dass Copilot Antworten liefern kann, die näher am internen Geschäft des Unternehmens liegen, können wir unternehmensspezifische Modell-Feinabstimmungsdienste in Kombination mit der Alibaba Cloud-Plattform für künstliche Intelligenz (PAI) und großen Modellen anbieten Expertendienstleistungen bis hin zu maßgeschneiderten exklusiven Codemodellen und privatisierten großen Modellbereitstellungsdiensten für Unternehmen.

Yunqi veröffentlicht: DataWorks AI verbesserte Datenanalyse

Unternehmen investieren so viele Ressourcen in die Datenproduktion und -konstruktion. Die ultimative Hoffnung besteht darin, Erkenntnisse über den geschäftlichen Wert der Daten zu gewinnen und den Betrieb und die Entscheidungsfindung des Unternehmens zu steuern. Herkömmliche statistische Analysemethoden gehen oft zunächst von einem statistischen Modell aus und schätzen dann die Modellparameter anhand von Datenproben, um die Eigenschaften der Daten zu verstehen. In der Praxis gibt es jedoch häufig viele Daten, die nicht dem angenommenen statistischen Modell entsprechen. Bei der explorativen Datenanalyse liegt der Schwerpunkt darauf, die Daten „für sich selbst sprechen“ zu lassen, zunächst die Dateneigenschaften und Statistiken zu untersuchen und dann ein geeignetes Modell für die weitere Analyse auszuwählen. Dabei handelt es sich um eine Analysemethode, die eher der tatsächlichen Situation entspricht. Im KI-Zeitalter entwickeln sich Dateneinblicke ständig in Richtung Intelligenz weiter. KI-gestützte Analysen nutzen KI-Technologie, um die Datenexploration und Erkenntnisse zu beschleunigen oder zu automatisieren und Analysten dabei zu helfen, sich von der manuellen Datenexploration zu befreien. KI-Technologie kann außerdem in Daten verborgene Muster und Trends besser entdecken und so Analysten dabei helfen, die Grenzen ihrer eigenen inhärenten Wahrnehmung weiter zu durchbrechen.

DataWorks kombiniert mit DataV-Datenvisualisierungsprodukten und tief integrierter KI-Technologie, um KI-verstärkte Analyseprodukte auf den Markt zu bringen. Derzeit werden vier Kernfunktionen bereitgestellt:

  • Automatische Datenexploration

Durchsuchen Sie Datensätze automatisch, um Dateneigenschaften und statistische Verteilung schnell zu verstehen, ohne über professionelle technische Kenntnisse zu verfügen.

  • Automatische KI-Diagrammerstellung

Basierend auf den Informationen der automatischen Datenexploration werden Datendiagrammkarten automatisch generiert. In Kombination mit der KI-Technologie wird automatisch die Korrelation zwischen verschiedenen Datenfeldkombinationen identifiziert und Diagramme generiert. Sie müssen nicht viel SQL für die Analyse manuell schreiben. und kann Ihnen helfen, schnell Inspiration zu bekommen und Meinungen zu speichern.

  • Intelligente KI-Datenabfrage

In Kombination mit der Technologie großer Modelle werden SQL-Abfragedaten in natürlicher Sprache generiert und Datendiagrammkarten werden automatisch für Abfrageergebnisse empfohlen und generiert.

  • Erstellen und teilen Sie Datenberichte mit einem Klick

Genau wie beim Erstellen einer PPT können Sie die oben generierte Datendiagrammkarte verwenden, um mit einem Klick einen langen Datendiagrammbericht zu erstellen und den Export als Bild oder die Freigabe mit einem Klick zu unterstützen.

Die KI von DataWorks verbessert die Analyse und lässt die Daten für sich selbst „sprechen“, wodurch der Prozess der Dateneinsicht so automatisiert und codefrei wie möglich wird. Mithilfe der KI kann das Unternehmen außerdem automatisch potenzielle Trends in den Daten erkennen, Datengeschichten erzählen und Datenmeinungen äußern . Dieses Produkt befindet sich derzeit in der öffentlichen Betaphase. Nachdem Sie DataWorks aktiviert und das Datenanalyseprodukt betreten haben, können Sie sich für die öffentliche Betaversion bewerben.

Klicken Sie auf den Link, um das Video anzusehen: https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/438309479548.mp4

DataWorks Enhanced Analytics-Produktdemonstration

Yunqi veröffentlicht: DataWorks Lake Warehouse integriertes Datenmanagement

Während sich der Markt weiter verändert, entwickelt sich das Unternehmensgeschäft weiter und Unternehmen sind mit zunehmendem Wettbewerb und zunehmender Unsicherheit konfrontiert. Der Datenbedarf reicht von einfachen Abfragen und Statistiken über BI und Data Science bis hin zu Empfehlungsvorhersagen und KI-Anwendungen. Insgesamt reicht die Bandbreite von einfachen festen Abfragestatistiken bis hin zu komplexen Durch die veränderbare und flexible intelligente Analyse hat sich auch die entsprechende Unternehmensdatenarchitektur geändert. Von der Datenbank über das Data Warehouse bis hin zum Data Lake und dann zur Lake-Warehouse-Integration ist der gesamte Entwicklungsprozess auf der Suche nach höheren Daten. Effizienter, besser und schneller zu erfüllen die verschiedenen flexiblen Datenanforderungen von Unternehmen. Die integrierte Datenarchitektur des Lake Warehouse berücksichtigt die Standardisierungs- und Unternehmensfunktionen des Data Warehouse sowie die Flexibilität und ökologische Offenheit des Data Lake und hat sich zu einer Datenarchitektur entwickelt, der immer mehr Unternehmen Aufmerksamkeit schenken.

DataWorks unterstützt derzeit das Datenmanagement der Lake-Warehouse-Integration vollständig. Auf der Speicherebene wurden das Offline-Data-Warehouse MaxCompute und das Echtzeit-Data-Warehouse Hologres sowie der Data-Lake-Speicher OSS/OSS-HDFS auf der Speicherebene nahtlos verbunden. Kein Bedarf Durch das Kopieren der mobilen Daten können Sie Verbundabfragen für die Daten durchführen. Darüber hinaus bietet DataWorks eine einheitliche Hucang-Benutzeroberfläche für die integrierte Datenverwaltung.

  • Echtzeitdaten gelangen in Sekundenschnelle in den See

Im Hinblick auf die Datenintegration unterstützt DataWorks selbst die Offline- und Echtzeit-synchronisierte Speicherung von mehr als 50 heterogenen Datenquellen. In diesem Jahr wurde die Möglichkeit hinzugefügt, Echtzeitdaten in den See einzugeben, sodass Daten innerhalb von Sekunden in Echtzeit in den See eingegeben werden können. Außerdem wird die automatische Aktualisierung von Datenbanktabellenfeldern während des Datensynchronisierungsprozesses unterstützt Gleichzeitig kann während dieses Prozesses auch eine automatische Erkennung und Registrierung von Metadaten durchgeführt werden. Mit Hilfe von DLF kann eine einheitliche Metadatenverwaltung von Lake Warehouses in der DataWorks-Datenkarte durchgeführt werden.

  • Hucang integrierte ETL-Entwicklung und -Planung

Für verschiedene Computer-Engines in der konvergenten Hucang-Architektur wie MaxCompute, Hologres, Spark, Hive, Presto usw. bietet es eine einheitliche ETL-Aufgabenentwicklung, Aufgabenorchestrierung und -planung sowie Betriebs- und Wartungsdienste, um eine einheitliche Datenentwicklungspipeline zu erreichen Lösen Sie das Problem der Unternehmensdaten. Inkonsistente Architekturen führen zu Fragmentierung und Instabilität von Datenproduktionsverbindungen und anderen schwer zu verwaltenden Problemen.

  • Hucang integrierte Datenverwaltung

DataWorks unterstützt neu das integrierte Datenmanagement von Hucang. Es kann nicht nur das einheitliche Metadatenmanagement, die Datenmodellierung und das Datenqualitätsmanagement des Lake Warehouse unterstützen, sondern das proaktive und automatisierte Data Governance-Tool „DataWorks Data Governance Center“ von DataWorks unterstützt auch den EMR+OSS-Data Lake vollständig.

Das DataWorks Data Governance Center erweitert ausgereifte Data-Warehouse-Verwaltungsfunktionen vollständig auf den EMR+OSS-Data-Lake. Um die Komplexität der Datenverwaltung unter der Hucang-Architektur zu vereinfachen und die Datenverwaltung nicht länger als Bewegung, sondern wirklich nachhaltig, nachvollziehbar und umsetzbar zu gestalten, hat das DataWorks Data Governance Center eine Funktion „Datenverwaltungsplan“ hinzugefügt. Um Benutzer dabei zu unterstützen Abschluss einer proaktiven Datenmanagementplanung und -diagnose.

Der Data-Governance-Plan verfügt über integrierte Vorlagen für Data-Governance-Szenarien wie Kostenmanagement für Datenverarbeitung und Speicher, Aufgabenstabilitätsmanagement usw. für Datenmanager. Er unterstützt Unternehmen bei der Festlegung eines Data-Governance-Ziels und bietet mehrere Dimensionen der Gesundheitsbewertung der Daten-Governance Mithilfe von Modellen können wir die Wirksamkeit der Datenverwaltung bewerten.

Der Data-Governance-Plan richtet sich an Data-Governance-Praktiker und bietet mehr als 60 Governance-Regelbibliotheken, die 5 Dimensionen abdecken. In Kombination mit den festgelegten Data-Governance-Zielrichtungen kann das Data-Governance-Produkt automatisch ausgewählte und zielbezogene Data-Governance-Themen empfehlen und entsprechende Governance bereitstellen Mittel und Methoden helfen Data-Governance-Ausführenden dabei, Probleme zeitnah zu erkennen und zu lösen. Gleichzeitig sorgt das Data Governance Center für das Abfangen von Problemen im Voraus. Während der Datenentwicklungsphase können viele Probleme im Voraus erkannt werden, z. B. Probleme mit der Codespezifikation und Probleme mit der Benennung von Aufgabennamen. Diese Plug-Ins dienen zum Vorabfangen und Posten -Issue-Discovery-Plug-ins können im Voraus abgefangen werden. Sie alle ermöglichen unterstützenden Unternehmen, sich selbst zu definieren.

Data Governance-Anwendung: Kostenoptimierung – Offline-Automatisierung ungültiger Aufgaben

Da sich das Unternehmensgeschäft weiter verändert und sich das Unternehmenspersonal verändert, werden unweigerlich immer mehr ungültige Datenaufgaben auftauchen, die jeden Tag eine große Menge an Rechen- und Speicherkosten verschlingen. Herkömmliche manuelle Governance erfordert manuelle Analysen und Beurteilungen durch Dateningenieure, um komplexe Auswirkungsanalysen durchzuführen, und es fallen auch Kosten für die Kommunikation und Zusammenarbeit mit den relevanten betroffenen Mitarbeitern an. Durch unbeabsichtigte Fehler, die sich auf Online-Aufgaben auswirken und Dateningenieure dazu veranlassen, kann es äußerst leicht zu Fehlfunktionen kommen scheitern. Sie haben Angst vor Problemen und trauen sich nicht, ineffektive Aufgaben zu bewältigen, und sind nicht bereit, sie zu bewältigen.

Das DataWorks-Datenverwaltungszentrum bietet eine Produktfunktion namens „Elegant Offline“, mit der Batch-Prozesse und die automatisierte Offline-Verwaltung ungültiger Aufgaben durchgeführt werden können. Zuerst wird die Auswirkung der Offline-Aufgabe automatisch analysiert, und dann wird die Offline-Aufgabe in fünf Schritte zerlegt: Verzögerungsplanung, Pausenplanung, Offline-Aufgabe, Sicherungsausgabetabelle und Löschausgabetabelle. Jeder Schritt bietet außerdem einen Ruhezeitraum und eine automatische Benachrichtigung relevante Verantwortliche bzw. betroffene Personen. Der gesamte Prozess ähnelt einem „Graustufen-Offline“-Mechanismus, der sich schnell erholen kann, wenn etwas schiefgeht, und die Auswirkungen minimiert.

Im internen Datenteam von Alibaba umfasste die ursprüngliche Verwaltung von Offline-Operationen eine Gruppe von 1.000 Aufgaben mit 30 Verantwortlichen, von der Organisation von Gruppentreffen über die Kommunikation, die Analyse der Auswirkungen von Offline-Operationen, die Formulierung von Offline-Plänen bis hin zur individuellen Ausführung von Offline-Operationen zur Ergebnisverfolgung. up. , es wird 3-5 Monate dauern. Mit der eleganten Offline-Funktion des DataWorks-Datenmanagementzentrums können Verwaltungsmaßnahmen in 2 Tagen abgeschlossen werden, die Wirkungsbeobachtung kann in 1 Woche abgeschlossen werden und das Projekt kann in 15 Tagen offiziell abgeschlossen werden. Der reibungslose Offline-Betrieb des DataWorks Data Governance Center hat dem internen Data Warehouse-Team von Alibaba dabei geholfen, Zehntausende ungültiger Aufgaben erfolgreich offline zu schalten und so eine Menge Speicher- und Rechenkosten einzusparen.

Das DataWorks Data Governance Center hat Dienste in der DataWorks Enterprise Edition bereitgestellt und Testaktivitäten für die Enterprise Edition werden in naher Zukunft gestartet. Sie können die offiziellen Website-Informationen des Produkts beachten.

Seit seiner Gründung innerhalb der Alibaba Group im Jahr 2009 ist DataWorks ein Befürworter und überzeugter Implementierer einer One-Stop-Plattform, einschließlich Datenintegration, Datenentwicklungs-Toolchain, Data-Governance-Toolchain und Analyse auf der Datenverbrauchsseite. und Serviceprodukte, Wir bauen und akkumulieren weiterhin Unternehmensdatenbestände für Unternehmen über eine Plattform aus einer Hand. Im KI-Zeitalter integriert und innoviert DataWorks kontinuierlich die in den letzten 14 Jahren angesammelten Produktfunktionen mit großen Modellen, um Unternehmen intelligente Datenplattformprodukte aus einer Hand bereitzustellen, um die Effizienz des Unternehmensdatenflusses zu verbessern und die Erfassung von Unternehmensdaten zu beschleunigen Wert.

Microsoft startet neue „Windows App“ .NET 8 offiziell GA, die neueste LTS-Version Xiaomi gab offiziell bekannt, dass Xiaomi Vela vollständig Open Source ist und der zugrunde liegende Kernel NuttX Alibaba Cloud 11.12 ist. Die Ursache des Fehlers wurde offengelegt: Access Key Service (Access Schlüssel) Ausnahme Vite 5 offiziell veröffentlichter GitHub-Bericht: TypeScript ersetzt Java und wird zur drittbeliebtesten Sprache. Bietet eine Belohnung von Hunderttausenden Dollar für das Umschreiben von Prettier in Rust. Den Open-Source-Autor fragen: „Ist das Projekt noch am Leben?“ Sehr unhöflich und respektloses Bytedance: Verwendung von KI zur automatischen Optimierung von Linux-Kernel-Parameteroperatoren. Zauberoperation: Trennen Sie das Netzwerk im Hintergrund, deaktivieren Sie das Breitbandkonto und zwingen Sie den Benutzer, das optische Modem zu wechseln
{{o.name}}
{{m.name}}

Supongo que te gusta

Origin my.oschina.net/u/5583868/blog/10148350
Recomendado
Clasificación