So nutzen Sie OOS, um automatisierten Betrieb und Wartung in der Cloud effektiv durchzuführen

17311800:

Der offene Kurs zur Elastic-Computing-Technologie – CloudOps-Cloud-Betriebs- und Wartungssaison ist erfolgreich zu Ende gegangen. Zheng Dayu, Experte für Elastic-Computing-Technologie bei Alibaba Cloud, teilte darin einen Kurs mit dem Titel „Using OOS for Automated Cloud Operation and Maintenance“. Kursreihe. Der Kursinhalt deckt die Herausforderungen ab, denen sich der Ressourcenbetrieb und die Wartung in der Cloud gegenübersehen, das Geheimnis der automatisierten Betriebs- und Wartungsfunktionen von OOS und die Praxis von CloudOps in der Cloud mithilfe von OOS.

Im Folgenden finden Sie eine Zusammenstellung seiner Kursinhalte, aus denen Entwickler lernen können:

1. Herausforderungen beim Betrieb und der Wartung von Cloud-Ressourcen

Cloud-Ressourcen weisen die folgenden Merkmale auf: Erstens sind sie groß, Benutzer müssen keine eigene Infrastruktur aufbauen und können theoretisch unbegrenzt Cloud-Ressourcen erwerben. Darüber hinaus können Benutzer aufgrund der Elastizität der Cloud-Ressourcen jederzeit und überall entsprechend ihren eigenen Anforderungen auf die benötigten Cloud-Ressourcen zugreifen. All dies führt dazu, dass Cloud-Ressourcen größer sind als die selbst erstellte Infrastruktur. Zweitens gibt es in der Cloud viele Arten von Ressourcen. Zusätzlich zu den herkömmlichen Rechen-, Speicher- und Netzwerkressourcen bietet die Cloud vielfältigere Dienste. Zum Beispiel Datenbanken, Nachrichtenwarteschlangen, künstliche Intelligenz (KI), Internet der Dinge und andere Arten von Ressourcen.

Benutzer können entsprechende Ressourcen entsprechend ihrem eigenen Bedarf erwerben, wodurch der umständliche Prozess des Erstellens eigener Ressourcen entfällt. In der Cloud werden verschiedene Arten von Cloud-Diensten bereitgestellt, sodass sich Benutzer auf die Entwicklung ihrer eigenen Geschäftslogik konzentrieren können. Immer mehr technische Architekturen versinken auf der Cloud-Ressourcenebene. Dadurch entfällt einerseits die Notwendigkeit für Benutzer, sich um die Wartung und Verwaltung der Infrastruktur zu kümmern, und gleichzeitig wird das Szenario der Cloud-Ressourcen komplexer.

Gerade aufgrund dieser Eigenschaften von Cloud-Ressourcen stehen der Betrieb und die Wartung von Ressourcen auch vor entsprechenden Herausforderungen hinsichtlich Effizienz, Kosten, Sicherheit etc.

1. Der Umfang der Cloud-Ressourcen wächst rasant

Erstens wächst der Umfang der Cloud-Ressourcen schnell. Der Umfang der Cloud-Ressourcen wird mit der Geschäftsentwicklung schnell zunehmen. Unternehmen müssen mehr Rechen-, Speicher-, Netzwerk- und andere Ressourcen verwalten. Dies wird die Komplexität von Betrieb und Wartung erheblich erhöhen und erfordert, dass Unternehmen mehr Zeit und Personal in die Verwaltung investieren und Überwachung. dieser Ressourcen. Unternehmen müssen effektive Betriebs- und Wartungsprozesse und -tools einrichten, um die Effizienz und Zuverlässigkeit des Betriebs und der Wartung von Ressourcen zu verbessern.

Im Folgenden wird als Beispiel der Umfang der Cloud-Ressourcen unter einem bestimmten Cloud-Konto verwendet. In der Anfangsphase befindet sich das Unternehmen in der Startphase und es sind nur wenige ECS-Instanzen erforderlich, um Webdienste bereitzustellen, um den Bedarf zu decken. Das Wachstum der Cloud-Ressourcen war in diesem Zeitraum relativ stabil. Die Verwaltung dieser kleinen Ressourcenmengen kann mithilfe manueller Betriebs- und Wartungsmethoden oder einfacher Betriebs- und Wartungsskripts erfolgen. Wenn sich das Unternehmen jedoch weiterentwickelt und mehr Dienste bereitgestellt werden, einschließlich API-Big-Data-Diensten, wächst der Umfang der Ressourcen exponentiell. Wenn wir die gleichen Betriebs- und Wartungsmethoden wie zuvor anwenden, erhöht sich auch der Personalbedarf aktiv. Derzeit ist es eine Herausforderung, die bisherige Betriebs- und Wartungserfahrung automatisiert von einer kleinen Menge an Ressourcen auf eine große Anzahl von Ressourcen zu kopieren und so die Betriebs- und Wartungseffizienz zu verbessern.

2. Auch die Kosten für Cloud-Ressourcen steigen rasant.

Die Kosten für Cloud-Ressourcen steigen entsprechend mit der Ressourcengröße, und Unternehmen müssen ein effektives Kostenmanagement und eine effektive Kostenoptimierung durchführen, einschließlich der Analyse und Überwachung der Ressourcennutzung sowie der Einführung geeigneter kostensparender Tests, wie z. B. den Sparmodus für Ausfallzeiten, vorübergehende Bandbreiten-Upgrades usw. Gleichzeitig ist es auch zu einer Herausforderung geworden, diese Kostenoptimierungs-, Betriebs- und Wartungsmaßnahmen automatisch und kulturell anzuwenden.

Am Beispiel der Kosten für Cloud-Ressourcen unter einem bestimmten Cloud-Konto führte das Unternehmen in der Anfangsphase nur eine kleine Menge an ECS-Cloud-Ressourcen ein. Durch einige Anwendungen und einige Best Practices zur Kostenoptimierung können die Gesamtkosten für Cloud-Ressourcen erhöht werden reduziert. Mit der Geschäftsentwicklung werden jedoch mehr ECS-Ressourcen oder andere Cloud-Ressourcen eingeführt, einschließlich Datenbanken, Nachrichtenwarteschlangen usw. Es ist notwendig, die Kosten der neu eingeführten Ressourcen kontinuierlich zu optimieren. Es ist ersichtlich, dass die Kosten für Cloud-Ressourcen einen schwankenden und steigenden Trend aufweisen. Derzeit ist die Frage, wie die Nutzung von Cloud-Ressourcen verbessert und die Kosten gesenkt werden können, natürlich zu einer weiteren Herausforderung geworden. Gleichzeitig ist es auch ein wichtiger Punkt, wie man manuelle Optimierung vermeiden kann, indem frühere Erfahrungen mit der Kostenoptimierung automatisch auf neu eingeführte Ressourcen ausgeweitet werden.

3. Fragen der Sicherheitscompliance werden immer wichtiger

Zu den Sicherheits-Compliance-Problemen in der Cloud gehören Datenlecks, Missbrauch von Schwachstellen im Dienstsystem, Kontodiebstahl, Denial-of-Service-Angriffe, unsichere Anwendungsschnittstellen usw. Tatsächlich gab es in der Cloud viele Top-Events zu diesen Sicherheits-Compliance-Themen.

Da beispielsweise die Größe der Cloud-Ressourcen zunimmt, müssen Unternehmen regelmäßig Systemschwachstellen verwalten, Systempatches aktualisieren und aktualisieren sowie bekannte Sicherheitslücken beheben. Als Reaktion auf die Compliance-Anforderungen einiger Unternehmen oder Branchen müssen Unternehmen regelmäßig Compliance-Prüfungen für Cloud-Ressourcen durchführen und nicht konforme Ressourcen reparieren.

Beispielsweise haben einige Branchen hohe Anforderungen an die Zuverlässigkeit und erfordern Multiverfügbarkeitszonen oder sogar überregionales Disaster Recovery. Unternehmen müssen die entsprechenden Cloud-Ressourcen entsprechend den Compliance-Anforderungen überprüfen. Sollten die Ressourcen den Disaster-Recovery-Anforderungen nicht genügen, werden entsprechende Korrekturen vorgenommen. Der gesamte Prozess ist zeit- und arbeitsintensiv. Die automatische Überprüfung einiger Sicherheits-Compliance-Anforderungen und die automatische Korrektur nicht konformer Ressourcen ist zu einer weiteren Herausforderung für den Betrieb und die Wartung der Cloud geworden.

4. So implementieren Sie die Best Practices von CloudOps

Obwohl die meisten Betriebs- und Wartungsvorgänge in der Cloud in offene APIs gekapselt wurden, handelt es sich bei diesen Best-Practice-Szenarien oft nicht um einen einfachen Aufruf einer API oder einfache Vorgänge in der Cloud. Es handelt sich um eine Kombination aus einer Reihe von Betriebs- und Wartungsvorgängen. Wie viele Best Practices automatisch auf Cloud-Ressourcen angewendet werden können, wird zu einem Vorschlag. Der OOS-Betriebs- und Wartungsorchestrierungsdienst stellt einer solchen Plattform offiziell Aufgabenorchestrierungsfunktionen zur Verfügung.

2. Enthüllung der Geheimnisse der automatisierten Betriebs- und Wartungsfunktionen von OOS

Lassen Sie uns den OOS-Dienst kurz vorstellen. Der Betriebs- und Wartungsorchestrierungsdienst wird als OOS bezeichnet. Es handelt sich um eine umfassende kostenlose Orchestrierungsplattform für Cloud-Automatisierungsaufgaben, die die Verwaltung und Ausführung automatisierter Aufgaben ermöglicht. Als Plattform bietet sie eine Reihe automatisierter und halbautomatische Plattformfunktionen und Infrastruktur. Das Konzept des Cloud Office als Code für Betrieb, Wartung und Code.

Was die Automatisierungsfähigkeiten betrifft, bietet OOS zunächst Batch-Betrieb, überregionale Betriebszustandskontrolle, Parallelitätskontrolle und andere Funktionen, sodass Betriebs- und Wartungsaufgaben in komplexen Szenarien wie multiregionalen und großen Szenarien effizient und stabil ausgeführt werden können. Volumenressourcen. Zweitens unterstützt OOS auch halbautomatisierte Funktionen wie Genehmigung und Sperrung.

Beispielsweise ist für einige wichtige Betriebs- und Wartungsvorgänge in einigen Fällen möglicherweise die Genehmigung relevanter oder wichtiger Mitarbeiter vor der Ausführung erforderlich. In diesem Fall können Sie dem OOS-Aufgabenprozess einen Genehmigungsschritt hinzufügen und das relevante Personal zur Genehmigung benachrichtigen. und dann den Vorgang nach der Genehmigung automatisch ausführen. Darüber hinaus unterstützt OOS auch das Anhalten von Vorgängen für einige Schritte, die nicht automatisiert werden können. Relevantes Personal muss manuell bestätigen, bevor automatisierte Vorgänge ausgeführt werden. Dann unterstützt OOS auch eine Vielzahl von Auslösertypen, einschließlich sofortiger Vorgänge, geplanter Vorgänge und ereignisgesteuerter Vorgänge in der Nähe den Auslösevorgang.

Wenn ich beispielsweise einen Befehl sofort ausführen möchte, kann ich die Operation der ersten Ebene verwenden, die auch die Standardmethode ist. Wenn ich den Befehl dann morgen Abend um 8 Uhr oder jeden Abend um 8 Uhr ausführen möchte, kann diese Art von periodischem oder verzögertem Betrieb durch einen geplanten Betrieb erfolgen. Wenn ich eine Cloud-Überwachung anstreben möchte Alarmbedingungen. Wenn beispielsweise die CPU-Auslastung mehr als 80 % beträgt, werden einige Reinigungsvorgänge durchgeführt, oder wenn die Festplattenauslastung mehr als 80 % beträgt, werden einige unnötige Dateien gelöscht. Zu diesem Zeitpunkt können Sie Alarme verwenden, um Vorgänge und Ereignisse auszulösen. gesteuerte Vorgänge. Es wird mit Ereignissen kombiniert, die von unserer Cloud überwacht werden, am Beispiel von ECS-Ereignissen.

Wenn ECS gestartet wird, um einige Initialisierungsvorgänge auszuführen, können Ereignisvorgänge verwendet werden. Basierend auf diesen Funktionen bietet OOS stabile und zuverlässige Hosting-Dienste, ohne dass Benutzer ECS oder Produkte installieren und konfigurieren müssen. OOS unterstützt die Orchestrierung von mehr als 70 häufig verwendeten Alibaba Produkte bieten mehr als 200 Betriebs- und Wartungsaufgabenszenarien, und öffentliche Vorlagen sind sofort verfügbar. Darüber hinaus können alle OOS-Betriebs- und Wartungsvorgänge im Aktionstrio geprüft werden, um die Prüfanforderungen der Benutzer sicherzustellen.

Basierend auf den oben genannten Plattformfunktionen hat OOS eine leistungsstarke API-Orchestrierungsfunktion entwickelt. Am Beispiel des Startens einer ECS-Instanz und der Installation von Software müssen wir bei unseren üblichen Betriebs- und Wartungsmethoden das Beispiel zuerst über die Startinstanz starten. Da es sich bei der zentralisierten Instanz der Sterninstanz um einen asynchronen Prozess handelt, müssen Sie warten, bis die Instanz ausgeführt wird, bevor Sie mit nachfolgenden Softwareinstallationsvorgängen fortfahren. Daher müssen Sie den Systemstatus der Instanz überprüfen, indem Sie die Instanz ständig beschreiben. Dann, bis der Status der Instanz läuft, verwenden Sie dann die Come-On-Running-Befehls-API, um den Softwarebefehl zu installieren. Der Installationsbefehlsprozess ist ebenfalls ein asynchroner Prozess. Wir müssen also warten, bis die Befehlsausführung durch ständige Abfrage abgeschlossen ist. Nachdem die Befehlsausführung abgeschlossen ist, müssen Sie die Ergebnisausgabe des Befehls über ein in der API beschriebenes Aufrufergebnis abfragen, um festzustellen, ob der Befehl wie erwartet ausgeführt wurde.

Im OOS-Aufgabenprozess ist der erste Teil des Prozesses des Startens der Instanz und des Wartens auf den Start der Instanz in eine Cloud-Produktaktion unterteilt, nämlich ACS, ECS, StartInstance. Dabei wird der Prozess der Startup-Einrichtung abgeschlossen . Gleichzeitig wird darauf gewartet, dass die Instanz ausgeführt wird. Wenn die Aktion abgeschlossen ist, kann der Befehl sofort ausgeführt werden, ohne zu warten. Führen Sie dann gleichzeitig die Installationsbefehlsaktion aus, warten Sie, bis die Befehlsausführung abgeschlossen ist, und geben Sie schließlich das Ergebnis aus. Wenn diese beiden Aktionen vollständig ausgeführt sind, werden die aktuellen Ergebnisse an den Ausgang der Aufgabe ausgegeben, sodass Sie auf einen Blick sehen können, ob der Befehl wie erwartet ausgeführt wird, ohne komplexe Prozesse pflegen zu müssen.

Basierend auf den Plattformfunktionen und API-Orchestrierungsfunktionen wurden später umfangreiche Betriebs- und Wartungsszenarien erstellt. Dazu gehören allgemeine Betriebs- und Wartungsaufgaben, Batch-Betriebsinstanzen, Batch-Management-Software, geplantes Ein- und Ausschalten, vorübergehendes Upgrade der Bandbreite, Erstellen und Aktualisieren von Images sowie Reinigen von Datenträgern. Diese allgemeinen Betriebs- und Wartungsaufgaben werden von uns auf der Grundlage der Erfassung der Benutzernutzung abstrahiert Szenarien. Am häufigsten werden diese allgemeinen Betriebs- und Wartungsaufgaben extrahiert und auf der OOS-Konsole platziert.

Gleichzeitig werden einige Optimierungen an den Prozessen dieser Betriebe vorgenommen. Zusätzlich zu diesen Grundfunktionen bietet OOS auch einige zusätzliche Szenariofunktionen, darunter Softwarepaketverwaltung, Parameterverwaltung, Konfigurationsliste und Patchverwaltung. Bei der Softwarepaketverwaltung handelt es sich um die Installation von Software, die vom Alibaba Cloud-Agenten oder von Softwarepaketverwaltungstools in der Instanz verwaltet werden kann.

Gleichzeitig unterstützt das Softwarepaket Unternehmen auch dabei, ihre eigene Software auf OOS hochzuladen und über die Versionsverwaltung auf der entsprechenden ECS-Instanz zu installieren. Die Parameterverwaltung bietet Speicherverwaltungsdienste für Parameter und unterstützt sowohl Textdaten als auch verschlüsselte Datenformate. Verschlüsselung Auf der Datenseite wird MS verwendet, um die Verschlüsselungssicherheit zu gewährleisten. Die Konfigurationsliste kann einige interne Informationen zum OOS des Cloud-Servers abrufen, die nicht über die API abgerufen werden können.

Es gibt beispielsweise Informationen über die Installation von Softwarepaketen im System sowie einige Informationen über die Dateien im System, einschließlich der Größe der Dateien und der Aktualisierungszeit der Dateien. Diese sind auch nicht über die API verfügbar. Daher können wir diese Informationen über die Konfigurationsliste erhalten. Ein natürliches Szenario besteht darin, die Softwareinstallationsinformationen gerade als Beispiel zu nehmen. Wir können sie aktualisieren, indem wir einige Beispiele filtern, bei denen die Software nicht installiert ist oder bei denen eine niedrige Version der Software installiert ist Software installiert ist. Aktualisieren Sie die Software auf die neueste Version.

Die Patch-Verwaltung scannt oder installiert Patch-System-Patches für ECS-Instanzen.

Benutzer können die Patch-Scan- und Installationsbedingungen flexibel nach ihren eigenen Bedürfnissen festlegen. Beispielsweise können benutzerdefinierte Installationsanforderungen erfüllt werden, indem während der Installation nur Patches für eine bestimmte Betriebssystemversion installiert werden, z. B. nur das Betriebssystem Windows 2022, spezielle Patches oder nur Patches mit mittlerem und hohem Risiko.

3. CloudOps-Praxis mit der OOS-Cloud

1. Effizienter Betrieb und Wartung: ECS-Szenario für Batch-Betrieb

Zunächst abstrahieren wir die am häufigsten verwendeten ECS-Operationen in ECS-Instanzszenarien für Batch-Operationen. Dazu gehören Funktionen wie das Starten einer Instanz, das Stoppen einer Instanz, das Neustarten einer Instanz, das Herunterladen von Dateien in der Instanz, das Erneuern und Ändern des Erneuerungstyps, das Exportieren von Instanzeigenschaften, das Ändern von Instanzeigenschaften, das Ausführen von Befehlen, das Ersetzen der Systemfestplatte, das Hinzufügen von Instanzrollen, und Löschen von Beispielrollen.

Für den Stapelbetrieb von ECS-Instanzen gibt es verschiedene Methoden zum Auswählen von Instanzen. Beispielsweise können Sie alle Instanzen unter dem Konto auswählen. In einigen Fällen, in denen die Anzahl der ausgewählten Instanzen relativ gering ist, können Sie die entsprechende Instanz manuell auswählen. Wenn eine große Anzahl von Instanzen vorhanden ist und nicht alle Instanzen verfügbar sind, ist die manuelle Auswahl problematischer. Wir können die Instanzen in CSV verwalten. Wählen Sie große Instanzenmengen aus, indem Sie CSV-Dateien hochladen. Instanzen können bis zu 5000 Instanzen im CSV-Format unterstützen, was die meisten Szenarien abdeckt.

Wenn die Ressourcen des Benutzers über Tags oder Ressourcengruppen verwaltet werden. Beispielsweise sind alle Ressourcen in der IT-Abteilung entsprechend gekennzeichnet oder sie gehören zu Ressourcengruppen der IT-Abteilung. Zu diesem Zeitpunkt können Sie Instanzen filtern, indem Sie Tags oder Ressourcengruppen angeben. Schließlich gibt es noch die Konfigurationslistenfunktion. Wenn ich beispielsweise die Informationen in der Konfigurationsliste filtere, sind keine Instanzen einer bestimmten Software installiert oder die Das Änderungsdatum einer bestimmten Datei liegt in einer bestimmten Zeit. Alle Instanzen vor einem Zeitpunkt, der verschiedene umfangreiche Instanzfiltermethoden unterstützen kann.

Darüber hinaus bietet OOS auch leistungsstarke Ratenkontrollfunktionen und unterstützt zwei Formen der Frequenzkontrolle und der Chargenkontrolle. Wenn beispielsweise 100 ECS-Instanzen vorhanden sind, stellt die Einstellung der Parallelität auf 10 sicher, dass jedes Mal 10 Instanzen gleichzeitig betrieben werden. Wenn der Vorgang einer Instanz abgeschlossen ist, kommt die nächste Instanz, um den Vorgang auszuführen, um Platz zu schaffen und sicherzustellen, dass immer 10 Instanzen gleichzeitig ausgeführt werden. Durch die Stapelsteuerung soll sichergestellt werden, dass keine weiteren Instanzen vorhanden sind Vorgänge, bis die Charge abgeschlossen ist. Die nächste Charge kommt herein. Beispielsweise verfügt jeder Stapel über 10 Instanzen, das heißt, die 10 Instanzen im zweiten Stapel werden erst eingehen, wenn alle 10 Instanzen im ersten Stapel ausgeführt wurden. Dies ist der Unterschied zwischen Parallelitätssteuerung und Stapelsteuerung.

Gleichzeitig bietet OOS auch eine leistungsstarke Fehlerunterbrechungsfunktion. Wenn der Fehlerunterbrechungsmodus festgelegt ist, wird im Stapel eine Instanz bei einem Fehler an der ausgefallenen Instanz angehalten. Sie können nach Bedarf wählen, ob Sie überspringen oder überspringen möchten. Stornieren.

Im Allgemeinen können Sie bei vorübergehenden Fehlern oder Fehlern, die durch nicht bereite Ressourcenabhängigkeiten verursacht werden, diese Abhängigkeiten nach einer erneuten Überprüfung manuell korrigieren und es dann erneut versuchen. Wenn es einige unwichtige Vorgänge und einige vernachlässigbare Vorgänge gibt, die sich nicht auf die Ergebnisse auswirken, können Sie diese überspringen. Zu diesem Zeitpunkt wird die ausgefallene Instanz nicht weiter ausgeführt, alle verbleibenden Instanzen werden jedoch weiterhin ausgeführt. Wenn es sich um einen kritischen Vorgang handelt, der nicht ignoriert werden kann, können Sie ihn zu diesem Zeitpunkt abbrechen. Auf diese Weise wird er nicht alle unten aufgeführten Instanzen erneut ausführen.

2. Effizienter Betrieb und Wartung: fortlaufendes Upgrade von ECS-Anwendungen

Das zweite Szenario ist ein fortlaufendes Upgrade von ECS-Anwendungen. OOS bündelt die atomaren Fähigkeiten des SLb ECS-Cloud-Assistenten in Cloud-Produktaktionen in Aufgabenszenarien, ergänzt durch die automatische Batch-Parallelitätskontrolle, Fehlerunterbrechung, Wiederholungsfortsetzung und andere Kontrollfunktionen von OOS. Vervollständigen Sie die Szenario eines fortlaufenden Upgrades der ECS-Anwendung. Während dieses Prozesses muss der Dienst immer online sein. Daher können während des Anwendungs-Upgrade-Prozesses nicht alle ECX-Instanzen auf einmal aktualisiert werden. Ein fortlaufendes Upgrade muss stapelweise durchgeführt werden, um sicherzustellen, dass zumindest ein Teil der Anwendung jederzeit verfügbar ist Zeitpunkt. Dienstleistungen erbringen. An diesem Punkt kann OOS seine leistungsstarken Batch-Funktionen nutzen.

Am Beispiel dieses Szenarios teilt oos alle ECS-Instanzen in drei Stapel auf und verarbeitet jeweils nur einen Stapel ECS-Instanzen. Bei der Verarbeitung eines Stapels werden die ECS-Instanzen zunächst wiederholt in der Bilanz entladen, dh das Gewicht dieser Instanzen wird auf 0 gesetzt. Diese Instanzen stellen keine Dienste bereit. Andere verbleibende Instanzen stellen jedoch weiterhin Dienste bereit, um sicherzustellen, dass der Dienst nicht offline ist. Aktualisieren Sie nach der Deinstallation die ECS-Anwendung, indem Sie das ECS-Image aktualisieren oder das Befehlsskript ausführen. Nachdem die Aktualisierung abgeschlossen ist, mounten Sie den aktualisierten ECS-Dienst. Gehen Sie zu den Load Balancer und stellen Dienste für die Außenwelt bereit.

Zweitens: Wenn in diesem Batch Instanzen vorhanden sind, die nicht ausgeführt werden können, können Sie je nach Bedarf wählen, ob Sie den Vorgang wiederholen oder ein Rollback durchführen möchten, um sicherzustellen, dass der Dienst immer stabil ist. Nachdem eine Reihe von Updates abgeschlossen ist, wird sie auf einigen SLbs bereitgestellt, um externe Dienste bereitzustellen. Zu diesem Zeitpunkt wird die zweite Charge von ECS-Instanzen ausgesondert und der fortlaufende Upgrade-Vorgang wird für die zweite Charge von ECS-Instanzen durchgeführt. Dann wird der zweite Stapel derselben Vorgänge eingeführt und aktualisiert, und dann wird der dritte Stapel von Vorgängen ausgeführt. Bis alle ECs auf die neueste Version der Anwendung aktualisiert sind. An diesem Punkt endet das fortlaufende Upgrade, wodurch die leistungsstarken Stapelverarbeitungs- und Aufgabenorchestrierungsfunktionen von OOS genutzt werden, um die Effizienz der ECS-Anwendungsfreigabe zu verbessern.

3. Effizienter Betrieb und Wartung: Verwenden Sie Parameter Warehouse, um die Infrastrukturkonfiguration zu verwalten

Am Beispiel zweier Szenarien müssen Systemadministratoren die Sicherheitspatches des Basisimages regelmäßig entsprechend den Anforderungen aktualisieren. Denn es wird einige Sicherheitslücken geben. Daher muss es regelmäßig mit Sicherheitspatches aktualisiert werden. Benutzer erstellen diese Ressourcen, indem sie diese Spiegel auf ihre eigenen Systeme anwenden. Wenn Benutzer in herkömmlichen Szenarien jedoch Bilder aktualisieren, müssen sie alle rOS-Vorlagen gleichzeitig aktualisieren und die alten Bilder durch neue Bilder ersetzen. Nach der Verwendung des Parameter-Warehouses müssen Benutzer nur noch auf die entsprechenden Parameter im Parameter-Warehouse in allen Vorlagen verweisen. Nach der Aktualisierung des Bildes müssen sie lediglich die Bild-ID auf die entsprechenden Parameter aktualisieren.

Durch die zentrale Verwaltung dieser Bild-IDs können anschließend alle Vorlagen schnell auf die neuesten Bilder aktualisiert werden. Dies vermeidet die Komplexität der manuellen Aktualisierung aller Vorlagen durch Benutzer, da alle Vorlagen manchmal inkonsistent aktualisiert werden oder fehlen.

Ein anderes Szenario besteht darin, dass der Anwendungsadministrator für Verschlüsselungsparameter in naher Zukunft möglicherweise die Kennwörter von ECS und RDS wechselt und diese Kennwörter in verschiedenen Szenarien verwendet werden. Aktualisieren Sie beispielsweise das Passwort ECS und rds von Cloud-Ressourcen. Dann erhalten wir beispielsweise für einige RDS-Datenbankkennwörter die Kennwortkonfiguration in der Anwendung, um eine Verbindung zur Datenbank herzustellen. Bei einigen Betriebs- und Wartungsvorgängen werden auch Passwörter verwendet. Wenn es sich dann um dieselbe herkömmliche Methode handelt, aktualisiert der Anwendungsadministrator nach der Aktualisierung des Kennworts den Code und die Konfiguration an mehreren Stellen. Bei Nichtbeachtung kann es zu Unfällen und Fehlfunktionen kommen.

Nachdem er die OOS-Verschlüsselungsparameter zum Verwalten von Passwörtern verwendet hat, muss der Anwendungsadministrator dann nur noch das entsprechende Passwort in die Verschlüsselungsparameter eingeben. Beispielsweise können wir die Passwörter der Testumgebung und der Produktionsumgebung unterscheiden. Anschließend wird das entsprechende Passwort entsprechend dem Namen des Passworts während des Betriebs der entsprechenden Cloud-Ressource, des Betriebs- und Wartungsvorgangs oder des Anwendungsbetriebs abgerufen. Dadurch wird sichergestellt, dass Benutzer die Passwörter von an verschiedenen Orten verstreuten Ressourcen nicht aktualisieren müssen, wodurch die Betriebs- und Wartungseffizienz verbessert wird.

4. Kostenoptimierung: Automatisierte Kostenoptimierung für Cloud-Ressourcen

Ein weiteres von OOS umgesetztes Szenario ist die automatische Ressourcenkostenoptimierung. Die Ressourcennutzung der Benutzer schwankt häufig täglich zyklisch. Bei einigen Bürodiensten liegt die Spitzenauslastung beispielsweise zwischen 8 und 18 Uhr. Nach Feierabend um 18 Uhr sinkt die Nutzungslast auf ein niedrigeres Niveau. Der Zyklus einiger Spiele oder Unterhaltungsanwendungen kann dem von Bürodiensten genau entgegengesetzt sein. Hauptverkehrszeiten sind nach Feierabend und am Wochenende. Durch die Zusammenfassung dieser Erfahrungen wird nun eine entsprechende theoretische Grundlage für eine automatisierte Kostenoptimierung geschaffen. Die beiden Szenarien am Beispiel von Computer- und Netzwerkressourcen sind die beiden Szenarien im Bild.

Szenario 1, Rechenressourcen. Das Problem des Benutzers besteht darin, dass seine Maschinen regelmäßig eine beispiellose Kostenverschwendung verursachen. Erstens liegt die Spitzenlast der Maschine des Benutzers zwischen 8 und 12 Uhr. Von 12.00 Uhr bis 8.00 Uhr am nächsten Morgen handelt es sich tatsächlich um eine Zeit mit geringem Lockdown. Wenn Benutzer Schätzungen vornehmen, schätzen sie auf der Grundlage der Rechenressourcen während der Spitzenzeit. Wenn wir auf der Grundlage der Ressourcen außerhalb der Spitzenzeiten abschätzen, werden in Spitzenzeiten nicht genügend Ressourcen vorhanden sein, was zu einem Denial-of-Service der Anwendung und zu Ausfällen führt. Eine Schätzung auf der Grundlage von Rechenressourcen während Spitzenzeiten führt jedoch zu einer Verschwendung von Rechenressourcen in Zeiten geringer Spitzenlast.

Ecs bietet einen Ausfallzeit-Sparmodus. Durch den Ausfallzeit-Sparmodus können Rechenressourcen während der Ausfallzeit nicht aufgeladen werden. Allerdings müssen Benutzer Skripte schreiben, um die Automatisierung durch Speichern des Durchschnittsmodus abzuschließen, was ebenfalls komplizierter ist. Daher bietet OOS ein komplettes Lösungspaket zur Kostenoptimierung durch regelmäßige Konfiguration des automatischen Starts während Spitzenzeiten und des automatischen Herunterfahrens während Zeiten niedriger Spitzenzeiten. Um 8 Uhr morgens löst oos den Startvorgang und um 12 Uhr abends den Herunterfahrvorgang aus. Zu diesem Zeitpunkt werden einige ungenutzte Rechenressourcen recycelt, wodurch die Kosten gesenkt werden. Bevor am nächsten Tag der Höhepunkt kommt, wird um 8 Uhr morgens wieder gestartet, um 12 Uhr wieder heruntergefahren und die automatisierte Kostenoptimierung immer wieder durchgeführt.

Szenario 2 ist die Optimierung der Netzwerkressourcen. Tatsächlich gibt es auch bei Netzwerkressourcen Spitzen und Täler bei der Nutzung. Die Spitzenzeit der Bandbreitennutzung liegt zwischen 11 und 13 Uhr. Die Netzwerknutzung ist zu diesem Zeitpunkt offensichtlich höher als zu anderen Zeiten. Andere Zeiten sind Nebenzeiten. Wenn auf diese Weise die feste Bandbreite entsprechend der Zeit mit geringer Spitzenlast eingestellt wird, ist die Bandbreite während der Spitzenzeit voll, was die Bereitstellung von Diensten unmöglich macht und einige Ausfälle verursacht. Wenn die feste Bandbreite auf der Grundlage von Spitzenzeiten geschätzt wird, wird Bandbreite außerhalb der Spitzenzeiten stark verschwendet. Wenn eine große Bandbreite verwendet wird, sind die Kosten höher, da die Spitzenzeit kurz ist. Derzeit hoffen Benutzer, die Bandbreite nur in Spitzenzeiten vorübergehend zu erhöhen.

ECS bietet die Funktion, die Bandbreite vorübergehend zu erweitern. Benutzer können festlegen, wie viel Bandbreite in einem bestimmten Zeitraum und für wie lange aktualisiert werden soll. Da die Bandbreite relativ festen periodischen Schwankungen unterliegt, hoffen Benutzer, Vorgänge regelmäßig durchführen zu können. Um Kosten zu sparen, bietet OOS daher auch eine geplante Bandbreite und eine Upgrade-Lösung an: Die Bandbreite wird zu einer vom Benutzer voreingestellten kurzen Zeit, beispielsweise um 11 Uhr, auf ein höheres Niveau aktualisiert und dauert dann zwei Stunden.

In der Nebenlastzeit der Nutzer kann die Bandbreite reduziert und auf dieser Basis weitere Vorgänge durchgeführt werden. Wenn beispielsweise die Schätzung des Benutzers zur Ankunftszeit der Spitzenzeit nicht sehr genau ist, kann die Auslösung eines Cloud-Überwachungsalarms verwendet werden, um vorübergehende Bandbreiten-Upgrades durchzuführen. Wenn die Bandbreitennutzung beispielsweise 70 % überschreitet, wird vorhergesagt, dass die Die Bandbreite steht kurz vor dem Eintreffen. Bei Nutzungsspitzen wird die temporäre Bandbreite zu diesem Zeitpunkt erhöht. Sobald die Spitzenzeit vorüber ist, wird die temporäre Bandbreite wieder reduziert. Durch diesen Vorgang können einige Dinge erledigt werden, die nicht so zyklisch sind, und die Ressourcennutzung kann optimiert werden.

5. Sicherheitskonformität: Scannen und Reparieren von Systempatches

OOS verfügt auch über viele Best Practices in Sicherheits-Compliance-Szenarien. Eine der Best Practices ist die bereitgestellte Patch-Management-Funktion: Sie kann das Scannen und Reparieren von System-Patches unterstützen und eine automatische feste Reparatur von ECS-Instanzen erreichen.

Erstens bietet das Patch-Management für jedes Betriebssystem ein sofort einsatzbereites, festes Limit, sodass mehr als 80 % der Benutzer einen sofort einsatzbereiten Effekt ohne Konfiguration erzielen können. Für Benutzer mit besonderen Anforderungen an die Installation von Patches bietet OOS auch die Möglichkeit, anstelle der standardmäßigen festen Grenzwerte benutzerdefinierte variable Grenzwerte zu verwenden. Sie können einige Filter und Filterungen nach Typ, Ebene und Veröffentlichungszeit dieser Betriebssystemebene durchführen Patches. Filter. Wenn Benutzer beispielsweise relativ hohe Stabilitätsanforderungen haben, installieren sie möglicherweise nur Sicherheitsbetriebssysteme und sicherheitsrelevante Patches. Wenn das Risikoniveau jedoch hoch ist, werden optimierte Patches wie Erweiterungen oder niedrigdimensionale Patches nicht installiert.

Gleichzeitig können Benutzer auch Anforderungen an die Veröffentlichungszeit stellen, die mehr als eine Woche nach der Installation und Veröffentlichung relativ stabil ist. Da einige Patches veröffentlicht und getestet wurden und festgestellt wurde, dass sie Probleme aufweisen, werden sie recycelt. Derzeit birgt die Installation des Patches unmittelbar nach seiner Veröffentlichung einige versteckte Gefahren. Wenn ein Patch über einen längeren Zeitraum veröffentlicht und getestet wird, ist seine Stabilität tatsächlich bis zu einem gewissen Grad gewährleistet.

Darüber hinaus ähnelt das Patch-Management einigen grundlegenden Funktionen von OOS und unterstützt eine Vielzahl von Methoden zur Instanzauswahl. Durch diese manuelle Auswahl von Tags werden die Auswahl von Ressourcengruppen, die Auswahl von Konfigurationslisten und die Patchverwaltung unterstützt. In diesem Szenario kann der Benutzer beispielsweise in den Ressourcen über Ressourcen für die Testumgebung und Ressourcen für die Produktionsumgebung verfügen.

Die beiden Ressourcen erfordern möglicherweise unterschiedliche Konfigurationen und Tests. Weil die Stabilitätsanforderungen möglicherweise nicht sehr hoch sind. So können wir es jeden Tag aktualisieren. Installieren Sie geeignete Patches, sobald diese verfügbar sind. Die Produktionsumgebung stellt höhere Anforderungen an die Ressourcenstabilität und muss daher regelmäßig jede Woche durchgeführt werden. Dies kann durch die Auswahl von Instanzen erreicht werden. Darüber hinaus unterstützt das Patch-Management auch eine Vielzahl von Reparaturmethoden, darunter nur das Scannen. Das heißt, es wird nur gescannt, welche repariert sind und welche installiert werden müssen, aber sie sind nicht tatsächlich installiert. Überprüfen Sie zunächst den spezifischen Patch-Installationsstatus in der aktuellen Instanz.

Darüber hinaus dient es zum Scannen und Installieren. Zu diesem Zeitpunkt wird nicht nur nach Patches gesucht, sondern auch Systempatches mit komplexen, unbegrenzten Grenzen installiert. Bei den kritischeren Patches handelt es sich um Windows-Patches oder Linux- und Kernel-Patches. In manchen Fällen ist auch ein Neustart der Instanz erforderlich, damit die Maßnahme wirksam wird. Benutzer können sagen, dass ich die Instanz nach der Installation nicht nach Bedarf neu starte. Zu diesem Zeitpunkt wurde der Patch installiert, er ist jedoch noch nicht wirksam. Dann kann der Benutzer einen passenderen Zeitpunkt und ein Betriebs- und Wartungsfenster für den Neustart der Instanz festlegen, damit der Patch wirksam wird, oder die Instanz unmittelbar nach der festen Installation neu starten, damit er wirksam wird. Dies alles kann im Patch-Management eingestellt werden.

Das Patch-Management unterstützt auch flexible Bestrafungsmethoden, wie z. B. sofortige Reparatur oder die Planung regelmäßiger Reparaturen. Das Patch-Management wird mit einer Vielzahl aktueller Server-Betriebssysteme geliefert, darunter Linux und Windows, die 9 gängige Betriebssysteme unterstützen. Zusätzlich zum Windows-Server werden auch 8 Arten von Linux-Servern unterstützt. Zu den verschiedenen Versionen gehören Alibaba Cloud, Anolis, CentOS, RHEL, Debian, Ubuntu, Alma Linux und Rocky Linux.

Über die Patch-Verwaltungsfunktion können Benutzer einen Stapel von ECS-Instanzen formulieren und reparieren, zu denen Linux-Instanzen und Windows-Instanzen gehören können. Anschließend ruft das Installationsskript der Patch-Verwaltung die entsprechenden Patches entsprechend dem Typ des Betriebssystems in der Instanz ab. Alibaba Cloud benötigt beispielsweise den entsprechenden Patch-Zeitraum. Wenn es sich um eine Windows-Patch-Instanz handelt, wird die entsprechende Windows-Patch-Maschine aufgerufen, um den Patch zu installieren und den Scan zu konfigurieren.

6. Sicherheits-Compliance: Automatische Reparatur der Sicherheits-Compliance kombiniert mit Konfigurationsaudit

Darüber hinaus handelt es sich bei der Konfigurationsprüfung um einen Ressourcenprüfungsdienst, der die kontinuierliche Konformität der Ressourcen gewährleistet. Die automatisierte Compliance-Behebung, die mit OOS kombiniert werden kann, ist ein ressourcenintensiver Service. Konfigurieren Sie den Prüfdienst, um nicht konforme Ressourcen zu erkennen. Durch die Konfiguration von Prüfdiensten zur Prüfung verschiedener Cloud-Ressourcen können Sie anhand dieser voreingestellten Regeln überprüfen, ob die Konfiguration von Cloud-Ressourcen den bewährten Sicherheitspraktiken und Compliance-Anforderungen entspricht. Für jede Prüfregel können Benutzer das automatische Reparaturschema von OOS konfigurieren. Denn standardmäßig erkennt die Konfigurationsprüfung, welche Ihrer Ressourcen nicht konform sind, und fordert Sie auf, diese manuell zu reparieren. Durch die automatische Reparaturlösung OOS können manuelle Reparaturen vermieden werden. Benutzer können sofort eine automatische Reparatur auslösen, wenn bei der Konfigurationsprüfung eine Nichteinhaltung der Ressourcen festgestellt wird.

Nehmen Sie als Beispiel das Bild in der Abbildung. Dies ist eine Innovation von Cloud-Ressourcen-Tags. Sie können es auf Cloud-Ressourcen sehen. Tatsächlich haben wir drei Arten von Etiketten: eines ist das regionale Etikett, das andere ist das Abteilungsetikett, also die Informationsabteilung, und das andere ist das Umweltetikett, z. B. die Testumgebung und die Produktionsumgebung. Sie können sehen, dass jede Ressource auf ECS OOS und VPC unterschiedlich gekennzeichnet ist. Bei der Konfiguration der Überwachung können Sie einige Compliance-Regelanforderungen konfigurieren.

Beispielsweise wurde heute eine Regel zugewiesen, die besagt, dass eine ausgewiesene Etikettenabteilung vorhanden sein muss. Denn das Unternehmen wird die Kosten nach Abteilungen aufteilen. Wenn Sie nicht als Abteilung gekennzeichnet sind, werde ich Sie bei der Aufteilung der Konten nicht in die Abteilung aufnehmen. Dies führt zu einer ungenauen Buchhaltung und es ist unmöglich, alle Kosten auf verschiedene Abteilungen aufzuteilen. Daher erkennt die Konfigurationsprüfung alle Ressourcen und stellt fest, dass einige Ressourcen nicht mit Abteilungen gekennzeichnet sind. Zu diesem Zeitpunkt wird er diese Ressourcen aufzeichnen. OOS löst eine automatische Reparatur aus und weist gemäß voreingestellten Regeln bestimmte Labels nicht konformen Ressourcen zu und repariert die Labels auf den Ressourcen. Gleichzeitig kennzeichnet ecs alle Ressourcen mit abteilungsbezogenen Labels, was eine sinnvolle und genaue Abrechnung gewährleisten kann.

4. Zusammenfassung

Die Cloud bietet tatsächlich eine Vielzahl von Best Practices, darunter die beste Zeit für Ressourcenbetrieb und -wartungseffizienz, Ressourcenkosten sowie Ressourcensicherheit und Sicherheitskonformität. Die OOS-Plattform nutzt ihre leistungsstarken Aufgabenorchestrierungsfunktionen und zusätzliche Unterstützung. Betriebs- und Wartungsfunktionen können automatisiert werden Best Practices für die Cloud in vielerlei Hinsicht. Benutzer können ihre eigene automatisierte Betriebs- und Wartungsplattform basierend auf OOS, der Task-Orchestrierungsplattform und den Best Practices jedes Produkts in der Cloud erstellen. Die endgültige Entwicklungsrichtung von OOS besteht darin, eigene Plattformfunktionen aufzubauen, mehr Cloud-Ressourcen durch Senkung der Nutzungsschwelle zu unterstützen und Best Practices automatisch auf mehr Cloud-Ressourcenszenarien anzuwenden. Dann können Benutzer ihre eigene automatisierte Betriebs- und Wartungsplattform basierend auf der OOS-Plattform bequemer und effizienter aufbauen.

Ursprünglicher Link

Dieser Artikel ist Originalinhalt von Alibaba Cloud und darf nicht ohne Genehmigung reproduziert werden.

Bilibili stürzte zweimal ab, Tencents „3.29“-Unfall erster Stufe … Bestandsaufnahme der zehn häufigsten Ausfallunfälle im Jahr 2023 Vue 3.4 „Slam Dunk“ veröffentlichte MySQL 5.7, Moqu, Li Tiaotiao … Bestandsaufnahme des „Stopps“ im Jahr 2023 Mehr ” (Open-Source-)Projekte und Websites blicken auf die IDE von vor 30 Jahren zurück: nur TUI, helle Hintergrundfarbe... Vim 9.1 wird veröffentlicht, gewidmet Bram Moolenaar, dem Vater von Redis, „Rapid Review“ LLM Programming: Omniscient und Omnipotent&& Stupid „Post-Open Source“ Die Ära ist gekommen: Die Lizenz ist abgelaufen und kann nicht mehr für die breite Öffentlichkeit bereitgestellt werden. China Unicom Broadband begrenzte plötzlich die Upload-Geschwindigkeit und eine große Anzahl von Benutzern beschwerte sich. Windows-Führungskräfte versprachen Verbesserungen: Machen Sie den Anfang Speisekarte wieder super. Niklaus Wirth, der Vater von Pascal, ist verstorben.
{{o.name}}
{{m.name}}

Supongo que te gusta

Origin my.oschina.net/yunqi/blog/10573351
Recomendado
Clasificación