Zusammenfassung der O&M-Überwachungsindikatoren

Fassen Sie die Überwachungsinhalte in den Betriebs- und Wartungsarbeiten zusammen.

Überwachungsziel

Verstehen Sie die Bedeutung der Überwachung und die Geschäftsziele, die mit der Überwachung erreicht werden sollen

Beziehen Sie in der Regel die folgenden drei Punkte ein:

  • Echtzeitüberwachung des Zielsystems

  • Das Monitoring kann Echtzeit-Feedback zum aktuellen Zustand des Zielsystems liefern, ob die Hardware, Software und das Geschäft des Zielsystems normal sind und in welchem ​​Zustand sie sich gerade befinden

  • Stellen Sie die Zuverlässigkeit des Zielsystems sicher und das Geschäft kann stabil weiterlaufen

Überwachungsmethode

  • Verstehen Sie die Überwachungsobjekte wie: Wie funktioniert die CPU?

  • Leistungsbenchmark-Indikatoren wie: CPU-Auslastung, Last, Benutzermodus, Kernelmodus, Kontextwechsel

  • Zum Beispiel die Definition der Alarmschwelle: die Definition der hohen CPU-Last, wie hoch ist der Kernel-Status und der Benutzerstatus

  • So gehen Sie effizienter mit Störungen um

Überwachungskern

  • Problem gefunden

  • Positionierungsproblem

  • Das Problem lösen

  • Fassen Sie das Problem zusammen, fassen Sie die Ursache des Fehlers und die Vermeidung des Problems zusammen, um ein erneutes Auftreten in der Zukunft zu vermeiden

Überwachungstool

  • Veteranenüberwachung

    • Kakteen

    • Nagios

    • Rauchen

  • beliebte Überwachung

    • Zabbix

    • OpenFalcon

    • Prometheus + Grafana

    • Didi Open Source Nachtigall

    • Smartping (für Netzwerküberwachung)

    • LEPUS Usagi (der Überwachungsdatenbank gewidmet)

    • Selbststudium

  • Überwachung durch Dritte

    • Schätze überwachen

    • Lauschen Sie der Wolke

    • neues Relikt

Überwachungsprozess

  • Sammlung

Sammeln Sie Daten vom System über SNMP, Agent, ICMP, SSH, IPMI usw.

  • Lagerung

Verschiedene Datenbankdienste, MySQL, PostgreSQL

  • analysieren

Stellen Sie Grafiken und Zeitachseninformationen zur Verfügung, um uns die Lokalisierung des Fehlers zu erleichtern

  • Ausstellungsstück

Indikatorinformationen, Indikatortrendanzeige

  • Rufen Sie die Polizei

Telefon, E-Mail, WeChat, SMS, Alarm-Upgrade-Mechanismus

  • bewältigen

Bestimmen Sie die Fehlerebene und finden Sie Responder für eine schnelle Bearbeitung

Überwachungsindikatoren

Hardwareüberwachung

  • Maschinenhardware: CPU-Temperatur, physische Festplatte, virtuelle Festplatte, Temperatur der Hauptplatine, Festplatten-Array Das
    IPMI-Tool kann den Status der Hardware nicht ermitteln, Sie können das MegaCli-Tool verwenden, um den Status der RAID-Festplattenwarteschlange zu ermitteln
    https://www.ibm. com/developerworks/cn/linux /l-ipmi/

Systemüberwachung

  • Gastgeber am Leben

  • CPU, Arbeitsspeicher, Festplatte, Nutzung

  • Inode

  • Belastung

  • Zugriffsbandbreite der Netzwerkkarte

  • Anzahl der TCP-Verbindungen

  • Disk lesen und schreiben, nur lesen

Anwendungsüberwachung

MySQL

  • Serviceverfügbarkeit

  • Speichernutzung

  • Festplattennutzung

  • Master-Slave-Asynchronität und Verzögerung

  • Backup-Situation

  • Verbindungen

Redis, Redis-Cluster

  • Belastung

  • Speichernutzung

  • Anzahl der Verbindungen

  • SWC

Nginx

  • Statuscode

  • Informationen zum Verbindungsstatus

  • RabbitMQ

  • PHP-FPM

  • OpenLDAP

    • Zugriffs-IP

    • Anzahl der Anrufe

  • Zimbra

  • OpenVPN

    • Versionsinformationen, derzeit online

    • Benutzer, IP zuweisen, Client-Verbindungs-IP, Adressstandort über IP abrufen, Verkehrsverbindungszeitdauer-Verbindungs-ID empfangen und senden

  • ELCH

  • Graylog

  • GitLab

  • Jenkins

  • MongoDB

  • HAproxy

Netzwerküberwachung

  • Netzwerkqualität

  • Ausgang des öffentlichen Netzwerks

  • Bandbreite der dedizierten Leitung

  • Internet-Ausrüstung

Verkehrsanalyse

Log-Überwachung

Sicherheitsüberwachung

  • URL, API-Überwachung

  • Selbststudium

  • Alibaba Cloud-Lösung

Leistungsüberwachung (APM) java|php|go|nodejs|verteiltes Link-Tracking

  • Punktgenau

  • Zipkin

  • SkyWalking

  • CAT, Jäger

Geschäftsüberwachung

Beispiel E-Commerce-Geschäft:

  • Wie viele Bestellungen werden pro Minute generiert

  • Wie viele Benutzer werden pro Minute registriert

  • aktive Benutzer pro Minute

  • Wie viele Aktionen pro Tag

  • Wie viele Benutzer wurden durch die Kampagne gewonnen

  • Wie viel Verkehr wird durch die Promotion gebracht

  • Wie viel Gewinn wird durch Werbemaßnahmen erzielt

andere

  • Überwachung von SSL-Zertifikaten

  • Ob der überlebende Prozess noch da ist, Portüberwachung, Log-Scrolling

  • Zustandsanzeige MQ-Nachrichtenakkumulationsvolumen

  • Schnittstellenüberwachung API-Erfolgsrate, Verzögerung, QPS usw.

Überwachungsalarm

  • Post

  • Kurznachricht

  • DingTalk, WeChat, Enterprise WeChat und andere Instant-Messaging-Software

  • Telefon

Alarmbehandlung

Fehlerselbstheilung: Automatisch starten, wenn der Server heruntergefahren ist. Verwenden Sie zur Implementierung den Softwaremechanismus Supervisor, Systemd oder benutzerdefinierte Skripts

Umfassende Überwachung

Hardwareüberwachung

Der Router-Switch wird über SNMP überwacht, und andere Inhalte werden mithilfe von IPMI implementiert. Wenn es sich bei allen um öffentliche Clouds handelt, können Sie diesen Teil ignorieren. Fall: Open-Falcon-Überwachungsrouter H3C-ER3260G2

Systemüberwachung

Dienstüberwachung

  • Der Service gehört dazu

    • Nginx wird mit dem Statusmodul geliefert

    • PHP entsprechendes Statusmodul

    • MySQL verwendet die offiziellen Percona-Tools für die Überwachung

  • Daten nach benutzerdefinierter Methode abrufen

    • MySQL zeigt den globalen Status xxx an;

    • Redis info-Befehlsinformationen

  • Netzwerküberwachung (Hybride Cloud-Architektur)

    • Rauchen

    • schlau

  • Sicherheitsüberwachung

    • Cloud-Dienste können direkt Cloud-Sicherheitsgruppen verwenden oder native iptables ergänzen

    • Hardware-Firewall

    • Webdienste verwenden Nginx+Lua, um eine Firewall auf Webebene oder Openresty zu implementieren

  • Protokollüberwachung
    ELK und Graylog realisieren die Schlüsselwortüberwachung von Ausnahmeprotokollen und Fehlerprotokollen

  • Unternehmensüberwachung
    Bestimmen Sie die Überwachungsindikatoren und überwachen Sie sie, verschiedene Unternehmen sind unterschiedlich

  • Verkehrsanalyse
    Es wird empfohlen, Baidu-Statistiken, Google-Statistiken, Business-, R & D-Embedded-Code-Implementierung zu verwenden.

    oder piwik verwenden

  • visuelles
    Dashboard

  • Automatisierte Überwachung
    Durch API, Batch-Betrieb

Zusammenfassung der Überwachung

Ein vollständiges Überwachungssystem erfordert ein detailliertes Verständnis des Geschäfts, und Software ist nur ein Mittel.

Supongo que te gusta

Origin blog.csdn.net/LinkSLA/article/details/130213736
Recomendado
Clasificación