Fassen Sie die Überwachungsinhalte in den Betriebs- und Wartungsarbeiten zusammen.
Überwachungsziel
Verstehen Sie die Bedeutung der Überwachung und die Geschäftsziele, die mit der Überwachung erreicht werden sollen
Beziehen Sie in der Regel die folgenden drei Punkte ein:
-
Echtzeitüberwachung des Zielsystems
-
Das Monitoring kann Echtzeit-Feedback zum aktuellen Zustand des Zielsystems liefern, ob die Hardware, Software und das Geschäft des Zielsystems normal sind und in welchem Zustand sie sich gerade befinden
-
Stellen Sie die Zuverlässigkeit des Zielsystems sicher und das Geschäft kann stabil weiterlaufen
Überwachungsmethode
-
Verstehen Sie die Überwachungsobjekte wie: Wie funktioniert die CPU?
-
Leistungsbenchmark-Indikatoren wie: CPU-Auslastung, Last, Benutzermodus, Kernelmodus, Kontextwechsel
-
Zum Beispiel die Definition der Alarmschwelle: die Definition der hohen CPU-Last, wie hoch ist der Kernel-Status und der Benutzerstatus
-
So gehen Sie effizienter mit Störungen um
Überwachungskern
-
Problem gefunden
-
Positionierungsproblem
-
Das Problem lösen
-
Fassen Sie das Problem zusammen, fassen Sie die Ursache des Fehlers und die Vermeidung des Problems zusammen, um ein erneutes Auftreten in der Zukunft zu vermeiden
Überwachungstool
-
Veteranenüberwachung
-
Kakteen
-
Nagios
-
Rauchen
-
-
beliebte Überwachung
-
Zabbix
-
OpenFalcon
-
Prometheus + Grafana
-
Didi Open Source Nachtigall
-
Smartping (für Netzwerküberwachung)
-
LEPUS Usagi (der Überwachungsdatenbank gewidmet)
-
Selbststudium
-
-
Überwachung durch Dritte
-
Schätze überwachen
-
Lauschen Sie der Wolke
-
neues Relikt
-
Überwachungsprozess
-
Sammlung
Sammeln Sie Daten vom System über SNMP, Agent, ICMP, SSH, IPMI usw.
-
Lagerung
Verschiedene Datenbankdienste, MySQL, PostgreSQL
-
analysieren
Stellen Sie Grafiken und Zeitachseninformationen zur Verfügung, um uns die Lokalisierung des Fehlers zu erleichtern
-
Ausstellungsstück
Indikatorinformationen, Indikatortrendanzeige
-
Rufen Sie die Polizei
Telefon, E-Mail, WeChat, SMS, Alarm-Upgrade-Mechanismus
-
bewältigen
Bestimmen Sie die Fehlerebene und finden Sie Responder für eine schnelle Bearbeitung
Überwachungsindikatoren
Hardwareüberwachung
-
Maschinenhardware: CPU-Temperatur, physische Festplatte, virtuelle Festplatte, Temperatur der Hauptplatine, Festplatten-Array Das
IPMI-Tool kann den Status der Hardware nicht ermitteln, Sie können das MegaCli-Tool verwenden, um den Status der RAID-Festplattenwarteschlange zu ermitteln
https://www.ibm. com/developerworks/cn/linux /l-ipmi/
Systemüberwachung
-
Gastgeber am Leben
-
CPU, Arbeitsspeicher, Festplatte, Nutzung
-
Inode
-
Belastung
-
Zugriffsbandbreite der Netzwerkkarte
-
Anzahl der TCP-Verbindungen
-
Disk lesen und schreiben, nur lesen
Anwendungsüberwachung
MySQL
-
Serviceverfügbarkeit
-
Speichernutzung
-
Festplattennutzung
-
Master-Slave-Asynchronität und Verzögerung
-
Backup-Situation
-
Verbindungen
Redis, Redis-Cluster
-
Belastung
-
Speichernutzung
-
Anzahl der Verbindungen
-
SWC
Nginx
-
Statuscode
-
Informationen zum Verbindungsstatus
-
RabbitMQ
-
PHP-FPM
-
OpenLDAP
-
Zugriffs-IP
-
Anzahl der Anrufe
-
-
Zimbra
-
OpenVPN
-
Versionsinformationen, derzeit online
-
Benutzer, IP zuweisen, Client-Verbindungs-IP, Adressstandort über IP abrufen, Verkehrsverbindungszeitdauer-Verbindungs-ID empfangen und senden
-
-
ELCH
-
Graylog
-
GitLab
-
Jenkins
-
MongoDB
-
HAproxy
Netzwerküberwachung
-
Netzwerkqualität
-
Ausgang des öffentlichen Netzwerks
-
Bandbreite der dedizierten Leitung
-
Internet-Ausrüstung
Verkehrsanalyse
Log-Überwachung
Sicherheitsüberwachung
-
URL, API-Überwachung
-
Selbststudium
-
Alibaba Cloud-Lösung
Leistungsüberwachung (APM) java|php|go|nodejs|verteiltes Link-Tracking
-
Punktgenau
-
Zipkin
-
SkyWalking
-
CAT, Jäger
Geschäftsüberwachung
Beispiel E-Commerce-Geschäft:
-
Wie viele Bestellungen werden pro Minute generiert
-
Wie viele Benutzer werden pro Minute registriert
-
aktive Benutzer pro Minute
-
Wie viele Aktionen pro Tag
-
Wie viele Benutzer wurden durch die Kampagne gewonnen
-
Wie viel Verkehr wird durch die Promotion gebracht
-
Wie viel Gewinn wird durch Werbemaßnahmen erzielt
andere
-
Überwachung von SSL-Zertifikaten
-
Ob der überlebende Prozess noch da ist, Portüberwachung, Log-Scrolling
-
Zustandsanzeige MQ-Nachrichtenakkumulationsvolumen
-
Schnittstellenüberwachung API-Erfolgsrate, Verzögerung, QPS usw.
Überwachungsalarm
-
Post
-
Kurznachricht
-
DingTalk, WeChat, Enterprise WeChat und andere Instant-Messaging-Software
-
Telefon
Alarmbehandlung
Fehlerselbstheilung: Automatisch starten, wenn der Server heruntergefahren ist. Verwenden Sie zur Implementierung den Softwaremechanismus Supervisor, Systemd oder benutzerdefinierte Skripts
Umfassende Überwachung
Hardwareüberwachung
Der Router-Switch wird über SNMP überwacht, und andere Inhalte werden mithilfe von IPMI implementiert. Wenn es sich bei allen um öffentliche Clouds handelt, können Sie diesen Teil ignorieren. Fall: Open-Falcon-Überwachungsrouter H3C-ER3260G2
Systemüberwachung
Dienstüberwachung
-
Der Service gehört dazu
-
Nginx wird mit dem Statusmodul geliefert
-
PHP entsprechendes Statusmodul
-
MySQL verwendet die offiziellen Percona-Tools für die Überwachung
-
-
Daten nach benutzerdefinierter Methode abrufen
-
MySQL zeigt den globalen Status xxx an;
-
Redis info-Befehlsinformationen
-
-
Netzwerküberwachung (Hybride Cloud-Architektur)
-
Rauchen
-
schlau
-
-
Sicherheitsüberwachung
-
Cloud-Dienste können direkt Cloud-Sicherheitsgruppen verwenden oder native iptables ergänzen
-
Hardware-Firewall
-
Webdienste verwenden Nginx+Lua, um eine Firewall auf Webebene oder Openresty zu implementieren
-
-
Protokollüberwachung
ELK und Graylog realisieren die Schlüsselwortüberwachung von Ausnahmeprotokollen und Fehlerprotokollen -
Unternehmensüberwachung
Bestimmen Sie die Überwachungsindikatoren und überwachen Sie sie, verschiedene Unternehmen sind unterschiedlich -
Verkehrsanalyse
Es wird empfohlen, Baidu-Statistiken, Google-Statistiken, Business-, R & D-Embedded-Code-Implementierung zu verwenden.oder piwik verwenden
-
visuelles
Dashboard -
Automatisierte Überwachung
Durch API, Batch-Betrieb
Zusammenfassung der Überwachung
Ein vollständiges Überwachungssystem erfordert ein detailliertes Verständnis des Geschäfts, und Software ist nur ein Mittel.