Buenos hábitos de operación y mantenimiento.

6 buenos hábitos de operación y mantenimiento

1. Especificaciones de operación en línea

1. Prueba de uso

Cuando aprendí por primera vez el uso de Linux , desde básico hasta servicio y clúster, lo hice en una máquina virtual. Aunque el profesor nos dijo que no hay diferencia con la máquina real, el deseo por el entorno real aumenta día a día, pero varias instantáneas de la máquina virtual hacen Hemos desarrollado una variedad de hábitos útiles, de modo que cuando obtengamos la autoridad de operación del servidor, no podamos esperar para probarlo. Recuerde que el primer día de trabajo, el jefe me dio la contraseña de root . Como solo puedo usar masilla , lo haré Desea usar xshell , inicie sesión silenciosamente en el servidor e intente cambiar a inicio de sesión xshell + key, porque no hay prueba y no hay conexión ssh . Después de reiniciar el servidor sshd , me bloquearon el servidor. Afortunadamente, hice una copia de seguridad del archivo sshd_config . y luego dejar que el personal de la sala de máquinas cp pasado, afortunadamente esto es una pequeña empresa, o directamente hacer ...... suerte, entonces mejor suerte.

El segundo ejemplo es sobre la sincronización de archivos. Todos saben que la sincronización de rsync es muy rápida, pero él elimina los archivos mucho más rápido que rm -rf. Hay un comando en rsync para sincronizar un archivo basado en un directorio determinado (si es el primero Un directorio está vacío, por lo que se puede imaginar el resultado), el directorio fuente (con datos) se eliminará. Al principio, debido a un mal funcionamiento y falta de pruebas, el directorio se invirtió. La clave es que no hay copia de seguridad ... Se eliminaron los datos del entorno de producción.

Sin respaldo, todos piensan en las consecuencias, su importancia es evidente.

2. Confirme dos veces antes de ingresar

Con respecto al error de rm -rf / var , creo que las personas con manos rápidas, o cuando la velocidad de Internet es relativamente lenta, la probabilidad de ocurrencia es bastante grande

Cuando descubres que la ejecución ha finalizado, tu corazón está al menos medio frío.

Puedes decir, lo he presionado tantas veces y nada salió mal. No tengas miedo, solo quiero decir

Comprenderá cuándo aparece una vez. No piense que los accidentes de operación y mantenimiento son todos otros. Si no presta atención, el siguiente es usted.

3. Evite la operación con múltiples personas

En la última compañía en la que estuve, la administración de operación y mantenimiento fue bastante confusa. Permítanme darles el ejemplo más típico. La operación y el mantenimiento que han dejado varios trabajos tienen una contraseña raíz del servidor .

Por lo general, cuando recibimos una tarea, simplemente verificaremos si no se puede resolver y le pediremos ayuda a otros, pero cuando el problema es abrumador, el supervisor de servicio al cliente (entiende Linux ), el administrador de la red, su supervisor depura un servidor juntos, cuando usted es todo tipo de Baidu , Varias comparaciones, después del descubrimiento, el archivo de configuración de su servidor es diferente de la última vez que lo modificó y luego lo volvió a cambiar, y luego Google, encontró el problema felizmente y lo resolvió, otros le dijeron que él también lo resolvió, Los parámetros modificados son diferentes ... Esto, realmente no sé cuál es la verdadera causa del problema. Por supuesto, esto sigue siendo bueno. El problema está resuelto, y todos están contentos, pero ha encontrado el archivo que acaba de modificar, la prueba no es válida, entonces ¿Cuándo voy a modificar y encuentro que el archivo ha sido modificado nuevamente? Estoy realmente molesto y no dejo que varias personas lo operen.

4. Copia de seguridad antes de la operación

Desarrolle un hábito, cuando desee modificar los datos, primero haga una copia de seguridad, como el archivo de configuración de .conf

Además, al modificar el archivo de configuración, se recomienda comentar las opciones originales, y luego copiar y modificar

Además, si hay una copia de seguridad de la base de datos en el primer ejemplo, la operación incorrecta de rsync estará bien pronto.

Por lo tanto, no es como perder una base de datos de la noche a la mañana, simplemente hacer una copia de seguridad de una no es tan malo.

2. Datos involucrados

1. Use rm -rf con precaución

Hay muchos ejemplos en Internet, varios rm -rf / , varios borrados de la base de datos principal, varios accidentes de operación y mantenimiento ...

Un pequeño error causará grandes pérdidas. Si realmente necesita eliminar, tenga cuidado.

2. El respaldo es más que todo

Originalmente, hay todo tipo de copias de seguridad anteriores, pero quiero dividirlas en categorías de datos. Una vez más, la copia de seguridad es muy importante.

Recuerdo que mi maestro dijo una palabra, no es demasiado cauteloso con los datos.

La empresa para la que trabajo tiene un sitio web de pago de terceros y una plataforma de préstamos en línea

El pago de terceros se respalda completamente cada dos horas, y la plataforma de préstamos en línea se respalda cada 20 minutos

No diré más, considerándolo por nosotros mismos

3. La estabilidad está por encima de todo.

De hecho, más que datos, en todo el entorno del servidor, la estabilidad es mayor que todo, no el más rápido, sino el más estable, y la disponibilidad

Entonces, sin realizar pruebas, no use un nuevo software en el servidor, como nginx + php-fpm , PHP se bloquea en el entorno de producción.

Simplemente reinícielo o simplemente cambie a apache .

4. La confidencialidad lo es todo

Ahora, todo tipo de fotos hermosas vuelan por todo el cielo, y varios enrutadores son puertas traseras, por lo que es imposible decir que no es confidencial cuando se trata de datos.

3. seguridad

1. ssh

Cambie el puerto predeterminado (por supuesto, si el profesional quiere hackearlo, saldrá después del escaneo)

No permitir inicio de sesión root

Use usuario común + autenticación de clave + regla de sudo + dirección IP + restricción de usuario

Utilice un software de craqueo a prueba de explosiones como hostdeny (más de unos pocos intentos para tirar directamente del negro)

Filtrar usuarios de inicio de sesión en / etc / passwd

2. Cortafuegos

El entorno de producción del cortafuegos debe estar abierto y seguir el principio de mínimo, descartar todo y luego liberar los puertos de servicio requeridos.

3. Permisos finos y granularidad de control

Los servicios que pueden iniciar los usuarios comunes nunca deben usar root , controlar los permisos de varios servicios al mínimo y controlar la granularidad.

4. Detección de intrusos y monitoreo de registros

Utilice software de terceros para detectar siempre cambios en los archivos de clave del sistema y varios archivos de configuración de servicio

Por ejemplo , / etc / passwd, /etc/my.cnf , /etc/httpd/con/httpd.con, etc.

Utilice un sistema centralizado de monitoreo de registros para monitorear / var / log / secure , / etc / log / message , cargar y descargar archivos ftp y otros registros de errores de alarma;

Además, para el escaneo de puertos, también puede usar algún software de terceros y descubrir que se escanea directamente en host.deny . Esta información es muy útil para solucionar problemas después de que el sistema sea pirateado. Se ha dicho que el costo de la inversión en seguridad de una empresa es proporcional al costo de su pérdida debido a un ataque de seguridad. La seguridad es un gran tema

También es un trabajo muy básico. Si se completa la base, la seguridad del sistema mejorará considerablemente.

4. Monitoreo diario

1. Monitoreo de operación del sistema

Muchas personas entran en operación y mantenimiento desde el monitoreo. Las grandes empresas generalmente tienen monitoreo y mantenimiento profesional las 24 horas. El monitoreo de la operación del sistema generalmente incluye la ocupación del hardware

Los más comunes son: memoria, disco duro, CPU , tarjeta de red, sistema operativo que incluye monitoreo de inicio de sesión, monitoreo de archivos de clave del sistema

El monitoreo regular puede predecir la probabilidad de daños en el hardware y brindar funciones muy prácticas para el ajuste

2. Servicio de monitoreo de operaciones

El monitoreo del servicio es generalmente una variedad de aplicaciones, web , db , lvs, etc. Esto generalmente está monitoreando algunos indicadores

Se puede descubrir y resolver rápidamente cuando el sistema tiene un cuello de botella en el rendimiento.

3. Monitoreo de registros

La supervisión de registro aquí es similar a la supervisión de registro segura, pero aquí generalmente hay información de hardware, sistema operativo , error de aplicación y alarma

El monitoreo es realmente inútil cuando el sistema se ejecuta de manera estable, pero si hay un problema, será pasivo si no monitorea

V. Ajuste de rendimiento

1. Comprensión profunda del mecanismo operativo

De hecho, de acuerdo con más de un año de experiencia en operación y mantenimiento, hablar sobre el ajuste es básicamente hablar en papel, pero solo quiero resumir brevemente, si hay una comprensión más profunda, actualizaré. Antes de optimizar el software, por ejemplo, para comprender profundamente el mecanismo operativo de un software, como nginx y apache, todos dicen que nginx es más rápido, entonces debe saber por qué nginx es más rápido, qué principio se usa, procesar solicitudes es mejor que apache y debe poder comunicarse con otros. Dígalo en palabras simples y fáciles de entender, y comprenda el código fuente cuando sea necesario; de lo contrario, todos los documentos que usan parámetros como objetos de ajuste no tienen sentido.

2. Marco de ajuste y secuencia

Familiarizado con el mecanismo operativo subyacente, debe haber un marco de ajuste y una secuencia. Por ejemplo, si la base de datos tiene un cuello de botella, muchas personas cambian directamente el archivo de configuración de la base de datos. Mi sugerencia es analizar primero el cuello de botella, verificar el registro y escribir el ajuste. Optimice la dirección y luego comience, y el ajuste del servidor de la base de datos debe ser el último paso, el primero debe ser el hardware y el sistema operativo, el servidor de la base de datos actual solo se libera después de varias pruebas

Aplicable a todos los sistemas operativos, no debe comenzar con él.

3. Solo ajuste un parámetro a la vez

Solo se ajusta un parámetro a la vez, en comparación con todos los que lo saben, si ajusta más, se sentirá confundido.

4. Benchmark

Para juzgar si el ajuste es útil y para probar la estabilidad y el rendimiento de una nueva versión del software, debe tener una prueba de referencia, que involucra muchos factores

Si la prueba está cerca de las necesidades reales del negocio depende de la experiencia del probador. Para obtener información relevante, puede consultar la tercera edición de "High Performance MySQL " es bastante buena

Mi maestro dijo una vez que no hay parámetros universalmente aplicables, cualquier cambio en los parámetros y cualquier ajuste debe ajustarse al escenario comercial

Así que no ajuste más Google, ya no tendrá un efecto a largo plazo en su mejora y entorno empresarial.

Sexto, mentalidad de operación y mantenimiento.

1. Controle la mentalidad

Muchos rm -rf / data se encuentran en los primeros minutos de trabajo y están en la cima de la irritabilidad, entonces, ¿todavía planea controlar su mentalidad?

Alguien dijo que debe ir a trabajar cuando está irritable, pero puede tratar de evitar lidiar con entornos de datos críticos cuando está irritable

Cuanto más estresante, más tranquila perderás más.

La mayoría de la gente tiene la experiencia de rm -rf / data / mysql . Después de eliminarlo, puede imaginar ese tipo de estado de ánimo, pero si no hay respaldo, ¿de qué sirve su urgencia? En general, debe pensar con calma El peor plan, para mysql , es eliminar el archivo físico, algunas tablas seguirán existiendo en la memoria, así que desconecte el negocio, pero no cierre la base de datos mysql , que es muy útil para la recuperación, y use dd para copiar el disco duro, y luego Restaurar

Por supuesto, la mayoría de las veces solo puede encontrar una empresa de recuperación de datos.

Imagine que los datos se eliminan, realiza varias operaciones, cierra la base de datos y luego repara, no solo puede sobrescribir el archivo, sino que tampoco puede encontrar la tabla en la memoria.

2. Responsable de los datos.

El entorno de producción no es un juego de niños, y la base de datos no es un juego de niños. Usted debe ser responsable de los datos. Las consecuencias de no retroceder son muy graves.

3. llegar al fondo

Muchos operadores y personal de mantenimiento están ocupados y ya no estarán a cargo cuando resuelvan problemas. Recuerdo que el sitio web de un cliente siempre no se abrió el año pasado, y el error se informó después del código PHP .

Se descubrió que la sesión y whos_online estaban dañados. La operación y el mantenimiento anteriores fueron reparados por reparación . Lo arreglé así, pero después de unas horas, apareció nuevamente.

Después de repetir tres o cuatro veces, fui a la tabla de la base de datos de Google por razones de daños inexplicables: uno es el error de myisam , el segundo es mysqlbug y el tercero es mysql en el proceso de escritura

Es la matanza , y, finalmente, se encontró que la memoria no es suficiente, lo que resulta OOM matar el mysqld proceso

Y no hay partición de intercambio , la memoria de monitoreo en segundo plano es suficiente, y finalmente actualiza la memoria física para resolver.

4. Prueba y entorno de producción.

Asegúrese de mirar la máquina donde está antes de realizar operaciones importantes, evite abrir más ventanas

Buenos hábitos de operación y mantenimiento.

Supongo que te gusta