Bons hábitos de operação e manutenção

6 bons hábitos de operação e manutenção

1. Especificações de operação on-line

1. Teste de uso

Quando aprendi o uso do Linux , do básico ao serviço, ao cluster, fiz isso em uma máquina virtual.Embora o professor tenha nos dito que não há diferença em relação à máquina real, o desejo pelo ambiente real está aumentando dia a dia, mas vários instantâneos da máquina virtual fazem Desenvolvemos uma variedade de hábitos úteis, para que, quando obtivemos a autoridade de operação do servidor, não esperemos para experimentá-lo. Lembre-se de que no primeiro dia de trabalho, o chefe me deu a senha de root . Como só posso usar massa , Deseja usar o xshell , faça logon silenciosamente no servidor e tente mudar para xshell + key login, porque não há teste e não há conexão ssh . Após reiniciar o servidor sshd , fui bloqueado no servidor. Felizmente, fiz o backup do arquivo sshd_config . Então, deixe a equipe da sala de computadores cp apenas no passado.Felizmente, esta é uma empresa pequena, caso contrário será diretamente seca ... Felizmente, a sorte foi melhor.

O segundo exemplo é sobre sincronização de arquivos. Todo mundo sabe que a sincronização do rsync é muito rápida, mas ele exclui arquivos muito mais rapidamente que o rm -rf. Existe um comando no rsync para sincronizar um arquivo com base em um determinado diretório (se o primeiro Um diretório está vazio, para que o resultado possa ser imaginado), o diretório de origem (com dados) será excluído.A princípio, devido à operação incorreta e à falta de testes, o diretório foi revertido.A chave é que não há backup ... Os dados do ambiente de produção foram excluídos

Sem backup, todo mundo pensa nas consequências, sua importância é evidente.

2. Confirme duas vezes antes de entrar

Em relação ao erro de rm -rf / var , acredito que pessoas com mãos rápidas ou quando a velocidade da Internet é relativamente lenta, a probabilidade de ocorrência é bastante grande

Quando você descobre que a execução está concluída, seu coração está pelo menos meio frio.

Você pode dizer, eu pressionei tantas vezes e nada deu errado.Não tenha medo, só quero dizer

Você entenderá quando aparecer uma vez. Não pense que os acidentes de operação e manutenção são todos dos outros. Se você não prestar atenção, o próximo será você.

3. Evite operação com várias pessoas

Na última empresa em que eu estava, o gerenciamento de operação e manutenção era bastante confuso. Deixe-me dar o exemplo mais típico. A operação e manutenção que deixaram vários trabalhos têm uma senha de root do servidor .

Geralmente, quando recebemos uma tarefa, simplesmente verificamos se ela não pode ser resolvida e solicitamos ajuda a outras pessoas, mas quando o problema é grande, o supervisor de atendimento ao cliente (entender Linux ), o administrador de rede, seu supervisor depura um servidor juntos, quando você é todo tipo de Baidu , Várias comparações, após a descoberta, o arquivo de configuração do servidor é diferente da última vez em que você o modificou e depois o alterou. Depois, o Google encontrou o problema com satisfação e resolveu, outros disseram que ele também o solucionou, Os parâmetros modificados são diferentes ... Isso, eu realmente não sei qual é a verdadeira causa do problema. Claro, isso ainda é bom. O problema foi resolvido e todos estão felizes, mas você encontrou o arquivo que acabou de modificar, o teste é inválido e, em seguida, Quando vou modificar e descubro que o arquivo foi modificado novamente? Estou muito chateado e não deixe que várias pessoas o operem.

4. Backup antes da operação

Desenvolva o hábito, quando quiser modificar os dados, faça primeiro o backup, como o arquivo de configuração .conf

Além disso, ao modificar o arquivo de configuração, é recomendável comentar as opções originais e, em seguida, copiar e modificar

Além disso, se houver um backup do banco de dados no primeiro exemplo, a operação incorreta do rsync ficará boa em breve.

Portanto, não é como perder um banco de dados da noite para o dia, apenas fazer o backup de um não é tão ruim.

2. Dados envolvidos

1. Use rm -rf com cuidado

Existem muitos exemplos na Internet, vários rm -rf / , várias exclusões do banco de dados principal, vários acidentes de operação e manutenção ...

Um pequeno erro causará grandes perdas. Se você realmente precisar excluir, tenha cuidado.

2. Backup é mais do que tudo

Originalmente, existem todos os tipos de backups acima, mas quero dividi-lo em categorias de dados.Mais uma vez, o backup é muito importante.

Lembro que meu professor disse uma palavra, não é muito cauteloso com os dados

A empresa em que trabalho tem um site de pagamento de terceiros e uma plataforma de empréstimo on-line

O backup de terceiros é totalmente copiado a cada duas horas e a plataforma de empréstimo on-line é copiada a cada 20 minutos

Não vou dizer mais nada, vamos considerar por nós mesmos

3. Estabilidade está acima de tudo

De fato, mais do que dados, em todo o ambiente do servidor, a estabilidade é maior do que tudo, não a mais rápida, mas a mais estável e a disponibilidade

Portanto, sem testes, não use novos softwares no servidor, como nginx + php-fpm , o PHP trava no ambiente de produção.

Apenas reinicie ou apenas mude para o apache .

4. Confidencialidade é tudo

Agora, todos os tipos de fotos bonitas estão voando por todo o céu e vários roteadores são backdoors, por isso é impossível dizer que não é confidencial quando se trata de dados.

3. Segurança

1. ssh

Altere a porta padrão (é claro que se o profissional quiser invadir você, ela sairá após a digitalização)

Proibir login root

Use usuário comum + autenticação de chave + regra sudo + endereço IP + restrição de usuário

Use software de cracking à prova de explosão, semelhante a hostdeny (mais do que algumas tentativas de tirar preto diretamente)

Filtrar usuários de login em / etc / passwd

2. Firewall

O ambiente de produção do firewall deve estar aberto e seguir o princípio do mínimo, descartar tudo e liberar as portas de serviço necessárias.

3. Permissões finas e granularidade de controle

Os serviços que podem ser iniciados por usuários comuns nunca devem usar raiz , controlar ao mínimo as permissões de vários serviços e controlar a granularidade.

4. Detecção de intrusão e monitoramento de log

Use software de terceiros para sempre detectar alterações nos arquivos de chave do sistema e em vários arquivos de configuração de serviço

Por exemplo , / etc / passwd, /etc/my.cnf , /etc/httpd/con/httpd.con, etc;

Use um sistema centralizado de monitoramento de logs para monitorar / var / log / secure , / etc / log / message , upload de ftp e baixar arquivos e outros logs de erro de alarme;

Além disso, para varredura de porta, você também pode usar algum software de terceiros e descobrir que ele é varrido diretamente no host.deny . Esta informação é muito útil para solucionar problemas depois que o sistema é invadido. Foi dito que o custo do investimento em segurança de uma empresa é proporcional ao custo de sua perda devido a um ataque à segurança. A segurança é um grande tópico

Também é um trabalho muito básico: se a base for concluída, a segurança do sistema será consideravelmente melhorada.

4. Monitoramento diário

1. Monitoramento de operação do sistema

Muitas pessoas entram em operação e manutenção a partir do monitoramento.Em geral, as grandes empresas têm monitoramento e manutenção profissional 24 horas. O monitoramento da operação do sistema geralmente inclui ocupação de hardware

São comuns: memória, disco rígido, CPU , placa de rede, sistema operacional incluindo monitoramento de login, monitoramento de arquivo de chave do sistema

O monitoramento regular pode prever a probabilidade de dano ao hardware e trazer funções muito práticas para o ajuste

2. Monitoramento da operação de serviço

O monitoramento de serviço geralmente é uma variedade de aplicativos, web , db , lvs etc. Isso geralmente monitora alguns indicadores

Ele pode ser descoberto e resolvido rapidamente quando o sistema possui um gargalo de desempenho.

3. Monitoramento de Log

O monitoramento de log aqui é semelhante ao monitoramento de log seguro, mas geralmente são informações sobre hardware, sistema operacional , erro de aplicativo e alarme

O monitoramento é realmente inútil quando o sistema está funcionando de maneira estável, mas se houver um problema, você será passivo se não monitorar

V. Ajuste de desempenho

1. Compreensão aprofundada do mecanismo operacional

De fato, de acordo com mais de um ano de experiência em operação e manutenção, falar sobre ajuste é basicamente falar no papel, mas eu quero resumir brevemente, se houver um entendimento mais profundo, atualizarei. Antes de otimizar o software, por exemplo, para entender profundamente o mecanismo operacional de um software, como o nginx e o apache.Todas as pessoas dizem que o nginx é mais rápido, então você deve saber por que o nginx é mais rápido, qual princípio é usado, qual princípio é usado, as solicitações de processamento são melhores que o apache e você deve poder se comunicar com outras pessoas. Diga-o em palavras simples e fáceis de entender e entenda o código-fonte quando necessário; caso contrário, todos os documentos que usam parâmetros como objetos de ajuste não fazem sentido.

2. Estrutura e sequência de ajuste

Familiarizado com o mecanismo operacional subjacente, deve haver uma estrutura e sequência de ajuste. Por exemplo, se o banco de dados tiver um gargalo, muitas pessoas alteram diretamente o arquivo de configuração do banco de dados. Minha sugestão é primeiro analisar o gargalo, verificar o log e escrever o ajuste. Otimize a direção e, em seguida, inicie, e o ajuste do servidor de banco de dados deve ser a última etapa, a primeira deve ser o hardware e o sistema operacional, o servidor de banco de dados atual é lançado somente após vários testes

Aplicável a todos os sistemas operacionais, não deve começar com ele.

3. Ajuste apenas um parâmetro de cada vez

Apenas um parâmetro é ajustado por vez.Em comparação com todos que sabem disso, se você ajustar mais, ficará confuso.

4. Referência

Para julgar se o ajuste é útil e para testar a estabilidade e o desempenho de uma nova versão do software, você deve ter um teste de benchmark, que envolve muitos fatores

Se o teste está próximo das reais necessidades dos negócios depende da experiência do testador.Para obter informações relevantes, você pode consultar a terceira edição do "High Performance MySQL ".

Meu professor disse uma vez que não há parâmetros universalmente aplicáveis, qualquer alteração de parâmetro e qualquer ajuste deve estar em conformidade com o cenário de negócios

Portanto, não ajuste mais o Google, pois isso não afetará a longo prazo seu ambiente de melhoria e negócios.

Sexto, mentalidade de operação e manutenção

1. Mentalidade de controle

Muitos rm -rf / data estão nos primeiros minutos de trabalho e estão no auge da irritabilidade, então você ainda planeja controlar sua mentalidade?

Alguém disse que você precisa ir trabalhar quando estiver irritado, mas você pode tentar evitar lidar com ambientes críticos de dados quando estiver irritado

Quanto mais estressante, mais calmo você perderá mais.

A maioria das pessoas tem a experiência de rm -rf / data / mysql . Depois de excluí-lo, você pode imaginar esse tipo de humor, mas se não houver backup, qual é o uso de sua urgência? Em geral, você deve pensar com calma O pior plano, para o mysql , excluir o arquivo físico, algumas tabelas ainda existirão na memória; portanto, desconecte os negócios, mas não feche o banco de dados mysql , o que é muito útil para a recuperação, use o dd para copiar o disco rígido e, em seguida, você Restaurar

Obviamente, na maioria das vezes você pode encontrar apenas uma empresa de recuperação de dados.

Imagine que os dados sejam excluídos, você execute várias operações, feche o banco de dados e repare, não apenas poderá sobrescrever o arquivo, mas também não poderá encontrar a tabela na memória.

2. Responsável pelos dados

O ambiente de produção não é uma brincadeira de crianças e o banco de dados não é uma brincadeira de crianças.Você deve ser responsável pelos dados. As consequências de não fazer backup são muito graves.

3. Vá para o fundo

Muitas equipes de operação e manutenção estão ocupadas e não serão mais responsáveis na solução de problemas. Lembro que o site de um cliente sempre falhava ao abrir no ano passado, e o erro foi relatado após o código PHP .

Verificou-se que a sessão e whos_online estavam danificados. A operação e manutenção anteriores foram reparadas por reparo . Corrigi -o assim, mas após algumas horas, ele apareceu novamente.

Depois de repetir três ou quatro vezes, fui à tabela do banco de dados do Google por razões inexplicáveis de danos: um é o bug do myisam , o segundo é mysqlbug e o terceiro é mysql no processo de escrita

É a matança , e, finalmente, descobriu que a memória não é suficiente, resultando OOM matar o mysqld processo

E não há partição de troca , a memória de monitoramento em segundo plano é suficiente e, finalmente, atualiza a memória física para resolver.

4. Ambiente de teste e produção

Certifique-se de olhar para a máquina onde está antes de operações importantes, tente evitar abrir mais janelas

Bons hábitos de operação e manutenção

Acho que você gosta