A falha de serviço mais grave na história da Didi, o culpado é o software subjacente ou “redução de custos e aumento de sorrisos”?

Na noite de 27 de novembro de 2023, o serviço do aplicativo Didi estava anormal devido a uma falha no sistema , a localização não foi exibida e os táxis não puderam ser chamados. Na noite de 27 de novembro, Didi Chuxing respondeu: Lamentamos muito devido a uma falha no sistema.

Na manhã de 28 de novembro de 2023, Didi Chuxing informou que o serviço de carona online e outros serviços foram restaurados, e os serviços de ciclismo estão sendo gradualmente reparados. Em 28 de novembro, quando Didi fez um anúncio, os repórteres usaram Didi para ligar para serviços de carona online em Xangai, Shenzhen e outros lugares, e descobriram que a função de carona online não havia sido restaurada, a rede estava carregando de forma anormal e os táxis ainda não puderam ser saudados. Em 28 de novembro, Didi respondeu aos repórteres que o serviço online de carona foi retomado e os direitos dos motoristas e passageiros foram gradualmente restaurados.

Em 29 de novembro, Didi emitiu outro pedido de desculpas, dizendo que foi inicialmente determinado que a causa do acidente foi um mau funcionamento do software do sistema subjacente .

Fonte: https://weibo.com/2838754010/NuMAAaUEl

Antes de Didi emitir oficialmente este anúncio, um técnico sênior de TI já havia analisado: “Do ponto de vista do desempenho, o chamado de táxi e as bicicletas compartilhadas estão totalmente integrados e deve haver isolamento entre os diferentes setores de negócios, indicando que o problema está no nível inferior. Infraestrutura. Os invasores geralmente só podem acessar a camada de aplicativo, não a infraestrutura. Ou eles são invadidos pelo invasor ou suas próprias operações de sistema são acidentalmente inativas. Mesmo o primeiro é considerado um defeito do sistema. Perfurado."

Os especialistas em segurança da 360 acreditam que pode haver seis razões técnicas por trás do flash crash de Didi:

Primeiro, erros de programação, erros lógicos ou exceções não tratadas ocorreram durante o processo de atualização e atualização do sistema: em circunstâncias normais, os fabricantes de Internet lançam atualizações à noite, o que também pode corresponder ao horário da falha de Didi. É claro que a atualização e manutenção de negócios são massivas atualizações, mas agora toda a plataforma e negócios de Didi estão fora do ar, indicando que deve ser um problema em seu nível “doméstico”.

Em segundo lugar, falha do servidor: por exemplo, na sala de computadores central de Didi, pode haver um problema com a temperatura e umidade constantes do ambiente, fazendo com que o servidor superaqueça e queime a CPU, ou um desastre natural, como um terremoto, inundação, tsunami, etc. ocorre no local da sala de informática central. Neste caso, o hardware precisa ser substituído e o software de serviço interno também precisa ser reconfigurado. O período de recuperação é relativamente longo, mas essa possibilidade é relativamente pequena.

Terceiro, falha de serviço de terceiros: a arquitetura de back-end da Didi pode usar serviços ou componentes de terceiros. Se houver algum problema com terceiros, isso também poderá afetar o funcionamento normal do Didi. No entanto, devido a considerações de segurança, a Didi não pode hospedar o seu negócio principal a terceiros, mas esta possibilidade também é pequena.

Quarto, ataque DDOS: os hackers usam negação de serviço distribuída para capturar uma grande quantidade de recursos do servidor, tornando os usuários incapazes de acessá-los.No entanto, isso é improvável porque os DDos não causarão erros de dados e o volume de Didi é Existem custos e capacidades suficientes lutar.

Quinto, outros ataques de rede: algumas gangues de produção negra e cinza podem roubar dados arrastando bancos de dados e depois vendê-los na dark web.Neste processo, não está descartado que possa haver uso indevido e danos ao banco de dados.

Sexto, vírus ransomware: hackers de ataques cibernéticos criptografaram os dados subjacentes e o código comercial de Didi. Segundo divulgações, as contas dos usuários e os dados dos táxis foram calculados incorretamente, sendo possível que a Didi tenha suspendido proativamente seus negócios para evitar maiores prejuízos. Ataques de ransomware ocorreram com frequência recentemente.No início do mês, uma instituição financeira sofreu uma paralisação comercial devido a um ataque de ransomware.

No entanto, alguns especialistas em empresas de segurança de rede acreditam que, se for um ataque de hacker externo, a empresa geralmente fará uma declaração o mais rápido possível. Ele especulou que Didi havia passado por grandes ajustes internos nos negócios ou que novos negócios estavam conectados ao sistema original, mas nenhum plano foi feito, levando a grandes falhas em negócios ou sistemas relacionados. Esta é a causa mais comum de falhas de sistema em grandes empresas. empresas.

Portanto, alguns membros da indústria acreditam que a redução de custos e a melhoria da eficiência também podem ser uma das razões para o fracasso em larga escala e a longo prazo de Didi .

Essa pessoa acredita que o tempo de inatividade frequente e de longo prazo no negócio principal das empresas de Internet é um dos acessórios para redução de custos e melhoria de eficiência. O investimento no sistema é menor, os recursos de manutenção são menores, os programadores são substituídos com frequência e há mais bugs .

Por exemplo, ele disse que geralmente há redundância na fase de atualização do negócio.Para lidar com o aumento de pedidos a qualquer momento, o limite superior da carga não deve ser muito grande durante a fase upstream, como 70% em tempos normais. Dessa forma, você não precisa se preocupar com problemas ao se deparar com um pequeno surto. É o suficiente. Para lidar com pequenos picos; mas a lógica no período de recessão é diferente. Quando a carga é muito alta, é é suficiente para resistir por um tempo. Embora possa ser desconfortável encontrar pequenos picos mais tarde, a carga geral diminuirá com o passar do tempo.


Por fim, vamos dar uma olhada nas notícias que circulam online. Alguns colegas disseram que a grave falha de Didi foi causada pela atualização da versão k8s. Naquela época, os engenheiros do SRE procuraram por três horas, mas não conseguiram localizar o problema.

 

A julgar pelo compartilhamento público de tecnologia de Didi, Didi Elastic Cloud atualizou a versão k8s no mês passado: de k8s 1.12 para 1.20.



Fonte: Prática de agendamento baseada em K8S da Didi Elastic Cloud

Acho que você gosta

Origin www.oschina.net/news/268635
Recomendado
Clasificación