hystrix 概述

在分布式环境中，许多服务依赖项不可避免地将会失败。Hystrix是一个通过添加延迟容忍和容错逻辑来帮助您控制这些分布式服务之间的交互的库。Hystrix通过隔离服务之间的访问点来实现这一点，停止跨级的级联故障，并提供备用选项，所有这些都可以提高系统的整体弹性。

Hystrix是由Netflix的API团队在2011年开始的弹性工程工作演变而来的。2012年，Hystrix继续发展和成熟，Netflix的许多团队都采用了它。如今，在Netflix上，每天都有数百亿的线程被隔离，以及数以千亿计的信号隔离电话。这导致了正常运行时间和弹性的显著改善。

下面的链接提供了关于Hystrix的更多上下文以及它试图解决的挑战：

Hystrix的设计目的是：

在复杂的分布式体系结构中，应用程序有几十个依赖项，每一个都将不可避免地在某一时刻失败。如果主机应用程序没有从这些外部故障中分离出来，那么它就有可能被它们占用。

例如，对于一个依赖于30个服务的应用程序，每个服务都有99。99%的正常运行时间，这是您可以期望的：

99.99^30 = 99.7% uptime
10亿个请求中的 0.3% = 3,000,000 次失败
即使所有的依赖关系都有很好的正常运行时间，每个月也有 2+ 小时的downtime

现实通常是更糟。

即使所有的依赖关系都很好地执行，即使是在每几十个服务中，即使是 0.01% 的停机时间，也会导致一个月的停机时间，如果你不设计整个系统来恢复弹性的话。

当一切都很健康时，请求流可以是这样的：

当后面的一个依赖有问题时，就会阻塞用户请求。

在高容量的流量中，一个后端依赖的潜在依赖会导致所有资源在所有服务器上的秒内变得饱和。

在应用程序中，通过网络或可能导致网络请求的客户机库中的每一点都是潜在故障的根源。比失败更糟糕的是，这些应用程序还可能导致服务之间的延迟，从而支持队列、线程和其他系统资源，从而导致系统中出现更多的级联故障。

当通过第三方客户端进行网络访问时，这些问题会变得更加严重——一个“黑盒”，其中的实现细节是隐藏的，并且可以随时更改，并且每个客户机库的网络或资源配置都是不同的，并且常常难以监控和更改。

更糟糕的是传递依赖关系，它们执行潜在的昂贵或容易出错的网络调用，而不需要被应用程序显式地调用。

网络连接失败或降级。服务和服务器失败或变得缓慢。新的库或服务部署会改变行为或性能特征。客户端库有 bug 。

所有这些都代表了需要隔离和管理的失败和延迟，这样一来，一个失败的依赖就不能拖垮整个应用程序或系统。

Hystrix的设计原则是什么？

Hystrix 通过:

当您使用 Hystrix 来包装每个潜在的依赖项时，上面的图表所示的体系结构将类似于下面的图表。每一个依赖关系都是相互隔离的，在延迟发生时，它可以被限制在资源中，并且包含在回退逻辑中，该逻辑决定了在依赖项中出现任何类型的故障时要做出什么响应：