Sentinel原理一览

在分布式系统中,由于服务数量增多,出现问题的可能性也会增大。想象一下,如果我们上游的系统突然流量增大N倍,超出我们系统承载的流量瞬间进来会不会压垮我们的系统? 同样对于我们下游的应用,此刻不知道什么原因导致RT特别的长,那么我们系统提供的服务是不是也会收到影响呢?

image-20200406140842159

其它系统都是出于不可控的状态,想要要求其它系统稳定运行的前提是要保证你自己能稳定运行。因此我们要做的就是不管其它系统如何,我们都稳定运行。那么如何做呢?市场上经典的工具如Hystrix,当然阿里也提供了一套更加强大和易用的工具,Sentinel。

Sentinel,Hystrix对比:github.com/alibaba/Sen…

结论:因为我们需要保护自己的系统,在流量过大或者下游响应时间过长以及其他意外情况的时候,我们的系统还需要正常运行,虽然市场上有一些其它的工具,但是Sentinel功能更强大,用起来更简单,扩展起来也方便

Sentinel主要功能:

  • 流量控制:将请求调整成合适的形状。
  • 熔断降级:当依赖的某个资源不稳定的时候,对调用的资源进行限制,让请求快速失败。
  • 系统负载保护:如CPU过高,线程池数量太大,则需要对新来的请求做一些限制。

参考:Sentinel是什么

基本用法

虽然Sentinel提供了很多种使用的方式,但是大部分时候基本的用法就已经满足我们的要求了。这里只说下常见的用法。

1 引入依赖,写Sentinel代码

			  Entry sentinel = null;
        try {
            sentinel = SphU.entry(request.getName());
            // 业务代码
        } 				
				catch (BlockException blockException) {
            log.error("BlockException! request={}", request, blockException);         
        }           
				finally {
            if (sentinel != null){
                sentinel.exit();
            }
        }    
复制代码

2 以上只是代表我们有了限流的工具,但是没有定义具体的规则。通常在dashboard配置规则,不过再代码中预定义一些默认规则也可以。

引入Dashboard:github.com/alibaba/Sen…

Sentinel支持的规则有以下几种:

  • 流量控制规则:对应代码中的FlowRule
  • 熔断降级规则:对应DegradeRule
  • 系统保护规则:对应SystemRule
  • 来源访问控制规则:对应AuthorityRule
  • 热点参数规则:对应ParamFlowRule

每种rule都有自己对应的RuleManager使其生效,比如在代码中预定义流量控制规则:

   // 定义流量控制规则,限制QPS不高于20
	 private static void initFlowRules() {
        List<FlowRule> rules = new ArrayList<>();
        FlowRule rule = new FlowRule();
        rule.setResource("HelloWorld");
        // set limit qps to 20
        rule.setCount(20);
        rule.setGrade(RuleConstant.FLOW_GRADE_QPS);
        rules.add(rule);

        // 将规则加载到内存,后续流量控制根据加载的规则进行处理
        FlowRuleManager.loadRules(rules);
    }
复制代码

3 查看dashboard,或者日志观察限流降级是否生效。

  • 日志位置:/家目录/logs/csp/sentinel相关日志
  • 监控面板:可以查看各种规则当前的状态
    img

使用方式上,自己摸索下就知道怎么回事了。就不说太多了。

原理概览

以以下代码为例,Sentinel内部做了什么操作,来实现限流降级功能呢?

SphU.entry("HelloWorld")
复制代码

1 Sentinel针对资源进行操作,entry("HelloWorld")代表要处理名称为HelloWorld的资源。操作成功后会返回一个Entry对象,否则抛出异常代表不处理当前请求(可以认为是规则限制)

2 Sphu.entry内部关键部分代码。

// 创建当前调用的上下文信息,为ThreadLocal变量。
// 如果是我们手工创建Context,一般可以指定name与origin(来源)。
// Context内部主要保存:
// - entranceNode  当前调用的入口Node
// - curEntry  当前正在处理的Entry,即每一次调用都会生成的Entry对象
// - origin 字符串,用来标记来源,统计的时候会用到
Context context = createContext();

// 查找当前资源的Slot处理链,一般一个资源对应一个ProcessorSlotChain,如果没有找到ProcessorSlotChain会创建默认的DefaultSlotChainBuilder。其中SLot顺序如下:
//       ProcessorSlotChain chain = new DefaultProcessorSlotChain();
//        chain.addLast(new NodeSelectorSlot());
//        chain.addLast(new ClusterBuilderSlot());
//        chain.addLast(new LogSlot());
//        chain.addLast(new StatisticSlot());
//        chain.addLast(new AuthoritySlot());
//        chain.addLast(new SystemSlot());
//        chain.addLast(new FlowSlot());
//        chain.addLast(new DegradeSlot());
ProcessorSlot<Object> chain = lookProcessChain(resourceWrapper);


// 创建Entry与SlotChain处理Entry
// 其中依次调用上面的Slot进行处理。
Entry e = new CtEntry(resourceWrapper, chain, context);
chain.entry(context, resourceWrapper, null, count, prioritized, args);
复制代码

SlotChain处理对应官方的架构图如下:

image.png

  • TreeNodeBuilder对应NodeSelectorSlot,主要负责收集资源的路径,并将这些资源的调用路径,以树状结构存储起来,用于根据调用路径来限流降级
  • ClusterNode对应ClusterBuilderSlot,用于存储资源的统计信息以及调用者信息,例如该资源的 RT, QPS, thread count 等等,这些信息将用作为多维度限流,降级的依据;
  • StatisticSlot:核心的Slot。各种维度的监控统计位于其中
  • FlowSlot,DegradeSlot,AuthoritySlot,SystemSlot:实现方式上基本一致,主要根据统计的数据判断当前的规则是否生效,看懂了其中一个,其余的可以举一反三,当然也可以写自己自定义的控制规则。

3 根据代码,我觉得当前一个比较完整的流程图应该是:

image-20200406152106146

系统保护原理

上面说了大致流程,看一个具体的规则来了解它是如何生效的。

1 在Sentinel获取资源的时候,会调用SlotChain,正常情况下会走到SystemSlot中进行处理。

2 SystemSlot,交给RuleManager检查资源是否满足条件。

SystemRuleManager.checkSystem(resourceWrapper);
复制代码

3 规则校验,可以看到如果系统负载过高,则会抛出SystemBlockException异常,终止当前的请求处理。

主要代码在SystemRuleManager中

				...
				
        // load. BBR algorithm.
        if (highestSystemLoadIsSet && getCurrentSystemAvgLoad() > highestSystemLoad) {
            if (!checkBbr(currentThread)) {
                throw new SystemBlockException(resourceWrapper.getName(), "load");
            }
        }

        // cpu usage
        if (highestCpuUsageIsSet && getCurrentCpuUsage() > highestCpuUsage) {
            throw new SystemBlockException(resourceWrapper.getName(), "cpu");
        }
复制代码

其它:

  • 系统状态通过SystemStatusListener进行更新,调度器每秒钟收集一次系统状态
  • 通过SystemRuleManager.loadRules在加载规则
  • 系统规则配置实体类为:SystemRule

流控QPS直接拒绝

Sentinel提供了多种流控方式,直接拒绝Warm Up匀速排队。对应 FlowRule 中的 controlBehavior 字段。

直接拒绝实现比较简单,通过看它的实现后续再弄明白更复杂的实现。与系统保护类似:

Request -> FlowSlot -> FlowRulechecker -> FlowRuleManager -> FlowRule -> ControlBehavior(TrafficShapingController) -> canPass

image-20200406154138713

小结

这里主要是说了Sentinel的简单使用,以及执行过程中代码的大体流程,并未深究其数据结构。

代码设计上并不算很复杂,如果在使用的过程中遇到什么问题,点进去看一下大致也能解决。我觉得其核心的代码:

  • StatisticSlot:多种维度的数据统计入口,在其中使用了LeapArray统计秒级指标数据。
  • FlowSlot,DegradeSlot,AuthoritySlot,SystemSlot:熔断,限流降级逻辑判断的地方。如果想判断规则有没有生效,就到对应的类中Debug下。

更多内容参考:github.com/alibaba/Sen…

猜你喜欢

转载自juejin.im/post/5e8ae04c5188257372503ba4