【全链路追踪】XXL-JOB添加TraceID

一、背景

首先这个项目属于小型项目,由于人手以及时间限制,并未引入Skywalking等中间件来做调用链路追踪。Skywalking不在此次的讨论范围中。

其次介绍一下项目的相关背景

调用路径

项目中主要有两种调用路径

  1. Web请求走统一的网关入口,调用后端服务
  2. XXL-JOB定时任务执行调度

部署环境

Kubernetes

问题

走统一网关入口的请求不用担心,在网关那边加了TraceID,但是XXL-JOB由于是自动注册,且部署环境是在K8S内,XXL-JOB获取到的是Pod的IP,网关并未拦截到。
由于项目的逻辑较为复杂,XXL-JOB的调度任务属于其中比较重要的一块,对于前期开发的调试以及后期问题的确认,加上TraceID是非常有必要的。

二、方案

首先确认是的XXLJOB执行定时任务时,JobHandler没有TraceID,不考虑使用中间件的话,就只有两种方案了。

一种是改造XXL-JOB源码,在发起请求中添加TraceID;另一种则是在后端服务拦截到XXL-JOB的请求,在入口添加TraceID。

XXL-JOB的源码没有具体研究过,之前只是做过适配Oracle,改造起来有一定难度,所以最后采用的方案还是在后端服务拦截请求,添加TraceID。

在网上搜索了一下相关资料,发现实现起来还是比较简单的,一般都是通过spring aop的方式,在Slf4j的MDC中添加TraceID。
在这里简单介绍下MDC,之前我也没做过更多了解。

MDC(Mapped Diagnostic Context,映射调试上下文)是 log4j 和 logback 提供的一种方便在多线程条件下记录日志的功能。某些应用程序采用多线程的方式来处理多个用户的请求。

MDC 可以看成是一个与当前线程绑定的哈希表,可以往其中添加键值对。MDC 中包含的内容可以被同一线程中执行的代码所访问当需要记录日志时,只需要从 MDC 中获取所需的信息即可。

其实就是使用ThreadLocal来存储,而由于请求到Java后端服务时,Tomcat会分配一个线程,直至请求结束,这样就会保证我们在入口添加的TraceID,会传递到整条链路。
但是使用MDC调用存在两个问题:

  1. 子线程中日志TraceID丢失

  2. 跨服务调用日志TraceID丢失

同时项目中使用了Openfeign,在发起端使用 RequestInterceptor 来拦截,添加TraceID,然后在接收端使用 HandlerInterceptor 拦截。

即最终方案是 MDC+RequestInterceptor+HandlerInterceptor

整体的调用链路如下:

暂时无法在飞书文档外展示此内容

三、Demo示例

1、MDC

@Aspect
@Component
@Slf4j
public class XxlJobAopConfig {
    
    

    @Before("@annotation(com.xxl.job.core.handler.annotation.XxlJob)")
    public void beforeMethod() {
    
    
        MDC.put('traceId',
                UUID.randomUUID().toString().toLowerCase());
    }
}

2、RequestInterceptor

@Configuration
public class FeignRequestInterceptor implements RequestInterceptor {
    
    
    @Override
    public void apply(RequestTemplate template) {
    
    
        template.header('traceId', MDC.get(HeaderExtraInfoConstants.traceId));
    }
}
@FeignClient(name = "test", url = "xxx", configuration = FeignRequestInterceptor.class)

3、HandlerInterceptor

@Slf4j
@Component
public class HeaderInterceptor implements HandlerInterceptor {
    
    

    @Override
    public void afterCompletion(HttpServletRequest request, HttpServletResponse response, Object handler, Exception arg3) {
    
    
        MDC.remove('traceId');
    }

    @Override
    public void postHandle(HttpServletRequest request, HttpServletResponse response, Object handler, ModelAndView arg3) {
    
    
    }

    @Override
    public boolean preHandle(HttpServletRequest request, HttpServletResponse response, Object handler) {
    
    
        String traceId = request.getHeader(HeaderExtraInfoConstants.traceId);
        if (StringUtils.isEmpty(traceId)) {
    
    
            MDC.put('traceId', UUID.randomUUID().toString().toLowerCase());
        } else {
    
    
            MDC.put('traceId', traceId);
        }
        return true;
    }

}
@Configuration
public class InterceptorConfiguration extends WebMvcConfigurationSupport {
    
    

    @Override
    protected void addInterceptors(InterceptorRegistry registry) {
    
    
        registry.addInterceptor(new HeaderInterceptor()).addPathPatterns("/**");
    }
}

4、logback.xml

%d{
    
    yyyy-MM-dd HH:mm:ss.SSS} ---> [%X{
    
    traceId}] ---> [%thread] ---> %-5level %logger{
    
    50} - %msg%n

四、后续改进思路

上述方案有较大的局限性,只适用于服务间通过feign调用的方式,如果有其他如okhttp的方式,需要再添加拦截器。对于多线程的问题也并未解决,常见的方式是通过重写线程池来解决。

  1. 丰富调用场景,添加拦截器

  2. 重写线程池

  3. 由于部署在K8S集群,可启用Istio进行服务治理

猜你喜欢

转载自blog.csdn.net/u011397981/article/details/132417793