【记录】什么时候用CDN,用了CDN就一定比不用更快嘛?

前言:对于开发同学来说,CDN这个词,经常听到,可能觉得熟悉又陌生。平时,做开发的时候,可能很少碰到这个,但是总能听到别人提起。都知道它能加速,也大概知道原因,但是深究原因,可能却有点懵了。用了CDN就一定比不用更快嘛?没事,今天我们就换个角度来重新认识一下CDN吧。

一、CDN是什么?

对于数字和文本类型的数据,比如说名字和电话号码相关的信息。我们需要有个地方存起来。
我们通常会用mysql数据库去存。
当我们需要重新将这一数据取出的时候,就需要去读mysql数据库。
但因为mysql的数据是存在磁盘上的,单台实例,读性能到差不多5kqps就已经很不错了。
看起来还凑合,但对于稍微大一点的系统,就稍微有点着急了。
为了提升点性能,在mysql之前再加一层内存做缓存层,比如常说的redis,读数据优先到内存里读,读不到才到mysql里读,大大减少读mysql的次数。有了这套组合拳,读性能轻松上万qps。
但如果现在我要处理的,不再是上面提到的文本类数据,而是图片数据
那这张图片数据应该存在哪?又该从哪里读?
当我们回过头去看mysql和redis的场景,无非就是存储层加缓存层
在这里插入图片描述
对于图片这样的文件对象存储层不太可能再用mysql,应该改用专业的对象存储,比如亚马逊的S3(Amazon Simple Storage Service),或者阿里云的oss(Object Storage Service)。下面的内容,我们就用比较常见的oss去做解释。
而缓存层,也不能继续用redis了,需要改成使用CDN(Content Delivery Network,内容分发网络)。
可以将CDN简单理解为对象存储为对象存储对应的缓存层
在这里插入图片描述
现在就可以回答上面的提问,对用户来说,这张图片数据存在了对象存储那,当有需要的时候,会从CDN那被读出来。

二、CDN的工作原理

有了CDN和对象存储之后,现在我们来看他们之间是怎么工作的。
我们平时看到的图片,可以右键复制查看它的URL。
会发现图片的URL长这样:

https://cdn.xiaobaidebug.top/1667106197000.png

其中,前面的cdn.xiaobaidebug.top就是CDN的域名,后面的1667106197000.png是图片的路径名。
当我们在游览器输入这个URL就会发起HTTP GET请求,然后经历以下过程:
在这里插入图片描述
第一阶段:你的电脑会先通过DNS协议获得cdn.xiaobaidebug.top这个域名对应的IP;

  • step1和step2:先查看游览器缓存,再看操作系统里的/etc/hosts缓存,如果都没有,就会去询问最近的DNS服务器(比如房间里的家用路由器)。最近的DNS服务器上有没有对应的缓存,如果有则返回;
  • step3:如果最近的DNS服务器上没有对应的缓存,就会去查询根域,一级域,二级域,三级域服务器;
  • step4:然后,最近的DNS服务器会得到这个cdn.xiaobaidebug.top域名的别名(CNAME),比如cdn.xiaobaidebug.top.w.kunlunaq.com
  • kunlunaq.com 是阿里CDN专用的DNS调度系统;
  • step5到step7:此时最近的DNS服务器会去请求这个kunlunaq.com ,然后返回一个离你最近的IP地址返回给你。

第二个阶段:对应上图里的step8。游览器拿着这个IP去访问cdn节点,然后,cdn节点返回数据。
我们知道DNS的目的就是通过域名去获得IP地址
但这只是它的众多功能之一。
DNS消息有很多类型,其中A类型,就是用域名去查域名对应的IP地址。而CNAME类型,则是用域名去查这个域名的别名
在这里插入图片描述
对于普通域名,DNS解析后一般就能直接得到域名对应的IP地址(又叫A类型记录,A指Address)。
比如下面,用dig命令发出DNS请求并打印过程数据:

$ dig +trace xiaobaidebug.top
;; ANSWER SECTION:
xiaobaidebug.top.	600	IN	A	47.102.221.141

可以看到xiaobaidebug.top直接解析得到对应的IP地址47.102.221.141
但对于cdn域名,一波查询下来,先得到的却是一条CNAME的记录xx.kunlunaq.com,然后,dig这个xx.kunlunaq.com才能得到对应的IP地址

$ dig +trace cdn.xiaobaidebug.top
cdn.xiaobaidebug.top.	600	IN	CNAME	cdn.xiaobaidebug.top.w.kunlunaq.com.

$ dig +trace cdn.xiaobaidebug.top.w.kunlunaq.com
cdn.xiaobaidebug.top.w.kunlunaq.com. 300 IN A	122.228.7.243
cdn.xiaobaidebug.top.w.kunlunaq.com. 300 IN A	122.228.7.241
cdn.xiaobaidebug.top.w.kunlunaq.com. 300 IN A	122.228.7.244
cdn.xiaobaidebug.top.w.kunlunaq.com. 300 IN A	122.228.7.249
cdn.xiaobaidebug.top.w.kunlunaq.com. 300 IN A	122.228.7.248
cdn.xiaobaidebug.top.w.kunlunaq.com. 300 IN A	122.228.7.242
cdn.xiaobaidebug.top.w.kunlunaq.com. 300 IN A	122.228.7.250
cdn.xiaobaidebug.top.w.kunlunaq.com. 300 IN A	122.228.7.251

看到这里,问题就又来了。
为什么要加个CNAME那么麻烦?
CNAME里指向的,其实是CDN专用的DNS域名服务器,它对整个DNS体系来说,只是其中一台小小的DNS域名服务器,看起来就跟其他域名服务器一样,平平无奇。DNS请求也会正常打入这个服务器里。
但当请求真正打到它上面的时候,它的特别之处就体现出来了,当查询请求打入域名服务器时,普通的DNS域名服务器返回域名对应的部分IP就够了,但CDN专用的DNS域名服务器却会要求返回离调用方“最近的”服务器IP 。
在这里插入图片描述
怎么知道哪个服务器IP里调用方最近?
CDN专用的DNS域名服务器,其实是CDN提供商提供的,比如阿里云当然知道自己的CDN节点有哪些,以及这些CDN服务器目前的负载情况和响应延时甚至权重啥的,并且也能知道调用方的IP地址是什么,可以通过调用方的IP知道它所属的运营商以及大概所在地,根据条件筛选出最合适的CDN服务器,这就是所谓的“最近”。
举个例子:假设地理位置最近的CDN机房流量较多,响应较慢,但地理位置远一些的服务器却能更好的响应当前请求,那按理说可能会选择地理位置远一些的那台CDN服务器。
也就是说,选出来的服务器不一定在地理位置最近,但一定是当前最合适的服务器。

三、回源是什么

上面的图片URL,是https://cdn域名/图片地址.png的形式。
也就是说这张图片是访问CDN拿到的。
那么,直接访问对象存储能不能拿到图片数据并展示
比如像下面这样:

https://oss域名/图片地址.png

这就像问,不走redis,直接从mysql中能不能读取到文本数据并展示一样。
当然能
但这样成本更高,这里的成本可以指性能成本,也可以指调用成本
在这里插入图片描述
可以看到直接请求oss的费用差不多是通过cdn请求oss的两倍。
可以看到上图中,有个词叫“回源”。
回源是什么呢?
当我们访问https://cdn域名/图片地址.png时,请求会达到cdn服务器上面。
但cdn服务器本质上就是一层缓存,并不是数据源,对象存储才是数据源
第一次访问cdn获取某张图片时,大概率在cdn里并没有这张图片的数据,因此需要到数据那去取出这份图片数据。然后,再放到cdn上。下次,再次访问cdn时,只要缓存不过期,就能命中缓存直接返回,这就不需要再回源。
于是,访问的过程就变成了下面这样:
在这里插入图片描述
那还有哪些情况会发生回源呢?
除了上面提到的cdn上拿不到数据会回源站外,还有cdn上的缓存过期失效了,也会导致回源站。
另外,就算有缓存,且缓存不过期,也可以通过cdn提供的开放接口来触发主动回源,但这个我们比较少机会能接触到。
另外,回源这个事情,其实用户是感知不到的,因为用户去读图片的时候,只能知道自己读到了,还是读不到。
同样是读到了,还细分为是从cdn那直接读的,还是cdn回源对象存储之后返回的
在这里插入图片描述
那么,有办法判断是否发生过回源嘛?
有,那接着往下看呗。

怎么判断是否发生回源
那以某里云的对象存储和CDN为例。
假设以请求下面这张图https://cdn.xiaobaidebug.top/image/image-20220404094549469.png
为了更方便的查看响应数据的http header,我们可以用上postman
通过GET方法去请求图片数据。
然后,通过下面的tab切换查看response header信息。
在这里插入图片描述
在这里插入图片描述
此时,查看response header下的X-Cache的值是MISS TCP_MISS 。意思是未命中缓存导致CDN回源查oss ,拿到数据后再返回。
那此时CDN里肯定是有这张图片的缓存了。可以试着再执行一次GET方法获取图片。
在这里插入图片描述
X-Cache的值就变成了HIT TCP_MEN_HIT ,这就是命中缓存了。
这是某里云的做法,其他腾某云,也大都如此,几乎都可以从response header里找到相关的信息。

用了CDN一定比不用的更快嘛?
看到这里我们就可以回答文章开头的问题了。
如果没有接入CDN,直接访问源站,流程是这样的。
在这里插入图片描述
在这里插入图片描述
相当于在原来的流程上还多了一层CDN的调用流程。
也就是说,用了CDN时,未命中CDN缓存导致回源,就会比不用的时候更慢。
未命中缓存,可能是cdn里压根没这一数据,也可能是曾经有这条数据但后来过期失效了
这两种情况都正常,大部分时候并不需要做任何处理

但对于极个别场景,我们可能需要做些优化。比如你们源站数据有大版本更新,就像更换cdn域名啥的,那在上线的那一刻用户全用新cdn域名去请求图片啥的,新CDN节点基本上百分百触发回源,严重的时候甚至可能会拖垮对象存储。这时候你可能需要提前将热点数据筛选出来,利用工具预先请求一波,让CDN加载上热数据缓存。比如某里云上的CDN就有这样的"刷新预热"功能。
在这里插入图片描述
当然也可以通过灰度发布的模式,先让少量用户体验新功能,让这些用户把cdn“热”起来,然后,再逐步放开流量。
还有就是曾经有这条数据但后来过期失效了,对于热点数据,可以适当提高一下cdn数据的缓存时间
在这里插入图片描述
什么情况下不应该使用CDN?
如果你有一个公司内网的服务,并且服务请求的图片等文件不太可能被多次重复调用,这时候,其实没必要使用CDN。
注意上面两个加粗的关键点:

  • 内网服务:是为了保证你是了解服务的请求来源的,也能拿到对象存储的读权限,并且如果你的对象存储也是公司内部的,那大概率跟你的服务已经在同一个机房里,这已经很近了。接入CDN也享受不到“就近分配CDN节点”所带来的的好处;
  • 图片或其他文件不太可能被多次重复使用,如果接入了CDN,那每次去访问CDN获取图片的时候,CDN节点上大概率没有你要的数据,相当于每次都需要回源到对象存储去去一把。那接入CDN相当于给自己加了一层代理,多一层代理,就多一层耗时。

在这里插入图片描述
关于上面的第二点,如果你需要一个明确的指标去说服自己,那我可以给你一个。从上面的介绍内容,我们知道,可以通过cdn响应的http header中的X-Cache字段,看到一个请求是否触发过回源,统计次数,再除以总的请求数,就能得到回源的比例,比如回源比例高达90%,那还接啥cdn

总结:

  • 对于文本类的数据,我们习惯用mysql作存储,redis做缓存。但属于文件类的数据,比如视频图片,则需要使用oss等做对象存储,cdn做缓存;
  • 用了CDN如果发生回源,那实际上会比不用的时候更慢一些;
  • CDN最大的优势在于,对于来着世界各地的用户,它可以就近分配CDN节点获取数据,并且多次重复获取同一个文件数据的时候,有缓存加速的作用。如果你的服务和对象存储都在内网,并且文件数据也不太会有重复使用的可能性,那其实没必要接入cdn。

参考博客:

用了CDN就一定比不用更快吗? https://juejin.cn/post/7166782260933296142#heading-4

猜你喜欢

转载自blog.csdn.net/qq_26780317/article/details/128001168
cdn