提取域名的子域名,主域名和后缀

alexa前100中的域名只有注册顶级母域名,想从流量中过滤需要从子域名提取出这些tld。python 的tldextract包可以解决这个问题。可以分别提取域名的 子域名 ,主域名和后缀。

实例如下:

import tldextract
ext = tldextract.extract("www.baidu.com")
print(ext)
main_domain = '.'.join(ext[1:])
print(main_domain)

输出:

ExtractResult(subdomain='www', domain='baidu', suffix='com')
baidu.com

猜你喜欢

转载自blog.csdn.net/weixin_42280274/article/details/109046586