alexa前100中的域名只有注册顶级母域名,想从流量中过滤需要从子域名提取出这些tld。python 的tldextract包可以解决这个问题。可以分别提取域名的 子域名 ,主域名和后缀。
实例如下:
import tldextract
ext = tldextract.extract("www.baidu.com")
print(ext)
main_domain = '.'.join(ext[1:])
print(main_domain)
输出:
ExtractResult(subdomain='www', domain='baidu', suffix='com')
baidu.com