Pythonは単にWebデータをクロールします

私のCSDNウェブページをクロールするとき:https://blog.csdn.net/zhaoweiya
インポートリクエスト、赤い線が表示されます。このとき、カーソルをリクエストに向け、ショートカットキーを押します:alt + Enter、pycharmは解決策、この時点で、インストールパッケージリクエストを選択すると、pycharmが自動的にインストールします。ライブラリがインストールされるまで少し待つだけです。lxmlのインストール方法は同じです

import requests
from lxml import etree
header = {
    
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
html = requests.get("https://blog.csdn.net/zhaoweiya",headers=header)
etree_html = etree.HTML(html.text)
content = etree_html.xpath('//*[@id="articleMeList-blog"]/div[2]/div/h4/a/text()')
for each in content:
    replace = each.replace('\n', '').replace(' ', '')
    if replace == '\n' or replace == '':
        continue
    else:
        print(replace)

一部の結果が傍受されました:

找出列表list中的重复元素
Python列表去重的多种方法
python+selenium滚动条/内嵌滚动条循环下滑,判断是否滑到最底部
Python特殊函数lambdamapfilter
Python嵌套函数和装饰器
python正序循环使用remove和delect删除报index溢出错误
decimal报错:decimal.InvalidOperation:[class‘decimal.ConversionSyntax‘>]

参照:https://blog.csdn.net/IT_XF/article/details/82184585

おすすめ

転載: blog.csdn.net/zhaoweiya/article/details/109584565