Pythonのクローラは、ページのコンテンツをクロール

Ctrlキー+ Altキー+ Lコードをフォーマットします。例は、パークブログ

#coding:utf-8
import requests
from lxml import etree


def gettitle(url):
    html=requests.get(url)
    selector=etree.HTML(html.text)
    title=selector.xpath('//a[@id="cb_post_title_url"]/text()')
    return title[0]

def getcontent(url):
    html=requests.get(url)
    selector=etree.HTML(html.text)
    contentlist=selector.xpath('//div[@class="postBody"]/div/p/text()')
    contents=''
    for i in contentlist:
        contents=contents+"\n"+i
    return contents
print("请输入博客园文章的链接:")
url=input("")
print(gettitle(url))
print(getcontent(url))

 

公開された46元の記事 ウォンの賞賛9 ビュー3672

おすすめ

転載: blog.csdn.net/weixin_41896770/article/details/100099428