データをクロール美しいスープ募集のウェブサイトを使用します

インポート要求
BS4輸入BeautifulSoupのから
、PDなどの輸入パンダ
パンダのインポートデータフレームから

URL = 'HTTPS://search.51job.com/list/120300,000000,0000,32,9,99,%25E5%2589%258D%25E7%25AB%25AF%25E5%25BC%2580%25E5%258F% 2591,2,1.html =」
RES = requests.get(URL)
= res.encoding 'GBK'
スープ= BeautifulSoup(res.text)
position_tag = soup.find_all( 'P'、クラス_ = 'T1')
プリント(position_tag [2])
获取职位
位置= []
のIの範囲内(LEN(position_tag)):
position.append(position_tag [I] .A [ 'タイトル'])
获取公司
company_tag = soup.find_all(」スパン」、クラス_ = 'T2')
企業= []
のIの範囲内(LEN(company_tag)-1):
company.append(company_tag [1] [i]は.A [ 'タイトル'])
获取地区
place_tag = soup.find_all( 'スパン'、クラス_ = 'T3')
場所= []
のIの範囲内(LEN(place_tag)-1)。
place.append(place_tag [1] [i]を.get_text())
获取薪酬
salary_tag = soup.find_all( 'スパン'、クラス_ = 'T4')
の給与= []
のIの範囲内(LEN(salary_tag) - 1):
salary.append(salary_tag [1] [i]を.get_text())

=データフレームJOBINFO([位置、会社、場所、給与])。Tの
jobinfo.colums = [ 'ジョブ名'、 '会社'、 '領域'、 '有料']
プリント(JOBINFO)
jobinfo.describe()

おすすめ

転載: www.cnblogs.com/tiankong-blue/p/11610490.html