サンシャイン入試問題

インポート要求
のインポート時
のインポートetree lxmlのから

DEF get_html(URL):#リクエストされたページ
のtry:
ヘッダ= {
'User--エージェント':「のMozilla / 5.0(Windows NTの6.1; WOW64)のAppleWebKit / 537.36(KHTML、ヤモリなど)クローム/サファリ65.0.3325.181 / 537.36「}
RES = requests.get(URL、ヘッダー=ヘッダ)
res.encoding = res.apparent_encoding
res.status_codeの== 200である場合:
HTML = res.text
HTMLを返す
ほか:
time.sleep(0.1)
get_htmlリターン(URL)
を除く例外e AS:この除く#1 BaseExceptionもeは、エラーの原因である印刷できる
印刷(「質問がある」、e)の
パス

解析(HTML)DEF:
#Print(HTML)
R&LT etree.HTML =(HTML)

は、URLの詳細なリストを搭載
list_detail = []

ベースURL
BASE_URL = 'https://gaokao.chsi.com.cn'

ページ情報のリスト
ppp_ = r.xpath( "// divの[クラス@ = 'YXK-表'] //テキスト()")

すべての半分URL取得
list_url = r.xpath(「// divの[クラス@ =「テーブル-YXKを)」/ HREF @ /] JS-YXK-yxmc」 '] // TD [クラス= @'は

#すべてのURLをスプライスさ
list_url内のURLのために:
detail_url BASE_URL + =のURL
list_detail.append(detail_url)

すべてのURLを返します
返すlist_detail
DEFのurl_joinを():

URL_START = 'https://gaokao.chsi.com.cn/sch/search--ss-on,searchType-1,option-qg,start-'
outURL_END = '.dhtml'
url_list = []
iの範囲内(1139):
url_num = 20 * I - 20
のurl = URL_START + STR(url_num)+ url_endの
url_list.append(URL)

戻りurl_list
場合__name__ == '__main__':
#url_list = url_join()
印刷( url_list)
#1
url_listでURLの#:

##访问
#HTML = get_html(URL)
パース(HTML)

URL =「https://gaokao.chsi.com.cn/sch/search--ss-on,searchType -1、オプション-QG、開始0.dhtml」
HTML = get_html(URL)
url_list =パース(HTML)
印刷(url_list)

おすすめ

転載: www.cnblogs.com/yuanjia8888/p/11113859.html