urllib.requestインポート
BS4インポートBeautifulSoupから
のインポートのOS
インポート時の
#URL見つける
DEF getDatasを():
URL = "https://movie.douban.com/top250"
#URL =「ファイル:/// E:/ scrapy / 2018 -04-27 /映画/ movie.html "
#オープンウェブ
RES = urllib.request.urlopen(URL)#
変換フォーマット
レスポンス= BeautifulSoup(RES、 'html.parser')
#親要素は、データを検索する
件のデータを=応答.find_all( 'DIV'、{ 'クラス': '項目'})
#印刷(DATAS)
#フォルダに格納されたデータファイルを作成します
FOLDER_NAME = "出力"
IFないのos.path.exists(FOLDER_NAME):
os.mkdir(FOLDER_NAMEを)
#定義ファイル
CURRENT_TIME = time.strftime( '%Y-% M-%D'、時間。localtime())
FILE_NAME = "移動" + CURRENT_TIME + "TXT"
#文件路径
FILE_PATH =フォルダ名+ "/" + FILE_NAME
DATAS内のアイテムの:
#プリント(アイテム)
のランク= item.find( 'DIV' { 'クラス': 'PIC'})。( 'EM')を見つけるGET_TEXT()。
表題= item.find( 'DIV' 、{ 'クラス': '情報'}。)( 'DIV' { 'クラス': 'HD'}を見つける。: 'タイトル')( '')を見つける( 'スパン' { 'クラスの検索。})GET_TEXT()
picUrl = item.find( 'DIV' { 'クラス': 'PIC'}))( ''を見つける。)( 'IMG'を見つける。) 'SRC'(得る。
#プリント( picUrl)
#保存数据为TXT格式
してみてください:
オープン(FILE_PATH、 ''、= "UTF-8")をコードするよう:FP
fp.write( "排名:")+ランク+ '\ n'は
fp.write(」标题:」+タイトル+ '\ n'は)
fp.write( "图片路径:" + picUrl + '\ N \ N')
ERRとしてはIOErrorを除い:
プリント( 'エラー' + STR(ERR))
最後に:
fp.close()
パス