(2)python+selenium第二个自动化脚本:获取猫眼电影排名前100

从猫眼电影的排行中,选出排名在前十页的电影信息,包括:
 排名:1
URL://ms0.meituan.net/mywww/image/loading_2.e3d934bf.png
片名:霸王别姬
                主演:张国荣,张丰毅,巩俐
        上映时间:1993-01-01(中国香港)
得分:9.6

      '''

主要用到request库(自己在cmd下进入python的pip目录,用pip install request命令安装),还有正则表达式的使用,最后把信息写入文件

from selenium import webdriver
import re,requests
#打开浏览器
user_agent='Mozilia(compatible;MSIE5.5;Windows NT)'
headers={'User-Agent':user_agent}
for i in range(10):
      #页数改变
      url='http://maoyan.com/board/4?offset='+str(i*10)
     
#获取网页内容,找出符合正则表达式条件的内容
f=requests.get(url)
      html=f.text
      pic_url=re.findall('<dd>.*?board-index.*?>(.*?)</i>.*?src="(.*?)".*?<p class="name"><a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>',html,re.S)
      #两个正则表达式不用任何符号相连,或者可以认为是.*?来连接。多个字符串输出时是列表的形式item[i]
      #法一输出:列表形式[(.....)]---->print(pic_url)
      #法二输出:输出多个变量值----->item[i],并写入文件保存
      file=open('maoyandy.txt','ab')
      for item in pic_url:
            print("排名:%s\n\tURL:%s\n\t片名:%s%s%s\n\t得分:%s%s\n"%(item[0],item[1],item[2],item[3],item[4],item[5],item[6]))
            for i in range(7):
                  file.write(item[i].encode('utf-8'))
      else:
            print('抓取成功')
            
      '''
      排名:1
	URL://ms0.meituan.net/mywww/image/loading_2.e3d934bf.png
	片名:霸王别姬
                主演:张国荣,张丰毅,巩俐
        上映时间:1993-01-01(中国香港)
	得分:9.6
      '''


猜你喜欢

转载自blog.csdn.net/qq_34173491/article/details/80765129
今日推荐