菜鸟学爬虫之爬取网易新闻

学习了python基本语法后，对爬虫产生了很大的兴趣，废话不多说，今天来爬取网易新闻，实战出真知。
打开网易新闻（https://news.163.com/）可以发现新闻分为这样的几个板块：
这里写图片描述
这次选择国内板块来爬取文章。

1.准备

环境：python3
编译器：PyCharm
安装selenium针对三大浏览器驱动driver

下载地址

1.chromedriver ：https://code.google.com/p/chromedriver/downloads/list
2.Firefox的驱动geckodriver ：https://github.com/mozilla/geckodriver/releases/
3.IE的驱动IEdriver ：http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/

了解网页

网页绚丽多彩，美轮美奂，如同一幅水彩画。爬取数据首先需要知道所需要抓取的数据是怎样的呈现的，就像学作一幅画，开始前你要知道这幅画是用什么画出来的，铅笔还是水彩笔…可能种类是多样的，但是放到网页信息来说这儿只有两种呈现方式：
1、HTML
2、JSON
HTML是用来描述网页的一种语言
JSON是一种轻量级的数据交换格式
爬取网页信息其实就是向网页提出请求，服务器就会将数据反馈给你

2.获得动态加载源码

导入需要的用的模块和库：

from bs4 import BeautifulSoup
import time
import def_text_save as dts
import def_get_data as dgd
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains #引入ActionChains鼠标操作类

获取网页信息需要发送请求，requests能帮我们很好的完成这件事，但是仔细观察发现网易新闻是动态加载，requests返回的是即时信息，网页部分稍后加载出来的数据没有返回，这种情况selenium能够帮助我们得到更多的数据，我们将selenium理解为一个自动化测试工具就好，Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。

我使用的浏览器为Firefox

browser = webdriver.Firefox()#根据浏览器切换
browser.maximize_window()#最大化窗口
browser.get('http://news.163.com/domestic/')

这样我们就能驱动浏览器自动登陆网易新闻页面，
这里写图片描述

我们的目标自然是一次将国内板块爬取下来，观察网页，在网页不断向下刷时，新的新闻才会加载出来，到最下面甚至还有需要点击按钮才能刷新：

这里写图片描述
这时使用selenium就能展现其优势：自动化，模拟鼠标键盘操作：

diver.execute_script("window.scrollBy(0,5000)")
#使网页向下拉，括号内为每次下拉数值

在网页中右键点击加载更多按钮，点击查看元素，可以看到
这里写图片描述
通过这个class就可以定位到按钮，碰到按钮时，click事件就能帮助我们自动点击按钮完成网页刷新

'''
爬取板块动态加载部分源代码
'''
info1=[]
info_links=[]    #存储文章内容链接
try:
    while True :
        if  browser.page_source.find("load_more_btn") != -1 :
            browser.find_element_by_class_name("load_more_btn").click()
        browser.execute_script("window.scrollBy(0,5000)")
        time.sleep(1)
except:
    url = browser.page_source#返回加载完全的网页源码
    browser.close()#关闭浏览器

3.获取有用信息

简单来说，BeautifulSoup是python的一个库，最主要的功能是从网页抓取数据，能减轻菜鸟的负担。
通过BeautifulSoup解析网页源码，在加上附带的函数，我们能轻松取出想要的信息，例如：获取文章标题，标签以及文本内容超链接
这里写图片描述
同样在文章标题区域右键点击查看元素：

观察网页结构发现每一个div 标签 class=“news_title” 下都是文章的标题和超链接。soup.find_all()函数能帮我们找到我们想要的全部信息，这一级结构下的内容就能一次摘取出来。最后通过字典，把标签信息，挨个个取出来。

info_total=[]
def get_data(url):
    soup=BeautifulSoup(url,"html.parser")
    titles=soup.find_all('div','news_title')
    labels=soup.find('div','ns_area second2016_main clearfix').find_all('div','keywords')
    for title, label in zip(titles,labels ):
            data = {
                '文章标题': title.get_text().split(),
                '文章标签':label.get_text().split() ,
                'link':title.find("a").get('href')
            }
            info_total.append(data)
    return info_total

4.获取新闻内容

自此，新闻链接已经被我们取出来存到列表里了，现在需要做的就是利用链接得到新闻主题内容。新闻主题内容页面为静态加载方式，requests能轻松处理：

def get_content(url):
    info_text = []
    info=[]
    adata=requests.get(url)
    soup=BeautifulSoup(adata.text,'html.parser')
    try  :
        articles = soup.find("div", 'post_header').find('div', 'post_content_main').find('div', 'post_text').find_all('p')
    except :
        articles = soup.find("div", 'post_content post_area clearfix').find('div', 'post_body').find('div', 'post_text').find_all(
            'p')
    for a in articles:
        a=a.get_text()
        a= ' '.join(a.split())
        info_text.append(a)
    return (info_text)

使用 try except的原因在于，网易新闻文章在某个时间段前后，文本信息所处位置标签不一样，对不同的情况应作出不同的处理。
最后遍历整个列表取出全部文本内容：


for i in  info1 :
    info_links.append(i.get('link'))
x=0   #控制访问文章目录
info_content={}# 存储文章内容
for i in info_links:
    try :
        info_content['文章内容']=dgd.get_content(i)
    except:
        continue
    s=str(info1[x]["文章标题"]).replace('[','').replace(']','').replace("'",'').replace(',','').replace('《','').replace('》','').replace('/','').replace(',',' ')
    s= ''.join(s.split())
    file = '/home/lsgo18/PycharmProjects/网易新闻'+'/'+s
    print(s)
    dts.text_save(file,info_content['文章内容'],info1[x]['文章标签'])
    x = x + 1

5.存储数据到本地txt文件

python提供了处理文件的函数open（），第一个参数为文件路径，第二为文件处理模式，”w“模式为只写（不存在文件则创建，存在则清空内容）

def text_save(filename, data,lable):   #filename为写入CSV文件的路径
    file = open(filename,'w')
    file.write(str(lable).replace('[','').replace(']','')+'\n')
    for i in range(len(data)):
        s =str(data[i]).replace('[','').replace(']','')#去除[],这两行按数据不同，可以选择
        s = s.replace("'",'').replace(',','') +'\n'   #去除单引号，逗号，每行末尾追加换行符
        file.write(s)
    file.close()
    print("保存文件成功")

一个简单的爬虫至此就编写成功：
这里写图片描述

这里写代码片

*———————————————————————————————————————*
欢迎交流指导：
LSGO软件技术团队
这里写图片描述