将自己的博客内容总结到一个文件中(爬虫知识练习)

引言

万事开头难!勤而行之!

实现思路
爬虫就是抓取网页数据的程序
爬虫的实现流程就三部分:获取网页丶解析网页丶储存数据
1.首先通过Requests库向指定的URl地址发送HTTP请求,从而把整个网页的数据爬取下来,
2.接着通过BeautifulSoup模块对页面数据进行分析并对目标数据定位,从而将需要的信息抽取出来
3.最后通过文件操作将文件储存到指定的文本文件中

#安装库
pip install 第三方库名

##导入模块
import requests
from bs4 import BeautifulSoup
##分析url
url = "http://www.cnblogs.com/cangshuchirou/default.html?page="
##模拟浏览器浏览服务器
user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;)"
headers = { "User-Agent" : user_agent }
##拼接url
for i in range( 1,5 ):
        urlf = url + str( i )
        print(urlf)
##        将请求内容保存在res变量中
        res = requests.get( urlf, headers = headers )
##        产生解析网页的一个对象soup
        soup = BeautifulSoup( res.text, "lxml" )
##        正则抽取数据
        titles = soup.find_all( 'a', {'class' : 'postTitle2'} )
##        循环数据保存指定数据到指定的文件中
        for item in titles:
                title = item.text.strip()
                link = item['href']
                
                with open( "d:/cang_shu_blog.txt" , "a+" ) as f:
                        f.write(title + "\n" + link +"\n")

  

结果如下:

0CRM
https://www.cnblogs.com/cangshuchirou/p/9133123.html
0内置常量
https://www.cnblogs.com/cangshuchirou/p/9125039.html
0python100练
https://www.cnblogs.com/cangshuchirou/p/9112872.html
0python内置函数
https://www.cnblogs.com/cangshuchirou/p/9108313.html
0python之禅
https://www.cnblogs.com/cangshuchirou/p/9047349.html
0Django
https://www.cnblogs.com/cangshuchirou/p/8963286.html
0pymsql入门
https://www.cnblogs.com/cangshuchirou/p/8952726.html
0jQuery事件
https://www.cnblogs.com/cangshuchirou/p/8921037.html
0数据库(索引)
https://www.cnblogs.com/cangshuchirou/p/8780786.html
0算法基础知识
https://www.cnblogs.com/cangshuchirou/p/8780267.html
0数据库(查询专项)
https://www.cnblogs.com/cangshuchirou/p/8717620.html
0数据库(所有人都坐下!这是基本操作!)
https://www.cnblogs.com/cangshuchirou/p/8710319.html
0协程
https://www.cnblogs.com/cangshuchirou/p/8696330.html
0IO模型
https://www.cnblogs.com/cangshuchirou/p/8696315.html
030个python常用技巧
https://www.cnblogs.com/cangshuchirou/p/8678197.html
0线程
https://www.cnblogs.com/cangshuchirou/p/8671632.html
0管道
https://www.cnblogs.com/cangshuchirou/p/8665167.html
0多进程
https://www.cnblogs.com/cangshuchirou/p/8651478.html
0进程
https://www.cnblogs.com/cangshuchirou/p/8631239.html
0验证客户端的一致性
https://www.cnblogs.com/cangshuchirou/p/8624480.html
0黏包现象
https://www.cnblogs.com/cangshuchirou/p/8617206.html
0socket模块
https://www.cnblogs.com/cangshuchirou/p/8609837.html
0网络编程基础
https://www.cnblogs.com/cangshuchirou/p/8602689.html
0面试题
https://www.cnblogs.com/cangshuchirou/p/8585078.html
0面试题合集
https://www.cnblogs.com/cangshuchirou/p/8581611.html
0异常
https://www.cnblogs.com/cangshuchirou/p/8576285.html
0三个重要的模块loggning,hashlib,configparse
https://www.cnblogs.com/cangshuchirou/p/8570064.html
0面向对象进阶
https://www.cnblogs.com/cangshuchirou/p/8559046.html
0单例模式
https://www.cnblogs.com/cangshuchirou/p/8557000.html
0反射
https://www.cnblogs.com/cangshuchirou/p/8551007.html
0封装
https://www.cnblogs.com/cangshuchirou/p/8549636.html
0开发规范
https://www.cnblogs.com/cangshuchirou/p/8530447.html
0继承,多态,接口
https://www.cnblogs.com/cangshuchirou/p/8530417.html
0面向对象多态及其继承
https://www.cnblogs.com/cangshuchirou/p/8528948.html
0面向对象三大特性
https://www.cnblogs.com/cangshuchirou/p/8522417.html
0模块的出生
https://www.cnblogs.com/cangshuchirou/p/8493361.html
0python的一些常用标准库
https://www.cnblogs.com/cangshuchirou/p/8493234.html
0re模块
https://www.cnblogs.com/cangshuchirou/p/8484630.html
0random模块
https://www.cnblogs.com/cangshuchirou/p/8483743.html
0集合文件操作
https://www.cnblogs.com/cangshuchirou/p/8392062.html
0制作python游戏(一)环境搭建
https://www.cnblogs.com/cangshuchirou/p/8433589.html
0迭代器和生成器
https://www.cnblogs.com/cangshuchirou/p/8422615.html
0py2与py3差别
https://www.cnblogs.com/cangshuchirou/p/8423855.html
0装饰器
https://www.cnblogs.com/cangshuchirou/p/8406796.html
0函数基础
https://www.cnblogs.com/cangshuchirou/p/8399879.html
0深浅copy
https://www.cnblogs.com/cangshuchirou/p/8377698.html
0字符串
https://www.cnblogs.com/cangshuchirou/p/8361343.html
0range
https://www.cnblogs.com/cangshuchirou/p/8341872.html
0join的基本用法和while else 特性
https://www.cnblogs.com/cangshuchirou/p/8341851.html
0字典的增删改查
https://www.cnblogs.com/cangshuchirou/p/8351337.html
0python基础数据型初探
https://www.cnblogs.com/cangshuchirou/p/8337035.html
0python基础列表元组用法
https://www.cnblogs.com/cangshuchirou/p/8341661.html
0python以及计算机原理基础简要摘录
https://www.cnblogs.com/cangshuchirou/p/8329649.html
0python bif 如何自学
https://www.cnblogs.com/cangshuchirou/p/8332100.html
0基本数据类型相互转换及操作方法
https://www.cnblogs.com/cangshuchirou/p/8351714.html
0python萌新应知应会
https://www.cnblogs.com/cangshuchirou/p/8319132.html

  

猜你喜欢

转载自www.cnblogs.com/cangshuchirou/p/9148345.html