【爬虫】爬取我的CSDN中的信息

爬取博客标题

from urllib import request
from lxml import etree
page=1
total=0
while page<=2:
    request_url="https://blog.csdn.net/weixin_38052444/article/list/"+str(page)
    response=request.urlopen(request_url)
    htmlDataBytes=response.read()
    selector=etree.HTML(htmlDataBytes) #装载html
    items=selector.xpath('//*[@id="mainBox"]/main/div[2]/div')  #xpath中的内容应根据实际网页结构来取值,找到列表的所在的节点
    for item in items:
        title=item.xpath('./h4/a/text()')  #要爬取的内容,并显示
        if title:
            total+=1
            tit=title[1].strip() #strip()去掉前后多余空格
            print(tit)
    page=page+1
print("一共发布"+str(total)+"条博客")

结果:

"E:\python workspace\session\venv\Scripts\python.exe" "E:/python workspace/spider/csdn.py"
解决“(1146, "Table 'mydb.django_session' doesn't exist")”报错的方法
遇到“CSRF verification failed. Request aborted”问题的解决办法
【爬虫】模拟百度搜索,爬取搜索界面源代码
【爬虫】爬取网易首页源代码
域名后面跟参数的方法
表格居中
解决Django中csrf报错的办法
PAT1035. 插入与归并
归并排序
Django 数据操作
最近学习Django的一些笔记
python中列表排序的一些问题
jq、ajax表单操作表单(包括全选、添加、删除等)
字符串连接成变量
省市县 联动(存在部分bug)
用js判断字符是否在数组中?
图片联播
jquery初步学习 选择器
【综合】商品展示
文本框中设置提示文字的方法
【综合】鼠标事件的触发
javascript 获取时间
css选择器
隔行显示颜色
html&css编程过程中,上方图片与导航栏有间隙的解决办法
CSS选择器
表单类型
锚链接
害死人不偿命的(3n+1)猜想
在python中调用存储过程
事务
MySQL 索引
drop与delete的区别
关于字典
一共发布34条博客

Process finished with exit code 0

猜你喜欢

转载自blog.csdn.net/weixin_38052444/article/details/82684643