使用python实现简单爬虫 - 代码天地

使用python实现简单爬虫

其他 2018-10-30 18:51:33 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_18149897/article/details/77744487

近日学习了python语言，简单实现了一个爬虫，爬取了慕课网课程简介上的图片，并保存到本地。以下是实验代码：

# -*- coding: utf-8 -*-
"""
Spyder Editor

"""
import re
import os
import urllib.request  #在python3.6环境中实现


f_soure = urllib.request.urlopen('http://www.imooc.com/course/list')
#爬取目标地址
mybytes = f_soure.read()

mystr = mybytes.decode('utf8')

result = re.findall(r'http:.+\.jpg',mystr)
#打印输出并对正则结果进行字符串切割
print(len(result[0]))
print(result[0].index('.jpg'))
print(result[0][:60])

l = []
for i in result:
    l.append(i[:60])

print (l)
#重新生成图片url地址，读出并保存到本地
k=0
for url in l:
    f = open('F:\\python_test\\%d.jpg'%(k),'wb+')
    rep = urllib.request.urlopen(url)
    f.write(rep.read())
    f.close()
    k+=1        

print ('success')

在实验过程中，发现使用python自带的os模块，当urllib.request.urlopen(url)方法返回的类file对象时，使用此对象的read方法会出现读取不完全现象。代码如下：

# -*- coding: utf-8 -*-
"""
Spyder Editor

"""
import re
import urllib.request


f_soure = urllib.request.urlopen('http://www.imooc.com/course/list')

mybytes = f_soure.read()

mystr = mybytes.decode('utf8')

result = re.findall(r'http:.+\.jpg',mystr)

print(len(result[0]))
print(result[0].index('.jpg'))
print(result[0][:60])

l = []
for i in result:
    l.append(i[:60])

print (l)
k=0
#使用os模块进行写入
for url in l:
    f = os.open('F:\\python_test\\%d.jpg'%(k),os.O_CREAT|os.O_RDWR)
    rep = urllib.request.urlopen(url)
    iter_f = iter(rep)
    for line in iter_f:
        os.write(f,line)    

    os.close(f)
    k+=1        

print ('success')

如果有大神知道为什么这样，还请解惑~~

猜你喜欢

转载自blog.csdn.net/qq_18149897/article/details/77744487

使用python实现简单爬虫

使用python实现简单的爬虫操作

Python实现简单的爬虫

python 实现简单爬虫

python实现简单爬虫

Python 实现简单的爬虫

实现简单的python爬虫功能

【Python】简单网络爬虫实现

基于python爬虫的简单实现

关于python实现简单爬虫

【一】，python简单爬虫实现

python实现简单爬虫功能

python简单实现网络爬虫

python实现简单的爬虫功能

Python爬虫----Scrapy的简单使用

python 爬虫 Selenium的简单使用

python爬虫之类的简单使用

Python爬虫实现 — Scrapy使用

使用python实现简答的爬虫

使用Python爬虫爬取简单网页（Python爬虫入门）

利用python爬虫实现简单翻译软件

Python实现简单的爬虫代码以及步骤

python爬虫-简单的图片爬取实现

python(1)-实现简单的图片爬虫

python3实现简单图片爬虫

Selenium + PhantomJS + python 简单实现爬虫的功能

Python语言开发《简单网络爬虫实现》

Python语言开发《简单网络爬虫实现》

Python语言开发《简单网络爬虫实现》

基于Python实现的爬虫与简单图片处理

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)