小白的py爬虫学习笔记_1_2 - 代码天地

小白的py爬虫学习笔记_1_2

编程语言 2018-08-10 02:58:56 阅读次数: 0

准备材料

python3.7
pycharm编译器
urllib/requests/beautifulsoup4/pandas package

urllib package

官方文档：https://docs.python.org/3/library/urllib.html

exp1_1

import urllib.request
f=urllib.request.urlopen('http://www.baidu.com/')
f.read(500)
%打印前500个字符
f.read(500).decode('utf-8')

requests package

安装步骤：
http://docs.python-requests.org/zh_CN/latest/user/install.html#install
参考：
https://blog.csdn.net/jobschen/article/details/49559023
https://www.jianshu.com/p/66d85c06238c
ps:这里花了好多时间啊。。疯狂报错tat

exp1_2

import requests
r=requests.get('https://www.baidu.com/')
r
r.text
r.encoding='utf-8'
r.text

bs4/pandas package

笔者使用了pycharm的扩展库进行安装

这里要先更新pip！！

【在pycharm的偏好设置里->project interpreter ->双击pip->右下角选版本号->install】

这里花了巨多时间啊一直疯狂报错一个暴哭tat

仿照老师给的例子爬了逐梦演艺圈的短评

import requests
r=requests.get('https://movie.douban.com/subject/26322774/comments?status=P').text

from bs4 import BeautifulSoup
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('span','short')
for item in pattern:
    print(item.string)
%%提取文字 只能单节点之间提取的感觉？
import pandas
comments=[]
for item in pattern:
    comments.append(item.string)
df=pandas.DataFrame(comments)
df.to_excel('comment.xlsx')

猜你喜欢

转载自blog.csdn.net/weixin_42882826/article/details/81459663

小白的py爬虫学习笔记_1_2

ArcGIS案例学习1_2

2020年1_2月寒假学习心得

2-4-1 基于 HTML 的爬虫，Python（Beautifulsoup）实现（版本：py3）——学习笔记

2-3-1 网页爬虫所需的 HTML 基础（版本：py3）——学习笔记

2-5-1 网络爬虫高级技巧：使用代理和反爬虫机制（版本：py3）——学习笔记

Android AutoCompleteTextView 的使用_1_2

【sql编程1_2】连接查询

1_2 linux 文件传输 WinSCP

Python爬虫的小白学习笔记1-批量下载图片

Python实战1_2：爬取商品信息

数据库1_2——数据模型

爬虫学习笔记（1）

爬虫学习笔记1

python爬虫学习笔记2：实例学习1

小白的tensorflow学习笔记（1）

爬虫基本原理——小白第一周学习笔记(1)

小白学爬虫笔记2---网络爬虫引发的问题

py学习笔记2-函数

学习python爬虫笔记(1)

python 爬虫学习笔记（1）

Python 爬虫学习笔记1

Python爬虫学习笔记 - 1

网络爬虫学习笔记 1

python爬虫学习笔记1

左神算法进阶班1_2判断两个树的结构是否相同

Broccoli Tree Creator 使用说明 1_2、Pipeline Elements （管道元素）

操作系统 1_2一种操作系统的演化（123班）

Python爬虫（入门+进阶）学习笔记 1-2 初识Python爬虫

网络爬虫学习笔记2

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)