准备材料
- python3.7
- pycharm编译器
- urllib/requests/beautifulsoup4/pandas package
urllib package
官方文档:https://docs.python.org/3/library/urllib.html
exp1_1
import urllib.request
f=urllib.request.urlopen('http://www.baidu.com/')
f.read(500)
%打印前500个字符
f.read(500).decode('utf-8')
requests package
安装步骤:
http://docs.python-requests.org/zh_CN/latest/user/install.html#install
参考:
https://blog.csdn.net/jobschen/article/details/49559023
https://www.jianshu.com/p/66d85c06238c
ps:这里花了好多时间啊。。疯狂报错tat
exp1_2
import requests
r=requests.get('https://www.baidu.com/')
r
r.text
r.encoding='utf-8'
r.text
bs4/pandas package
笔者使用了pycharm的扩展库进行安装
这里 要先更新pip!!
【在pycharm的偏好设置里->project interpreter ->双击pip->右下角选版本号->install】
这里花了巨多时间啊 一直疯狂报错 一个暴哭tat
仿照老师给的例子爬了逐梦演艺圈的短评
import requests
r=requests.get('https://movie.douban.com/subject/26322774/comments?status=P').text
from bs4 import BeautifulSoup
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('span','short')
for item in pattern:
print(item.string)
%%提取文字 只能单节点之间提取的感觉?
import pandas
comments=[]
for item in pattern:
comments.append(item.string)
df=pandas.DataFrame(comments)
df.to_excel('comment.xlsx')