Python爬虫(入门+进阶)学习笔记 1-2 初识Python爬虫

本人Mac + Anaconda(Python3) + PyCharm + Chrome


简单来说,Anaconda是包管理器和环境管理器。Anaconda 附带了一大批常用数据科学包,它附带了 conda、Python 和 150 多个科学包及其依赖项。因此你可以立即开始处理数据。Anaconda 是在 conda(一个包管理器和环境管理器)上发展出来的。在数据分析中,你会用到很多第三方的包,而conda(包管理器)可以很好的帮助你在计算机上安装和管理这些包,包括安装、卸载和更新包。Anaconda 的下载文件比较大(约 500 MB),因为它附带了 Python 中最常用的数据科学包。如果计算机上已经安装了 Python,安装不会对你有任何影响。实际上,脚本和程序使用的默认 Python 是 Anaconda 附带的 Python。



PyCharm是一种Python IDE(Integrated Development Environment,集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。


如果下载了PyCharm后,PyCharm中的Python是系统自带的2.x版本,而不是Anaconda中的Python 3.x,需要将Pycharm中Setting中Project Interpreter换成Anaconda目录下的Python:



爬虫三步走

  • 爬虫第一步:使用requests获得数据
  • 爬虫第二步:使用BeautifulSoup4解析数据
  • 爬虫第三步:使用pandas保存数据
import requests     
r = requests.get('https://book.douban.com/subject/1084336/comments/').text

from bs4 import BeautifulSoup
soup = BeautifulSoup(r,'lxml')
pattern = soup.find_all('p','comment-content')
for item in pattern:
    print(item.string)

import pandas
comments = []
for item in pattern:
    comments.append(item.string)    
df = pandas.DataFrame(comments)
df.to_csv('comments.csv')

Python 3 基础教程


python如何安装第三方库

python的一大优势就在于python拥有强大的第三方库,通过这些第三方库可以快速的实现某些强大的功能,因此学会安装python的第三方库是使用python必备的一个技能。 
阅读Python 安装 第三方库的安装技巧,学会如何快速安装python第三方库。


拓展阅读

在行业内颇有几年经验的程序员都不能保证自己是完全精通一门语言的,熟练Python基础知识补充材料可以让你很好的完成这门课程的学习,但对于有志于在这个行业闯出一番天地的你而言,还有更多材料等待你去阅读。下面推荐给你一些高质量的学习资料:


猜你喜欢

转载自blog.csdn.net/kissazhu/article/details/79715384