初学python第一个网络爬虫

1.   打开python开发工具PyCharm:选择Create New Project创建一个项目


进入后可以修改项目名称,这里取名为test1为例:,然后点击下方的Create,创建test1项目:


创建项目后回出现如下界面,鼠标放在test1上面右键选择New—>Python File-->创建一个python文件,这里取名test,然后双击进入test文件编写代码:

Test文件代码如下:

第一行:#coding=utf-8,固定写法,编码格式

第二行:导入第三方依赖库urllib2,如果找不到可以去下载,这里不讲,不知道的可以联系qq:137319629

第三行:真正的获取网络数据的代码,使用urllib2库里面的openurl方法,传入一个URL,这个网址是百度首页,协议是HTTP协议,当然你也可以把HTTP换做FTP,FILE,HTTPS 等等,只是代表了一种访问控制协议,urlopen一般接受三个参数,它的参数如下:urlopen(url,data,timeout)

第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。

第二三个参数是可以不传送的,data默认为空None,timeout默认为socket._GLOBAL_DEFAULT_TIMEOUT

第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。

第四行:print req.read()response对象有一个read方法,可以返回获取到的网页内容。

到这里我们是不是可以直接运行了,找到run按钮,咦,为什么是灰色的,点击不了呢?可以这样解决:

找到这个向下的箭头,选择Edit Configurations这个点击进去,我们可以点击“+”,选择Python

完成上述步骤后回出现如下界面:点击右边的“…”,回出现一个选择路径的框,我们选择刚才编写代码的test.py即可,然后点击ok保存,现在来看看run按钮已经变成绿色了,点击run就可以运行了。

查看运行结果:是不是很开心,已经获取到了百度首页的数据了。


猜你喜欢

转载自blog.csdn.net/qq_37792992/article/details/79206093