python 简单的爬虫技术

# -*- coding:utf-8 -*-    
import requests
from lxml import html
url='https://movie.douban.com/' #需要爬数据的网址
page=requests.Session().get(url) 
tree=html.fromstring(page.text) 
result=tree.xpath('//td[@class="title"]//a/text()') #获取需要的数据

print(result);


原因:程序中出现中文,运行的时候出现如下错误,导致出错的根源就是编码问题。

解决方案是:

在程序最上面加上这样程序就可以正常运行了。

可以修改eclipse的编码,在Project--》properties--》resource --》test file encoding 选择other --》选择utf-8,应用保存即可 之后所有的中英文都不在干扰,也可以在页面第一行加上# -*- coding:utf-8 -*-效果一样。


猜你喜欢

转载自blog.csdn.net/qq_35396905/article/details/80884206