xpath的基本使用:
#前提: pip install requests ; pip install lxml
# 先启动 service mysql start service apache2 start 开启mysql和apache2服务
# 导入requests库
import requests
# 根据 url获取到对象
response = requests.get("https://www.cnblogs.com/lone5wolf/p/10905339.html")
# 导入 etree库
from lxml import etree
concent = response.text
# 使用etree.HTML对网页的文本进行解析
title = etree.HTML(concent)
# 使用xpath 解析获取到数据
element = title.xpath("/html/body/div[2]/div[1]/div[1]/h1/a")
print(element[0].text)
使用eclipse的wordcount
- 创建map/reduce的project项目
- 书写代码