编写爬虫的几个注意点

写入文件时:

  一:  由于windows系统默认打开编码格式为gbk, 此时需将打开方式设置为 utf-8 

1     with open('text2.txt', 'w+', encoding='utf-8') as f:  # 改变默认编码格式
2         for j, k in zip(movie_list, director_list[1:]):  # 多变量循环方法
3             f.write(j + '[' + k + ']' + '\n')
4     f.close()

 解析文件时:

  http://jsonlint.com测试json文件是否符合规范

    正则表达式: <--点击了解

  BeautifulSoup官方文档(支持中文)<--点击了解

  BeautifulSoup中文详解<--点击了解

 关于mysql数据库:

  mysql安装配置全教程 : 未解决...

   

   windows下mysql无法正确显示中文时:  <--点击了解

  向mysql写入json格式文件出错时 <--点击了解

  抓取网页时模拟真实用户的行为:   间隔随机时间

  

猜你喜欢

转载自www.cnblogs.com/exploer/p/10669399.html
今日推荐