2月11日

1,背诵单词:slender修长的,细长的   drift漂,漂流(物)   diameter 直径   submarine 潜水艇   cocaine可卡因   plate金属板,片;盘子  philosophy 哲学,哲理  destiny 命运   machinery(总称)机器,机械   entail 使承担;需要  twist捻;拧;扭曲   massacre残杀,集体屠杀  integrity正直,诚实   clue线索,暗示   riddle谜,谜语  hound 猎狗;卑鄙的人  trim整齐的,整洁的  guilt 罪过,内疚   abdomen 腹  allocate 分配,分派;拨给  provision供应给养   magnificent华丽的,高尚的  liable有...倾向的

2,做爬取北京信件网页内容并学习Java爬虫使用htmlunit观看视频:https://www.bilibili.com/video/av62605696

  htmlunit模拟浏览器:WebClient webClient=new WebClient(BrowserVersion.FIREFOX_52)

  获取指定元素:1,通过getElementxxx方法获取 2,使用getByXpath()方法获取

  对解析页面设置:

    webClient.getOptions().setCssEnabled(false); // 取消css支持

    webClient.getOptions().setJavaScriptEnabled( false );  // 取消javascript支持
  帮助博客: http://blog.java1234.com/index.html

3,遇到的问题:北京信件的分页功能是用Ajax技术实现的,现在不知道通过爬取Ajax获取下一页数据,

4,明天计划:继续将爬取的数据进行分析并学习hive的使用

猜你喜欢

转载自www.cnblogs.com/lq13035130506/p/12297319.html