Python 爬取 北京市政府首都之窗信件列表-[数据处理]

日期:2020.01.24

博客期:132

星期五

  好了今天是除夕,先给大家说句吉利话,“祝大家打代码代代顺利,码码成功”!我因为回家了,今天没做太多东西... ...呼~

  登录虚拟机,启动hadoop和hive,准备做数据处理部分!

//建数据库的语句
create table govdata(
   kind string,
   asker string,  
   responser string,
   asktime string,  
   responsetime string, 
   title string,  
   questionSupport int,  
   responseSupport string,
   responseUnsupport string,
   questiontext string,  
   responsetext string  
)  row format delimited  
fields terminated by '\t';

  处理如下:

  

   之后通过文件导入数据(以"\t"为分隔符进行数据导入):

//从路径为"/data/edu3/govdata"的文件导入数据
load data local inpath '/data/edu3/govdata' into table govdata;

  处理如下:

  

   之后对应需求部分的处理正在进行

  下面是对数据库的测试:

   

猜你喜欢

转载自www.cnblogs.com/onepersonwholive/p/12232416.html
今日推荐