常用命令--持续更新





查看进程,比如kafka的:ps -ef|grep kafka






--------------------------------------------------------------------

hive:


hive客户端启动:hive

使用数据库:use 数据库名

查看数据库中的表:show tables

查看表结构:desc 表名

删除空的数据库:DROP DATABASE IF EXISTS 库名;

删除有数据的数据库:DROP DATABASE IF EXISTS 库名 CASCADE;

删除表及表中的数据:drop table if exists 表名;

清空表而不删除数据1:insert overwrite table t_table1 select * from t_table1 where 1=0;

清空表而不删除数据2:truncate table

更改某一个字段的类型:alter table ori_e3_by_order_info change 旧字段 旧字段 int;

更改某一字段名称及类型:alter table ori_e3_by_order_info change 旧字段 新字段 int;


----------------------------------------------------------------------

kafka:

创建者 : 

bin/kafka-topics.sh --create --zookeeper node1:2181 --replication-factor 3 --partitions 1 --topic test20151207

生产者 : 

bin/kafka-console-producer.sh --broker-list node3:9092 --topic test20151207  (node3为kafka主机节点,百分点修改端口为6667,百分点中警告忽略)



消费者 : 

bin/kafka-console-consumer.sh --zookeeper node1:2181  --topic test20151207


查看:kafka的主题列表

bin/kafka-topics.sh --list --zookeeper 192.168.168.188:2181


----------------------------------------------------------------------------------------------


storm

storm在线api :   https://storm.apache.org/javadoc/apidocs/index.html

查看当前运行的拓扑列表 : storm list

提交执行任务 :storm jar 程序入口 拓扑名称

mapReduce的监控页面 : http://192.168.103.25:8088/


------------------------------------------------------------------------


sqoop


hive中忽略每一行中的分隔符:/n 与 关系型数据库中没有主键 : --hive-drop-import-delims -m 1


linux

./xml_hive.sh >/fanghj/test 2>&1 &  :将脚本输出日志(所有,其中:1或不写代表所有日志,2代表错误日志,&代表放到后台执行:即使windows下断网也不影响)到指定文件

top 查看服务器进程   按1:查看cpu   按m:忘了




———————————————————————————————————————————————————


                 HDFS常用命令


创建目录 : hadoop fs -mkdir

递归创建目录 :hadoop fs -mkdir -p

上传一个文件 : hadoop fs -put 本地文件路径  要上传到的hdfs路径

删除一个文件和文件夹 : hadoop fs -rmr 文件/文件夹路径

查看一个文件夹里面有哪些文件 : hadoop fs -ls 文件路径

查看某个文件的内容 : hadoop fs -text/cat/tail 文件名

hadoop下杀死一个job : 

hadoop job -list   拿到job-id   hadoop job -kill job-id

解除安全模式:hadoop dfsadmin -safemode leave


将本地文件中的数据导入hive表:
load data local inpath '/usr/person.txt' into table t_person partition (sex=0);


查看hive数据的命令:
hdfs dfs -cat /user/hive/warehouse/t_person    (hive在hdfs上的默认保存目录)
或者 hadoop dfs -cat /user/hive/warehouse/t_person


服务器上提交mr任务:jar的路径为linux路径,并非hdfs


情况1:jar中不指定文件的输入输出路径,比较灵活
hadoop jar jar路径  类的全限定名 例如:hadoop jar /examples/wc.jar com.dada.mr.WordCount


情况2:jar中指定文件的输入输出路径,不灵活

hadoop jar jar路径 类的全限定名


------------------------------------------------


windows 使用计算机: calc

linux忽略换行符: set off=unix

vi:
查看前100行: head -n 100 file_name
查看后100行: tail -n 100 file_name
监控某个文件: tail -f file_name
编辑模式按名称查找: :/name

hive中查看完整的表结构信息: desc formatted table_name

oracle忽略特殊字符: SET DEFINE OFF


oracle 查看视图的元数据信息:

select * from all_objects where object_name = 'xxx'


crontab 定时调度  查看 crontab -l    编辑 crontab -e

min hour day mon week

0 10 * * * bash date01/...sh >/dev/null 2>&1    每天10点调度

0 0 1 3,6,9,12 * bash date01/...sh >/dev/null 2>&1  每3,6,9,12月份的1号0点开始调度

30 16 20 3 2 bash data01/...sh >dev/null 2>&1  周2 3月20号 16点30分开始调度


windows命令行打jar:

切换到某个盘符下: d:
cd d:\workspaxes\canal01
jar -cvf canal.jar com.huawei.canal.ClientSample

eclipse scala插件 import提示: Ctrl+Alt+O

kafa:
查看topic列表: kafka-topics.sh --list --zookeeper 10.42.148.110:2400/kafka
创建topic: kafka-topics.sh --create --topic test01 --partitions 5 -- replication-factor 3 --zookeeper 10.42.148.110:2400/kafka    


爬虫:

创建scrapy工程命令: scrapy startproject xxx

spider是单例的,注意成员变量的使用。request是异步请求

频繁的访问网站,导致503太多

python中的str是个内置方法。所以不要给变量赋名str,否则会报错:
VaboundLoadError: local variable 'str' referenced before assignment


加密编码:
base64.decodestring('xxxxxxxxxxxxxxx')

解密解码:
base64.encodestring('xxx')
注意最后的\n去掉

json数据的中文问题: 可先将列表转换为json
content = json.dumps(list_name,ensure_ascii=False)

列表中文问题:
str(list_name).decode("unicode-escape")


get方式:

  yield scraps.Request(url=href,meta={'country':response.meta['xxx'],'news_url':href},header=seft.headers,callback=self.xxx方法)


post方法:

  return [scrapy.FormRequest.from_response(response,url=self.real_url,header=self.headers,meta={'cookiejar':response.meta['cookiejar']},formdata=self.formdata,callback=self.xxx方法)]


其中: return是跳出方法,yield不跳出方法,yield 是异步的。


xpath:

response.xpath('//*[@id="input-cosd"]/@value').extracte[0]  获取value标签的第一元素

/text()   获取文本信息
//text()  某个标签及以下所有的文本信息(包含子集标签)
/@href  获取url
./@class 当前目录下包含class的标签
./@ style 当前目录下包含style的标签


求h3/h4目录:

tmp3 = item.xpath('/@style').extract()

tmp4 = item.xpath('contains(./style,"xxx")').extract()
-------------------------------------------------------------------

spark : 

1.X

spark core   --> RDD 

spark sql    --> DataFrame  DF

spark streaming  --> DataStream DS


2.X

DataSet













猜你喜欢

转载自blog.csdn.net/dream__sky_/article/details/79823173