常用命令--持续更新

查看进程，比如kafka的：ps -ef|grep kafka

--------------------------------------------------------------------

hive:

hive客户端启动：hive

使用数据库：use 数据库名

查看数据库中的表：show tables

查看表结构：desc 表名

删除空的数据库：DROP DATABASE IF EXISTS 库名;

删除有数据的数据库：DROP DATABASE IF EXISTS 库名 CASCADE;

删除表及表中的数据：drop table if exists 表名;

清空表而不删除数据1：insert overwrite table t_table1 select * from t_table1 where 1=0;

清空表而不删除数据2：truncate table

更改某一个字段的类型：alter table ori_e3_by_order_info change 旧字段旧字段 int;

更改某一字段名称及类型：alter table ori_e3_by_order_info change 旧字段新字段 int;

----------------------------------------------------------------------

kafka:

创建者：

bin/kafka-topics.sh --create --zookeeper node1:2181 --replication-factor 3 --partitions 1 --topic test20151207

生产者：

bin/kafka-console-producer.sh --broker-list node3:9092 --topic test20151207 (node3为kafka主机节点，百分点修改端口为6667，百分点中警告忽略)

消费者：

bin/kafka-console-consumer.sh --zookeeper node1:2181 --topic test20151207

查看：kafka的主题列表

bin/kafka-topics.sh --list --zookeeper 192.168.168.188:2181

----------------------------------------------------------------------------------------------

storm

storm在线api : https://storm.apache.org/javadoc/apidocs/index.html

查看当前运行的拓扑列表： storm list

提交执行任务：storm jar 程序入口拓扑名称

mapReduce的监控页面： http://192.168.103.25:8088/

------------------------------------------------------------------------

sqoop

hive中忽略每一行中的分隔符：/n 与关系型数据库中没有主键： --hive-drop-import-delims -m 1

linux

./xml_hive.sh >/fanghj/test 2>&1 & :将脚本输出日志（所有，其中：1或不写代表所有日志，2代表错误日志，&代表放到后台执行：即使windows下断网也不影响）到指定文件

top 查看服务器进程按1：查看cpu 按m：忘了

———————————————————————————————————————————————————

HDFS常用命令

创建目录： hadoop fs -mkdir

递归创建目录：hadoop fs -mkdir -p

上传一个文件： hadoop fs -put 本地文件路径要上传到的hdfs路径

删除一个文件和文件夹： hadoop fs -rmr 文件/文件夹路径

查看一个文件夹里面有哪些文件： hadoop fs -ls 文件路径

查看某个文件的内容： hadoop fs -text/cat/tail 文件名

hadoop下杀死一个job :

hadoop job -list 拿到job-id hadoop job -kill job-id

解除安全模式：hadoop dfsadmin -safemode leave

将本地文件中的数据导入hive表：
load data local inpath '/usr/person.txt' into table t_person partition (sex=0);

查看hive数据的命令：
hdfs dfs -cat /user/hive/warehouse/t_person (hive在hdfs上的默认保存目录)
或者 hadoop dfs -cat /user/hive/warehouse/t_person

服务器上提交mr任务：jar的路径为linux路径，并非hdfs

情况1：jar中不指定文件的输入输出路径，比较灵活
hadoop jar jar路径类的全限定名例如：hadoop jar /examples/wc.jar com.dada.mr.WordCount

情况2：jar中指定文件的输入输出路径，不灵活

hadoop jar jar路径类的全限定名

------------------------------------------------

windows 使用计算机： calc

linux忽略换行符： set off=unix

vi：
查看前100行： head -n 100 file_name
查看后100行： tail -n 100 file_name
监控某个文件： tail -f file_name
编辑模式按名称查找: :/name

hive中查看完整的表结构信息: desc formatted table_name

oracle忽略特殊字符： SET DEFINE OFF

oracle 查看视图的元数据信息：

select * from all_objects where object_name = 'xxx'

crontab 定时调度查看 crontab -l 编辑 crontab -e

min hour day mon week

0 10 * * * bash date01/...sh >/dev/null 2>&1 每天10点调度

0 0 1 3,6,9,12 * bash date01/...sh >/dev/null 2>&1 每3，6，9，12月份的1号0点开始调度

30 16 20 3 2 bash data01/...sh >dev/null 2>&1 周2 3月20号 16点30分开始调度

windows命令行打jar：

切换到某个盘符下： d:
cd d:\workspaxes\canal01
jar -cvf canal.jar com.huawei.canal.ClientSample

eclipse scala插件 import提示： Ctrl+Alt+O

kafa：
查看topic列表： kafka-topics.sh --list --zookeeper 10.42.148.110:2400/kafka
创建topic: kafka-topics.sh --create --topic test01 --partitions 5 -- replication-factor 3 --zookeeper 10.42.148.110:2400/kafka

爬虫：

创建scrapy工程命令： scrapy startproject xxx

spider是单例的，注意成员变量的使用。request是异步请求

频繁的访问网站，导致503太多

python中的str是个内置方法。所以不要给变量赋名str，否则会报错：
VaboundLoadError: local variable 'str' referenced before assignment

加密编码：
base64.decodestring('xxxxxxxxxxxxxxx')

解密解码：
base64.encodestring('xxx')
注意最后的\n去掉

json数据的中文问题: 可先将列表转换为json
content = json.dumps(list_name,ensure_ascii=False)

列表中文问题:
str(list_name).decode("unicode-escape")

get方式：

yield scraps.Request(url=href,meta={'country':response.meta['xxx'],'news_url':href},header=seft.headers,callback=self.xxx方法)

post方法：

return [scrapy.FormRequest.from_response(response,url=self.real_url,header=self.headers,meta={'cookiejar':response.meta['cookiejar']},formdata=self.formdata,callback=self.xxx方法)]

其中： return是跳出方法，yield不跳出方法，yield 是异步的。

xpath：

response.xpath('//*[@id="input-cosd"]/@value').extracte[0] 获取value标签的第一元素

/text() 获取文本信息
//text() 某个标签及以下所有的文本信息(包含子集标签)
/@href 获取url
./@class 当前目录下包含class的标签
./@ style 当前目录下包含style的标签

求h3/h4目录：

tmp3 = item.xpath('/@style').extract()

tmp4 = item.xpath('contains(./style,"xxx")').extract()
-------------------------------------------------------------------

spark ：

1.X

spark core --> RDD

spark sql --> DataFrame DF

spark streaming --> DataStream DS

2.X

DataSet

常用命令--持续更新

猜你喜欢