doris初步使用

官网地址:http://doris.incubator.apache.org/master/zh-CN/installing/compilation.html#%E4%BD%BF%E7%94%A8-docker-%E5%BC%80%E5%8F%91%E9%95%9C%E5%83%8F%E7%BC%96%E8%AF%91%EF%BC%88%E6%8E%A8%E8%8D%90%EF%BC%89

1,编译安装过程就不说了,我没弄,让同事弄的。

2,与zeppelin的整合,实际很简单,就是zeppelin与mysql的整合,下面都是图,都是实操验证过的:

参考zeppelin的文档:

https://github.com/apache/zeppelin/blob/master/docs/interpreter/flink.md#paragraph-local-properties

http://zeppelin.apache.org/docs/latest/interpreter/jdbc.html#mysql

 

3,这个时候我们要在doris先创建表,在mysql客户端可以看的很清楚,当然在zeppelin也可以看到。

在zeppelin执行sql(我这里是2个模型):

先创建的是doris的要写入的表,后面的表是对应的读取kafka的表。一个sink源,一个是source源.

 
‘AGGREGATE模型’测试语句:

%mysql
  CREATE TABLE example_db.testing_table
(
    siteid INT DEFAULT '10',
    username VARCHAR(32) DEFAULT '',
    pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(siteid, username)
DISTRIBUTED BY HASH(siteid) BUCKETS 10
PROPERTIES("replication_num" = "1");

CREATE ROUTINE LOAD example_db.testing_topic ON testing_table
COLUMNS TERMINATED BY "|",
COLUMNS(siteid,username,pv)
PROPERTIES(     
    "desired_concurrent_number"="1",
    "max_batch_interval" = "20",
    "max_batch_rows" = "300000",
    "max_batch_size" = "209715200",
    "strict_mode" = "false"
)
FROM KAFKA
        (
            "kafka_broker_list" = "192.168.12.186:9092",
            "kafka_topic" = "test_topic",
            "kafka_partitions" = "0",
            "kafka_offsets" = "OFFSET_BEGINNING"
        );
        
================
 
‘Uniq模型’测试语句:

%mysql
  CREATE TABLE example_db.testing_table
(
    siteid INT DEFAULT '10',
    username VARCHAR(32) DEFAULT '',
    pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(siteid, username)
DISTRIBUTED BY HASH(siteid) BUCKETS 10
PROPERTIES("replication_num" = "1");

CREATE TABLE IF NOT EXISTS example_db.testing_table2
(
    `siteid` INT NOT NULL COMMENT "用户id",
    `username` VARCHAR(50) NOT NULL COMMENT "用户昵称",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `pv` BIGINT COMMENT "用户年龄",
    `register_time` VARCHAR(50) COMMENT "用户注册时间"
)
UNIQUE KEY(`siteid`, `username`)
DISTRIBUTED BY HASH(siteid) BUCKETS 10
PROPERTIES("replication_num" = "1");

CREATE ROUTINE LOAD example_db.testing_topic2 ON testing_table2
COLUMNS TERMINATED BY "|",
COLUMNS(`siteid`,`username`,`pv`,`register_time`)
PROPERTIES(     
    "desired_concurrent_number"="1",
    "max_batch_interval" = "20",
    "max_batch_rows" = "5000",
    "max_batch_size" = "209715200",
    "strict_mode" = "false"
)
FROM KAFKA
        (
            "kafka_broker_list" = "192.168.12.186:9092",
            "kafka_topic" = "test_topic2",
            "kafka_partitions" = "0",
            "kafka_offsets" = "OFFSET_BEGINNING"
        );
 

 4,在执行sql后我们在zeppelin或者mysql客户端执行命令,查看相关的任务信息:

SHOW ROUTINE LOAD;

下图箭头,很标识的地方看一下就知道是啥意思了。红框很重要,如果这个任务不是running,那么看日志是什么错误,也要看‘errorRows’这个显示是不是为0,不为0代表数据消费error了,要看数据了。

5,我这里的doris是远古版本了,要安装最新的版本,需要加入顶顶群或者微信群。

6,写的很简陋,最后是广告时间:

先跟鸡哥打个广告 ,博客地址: https://me.csdn.net/weixin_47482194

写的博客很有水平的,上了几次官网推荐了。

猜你喜欢

转载自blog.csdn.net/qq_31866793/article/details/107671109