从Apache Kafka读数据写入TimescaleDB的案例

原文链接：https://streamsets.com/blog/ingesting-data-apache-kafka-timescaledb/

时间序列数据库

时间序列数据库经过优化，可以处理按时间索引的数据，有效地处理特定时间范围内的数据查询。市场上有几个时间序列数据库，事实上，Data Collector长期以来一直有能力写入InfluxDB，但是我对TimescaleDB感兴趣的是它建立在PostgreSQL之上。完全披露：我作为Salesforce的开发人员传播者花了五年半的时间，而PostgreSQL曾经是，现在仍然是Heroku平台的核心部分，但我也喜欢PostgreSQL作为MySQL的强大替代品。

TimescaleDB入门

在听Diana的演示时，我运行了TimescaleDB Docker镜像，将笔记本电脑上的端口54321映射到Docker容器中的5432，这样就不会与我现有的PostgreSQL部署发生冲突。一旦戴安娜离开舞台，我就会浏览TimescaleDB快速入门的“创建Hypertables”部分，创建一个PostgreSQL数据库，为TimescaleDB启用它，并为其写入一行数据：

tutorial=# INSERT INTO conditions(time, location, temperature, humidity)
tutorial-#   VALUES (NOW(), 'office', 70.0, 50.0);
INSERT 0 1
tutorial=# SELECT * FROM conditions ORDER BY time DESC LIMIT 10;
             time              | location | temperature | humidity 
-------------------------------+----------+-------------+----------
 2019-05-25 00:37:11.288536+00 | office   |          70 |       50
(1 row)

第一个TimescaleDB Pipeline

由于TimescaleDB是基于PostgreSQL构建的，因此标准的PostgreSQL JDBC驱动程序可以直接使用它。由于我已经在Data Collector中安装了驱动程序，因此我花了大约两分钟构建一个简单的测试管道来将第二行数据写入闪亮的新TimescaleDB服务器：

æ¶é´å°ºåº¦æµè¯ç®¡é

生成的测试结果数据

tutorial=# SELECT * FROM conditions ORDER BY time DESC LIMIT 10;
            time            |         location          |    temperature     |      humidity      
----------------------------+---------------------------+--------------------+--------------------
 2020-12-25 23:35:43.889+00 | Grocery                   |  0.806543707847595 | 0.0844637751579285
 2020-10-27 02:20:47.905+00 | Shoes                     | 0.0802439451217651 |  0.398806214332581
 2020-10-24 01:15:15.903+00 | Games & Industrial        |  0.577536821365356 |  0.405274510383606
 2020-10-22 02:32:21.916+00 | Baby                      | 0.0524919033050537 |  0.499088883399963
 2020-09-12 10:30:53.905+00 | Electronics & Garden      |  0.679168224334717 |  0.427601158618927
 2020-08-25 19:39:50.895+00 | Baby & Electronics        |  0.265614211559296 |  0.274695813655853
 2020-08-15 15:53:02.906+00 | Home                      | 0.0492082238197327 |  0.046688437461853
 2020-08-10 08:56:03.889+00 | Electronics, Home & Tools |  0.336894452571869 |  0.848010659217834
 2020-08-02 09:48:58.918+00 | Books & Jewelry           |  0.217794299125671 |  0.734709620475769
 2020-08-02 08:52:31.915+00 | Home                      |  0.931948065757751 |  0.499135136604309
(10 rows)

从Kafka到数据到TimescaleDB

时间序列数据库的主要用例之一是存储来自物联网的数据。我花了几分钟来编写一个简单的Python Kafka客户端，它可以模拟一组传感器，产生比我的测试管道更真实的温度和湿度数据：

from kafka import KafkaProducer
from kafka.errors import KafkaError
import json
import random

# Create a producer that JSON-encodes the message
producer = KafkaProducer(value_serializer=lambda m: json.dumps(m).encode('ascii'))

# Send a quarter million data points (asynchronous)
for _ in range(250000):
	location = random.randint(1, 4)
	temperature = 95.0 + random.uniform(0, 10) + location
	humidity = 45.0 + random.uniform(0, 10) - location
	producer.send('timescale', 
		{'location': location, 'temperature': temperature, 'humidity': humidity})

# Block until all the messages have been sent
producer.flush()

请注意，模拟器会为位置发出一个整数值，而不会为数据添加时间戳。正如您所看到的，只是为了好玩，我让模拟器生成了25万个数据点。这足以使TimescaleDB运行一点，而不需要花费大量时间来生成。

我用Kafka Consumer替换了我的管道的Dev Data Generator源，并在管道中添加了几个处理器：

Kafka Timescaleç®¡é

Expression Evaluator只是为每条记录添加一个时间戳，使用一些表达式语言来创建正确的格式：

${time:extractStringFromDate(time:now(), 'yyyy-MM-dd HH:mm:ss.SSSZZ')}

静态查找处理器使用字符串替换整数位置字段以匹配TimescaleDB表模式：

éææ¥æ¾éç½®

结论

TimescaleDB给我留下了深刻的印象。拆箱经验快速无痛。虽然我只给了它最简单的轮胎踢，但一切都是第一次。TimescaleDB是基于PostgreSQL构建的，这使我可以轻松地使用现成的工具编写数据，并且我能够使用熟悉的SQL命令在数据处于超级状态时使用它们。

如果您正在使用TimescaleDB，请下载StreamSets Data Collector并尝试满足您的数据集成需求。与TimescaleDB的核心一样，它在Apache 2.0许可下以开源形式提供，可免费用于测试，开发和生产。