Investigación de clickhouse


  ClickHouse es una base de datos OLAP de código abierto producida por Yandex, una nación en lucha, conocida como CH / CK, que actualmente es la base de datos OLAP más rápida del mercado.

1. Escenarios aplicables (OLAP)

  • Solicitudes de lectura principalmente
  • Escritura por lotes de datos
  • No modifique los datos agregados
  • La consulta consta de varias filas y pocas columnas.
  • Mesa amplia de almacenamiento
  • Menos consultas (alrededor de 100 / s por unidad)
  • Para consultas simples, se permite un retraso de aproximadamente 50 milisegundos.
  • Sin campos grandes (por ejemplo, 60 bytes por URL)
  • Gran cantidad de filas en una sola consulta
  • Sin requisitos de transacción, requisitos de consistencia de datos bajos
  • Los datos se pueden almacenar en la memoria de un solo servidor después de ser filtrados o agregados

Resumen: datos masivos, pero no desea que el consumo de espacio de almacenamiento de un solo nodo sea demasiado alto. Para tablas amplias, por conveniencia comercial, muchas columnas de datos relacionados pueden integrarse en una tabla. El modo de consulta basado en SQL mejora la aplicabilidad y portabilidad del programa.

2. Características

  • Computación vectorial y admite la computación paralela de CPU de múltiples núcleos, y se esfuerza por reducir el rendimiento de la CPU al ejecutar cada SQL.
  • Almacenamiento en columnas, alta relación de compresión de datos
  • Basado en la arquitectura Shared Nothing, admite soluciones distribuidas.
  • Compatible con la mayoría de la sintaxis SQL y su sintaxis es especialmente similar a la de MySQL.
  • Soporte de clave primaria
  • índice
  • Cálculo en línea
  • Soporta cálculo aproximado
  • Admite arquitectura de replicación maestro-esclavo
  • Actualización de datos en tiempo real

Tres, restricciones

1. No apoya asuntos

2. Las actualizaciones y eliminaciones de alta frecuencia y baja latencia no son aplicables, solo se admiten la eliminación y modificación por lotes

3. Índice escaso, no apto para consultas puntuales

Cuarto, desempeño

  • Consulta grande única

Los datos están en la caché de la página

Consulta compleja de 2 a 10 GB / s (sin comprimir), consulta simple de 30 GB / s

Los datos no están en la caché de la página

La velocidad de procesamiento es igual a la relación de compresión IO * del disco

El rendimiento se expande casi linealmente en escenarios distribuidos

  • Latencia para consultas cortas

Los datos están en la caché de la página

La consulta de clave principal de cientos de miles de filas es inferior a 50 ms

Los datos no están en la caché de la página

HDD: 10ms * número de campo * volumen de datos del bloque de datos

  • Rendimiento de consultas breves

Aproximadamente 100 veces por segundo

  • Rendimiento de escritura

Se recomienda escribir como máximo 1 vez por segundo o escribir más de 1000 líneas cada vez, y la velocidad de escritura es de 50-200 MB / s

Supongo que te gusta

Origin blog.csdn.net/qq_42979842/article/details/108921129
Recomendado
Clasificación