TVL Managed Superset

Conectar ClickHouse a Apache Superset: BI tiempo real 2026

Tutorial para conectar ClickHouse a Apache Superset: driver, rendimiento, materialized views, async queries.

ClickHouse es el data warehouse open source de referencia para la BI en tiempo real y el análisis de logs/events. Combinado con Apache Superset, ofrece dashboards que se renderizan en menos de un segundo sobre miles de millones de filas. Esta guía detalla la conexión y la optimización en 2026.

1. ¿Por qué ClickHouse + Superset?

  • Rendimiento: agregaciones 100x más rápidas que Postgres en grandes volúmenes;
  • Compresión: ratio 10:1 en datos columnares;
  • SQL estándar: curva de aprendizaje mínima para los analistas;
  • Open source: auto-alojado o gestionado (ClickHouse Cloud, Altinity).

Si quieres un Superset ya conectable a ClickHouse, TVL Managed Superset integra los drivers ClickHouse por defecto.

2. Prerrequisitos

  • Una instancia Superset (ver guía de hosting);
  • Un clúster ClickHouse (auto-alojado o gestionado);
  • Un user ClickHouse con acceso de solo lectura;
  • El driver clickhouse-connect instalado.

3. Instalar el driver

uv pip install clickhouse-connect

Para Dockerfile derivados o los helm values bootstrap script.

4. Construir la URI

Formato ClickHouse + clickhouse-connect:

clickhousedb+connect://<user>:<password>@<host>:8443/<database>?secure=true

Ejemplo:

clickhousedb+connect://superset_reader:XXX@clickhouse.example.com:8443/analytics?secure=true

5. Añadir en Superset

  1. UI → Settings → Database Connections → + Database;
  2. Tipo: ClickHouse Connect (Superset);
  3. Pegar la URI;
  4. Test → Save.

6. Modelado para el rendimiento

ClickHouse recompensa los modelos bien pensados:

  • ORDER BY en las columnas de filtrado frecuente (sparse index);
  • PARTITION BY por día, semana o mes según el volumen;
  • Materialized views para las agregaciones comunes (ROLLUP, AggregatingMergeTree);
  • LowCardinality(String) para columnas categóricas (segment, country).

7. Optimizar Superset del lado ClickHouse

  • SET max_execution_time = 30 en los engine parameters Superset;
  • SET max_memory_usage = 10G para limitar el consumo por query;
  • Async queries activadas en Superset para queries largas;
  • Caché Redis Superset agresiva en los dashboards ejecutivos (cf. caché Redis).

Esta configuración la aplica por defecto TVL Managed Superset, que sigue las buenas prácticas de la comunidad.

8. Casos de uso típicos

  • Product analytics: eventos aplicativos en tiempo real;
  • Monitoring infra: logs y metrics agregados (alternativa a Loki/Elastic);
  • Marketing analytics: diarios de atribución multi-touch;
  • SaaS embedded: dashboards cliente en miles de tenants.

9. Seguridad

  • HTTPS obligatorio: usar el puerto 8443 y secure=true;
  • User read-only del lado ClickHouse vía los profiles;
  • Network policy: restringir el acceso a la IP Superset;
  • Quotas ClickHouse para limitar el impacto de un usuario Superset abusivo.

10. Trampas frecuentes

  • Driver legacy (clickhouse-driver) en lugar de clickhouse-connect: el segundo es oficial y más rápido;
  • Sin PARTITION BY: queries que escanean toda la tabla;
  • JOIN pesado: ClickHouse no aprecia los JOINs multi-millones, preferir denormalizar;
  • SELECT * en tabla columnar: leer 10x más bytes inútiles.

11. Conclusión

ClickHouse + Apache Superset es probablemente el combo open source más performante en 2026 para BI tiempo real. La curva de aprendizaje es rápida, el rendimiento asombroso. Para un equipo data con volúmenes > 100 millones de filas, es una inversión técnica muy rentable.

¿Quieres los beneficios de Apache Superset sin la fricción de instalación y mantenimiento? Despliega tu instancia en 3 clics con TVL Managed Superset, alojado en Europa (OVHcloud, Roubaix, Francia).

Para profundizar: conectar Snowflake, conectar BigQuery, conectar DuckDB.