Apuntes

❯

Sistemas Distribuidos

❯

Apache Flink

03 abr 2025Se lee en 1 min

Es una plataforma para procesamiento distribuido de datos. Incluye un motor de ejecución de pipelines de transformación.

Ofrece distintos niveles de abstracción para desarrollar las aplicaciones:

DataStream: Es la interfaz principal, para definir pipelines, y ofrece el mayor control.
Table API: Es un lenguaje declarativo para especificar consultas utilizando tablas, siguiendo el modelo relacional.
SQL: Lenguaje de alto nivel para especificar consultas, similar a Table API, pero en formato SQL.

El framework permite definir un dataflow, que es un DAG de operaciones sobre un flujo de datos.

Algunos casos de uso comunes son:

ETL (extract, transform and load): Operaciones programadas de modificación de datos, con origen y destino en un base de datos.
Data Pipelines: Tareas de procesamiento recurrentes, basadas en la ocurrencia de eventos.

Se pueden utilizar múltiples pipelines de Flink que procesan distintos datos y colaboran entre sí.

Vista Gráfica

Retroenlaces

Sistemas Distribuidos

Creado con Quartz v4.4.0 © 2025

GitHub
Linkedin