Es un modelo de definición de pipelines de procesamiento de datos con portabilidad de lenguajes y motores de ejecución.
Soporta distintos lenguajes de programación, como por ejemplo:
- Java
- Python
- Go
Ofrece distintos runners:
- Ejecución directa.
- Motores de clusters, como Apache Hadoop, Apache Flink y Apache Spark.
- Plataformas cloud, como Google Dataflow.