Jobs Data Engineer Virtualization in Madrid
Estás son las últimas ofertas de trabajo de Data Engineer Virtualization in Madrid encontradas.
job(s)
-
05/09/2024
Madrid, Other
Desde Sandav Consultores estamos en búsqueda de un Data Engineer para cliente ubicado en Madrid (zona de Arganzuela) con modalidad híbrida de trabajo (un mes se trabajará 2 días de manera presencial y 3 días de teletrabajo a la semana) y otro mes 100% remoto. Y así sucesivamente meses alternos. Desarrollo de Modelado de Datos y Pipelines con Spark y Scala para ingesta y transformación. datos de diferentes fuentes (temas de Kafka, API, HDFS, bases de datos estructuradas, archivos) en Le siguen HDFS, IBM Cloud Storage (generalmente en formato parquet) o bases de datos SQL/NOSQL. Gestionar soluciones de almacenamiento de big data en la plataforma (HDFS, IBM Cloud Storage, estructurado y bases de datos no estructuradas) Transformación y Calidad de Datos: implementar transformación de datos y control de calidad. procesos para garantizar la coherencia y precisión de los datos. Utilizar lenguajes de programación como Scala y SQL. Y bibliotecas como Spark para operaciones de enriquecimiento y transformación de datos. Implementación de canales de CI/CD: configurar canales de CI/CD para automatizar la implementación, unidad pruebas y gestión del desarrollo. Migración de infraestructura: migrar la infraestructura de Hadoop existente a la infraestructura de nube en Kubernetes Engine, Object Storage (almacenamiento en la nube de IBM), Spark como servicio en Scala (para construir las canalizaciones de datos) y Airflow como servicio (para orquestar y programar los datos tuberías) Implementación de esquemas, consultas y vistas en bases de datos SQL/NoSQL como Oracle, Postgres o MongoDB Desarrollar y configurar la programación de canalizaciones de datos con una combinación de scripts de shell. y AirFlow como servicio Pruebas de validación: realizar pruebas unitarias y de validación para garantizar la precisión y la integridad. Documentación: redactar documentación técnica (especificaciones, documentos operativos) para asegurar la capitalización del conocimiento. Requisitos mínimos -Spark en Scala como lenguaje de desarrollo de canalización de datos heredado - Spark como servicio en Scala como plataforma de desarrollo de canales de datos - Experiencia en el diseño y desarrollo de procesos de streaming utilizando Spark Streaming, - Transmisión de estructura Spark y Apache Kafka - Gestión de soluciones heredadas de almacenamiento de big data (HDFS) - Gestión de soluciones de almacenamiento de big data (IBM Cloud Object Storage y formato parquet) - Implementación de esquemas, consultas y vistas de bases de datos SQL/NO SQL (MongoDB, Oracle, Postgres) - Shell scripting y Airflow como solución de programación de canalización de datos - Dremio como herramienta de virtualización de datos - Dataiku como herramienta de preparación de datos como bonificación - Inglés nivel alto (B2-C1). Requisitos deseados Se valora positivamente si se tiene Francés.