Treball Data Engineer Virtualització en 28040 Madrid

Estás son las últimas ofertas de trabajo de Data Engineer Virtualització en 28040 Madrid encontradas.

 treballs

  • 05/09/2024

    Madrid, Un altre

    Desde Sandav Consultores estamos en búsqueda de un Data Engineer para cliente ubicado en Madrid (zona de Arganzuela) con modalidad híbrida de trabajo (un mes se trabajará 2 días de manera presencial y 3 días de teletrabajo a la semana) y otro mes 100% remoto. Y así sucesivamente meses alternos. Desarrollo de Modelado de Datos y Pipelines con Spark y Scala para ingesta y transformación. datos de diferentes fuentes (temas de Kafka, API, HDFS, bases de datos estructuradas, archivos) en Le siguen HDFS, IBM Cloud Storage (generalmente en formato parquet) o bases de datos SQL/NOSQL. Gestionar soluciones de almacenamiento de big data en la plataforma (HDFS, IBM Cloud Storage, estructurado y bases de datos no estructuradas) Transformación y Calidad de Datos: implementar transformación de datos y control de calidad. procesos para garantizar la coherencia y precisión de los datos. Utilizar lenguajes de programación como Scala y SQL. Y bibliotecas como Spark para operaciones de enriquecimiento y transformación de datos. Implementación de canales de CI/CD: configurar canales de CI/CD para automatizar la implementación, unidad pruebas y gestión del desarrollo. Migración de infraestructura: migrar la infraestructura de Hadoop existente a la infraestructura de nube en Kubernetes Engine, Object Storage (almacenamiento en la nube de IBM), Spark como servicio en Scala (para construir las canalizaciones de datos) y Airflow como servicio (para orquestar y programar los datos tuberías) Implementación de esquemas, consultas y vistas en bases de datos SQL/NoSQL como Oracle, Postgres o MongoDB Desarrollar y configurar la programación de canalizaciones de datos con una combinación de scripts de shell. y AirFlow como servicio Pruebas de validación: realizar pruebas unitarias y de validación para garantizar la precisión y la integridad. Documentación: redactar documentación técnica (especificaciones, documentos operativos) para asegurar la capitalización del conocimiento. Requisitos mínimos -Spark en Scala como lenguaje de desarrollo de canalización de datos heredado - Spark como servicio en Scala como plataforma de desarrollo de canales de datos - Experiencia en el diseño y desarrollo de procesos de streaming utilizando Spark Streaming, - Transmisión de estructura Spark y Apache Kafka - Gestión de soluciones heredadas de almacenamiento de big data (HDFS) - Gestión de soluciones de almacenamiento de big data (IBM Cloud Object Storage y formato parquet) - Implementación de esquemas, consultas y vistas de bases de datos SQL/NO SQL (MongoDB, Oracle, Postgres) - Shell scripting y Airflow como solución de programación de canalización de datos - Dremio como herramienta de virtualización de datos - Dataiku como herramienta de preparación de datos como bonificación - Inglés nivel alto (B2-C1). Requisitos deseados Se valora positivamente si se tiene Francés.

Cerca avançada