10-100

6 responsabilidades de un Data Engineer

El puesto de Data Engineer es relativamente nuevo y al ser novedoso existe una gran diferencia en las responsabilidades asignadas entre compañías. ¿Conocés realmente las responsabilidades de un Data Engineer? ¿Creés que es complicado describir las tareas que realiza un Data Engineer? Si alguna de tus respuestas es no entonces tenés que leer este post donde repasaremos 6 responsabilidades de un Data Engineer

Entre las responsabilidad podemos enumerar:

  1. Mover datos entre sistemas
  2. Administrar el data warehouse
  3. Construir y administrar data pipelines
  4. Disponibilizar los datos a los usuarios finales
  5. Llevar a cabo la estrategia de datos de la compañía
  6. Deploy de modelos ML a ambientes productivos

 


1
Mover datos entre sistemas

Esta es la principal responsabilidad de un Data Engineer.

  1. Extracción: Extraer datos de múltiples fuentes como por ejemplo API’s externas, bases de datos, archivos planos, almacenamiento en la nube (S3, Azure Storage), etc.
  2. Transformación: Se trata de transformar los datos con el objetivo de filtrarlos, enriquecerlos, agregarlos, cambiar su estructura.
  3. Carga: En este paso los datos son cargados en la base final donde serán consumidos por otros sistemas. Esta base puede ser un data warehouse, almacenamiento en la nube, bases de datos en memoria, etc.

 

2
Administrar el data warehouse

Cada vez más empresas están comenzando a utilizar data warehouses en su arquitectura de datos. Aquí las responsabilidades de los Data Engineers son:

  • Modelado del data warehouse: para modelar los datos de forma tal que las consultas analíticas demoren menos tiempo.
  • Performance del data warehouse: para asegurarse de que las consultas se ejecuten de forma rápida y garantizar que el warehouse pueda escalar sin sufrir un deterioro en la performance a medida que la cantidad de datos aumenta.
  • Calidad de los datos: para asegurarse de que la calidad en los datos es la adecuada. 

 

 


3
Construir y administrar Data Pipelines

Se trata de:

  • Mover datos entre sistemas, entre bases de datos, entre warehouses, etc
  1. Transformar: los datos entre formatos, hacer agregaciones, etc.
  2. Monitorear cañerías de datos
  3. Administrar metadatos

Algunos programas utilizados con este fin son: Airflow, Prefect, Dagster, AWS Glue, AWS Lambda, Data Factory

 


4
Disponibilizar los datos a los usuarios finales

Con los datos disponibles en el data warehouse, es tiempo de disponibilizarlos a los usuarios finales. Ellos pueden ser analistas, aplicaciones, clientes externos, etc. Dependiendo del usuario final se debe configurar:

  1. Reporte/Dashboard: Son plataformas utilizadas para analizar los datos de forma gráfica e intuitiva y algunas plataformas pueden ser: Tableau, Metabase, Superset, Power BI.
  2. Permisos de acceso: para una tabla hay que generar los permisos para el acceso de usuarios y aplicaciones.
  3. Endpoints (APIs): algunas aplicaciones/clientes externos quizás necesiten acceso mediante una API para consultar la información.
  4. Volcado de datos para clientes: Algunos clientes quizás requieran extracciones específicas de información. En esos casos, el Data Engineer deberá generar las pipelines necesarias para disponibilizar esas extracciones.

 


5
Llevar a cabo la estrategia de datos de la compañía

Esto incluye:

  1. Decidir qué datos recolectar, cómo recolectarlos y cómo guardarlos de forma segura
  2. Liderar la evolución de la arquitectura de datos para satisfacer nuevas necesidades de información
  3. Educar a los usuarios finales sobre cómo usar los datos de forma efectiva
  4. Decidir qué datos compartir con usuarios finales

 


6
Deploy de modelos ML a ambientes productivos

Los científicos de datos construyen modelos que predicen de forma acertada el comportamiento de determinados procesos de negocio. El Data Engineer podrá optimizarlos para utilizarlos en un ambiente productivo.

 

Conclusión

En este artículo vimos las principales tareas las cuales son responsabilidad de los Data Engineers. Es importante tener en cuenta que las tareas que debe cumplir un Data Engineer varían según la empresa, la estructura del equipo y la carga de trabajo. Aunque en general la principal tarea de un Data Engineer es permitir que los datos se encuentren disponibles para la toma de decisiones.

 

¿Qué opinás? ¿trabajaste o te gustaría trabajar en un puesto de Data Engineer?

Si querés contactarnos directamente mandanos un mensaje a Contacto


6 responsabilidades de un data engineer
Fuente: https://www.startdataengineering.com/post/n-job-reponsibilities-of-a-data-engineer/#6-deploy-ml-models-to-production

Si te gustó la nota compartila en tus Redes Sociales
Share on facebook
Share on twitter
Share on linkedin
Share on whatsapp