L’ingénierie des données est une discipline informatique qui traite du traitement, de l’organisation et de l’homogénéisation des Big Data. L’ingénieur en données (ou data engineer) est responsable de l’ensemble de l’infrastructure de données de l’entreprise. Plus précisément, il prépare les données pour les rendre propres à l’analyse et à la prise de décision. Il intervient au début du processus de données en collectant des données brutes à partir d’une multitude de sources. Il les intègre ensuite dans un entrepôt de données (Data Warehouse) ou un lac de données (data lake). Après avoir conçu la base de données de l’organisation, il doit la gérer efficacement pour faciliter l’exploitation des données. À cette fin, il automatise toutes les tâches liées au traitement des données, de l’extraction à la transformation des données, en passant par le stockage et le nettoyage. Ce n’est qu’après son travail que les données sont prêtes à être analysées par d’autres experts (analystes de données et scientifiques des données).