Google Cloud Dataplex : un système complet pour transformer les données brutes en produits de données unifiés !
Google Cloud Dataplex est un système complet pour transformer les données brutes en data product prêts pour l'analyse.
Dataplex permet de résoudre les problèmes liés aux données distribuées, de sécurité des données, de protection des informations personnellement identifiables (PII) et de gouvernance.
Dataplex effectue une découverte des données et une collecte automatique des métadonnées, permettant ainsi d'unifier logiquement les données.
Parmi les concurrents de Google Cloud Dataplex, on trouve AWS Glue, Microsoft Azure HDInsight,Oracle Coherence, SAP Data Intelligence et Talend Data Fabric.
Les principales fonctionnalités de Dataplex comprennent la découverte des données, l'organisation des données et la gestion du cycle de vie, la sécurité centralisée, la gouvernance, la qualité des données intégrées, ainsi que l'exploration des données.
Dataplex fonctionne en récoltant les métadonnées des données structurées et non structurées, en utilisant des contrôles de qualité pour améliorer l'intégrité. Les métadonnées sont enregistrées dans un métastore unifié, accessible via divers services Google Cloud, tels que BigQuery, Dataproc Metastore, Data Catalog et des outils open source, tels qu'Apache Spark et Presto.
Le cas d'utilisation le plus courant pour Dataplex est la construction de datamesh.
Dataplex est conçu pour l'ingénierie et la préparation des données, en partant des données brutes stockées dans des data lakes.
Google Cloud Dataplex est encore en version préliminaire. Cependant, même en version non-stable, Dataplex est déjà intéressant à évaluer.
Liens externes intéressants :