La conférence annuelle Google Next s’est déroulée cette année à Las Vegas au Mandalay Bay Convention Center. Des milliers de participants, experts et passionnés du cloud et de la data se sont réunis pour assister à cet événement et découvrir les dernières nouveautés de Google Cloud.
Cette année, comme les années précédentes, il y a eu des annonces très intéressantes, notamment l'évolution de BigQuery, la plateforme d'analyse de données de Google Cloud. Infusée d'intelligence artificielle générative (GenAI), BigQuery se positionne comme la solution unifiée pour l'analyse de données de bout en bout, simplifiant et accélérant le processus pour les entreprises.
L'intelligence artificielle au cœur de l'analyse de données
L'événement Google NEXT 2024 a mis en lumière l'importance croissante de l'intelligence artificielle générative (GenAI) dans le domaine de l'analyse de données.
Thomas Kurian, CEO de Google Cloud, a présenté BigQuery comme une plateforme unifiée end-to-end pour l’analyse des données. Grâce aux évolutions et ses nouvelles fonctionnalités, BigQuery se positionne comme la plateforme idéale pour exploiter les données. L’utilisation de la GenAI permettra de booster la productivité tout en réduisant le délai de mise en œuvre des projets liés à la data.
Selon Oliver Ratzesberger, Vice-Président Produits Data & Analytics chez Google, les frontières entre l'IA et les données commencent à s'estomper. Cette convergence ouvre des perspectives immenses pour les entreprises, mais soulève également des défis majeurs. Celles qui ne parviennent pas à intégrer l'IA directement à leurs données risquent de passer à côté d'opportunités cruciales et de voir leur impact limité.
Pour exploiter pleinement le potentiel de cette fusion, les organisations doivent s'appuyer sur une plateforme capable de réunir différents types de données et de les analyser avec divers moteurs, le tout dans un environnement multi-cloud. L'enjeu est d'amener l'IA aux données, et non l'inverse, afin de démocratiser son accès et de permettre à toutes les entreprises d'en tirer profit.
BigQuery : une plateforme unifiée et multidimensionnelle
BigQuery se positionne aujourd'hui comme une plateforme unifiée et multidimensionnelle offrant un environnement propice à l'innovation en matière de données et d'IA, permettant aux entreprises de maximiser l'impact de leurs initiatives et de prendre des décisions éclairées.
- Multi-format : BigQuery se distingue par son support d’une variété de formats de données, qu'elles soient structurées, semi-structurées ou non structurées. Annoncé lors de la conférence, BigQuery renforce encore cette polyvalence avec la prise en charge des formats de données ouverts tels que Apache Iceberg, Apache Hudi et Delta Lake. De plus, BigLake object tables ouvre la voie à l'analyse de données non structurées, telles que les images, les vidéos, l'audio et les documents, élargissant ainsi le champ des possibles pour les entreprises souhaitant exploiter tout le potentiel de leurs données.
- Multi-stockage et multi-cloud : BigQuery offre la possibilité d'accéder et d'analyser des données qu'elles soient stockées dans BigQuery, ailleurs dans Google Cloud Platform (GCP) ou même en dehors de l'écosystème GCP. L'une des nouveautés annoncées lors de Google NEXT 2024 est la possibilité d'utiliser Cloud Spanner, la base de données relationnelle distribuée de Google, comme source externe dans BigQuery. De plus, BigQuery Omni, la solution multi-cloud de BigQuery, franchit une nouvelle étape avec le partage bidirectionnel des données entre BigQuery et Salesforce Data Cloud. Les entreprises peuvent désormais synchroniser et analyser leurs données Salesforce directement dans BigQuery, ouvrant la voie à des analyses plus complètes et à une meilleure compréhension de leurs clients.
- Multi-engine : BigQuery se démarque par sa capacité multi-engine, permettant aux utilisateurs d'analyser leurs données en utilisant le langage qui leur convient le mieux, que ce soit SQL, Python ou PySpark. L'arrivée du support de Spark engine en mode serverless, annoncée lors de la conférence, ouvre de nouvelles perspectives pour les utilisateurs de PySpark. Désormais, ils peuvent implémenter leurs traitements directement dans BigQuery en utilisant PySpark, et la plateforme se charge de l'exécution sur le moteur adéquat de manière transparente. Cette flexibilité permet aux équipes d'optimiser leurs analyses en fonction de leurs compétences et des besoins spécifiques de chaque projet.
- Multimodal : L'annonce de l'intégration directe entre BigQuery et Vertex AI, en avant-première lors de Google NEXT'24, marque une avancée significative dans le domaine de l'analyse de données. Désormais, les modèles Vertex AI peuvent accéder directement aux données stockées dans BigQuery, sans nécessiter de déplacement ou de copie. De plus, l'utilisation conjointe des "table objects" dans BigQuery et des API Vertex AI Vision, Document AI et Speech-to-Text ou Gemini 1.0 Pro Vision ouvre la voie à la préparation et à l'analyse de données multimodales, telles que les images, les vidéos, les documents et les fichiers audio.
Autres nouveautés pour une analyse de données simplifiée et accessible
Google NEXT 2024 a également été l'occasion de dévoiler d'autres nouvelles fonctionnalités de BigQuery :
BigQuery Data Canvas :
Une nouvelle fonctionnalité de BigQuery Studio qui permet aux utilisateurs d'interagir avec leurs données en langage naturel, simplifiant ainsi l'exploration, la visualisation et l'analyse des données pour les profils techniques et non techniques.
Avec BigQuery Data Canvas, vous pouvez poser des questions en langage naturel pour explorer vos données et obtenir des insights instantanés, générer automatiquement des requêtes SQL à partir de vos questions, sans nécessiter d'expertise en programmation et créer des visualisations percutantes pour illustrer vos découvertes et partager vos analyses.
Pour en savoir plus: Vidéo d'overview, détails supplémentaires.
Continuous Queries :
BigQuery permet depuis quelques années, l'ingestion des données en temps réel grâce à ses capacités de streaming. L'analyse des données ingérées était possible dès leur arrivées dans le buffer de BigQuery. Désormais, avec l'introduction de Continuous Queries, BigQuery va encore plus loin en permettant l'analyse continue des données dès leur arrivée.
Cette fonctionnalité ouvre la voie à des prises de décision plus rapides et plus efficaces grâce à son intégration de manière transparente avec Vertex AI et d'autres services d'IA/ML de Google Cloud pour enrichir les données et générer des informations en temps réel.
L'utilisation de SQL pour le traitement des données en temps réel et l'intégration de l'IA simplifient le développement et rendent ces fonctionnalités accessibles à un plus large éventail d'utilisateurs, démocratisant ainsi l'accès à l'analyse des données.
Data preparation :
Un outil graphique de préparation de données vient compléter les fonctionnalités de BigQuery: Data Preparation. Cette interface graphique intuitive comble un manque dans l'écosystème BigQuery en offrant une solution de préparation des données directement intégrée à la plateforme. Data Preparation simplifie et accélère le nettoyage, la transformation et l'enrichissement des données, rendant ces tâches accessibles à un public plus large, sans nécessiter de compétences en programmation avancées.
Toutes ces nouvelles fonctionnalités de BigQuery visent à faciliter et accélérer l'analyse des données. Cependant, l'intégration de ces analyses dans des environnements de production soulève des questions importantes. L'évaluation pratique de ces outils et leur compatibilité avec les options d'industrialisation existantes seront cruciales pour déterminer leur efficacité et leur viabilité à grande échelle.
Conclusion : BigQuery, la plateforme Data-to-AI du futur
Avec ses fonctionnalités existantes et les nouveautés annoncées, BigQuery se positionne comme la plateforme Data-to-AI de référence. Sa capacité à unifier l'analyse de données de bout en bout, sa flexibilité et son intégration avec l'intelligence artificielle générative en font un outil puissant pour les entreprises souhaitant tirer pleinement parti de leurs données.