Cette nouvelle compatibilité permet aux utilisateurs de bénéficier d’un accès unifié aux données, d’une maintenance automatisée des tables et d’un support natif pour le format Apache Iceberg, tout en s’appuyant sur l’infrastructure d’Amazon Web Services (AWS).
Une interopérabilité renforcée autour du format Iceberg
Les tables Amazon S3, introduites par AWS fin 2024, sont conçues comme une nouvelle déclinaison de buckets S3, permettant l’hébergement managé de tables au format Apache Iceberg. Grâce à l’intégration d’un point de terminaison REST, ces tables peuvent désormais être interconnectées avec Starburst Galaxy, offrant des capacités de requêtage et de fédération avec plus de 50 sources de données compatibles Starburst.
Les données ainsi exposées peuvent alimenter des flux de travail pour l’analytique, les applications de données ou les cas d’usage en IA/ML, tout en bénéficiant d’opérations de maintenance assurées automatiquement par AWS.
Intégration technique avec Starburst Galaxy
L’intégration repose sur l’utilisation du connecteur Iceberg de Starburst, déjà employé pour accéder aux métadonnées et fichiers stockés sur S3. La connexion aux tables Amazon S3 s’effectue via la création d’un catalogue dédié dans l’interface de Starburst Galaxy, à partir de l’ARN du bucket concerné (Amazon Resource Name, l’identifiant unique désignant n'importe quelle ressource dans l'environnement AWS).
Une fois configuré, ce catalogue permet la création de schémas et de tables à l’aide du langage SQL. Les fonctionnalités propres à Iceberg, telles que l’évolution de schéma ou les requêtes temporelles, sont également prises en charge.
Spécificités des tables Amazon S3
Contrairement aux buckets S3 classiques, les tables Amazon S3 intègrent des mécanismes spécifiques de contrôle d’accès et de sécurité. Ces caractéristiques permettent une meilleure intégration avec les politiques de gouvernance de données et les frameworks de sécurité existants.
La gestion automatisée des tâches de maintenance (compactage, expiration de snapshots, suppression de fichiers orphelins) constitue un gain opérationnel pour les utilisateurs, en limitant les interventions manuelles et en optimisant les performances.
Pour les environnements ne reposant pas sur les tables Amazon S3, Starburst Galaxy propose également des fonctions de maintenance automatique pour les tables Iceberg stockées sur des buckets S3 classiques. Les opérations couvertes incluent le compactage des fichiers, la collecte de statistiques et le nettoyage des snapshots obsolètes.
Disponibilité
L’intégration des tables Amazon S3 est actuellement proposée en version public preview feature dans Starburst Galaxy.
Une interopérabilité renforcée autour du format Iceberg
Les tables Amazon S3, introduites par AWS fin 2024, sont conçues comme une nouvelle déclinaison de buckets S3, permettant l’hébergement managé de tables au format Apache Iceberg. Grâce à l’intégration d’un point de terminaison REST, ces tables peuvent désormais être interconnectées avec Starburst Galaxy, offrant des capacités de requêtage et de fédération avec plus de 50 sources de données compatibles Starburst.
Les données ainsi exposées peuvent alimenter des flux de travail pour l’analytique, les applications de données ou les cas d’usage en IA/ML, tout en bénéficiant d’opérations de maintenance assurées automatiquement par AWS.
Intégration technique avec Starburst Galaxy
L’intégration repose sur l’utilisation du connecteur Iceberg de Starburst, déjà employé pour accéder aux métadonnées et fichiers stockés sur S3. La connexion aux tables Amazon S3 s’effectue via la création d’un catalogue dédié dans l’interface de Starburst Galaxy, à partir de l’ARN du bucket concerné (Amazon Resource Name, l’identifiant unique désignant n'importe quelle ressource dans l'environnement AWS).
Une fois configuré, ce catalogue permet la création de schémas et de tables à l’aide du langage SQL. Les fonctionnalités propres à Iceberg, telles que l’évolution de schéma ou les requêtes temporelles, sont également prises en charge.
Spécificités des tables Amazon S3
Contrairement aux buckets S3 classiques, les tables Amazon S3 intègrent des mécanismes spécifiques de contrôle d’accès et de sécurité. Ces caractéristiques permettent une meilleure intégration avec les politiques de gouvernance de données et les frameworks de sécurité existants.
La gestion automatisée des tâches de maintenance (compactage, expiration de snapshots, suppression de fichiers orphelins) constitue un gain opérationnel pour les utilisateurs, en limitant les interventions manuelles et en optimisant les performances.
Pour les environnements ne reposant pas sur les tables Amazon S3, Starburst Galaxy propose également des fonctions de maintenance automatique pour les tables Iceberg stockées sur des buckets S3 classiques. Les opérations couvertes incluent le compactage des fichiers, la collecte de statistiques et le nettoyage des snapshots obsolètes.
Disponibilité
L’intégration des tables Amazon S3 est actuellement proposée en version public preview feature dans Starburst Galaxy.
Autres articles
-
Informatica lance de nouvelles recettes pour ses agents IA conçus avec Amazon Bedrock et obtient la certification AWS Generative AI Competency
-
Starburst lance de nouvelles capacités IA, pour accélérer le déploiement de l'IA et des agents des entreprises
-
Starburst devient partenaire AWS sur la compétence services financiers
-
Starburst devient compatible avec Confluent Tableflow pour simplifier l'intégration des données Kafka vers Iceberg
-
HPE et Starburst lancent le HPE Active Data Lakehouse pour simplifier l’analyse des données sur site et dans le cloud