La technologie open source de Netflix abrite le lac de données de Dremio

Posted on

L’équipe informatique Big Data de Netflix a dû faire face à des problèmes de données ennuyeux il y a quelques années.

“Plus tôt cette semaine, nous avons demandé à quelqu’un de venir et de renommer les colonnes, et dans un moteur, ils ont obtenu les résultats, et dans un autre moteur, ils sont devenus nuls”, a déclaré Daniel Weeks, responsable de l’ingénierie de Netflix à l’époque, aux développeurs 2019. conférence. En tant que chef d’équipe, lui et d’autres créent de nouvelles façons de résoudre le type de complexité de ces moteurs de traitement de données qui ont empêché une analyse plus fluide des données entrant dans le service de streaming Netflix.

“Nous avons plus d’utilisateurs qui arrivent, et ils n’ont pas à être dérangés par ce problème”, a-t-il déclaré à propos de l’équipe de données croissante de Netflix à l’époque.

Une nouvelle approche est en construction chez Netflix, avec l’aide de développeurs d’entreprises telles qu’Apple et Équipe de vente, est devenu la norme open source pour les formats de tableau dans un ensemble de données analytiques appelé Apache Iceberg. En 2019, Weeks avait prédit que des améliorations récurrentes apportées à Iceberg par la communauté open source aideraient à garantir que les problèmes tels qu’il les décrivait ne se reproduiraient plus.

Il a raison. Alors que la plupart des entreprises n’ont pas à effectuer d’analyse commerciale sur des dizaines de pétaoctets de données comme le fait Netflix, les architectures de données, y compris les systèmes Iceberg et Hudi incubés dans Uber pour résoudre le même problème, constituent désormais la base des produits vendus à d’autres. entreprises comme les soi-disant data lakehouses.

Dremio, qui se présente comme une société Lakehouse, a annoncé mercredi que la plate-forme Dremio Cloud Data Lakehouse – en partie basée sur Apache Iceberg – est désormais largement disponible.

“Une maison au bord du lac doit être open source : c’est pourquoi Iceberg a commencé à prendre autant d’ampleur”, a déclaré Tomer Shiran, fondateur et directeur des produits chez Dremio. Les entreprises qui ont besoin de faire des analyses commerciales sur de grandes quantités de données comme Netflix, Apple et Salesforce aident à construire l’Apache Iceberg, a déclaré Shiran, « parce que ces entreprises ont besoin de quelque chose comme ça. Les entreprises technologiques ont eu un avantage majeur en termes d’utilisation de ce type d’architecture. »

Actuellement, l’architecture open source data lakehouse suit un modèle observé avec d’autres normes de données construites ou utilisées au sein de grandes entreprises technologiques de la Silicon Valley avant que les entreprises ne commencent à transférer des données vers le cloud. Par exemple, plus d’une décennie avant que Yahoo ne lance le logiciel d’analyse de données open source Hadoop en tant que nouvelle société, des entreprises telles qu’eBay et Facebook l’utilisaient en interne.

Une autre technologie de données open source de base, Kafka, a été développée au sein de LinkedIn. La société de réseautage social d’entreprise a financé Confluent en 2014 pour commercialiser l’utilisation de Kafka. Et Databricks, un fournisseur de données à croissance rapide, a également lancé son propre projet open source de style Lake House en 2019 appelé Delta Lake.

Comment la maison du lac se développe

Ce que les fournisseurs appellent aujourd’hui les « maisons du lac » est, pour la plupart des professionnels des données, simplement une version évoluée d’un lac de données qui intègre des éléments d’un entrepôt de données traditionnel. Les lacs de données sont essentiellement des conteneurs pour digérer des informations, telles que les données d’activité du site Web qui montrent le contenu des films que les gens examinent, ou les données associées aux trajets effectués via des applications de covoiturage.

Lakehouse fournit une couche de structure au-dessus des données brutes et chaotiques stockées dans le lac de données, permettant aux scientifiques des données et autres d’effectuer des processus analytiques tels que l’interrogation des données sans avoir à les déplacer au préalable vers un environnement d’entrepôt plus structuré.

“Le transfert de données peut être très coûteux d’un système à l’autre”, a déclaré Ben Ainscough, responsable de l’IA et de la science des données chez Domo, société de technologie de l’intelligence économique.

Dremio a l’intention de rendre les informations du lac de données plus opérationnelles avec sa nouvelle fonctionnalité Lakehouse disponible mercredi, comprenant un moteur de requête appelé Sonar et un autre système appelé Arctic, qui aide les développeurs et les data scientists à suivre les modifications apportées aux données. La société fournit une version gratuite de sa maison du lac et d’autres nouvelles fonctionnalités, bien que les grandes entreprises qui ont besoin de services d’assistance et d’intégration avancés pour la sécurité ou d’autres personnalisations devront payer.

Arctic est un système d’archivage de données collaboratif qui permet aux data scientists et aux ingénieurs de stocker et d’accéder à des informations qui reflètent la manière dont les données sont utilisées ou modifiées. Connues sous le nom de métadonnées, ces informations fournissent des détails tels que l’endroit où les données ont été obtenues ou le moment précis où elles ont été absorbées ou manipulées.

“Observer ce qui change est important”, a déclaré Shiran. “Si quelqu’un change quelque chose, beaucoup de choses peuvent mal tourner même avec de bonnes intentions.”

Les métadonnées d’archivage stockées dans le système peuvent indiquer des données utilisées dans des outils d’analyse tels que Tableau pour aider les entreprises à décider d’acheter un matériau ou un produit particulier, par exemple. Ou il peut être utilisé lorsqu’un scientifique des données souhaite exécuter une requête pour en savoir plus sur l’action la plus récente effectuée dans le dossier de données.

“Le véritable pouvoir vient de la gestion des informations de métadonnées”, a déclaré Venkat Venkataramani, qui a dirigé l’équipe d’ingénieurs qui a construit le système de données en ligne de Facebook de 2008 à 2015 et est maintenant PDG et co-fondateur de Rockset, une société qui fournit des bases de données pour créer des applications pour données en temps réel. Une architecture de données open source conçue pour aider à répondre aux besoins des géants de la technologie – comme Iceberg et Hudi – suit les métadonnées de manière standard, a déclaré Venkataramani.

Pour tirer le meilleur parti de l’investissement dans l’infrastructure et les logiciels de collecte, de stockage, de gestion et d’analyse des données, les entreprises souhaitent permettre à plusieurs personnes et services d’accéder et de manipuler le même corpus d’informations. Mais historiquement, il a fallu copier des données et les déplacer pour que plusieurs utilisateurs puissent y accéder et travailler dessus en même temps, ce qui risque d’apporter des modifications à une version des données qui ne sont pas affichées dans d’autres versions et ne peuvent pas être suivi. L’afflux constant d’informations nouvelles et mises à jour ajoute encore plus de complexité.

“Les gens crient depuis toujours à propos des silos de données efficaces”, a déclaré Boris Jabes, co-fondateur de Census, qui fabrique des logiciels pour aider les entreprises à gérer les données à des fins d’analyse. Ce qui est différent aujourd’hui, a déclaré Jabes, c’est que les équipes de vente, de marketing ou autres peuvent chacune exécuter leurs propres charges de travail de données séparément sur la même couche de stockage. “Il y a beaucoup plus d’infrastructures qui peuvent être partagées maintenant”, a-t-il déclaré.

Uber a construit Hudi par nécessité

Les équipes d’architecture de données au sein de Netflix et d’Uber visaient à réduire les problèmes associés aux silos de données en développant des projets comme Iceberg et Hudi, qui ont ensuite été donnés à l’Apache Software Foundation.

Lorsque Vinoth Chandar, fondateur et PDG de Onehouse, a travaillé chez Uber en tant qu’ingénieur senior et responsable de l’équipe de données à partir de 2014, “nous avons été confrontés à cette difficulté”, a-t-il déclaré : des personnes de différentes divisions ont réalisé que les données d’une équipe pouvaient refléter les dernières mises à jour, tandis que d’autres ne le font pas. Cela signifie que chaque équipe a mené une analyse pour comprendre ce qui se passe dans une ville particulière sur la base de différentes données.

“Cela a un effet très profond sur la façon dont nous parlons des choses”, a déclaré Chandar.

À l’époque, Uber disposait d’un entrepôt de données stocké sur site et utilisait une infrastructure de données, y compris Hadoop, pour gérer tous les algorithmes d’analyse et d’apprentissage automatique qui étaient en cours de construction pour faire des choses comme décider comment les prix des voyages devraient changer quand il pleut.

En construisant un nouveau processus de gestion des données au-dessus du lac de données où les données entrent initialement dans le système, l’entreprise peut aider à suivre les changements de données et à traiter les données plus rapidement afin que toutes ses équipes parlent des mêmes données, a déclaré Chandar. L’approche consistant à intégrer la fonctionnalité d’entrepôt de données de base d’Uber à son lac de données est appelée au sein d’Uber un “lac de données de transaction”, a-t-il déclaré. Ils l’ont nommé Hudi (prononcé comme un sweat à capuche), un acronyme pour Hadoop Upserts, Delete et Incrementals.

“Ce ne sont que les capacités que Hudi a ajoutées au stockage Hadoop vanille ou cloud”, a déclaré Chandar.

Après avoir incubé Hudi pendant plusieurs années chez Uber, la société a fait don du projet à Apache en 2019, et il s’est développé grâce au travail de la communauté open source contrairement à ceux construits autour d’Iceberg.

La startup Chandar Onehouse, qui a levé 8 millions de dollars en financement de démarrage en février, fournit des services gérés aux entreprises qui utilisent les produits Lakehouse basés sur Hudi.

Dans le passé, seuls Uber ou Facebook dans le monde pouvaient se permettre l’infrastructure matérielle et logicielle nécessaire pour déployer ce type de technologie dans leurs propres centres de données, mais aujourd’hui, l’écosystème de données centré sur le cloud est mûr pour une utilisation plus large de cette technologie par d’autres. entreprises, a déclaré Venkataramani de Rockset. Comme Iceberg et Hudi sont conçus pour fonctionner dans des environnements cloud, où les entreprises sont capables de gérer de gros volumes de données et d’estimer facilement le coût d’exécution des requêtes et des analyses à l’aide de ces données, a déclaré Venkataramani, les obstacles à l’adoption ont été levés.

“C’est un projet exigeant sur le marché comme Hudi et Iceberg”, a-t-il déclaré.

Cela pourrait être un bon signe pour Weeks, l’ancien ingénieur de Netflix qui a aidé à créer Iceberg. L’année dernière, avec deux autres anciens pirates de données de Netflix qui ont également aidé à créer Iceberg, il a fondé Tabular, une start-up qui construit des plates-formes de données à l’aide d’Iceberg.