Microsoft Azure Databricks

Azure Databricks est une version gérée de la plateforme Databricks optimisée pour fonctionner sur Azure.

Qu’est-ce que Databricks ?

À l’origine, Databricks a été développée par les créateurs d’Apache Spark et vise à fournir une plateforme unifiée où des experts & ingénieurs en données peuvent coopérer pour mettre sur pied des solutions d’apprentissage machine de bout en bout, de la découverte des données jusqu’à la production.

Databricks est une plateforme où les utilisateurs peuvent se connecter et travailler. Elle s’appuie sur la technologie informatique Apache Spark et peut être installée sur site ou dans une configuration Cloud, ce qui permet aux utilisateurs de disposer de toute la puissance de calcul nécessaire pour travailler de manière abstraite et simplifiée

Azure Databricks offre tous les composants et capacités de Databricks Apache Spark, de même qu’une possibilité d’intégration avec d’autres services Microsoft Azure.

Qu’est-ce que Azure Databricks ?

Conçu conjointement avec Microsoft, le service Azure Databricks est une version gérée de Databricks qui permet aux clients d’Azure d’effectuer une configuration en un clic, de rationaliser les flux de travail et de partager des espaces de travail interactifs et collaboratifs.

Il permet une collaboration rapide entre des experts, ingénieurs de données et des analystes opérationnels grâce à la plateforme Databricks. Azure Databricks est étroitement lié aux ressources de stockage et de calcul Azure, telles qu’Azure Blob Storage, Data Lake Store, SQL Data Warehouse & HDInsights.

Microsoft Azure Databricks
click to enlargeMicrosoft Azure Databricks
Azure integrations

 

Microsoft Azure Databricks
click to enlargeMicrosoft Azure Databricks
Azure Databricks Notebook interface

Pourquoi ai-je besoin de Databricks et de Spark ?

Spark est un framework open-source adapté au traitement de données à grande échelle. Il vous permet essentiellement d’effectuer très rapidement des calculs sur de très volumineux ensembles de données.

Pour ce faire, il traite les données en parallèle et les répartit au travers d’un cluster. La technologie est suffisamment mature pour cela, tant pour des données par lots que pour des données en continu (Spark Streaming).

Databricks possède Spark et permet ainsi à des experts et ingénieurs en données d’accéder rapidement à un environnement Spark entièrement géré pour effectuer des analyses sur des données qu’ils ne pourraient pas exécuter sur leur ordinateur portable local.

Microsoft Azure Databricks

Espace de travail Azure Databricks

Azure Databricks prend en charge Python, Scala, R et SQL ainsi que certaines bibliothèques d’apprentissage profond telles que Tensorflow, Pytorch et Scikitlearn pour la création de solutions d’analyse de Big Data et d’IA. Dans les blocnotes Azure Databricks, l’utilisateur peut facilement passer d’un langage de programmation à l’autre à l’aide de simples commandes de langage afin d’utiliser plusieurs langages dans un seul notebook.


Exécuter un travail sur le cluster dans Azure Databricks,  signifie exécuter unnotebook, soit manuellement, soit en le  planifiantpour qu’il s’exécute à un moment précis. Azure Databricks offre à différents utilisateurs au sein de l’organisation la possibilité de collaborer sur des projets partagés dans un espace de travail unique.

Microsoft Azure Databricks
click to enlargeMicrosoft Azure Databricks

 

Restrictions

Au moment de la rédaction de cet article, Azure Databricks ne s’intègre pas à Git ni à aucun outil de gestion de versions. Il n’est donc pas adapté en tant que plateforme d’équipe, avec collaboration et intégration avec des travaux d’ingénierie de données.

Une autre restriction est qu’il n’est actuellement compatible qu’avec HDInsights et non avec Azure Batch ou AZTK.

Notre expertise

element61 a acquis une expertise indéniable en matière de création et de déploiement de solutions d’IA en production à l’aide d’Azure Databricks. Nos connaissances et notre expérience peuvent aider votre organisation à mettre en place une solution évolutive de données volumineuses dans le Cloud.

Conclusion

Azure Databricks est une plateforme d’analyse dans le Cloud, en mesure de répondre aux besoins à la fois d’ingénieurs et d’experts en données, leur permettant de construire une solution complète de bout en bout pour des données volumineuses et de la déployer en production. Elle peut être utilisée par des ingénieurs en données pour configurer l’architecture complète en créant des clusters, en planifiant et en exécutant des tâches, en se connectant à des sources de données, etc., et par des experts en données pour effectuer l’apprentissage machine et l’analyse en temps réel. Les utilisateurs professionnels peuvent également utiliser les données transformées dans Azure Databricks directement dans Power BI ou un autre outil d’analyse pour des besoins de reporting, simplement en connectant le cluster à l’outil d’analyse.

Pour plus d’informations, vous pouvez consulter le site web ou nous contacter.