Microsoft Azure Data Factory

Azure, de cloud offering van Microsoft is de laatste jaren sterk geëvolueerd en deze evolutie zet zich verder met heel wat nieuwe services, waaronder Azure Data Factory, een cloud-based data processing service voor het orkestreren van data opslag, data processing en data flow management.

Met Azure Data Factory kan je:

  • Data importeren en combineren vanuit cloud-based, on-premises en internet databronnen
  • Complexe transformaties doorvoeren op de betrokken data
  • Zowel gestructureerde als niet-gestructureerde data omzetten tot betrouwbare informatie en deze publiceren voor het gebruik in analytische applicaties
  • De data flows monitoren en beheren via een rijke grafische interface

Data wordt aan de hand van JSON scripts geïmporteerd vanuit verschillende bronnen en opgeladen via een pipeline naar een datahub met Azure Blob Storage in een HDInsight cluster. Deze HDInsight cluster maakt deel uit van de Data Factory service en dient dus niet extra opgezet of geconfigureerd te worden.

De data in de Data Hub kan getransformeerd en verrijkt worden aan de hand van Pig, Hive en C# scripts.

Door middel van een JSON script kan de bewerkte data gepubliceerd worden naar een andere data store voor o.a. het gebruik in analytische applicaties.

Microsoft Azure Data Factory

Voor het importeren van on-premise data moet er eerst een Data Management Gateway geconfigureerd te worden. Dit is software die geïnstalleerd dient te worden in hetzelfde netwerk als de on-premises server. Deze Data Management Gateway zorgt voor een beveiligde verbinding naar de cloud.

Volgende data flows worden momenteel ondersteund:

Microsoft Azure Data Factory

Azure Data Factory geeft ook een zeer visueel overzicht van de opslag, verwerking en beweging van de data (pipelines) tussen de verschillende linked services. Deze pipelines en services kunnen ook eenvoudig beheerd worden via deze interface, bijvoorbeeld voor het herstarten van een data load.

Microsoft Azure Data Factory

Microsoft Azure Data Factory

Er zijn 2 soorten linked services:

  • Een Data Storage Service voor opslag van data: Azure, on-premises databases, file system …
  • Een Compute Service voor bewerken en verrijken van de data: Azure HDInsight, Azure Machine Learning …

De prijszetting van Data Factory is gebaseerd op het gebruik: aantal "activities” (data processing steps) per maand. Er is een aangepast tarief voor laag en hoog gebruik, en voor cloud en on-premises data.

Conclusie

Azure Data Factory geeft je de mogelijkheid om op een eenvoudige manier data uit de cloud te integreren met bijvoorbeeld een on-premises data warehouse. De interne verwerking in een HDInsight cluster aan de hand van Pig en Hive scripts zorgt voor een krachtige interne verwerking van complexe data. Momenteel is er echter in tegenstelling tot SSIS nog geen visuele designer voor het programmeren van de data flows. Data Factory zal dus nog niet meteen SSIS gaan vervangen, maar gezien de populariteit van cloud opslag en het gebrek aan support voor cloud data in de standaard BI-tools is het wel een uiterst nuttige aanvulling aan de cloud offering van Microsoft. De toepassing heeft vandaag dan ook vooral in eerste instantie nut voor "big data” projecten (met nadruk op de "variety” en "velocity” aspecten van deze bronnen), waar deze data in de cloud verrijkt moet worden met data uit een corporate data warehouse, of andersom.

Azure Data Factory is momenteel in Preview. Meer informatie in beschikbaar via de volgende link : http://azure.microsoft.com/en-us/services/data-factory/

Contacteer ons voor meer informatie rond Azure Data Factory !