À l’ère de la prise de décision guidée par la donnée, la capacité à anticiper les tendances et les résultats futurs est inestimable. Qlik AutoML est à l'avant-garde de cette révolution, offrant une intégration transparente du machine learning automatisé au sein du hub Qlik Cloud Analytics. Cet outil puissant n'est pas réservé aux data scientists. Il démocratise l'analyse prédictive, permettant aux utilisateurs de tous niveaux de découvrir des tendances, de faire des prédictions et d'explorer les fonctionnalités clés qui influencent leurs résultats commerciaux. Avec Qlik AutoML, vous pouvez collaborer, expérimenter et déployer des modèles de machine learning avec une facilité sans précédent. En lisant la suite, découvrez comment l'approche sans code et conviviale de Qlik AutoML transforme les équipes d'analyse, permettant une expérimentation illimitée et un déploiement rapide des modèles, exploitant ainsi tout le potentiel de vos données sans intervention d'un expert.
Qu'est-ce que Qlik AutoML
L'intelligence artificielle (IA) et le machine learning (ML) sont devenus des technologies clés dans le domaine de l'analyse de données, offrant des outils puissants pour extraire des informations exploitables à partir d'ensembles de données complexes. L'IA désigne la simulation des processus d'intelligence humaine par des machines, leur permettant d'effectuer des tâches qui requièrent généralement une intelligence humaine, telles que la résolution de problèmes, la prise de décision et la reconnaissance de formes. Dans le domaine plus large de l'IA, le ML se concentre sur le développement d'algorithmes permettant aux ordinateurs d'apprendre et de faire des prédictions ou des décisions à partir de données historiques.
Qlik AutoML va au-delà des approches ML traditionnelles en proposant une suite complète de fonctionnalités automatisées parfaitement intégrées à la plateforme d'analyse Qlik. Grâce à l’interface intuitive de Qlik, AutoML permet aux utilisateurs, quel que soit leur niveau, de construire, déployer et interpréter facilement des modèles ML afin de dégager des insights actionnables. En éliminant la complexité habituellement associée au développement de modèles ML, Qlik AutoML accélère la transition vers une prise de décision pilotée par la donnée et permet d’exploiter pleinement la valeur des actifs data de l’entreprise.
Qlik AutoML repose sur deux fonctionnalités principales : les « expériences » et les « déploiements ». Les expériences permettent d’entraîner des modèles à partir de données historiques pour analyser et prédire des problématiques métier. Après la phase d’entraînement et d’affinage, ces modèles peuvent être déployés pour faire des prédictions sur de nouvelles données. Les expériences sont personnalisables et peuvent être créées dans des espaces personnels ou partagés. Les déploiements, quant à eux, permettent d’opérationnaliser ces modèles entraînés et peuvent être créés dans des espaces personnels, partagés ou gérés.
Prérequis pour utiliser Qlik AutoML
Pour travailler avec des expériences ML, vous devez disposer des éléments suivants :
- Droits d'utilisateur professionnel ou complet
- Le rôle « AutoML Experiment Contributor » (ou « AutoML Deployment Contributor » pour seulement visualiser les expériences)
- Une autorisation est requise dans l'espace où se déroulent les expériences. Vous ne pouvez pas créer d'expériences dans un espace géré.
Pour travailler avec des déploiements ML, vous avez besoin de :
- Droits d'utilisateur professionnel ou complet
- Pour visualiser/créer des déploiements : le rôle « AutoML Deployment Contributor » ou « AutoML Experiment Contributor »
- Modifier et supprimer des déploiements ML: rôle de sécurité Contributeur de déploiement AutoML
- Rôle requis dans l'espace où se situe le déploiement ML.
De plus, votre administrateur de tenant doit activer la fonctionnalité Qlik AutoML pour votre tenant.
Comment utiliser Qlik AutoML : Prédire la satisfaction des passagers en vol
Avant d'utiliser Qlik AutoML, il est nécessaire de disposer d'une table de base bien structurée pour un apprentissage efficace des modèles de machine learning.
La table d'entrée sert de base à tout modèle de machine learning, ce qui souligne l'importance de la phrase « entrées inutiles = sorties inutiles ». Dans l'exemple suivant, nous utiliserons un jeu de données compatible avec le machine learning, provenant de Kaggle. Ce jeu de données contient les réponses à un questionnaire de satisfaction, notre objectif étant de prédire la satisfaction globale des clients : satisfait ou neutre/insatisfait.
Pour plus d'informations sur la création d'une table d'entrée optimale pour les modèles de machine learning, nous vous recommandons de consulter les informations disponibles sur la page « Préparer votre set de données pour l'entraînement ».
En général, quatre éléments clés sont essentiels dans les données :
- Déclencheurs d'événements: ce qui déclenche la création d'un nouveau point de données. Dans notre exemple, cela se produit lorsqu'un client remplit le questionnaire de satisfaction.
- Cibles: la cible que vous essayez de prédire. Notre objectif est de savoir si un client est satisfait ou neutre/insatisfait.
- Caractéristiques: Il s'agit des informations utilisées pour faire la prédiction, ce qui influence la cible.
- Point de prediction: le point où vous arrêtez de collecter des données et commencez à prédire la cible.
Vous trouverez ci-dessous un aperçu de nos données. Nous essayons de prédire la colonne « Satisfaction ».
Création d’expériences
Tout d’abord, vous devez créer une expérience AutoML et charger les données utilisées pour l’entraînement du modèle.
Configuration des expériences
Le processus commence par la sélection rigoureuse d'une variable cible (le résultat que vous souhaitez prédire) et l'identification des caractéristiques qui éclaireront les prédictions du modèle. Pour faciliter cette sélection, Qlik AutoML fournit une analyse complète de vos données historiques, accompagnée de statistiques récapitulatives pour chaque colonne, vous permettant de prendre des décisions éclairées concernant les entrées de votre modèle.
La qualité de vos données peut imposer certaines contraintes, influençant l'exploitation des différents segments de votre expérience. La fonctionnalité « Insights » de la vue Schéma offre une visibilité sur les attributs uniques de chaque champ de données. Ces informations sont cruciales, car elles vous informent de la compatibilité des données avec les algorithmes de machine learning et de leur interprétation lors de l'entraînement du modèle.
En plus des réglages de base, de nombreux paramètres optionnels permettent d’affiner l’expérience selon vos besoins. Qlik AutoML simplifie la préparation des données en appliquant automatiquement une série d'étapes de prétraitement, garantissant ainsi l'entraînement de votre modèle sur des données propres et appropriées. Pour ceux qui s'intéressent aux subtilités du prétraitement des données, des informations complémentaires sont disponibles dans la section « Préparation et transformation automatiques des données » .
De plus, Qlik AutoML détermine intelligemment la catégorie de modèle la plus adaptée au type de cible. Il existe trois principaux types de modèles à prendre en compte :
- Classification binaire: idéale pour les scénarios où la prédiction est dichotomique, comme la détermination de la satisfaction client comme étant « satisfait » ou « neutre/insatisfait ».
- Classification multiclasse: utilisée lorsque la prédiction implique plusieurs résultats possibles, comme la classification des commentaires des clients dans les catégories « satisfait », « neutre » ou « insatisfait ».
- Régression: applicable à la prédiction de valeurs numériques continues, par exemple, à la prévision des chiffres de ventes futurs.
Expériences d’entraînement
Le processus d'entraînement des modèles de machine learning consiste à présenter des données aux algorithmes, leur permettant ainsi d'identifier les schémas sous-jacents et d'en tirer des enseignements. Cette étape fondamentale est cruciale, car elle prépare le terrain pour la capacité du modèle à faire des prédictions ou à prendre des décisions. Une fois la phase d'entraînement initiale terminée, les métriques obtenues offrent des informations précieuses sur les performances du modèle. Pour démarrer l'entraînement, cliquez sur le bouton « Exécuter l' entraînement » après avoir configuré l'entraînement.
Affiner les modèles
Examen des modèles
Ci-dessous, vous pouvez consulter le score de nos modèles. La classification CatBoost a obtenu les meilleures performances. Notre exemple est assez simple, ce qui a permis d'obtenir des scores très élevés dès la première version. Pour les cas plus complexes, plusieurs itérations peuvent être nécessaires. Pour en savoir plus sur les différentes mesures de performance, consultez l'article : Score des modèles de classification binaire .
Affiner les modèles
Après avoir créé la première version de vos modèles, l'étape critique suivante consiste à les affiner afin d'optimiser leur précision et leur prédictivité.
Cet ajustement peut être réalisé en modifiant divers éléments, notamment l'inclusion ou l'exclusion de caractéristiques spécifiques, la mise à jour du jeu de données d'entraînement et l'optimisation de diverses options de configuration. Ces modifications vous permettent de comparer côte à côte différentes itérations du modèle, vous offrant ainsi une vision claire des effets de vos ajustements. Dans notre exemple, plusieurs caractéristiques ont un score de permutation très faible, ce qui signifie que le modèle s'appuie peu sur elles pour effectuer la prédiction. Ces caractéristiques peuvent être considérées comme du bruit inutile. Nous allons supprimer certaines de ces caractéristiques et réentraîner notre modèle. De plus, nous ne réentraînerons que les classifications CatBoost et LightGBM, car ces modèles semblent les plus performants sur nos données.
Déploiement de modèles
Déploiement de modèles
Vous pouvez déployer des modèles de machine learning issus de vos expériences dans des espaces de travail personnels ou partagés. Pour un environnement plus contrôlé, les modèles peuvent être publiés dans des espaces gérés. Il est important de noter que chaque déploiement de machine learning provient d'un algorithme unique, dérivé d'une version spécifique d'une expérience.
Votre niveau d'abonnement Qlik Cloud détermine le nombre de modèles que vous pouvez déployer. Ce plafond s'applique à tous les tenants associés à votre licence. La limite est calculée par modèle, ce qui signifie que même si vous déployez plusieurs instances du même modèle, elles comptent collectivement comme un seul modèle déployé dans votre limite.
Si vous atteignez le seuil de votre capacité de déploiement, plusieurs options s'offrent à vous: vous pouvez supprimer certains des modèles déployés existants pour faire de la place pour de nouveaux, ou envisager de mettre à niveau votre abonnement vers un niveau supérieur prenant en charge un plus grand nombre de déploiements.
Réaliser des prédictions
Lorsque vous utilisez votre modèle d'apprentissage automatique (ML) pour réaliser des prédictions, vous pouvez générer différents ensembles de données offrant des informations variées sur le processus de prédiction. Voici un aperçu des ensembles de données que vous pouvez créer :
- Prediction_apply : cet ensemble de données est une réplique des données sur lesquelles les prédictions sont faites, vous permettant de voir les entrées qui ont été introduites dans le modèle.
- Prediction_SHAP : Cet ensemble de données présente les valeurs SHAP de chaque caractéristique pour toutes les prédictions. Ces valeurs quantifient la contribution de chaque caractéristique à la prédiction par rapport à une valeur de référence. Par exemple, une valeur SHAP de 1,5 pour le « service Wi-Fi en vol » suggère que cette caractéristique influence positivement la satisfaction des passagers.
- Prediction_coordinate_SHAP : cet ensemble de données compile toutes les valeurs SHAP dans une seule colonne.
- Prédiction : cet ensemble de données contient les prédictions réelles faites par le modèle.
- Erreurs : Cet ensemble de données inclut toutes les erreurs survenues dans les enregistrements de l'ensemble de données appliqué. Il fournit des détails sur les enregistrements non traités et les raisons pour lesquelles ils n'ont pas été traités, ce qui est essentiel pour préserver l'intégrité des données et résoudre les problèmes du processus de prédiction.
Chaque ensemble de données a un objectif unique et peut être utilisé pour acquérir une compréhension plus approfondie des prédictions de votre modèle, ainsi que pour identifier et résoudre les problèmes pouvant survenir au cours du processus de prédiction.
Visualisez les informations prédictives
Les valeurs SHAP offrent un aperçu du comportement global d'un modèle et des facteurs influençant des prédictions spécifiques. L'intégration de visualisations de valeurs SHAP dans les applications Qlik Sense vous permet d'approfondir l'analyse de vos données. Vous trouverez ci-dessous un exemple de rapport illustrant les résultats de notre analyse prédictive. Les données indiquent que le « type de client » et le « type de voyage » sont les prédicteurs les plus significatifs d'une évaluation neutre ou insatisfaite. En particulier, les clients voyageant en classe « éco » ou « éco plus », ainsi que ceux voyageant pour des raisons personnelles, sont plus susceptibles de se déclarer neutres ou insatisfaits de leur expérience.
Explorez les données avec des scénarios hypothétiques
Enfin, vous pouvez exploiter l'API de prédiction pour intégrer de manière transparente l'analyse prédictive en temps réel à votre application. Cette puissante fonctionnalité vous permet de réaliser des analyses de simulation dynamiques, un atout unique de Qlik AutoML, qui se connecte nativement ou à des plateformes externes sans délai. En modifiant les valeurs des caractéristiques, vous pouvez simuler différents scénarios et observer instantanément l'impact de ces modifications sur les résultats prévus. Cette fonctionnalité est particulièrement utile pour explorer l'impact de différents facteurs sur vos objectifs commerciaux. Par exemple, vous pouvez évaluer l'impact potentiel des modifications apportées aux « services d'enregistrement » ou au « service Wi-Fi en vol » sur la satisfaction client. L'enregistrement de données est envoyé directement au déploiement de machine learning via l'API, et la réponse prédite est renvoyée immédiatement, vous permettant de prendre rapidement des décisions basées sur les données. Découvrez comment implémenter cette fonctionnalité avec Python et enrichir votre boîte à outils analytique dans le post de la communauté Qlik .
Conclusion
Qlik AutoML est une force transformatrice dans l’analytique, faisant le lien entre la complexité du machine learning et les utilisateurs métier souhaitant exploiter la puissance de l’analytique prédictive. En simplifiant la création, la configuration et le déploiement des modèles ML, Qlik AutoML permet aux organisations de prendre des décisions prospectives avec assurance et précision. Son intégration à la plateforme Qlik Cloud illustre l’avenir des solutions d’IA accessibles, sans code, et adaptées à tous, quels que soient leurs niveaux techniques.