Introducing G2.ai, the future of software buying.Try now

L'importance de la qualité des données et la commoditisation des algorithmes

15 Mars 2022
par Matthew Miller

Algorithmes. Algorithmique. Apprentissage automatique. Apprentissage profond. Si vous lisez cet article, il y a de fortes chances que vous ayez déjà rencontré ces termes à un moment donné. Un algorithme vous a probablement recommandé cet article. Le terme générique pour tout ce qui précède est l'intelligence artificielle (IA), qui prend des données de différentes natures et vous fournit des prédictions ou des réponses basées sur celles-ci. Il y a de fortes chances que vous ayez bénéficié de cette technologie d'une manière ou d'une autre, que ce soit dans une application de cartographie, une recherche d'images chez votre détaillant préféré, ou une saisie semi-automatique intelligente.

Cependant, je vais vous révéler un petit secret. Parfois, peut-être la plupart du temps, le succès d'un projet d'IA donné ne réside pas dans l'algorithme que vous choisissez. En réalité, la clé réside dans les données que vous avez, l'état dans lequel elles se trouvent, et les étiquettes qu'elles portent.

Chez G2, nous avons observé deux tendances qui mettent cela en évidence :

  • L'essor des outils axés sur l'étape des données dans le parcours de l'IA
  • L'essor des solutions d'IA sans code et à faible code

Des données impeccables sont essentielles

Les données sont le cerveau de votre organisation. Elles donnent vie et sens à votre entreprise, que ce soit par l'analyse des données de l'entreprise ou par l'utilisation des données dans l'IA.

Cependant, l'adage "garbage in, garbage out" (ou "rubbish in, rubbish out" pour nos amis britanniques) doit être pris en compte. Un algorithme n'est aussi bon que les données sur lesquelles il est entraîné. Supposons que les données soient de mauvaise qualité, c'est-à-dire qu'elles ne soient pas correctement étiquetées, truffées d'erreurs, de discordances de types de données, etc. Dans ce cas, elles ne produiront probablement pas de prédictions précises ou utiles.

Avec cela à l'esprit, les logiciels de qualité des données et de préparation des données peuvent aider les entreprises à prendre le contrôle de leurs données et à s'assurer qu'elles sont impeccables.

Déverrouiller le pouvoir des données

Une fois que l'entreprise a reconnu le pouvoir et la puissance des données, elle peut et doit commencer à penser plus grand. Même si elle ne dispose pas du plus grand ensemble de données en ville, si elles sont propriétaires, elle peut toujours avoir un avantage concurrentiel. En ce qui concerne les ensembles de données, l'entreprise axée sur les données de 2022 a accès à une multitude de données ouvertes et facilement disponibles, telles que celles disponibles sur Dataset list. Cependant, puisque tout le monde a accès à ces données, elles ne fournissent pas un avantage concurrentiel. Si une entreprise a accès à des données propriétaires, elle peut en assurer la qualité et les garder pour elle-même.

Les données ne sont pas comme un animal de compagnie en chia, dans la mesure où vous ne pouvez pas verser de l'eau dessus pour les faire pousser. Cependant, ce que vous pouvez faire, c'est explorer diverses ressources pour étendre vos données déjà impeccables, telles que :

  • Les données synthétiques sont utiles car elles sont fausses mais statistiquement identiques à l'ensemble de données original, permettant ainsi l'analyse des données et l'apprentissage automatique sans préoccupations de confidentialité.
  • L'enrichissement des données aide les entreprises à trouver des données ou ensembles de données connexes via des logiciels d'échange de données et certaines plateformes de science des données et d'apprentissage automatique. Cet enrichissement des données peut aider à améliorer la précision des modèles car l'ensemble de données enrichi contient de nouvelles données élargies.
  • L'étiquetage des données est essentiel pour entraîner des modèles sur des données non structurées. Les données non structurées, comme les images, l'audio et le texte, sont essentiellement comme un mystère enveloppé dans une énigme sans étiquettes. Comme on le voit ci-dessous, comment un ordinateur peut-il obtenir le contexte nécessaire pour comprendre la différence entre un chihuahua et un muffin ? La réponse réside dans l'étiquetage des données. Grâce à ce processus, on peut construire un ensemble de données de milliers d'images étiquetées définitivement comme chihuahua et muffin. Cela aidera à son tour l'algorithme à déterminer entre les deux images saisies.
Galerie remplie de photos de chihuahua et de muffin

Source : Twitter

Nous vous aimons, modèles, mais…

L'accent mis sur l'étape des données dans le parcours de l'apprentissage automatique est judicieux et en augmentation. Historiquement, surtout en regardant les données structurées, il y avait beaucoup d'accent sur l'entraînement réel des modèles, en utilisant des méthodes éprouvées comme la régression linéaire. Cela incluait la sélection des caractéristiques (choisir quelles caractéristiques sont essentielles pour le modèle) et la sélection du modèle. Ces tâches étaient cruciales pour garantir que les prédictions étaient précises et que les meilleurs modèles pouvaient être choisis et mis en production.

Cependant, nous assistons à l'essor de technologies plus faciles à utiliser, telles que l'apprentissage automatique à faible code et sans code et des technologies connexes comme l'apprentissage automatique automatisé (AutoML).

En savoir plus : Démocratiser l'IA avec des plateformes d'apprentissage automatique à faible code et sans code

Comme le note Amal Joby, analyste associé en recherche de marché chez G2 :

Avec cette prolifération vient la commoditisation des algorithmes, car les data scientists et les développeurs citoyens peuvent prendre un algorithme sur étagère et le déployer rapidement. Chez G2, nous avons vu l'importance des algorithmes préconstruits. Les évaluateurs du Grid® Report de G2 pour les plateformes de science des données et d'apprentissage automatique pour l'hiver 2022 ont évalué les meilleurs produits sur le Grid® très bien pour leurs algorithmes préconstruits. Le produit numéro un, basé sur le score G2, a obtenu une note de 9 sur 10 pour les algorithmes préconstruits. Cela montre que pour qu'un produit de science des données soit très bien noté, il doit avoir des algorithmes préconstruits.

Les algorithmes préconstruits peuvent être utilisés pour effectuer une analyse rapide des données ou utiliser ces données pour faire des prédictions. Par exemple, un chef de produit chez un détaillant de chaussures peut utiliser ces outils pour optimiser facilement leur application mobile, en changeant dynamiquement la bannière sur une page de produit en fonction du comportement de l'utilisateur.

Ce déplacement loin des modèles (étapes 3 et 4 dans le parcours de la science des données ci-dessous) conduit également à une tendance différente : la collision de l'analytique et de l'IA.

Les 5 étapes du parcours de la science des données-ingestion des données, préparation et construction du modèle, entraînement, déploiement

Par exemple, sur G2, l'ancien directeur du marketing produit pour Kraken (maintenant Qlick AutoML) a déclaré :

 "Kraken est principalement une plateforme conçue pour les analystes de données ou les analystes commerciaux sans une compréhension approfondie de la science des données. En tant que tel, nous essayons d'automatiser autant que possible le travail de science des données et ne supportons pas actuellement des fonctionnalités de niveau expert comme le réglage des hyperparamètres." 

Alors que les outils d'analytique fournissent aux utilisateurs des modèles prédictifs prêts à l'emploi, les analystes de données et les data scientists de divers niveaux d'expertise peuvent collaborer pour utiliser ces données afin de tirer des insights et de construire des applications alimentées par les données. C'est quelque chose qui va se développer dans un avenir proche.

Édité par Sinchana Mistry

Vous voulez en savoir plus sur Plateformes de science des données et d'apprentissage automatique ? Découvrez les produits Plateformes de science des données et d'apprentissage automatique.

Matthew Miller
MM

Matthew Miller

Matthew Miller is a research and data enthusiast with a knack for understanding and conveying market trends effectively. With experience in journalism, education, and AI, he has honed his skills in various industries. Currently a Senior Research Analyst at G2, Matthew focuses on AI, automation, and analytics, providing insights and conducting research for vendors in these fields. He has a strong background in linguistics, having worked as a Hebrew and Yiddish Translator and an Expert Hebrew Linguist, and has co-founded VAICE, a non-profit voice tech consultancy firm.