Introducing G2.ai, the future of software buying.Try now

Le rôle des data scientists et ce que nous avons vu à Rev 3

27 Juin 2022
par Matthew Miller

Le monde est plein de conférences, de lumières vives, de chaises relativement confortables et de visages amicaux. Ajoutez-y de la nourriture décente, et vous êtes parti pour une expérience formidable.

Le mois dernier, j'ai eu le plaisir d'assister à Rev 3 par Domino Data Lab dans la Grosse Pomme, qui n'a pas déçu. En plus de la camaraderie et des goodies, j'ai appris des mises à jour de leurs produits et de l'espace plus large de l'apprentissage automatique (ML), que je vais partager ici.  

La science des données n'est plus ce qu'elle était

Quand on considère l'histoire de la science des données, deux choses reviennent toujours : 

  • Données
  • Calcul

L'histoire de base est la suivante : la montée de l'intelligence artificielle (IA) en tant que méthode technologique pour obtenir des informations sur les données et faire des prédictions a été alimentée par une augmentation significative des données produites et des méthodes de calcul plus grandes et moins chères.

Initialement, les outils se concentraient sur la création d'algorithmes pour adapter ces données et produire des résultats sensés. On ne pensait pas beaucoup à la reproductibilité et à la systématisation. Le mot d'ordre était « lancez quelque chose contre le mur et voyez si ça colle ». Les temps, cependant, changent...   

MLOps à la rescousse

Fini les jours de désordre. Maintenant, la notion d'opérationnalisation de l'apprentissage automatique (MLOps) est en pleine force. MLOps favorise une culture et une pratique qui visent à unifier le développement des systèmes d'apprentissage automatique et l'exploitation des systèmes d'apprentissage automatique. Grâce aux logiciels d'opérationnalisation de l'IA et de l'apprentissage automatique (MLOps), les entreprises peuvent être systématiques dans leurs efforts en IA en surveillant et en maintenant leurs modèles. Avec cette technologie, elles peuvent obtenir une visibilité sur leurs projets d'apprentissage automatique, mettre leurs modèles en production et comprendre comment ils fonctionnent.

MLOps aide à relever les deux plus grands défis liés à l'IA : les données et le calcul. En effet, lorsque nous examinons les sujets mentionnés ci-dessus pour le produit MLOps le mieux noté sur G2, Databricks Lakehouse Platform, nous constatons que les données sont un aspect souvent mentionné de la technologie, comme on le voit ci-dessous.

A snapshot of popular topics mentioned related to Databricks Lakehouse Platform

Comment MLOps aide-t-il à prendre le contrôle de ses données et de son calcul ?

Avec MLOps, les entreprises peuvent assurer une connexion étroite et claire entre leurs données et leurs modèles. Domino Data Lab avait annoncé leur partenariat avec la société de gestion de données Snowflake en janvier 2021, et ils ont élaboré sur le renforcement de cette connexion à Rev 3 (mai 2022) avec Domino 5.2. Leur relation a franchi une étape supplémentaire en juin 2022 avec l'investissement de Snowflake dans Domino Data Lab pour unir les modèles ML et les données cloud en une seule plateforme. Avec Domino 5.2, ​​les utilisateurs peuvent accéder à la surveillance autonome des performances des modèles dans le Cloud de données de Snowflake. 

Stig Pedersen, responsable du CoE de science des données chez Topdanmark, note

« L'intégration de Domino au Cloud de données de Snowflake aide notre équipe à se concentrer sur la science des données, et non sur des exigences réglementaires de données compliquées, avec des gains d'efficacité, tels que la découverte rapide de la dérive des modèles pour minimiser l'impact commercial potentiel des prédictions sous-optimales. »

En outre, ils ont annoncé leur nouvelle capacité IntelliSize. Cette fonctionnalité aide les entreprises à gérer leurs coûts et leur charge opérationnelle en recommandant la taille optimale pour un environnement. Avec cette fonctionnalité d'optimisation des coûts, les équipes informatiques et les dirigeants d'entreprise peuvent s'assurer que juste la bonne quantité de calcul et de stockage est utilisée pour la tâche à accomplir.

Ces intégrations et fonctionnalités aident à rapprocher les données et la science des données, permettant à la technologie de se concentrer sur les données afin que les scientifiques des données puissent se concentrer sur la science des données.

Lire maintenant : Tendances des données en 2022

Qu'est-ce que la science des données de toute façon ?

En plus des mises à jour des fonctionnalités annoncées, Rev 3 a offert de grandes perspectives de haut niveau de la part des leaders de l'industrie, comme Cassie Kozyrkov (scientifique en chef des décisions chez Google), qui a parlé de rendre la science des données utile. Son discours était rempli de superbes illustrations, métaphores et blagues, mais l'une qui a marqué était son analogie avec la cuisine.

La cuisine n'est pas un travail à un seul objet. Elle a plusieurs ingrédients, ustensiles et étapes, tout comme la science des données. Si nous devions comparer, ce serait : 

  • Données=ingrédients
  • Algorithmes=appareils
  • Modèles=recettes
  • Prédictions=plats

Nous ne pouvons pas oublier ou négliger l'un de ces composants clés. En favorisant la collaboration et l'innovation, les entreprises peuvent libérer le pouvoir de leurs données et de leurs talents.

En savoir plus : Comment choisir une plateforme de science des données et d'apprentissage automatique adaptée à votre entreprise

Arrêtez de les appeler compétences douces

Un autre point clé perspicace du discours de Kozyrkov était sa discussion sur ce qui se passe lorsque les outils deviennent plus faciles. Alors que les produits MLOps comme Domino deviennent plus faciles à utiliser et que les tâches de science des données, telles que la préparation des données, deviennent automatisées, où cela laisse-t-il les humains impliqués ? Un sujet brûlant est le rôle et la place des compétences douces ou de ces compétences non techniques qui sont si utiles et si humaines.

Kozyrkov a remarqué : 

« Ne les appelez pas compétences douces - appelez-les les plus difficiles à automatiser. »

C'est un bon endroit pour terminer. Alors que nous réfléchissons à l'évolution de ces plateformes, à la façon dont les données et les modèles se rapprochent, et à la façon dont le calcul devient de plus en plus facile à optimiser, nous devons constamment penser :

Quelle est la place de l'humain dans le processus ?

Vous voulez en savoir plus sur Plateformes MLOps ? Découvrez les produits Plateformes MLOps.

Matthew Miller
MM

Matthew Miller

Matthew Miller is a former research and data enthusiast with a knack for understanding and conveying market trends effectively. With experience in journalism, education, and AI, he has honed his skills in various industries. Currently a Senior Research Analyst at G2, Matthew focuses on AI, automation, and analytics, providing insights and conducting research for vendors in these fields. He has a strong background in linguistics, having worked as a Hebrew and Yiddish Translator and an Expert Hebrew Linguist, and has co-founded VAICE, a non-profit voice tech consultancy firm.