Le monde des mégadonnées devrait atteindre un chiffre étonnant de 163 zettaoctets, soit 163 trillions de gigaoctets, d'ici 2025. Curieux de savoir à quel point un zettaoctet est grand ? Il pourrait stocker environ 2 milliards d'années de musique.
Il existe de nombreux concepts et idées pour appliquer les mégadonnées, quelques exemples incluent la création de modèles d'apprentissage personnalisés pour les étudiants ou l'offre de soins de santé plus personnalisés. Cependant, les mégadonnées sont encore généralement difficiles et longues à traiter et à analyser, et elles sont générées plus rapidement que nous ne pouvons suivre. Heureusement, au rythme où les technologies des mégadonnées progressent, ces difficultés pourraient être atténuées dans les trois prochaines années.
En fait, de plus en plus d'entreprises élaborent des plans pour adopter les mégadonnées pour réussir à l'avenir. Les mégadonnées dévoileront finalement de nouvelles opportunités et efficacités qui pourraient changer notre vie quotidienne – et il est juste de s'attendre à ce que certains de ces changements se concrétisent d'ici 2021. Nous avons donc demandé à sept experts en technologie quelles étaient leurs prédictions sur trois ans pour les mégadonnées. Voici ce qu'ils avaient à dire :
1. La demande de data scientists continuera d'augmenter
Harry Dewhirst, Président chez Blis.
« J'ai récemment lu que le Harvard Business Review a qualifié ce rôle de 'métier le plus sexy du 21ème siècle'. Il est indéniable que les données vont être la monnaie qui alimentera notre économie à l'avenir ; nous sommes déjà bien engagés sur cette voie. Ce qui signifie que les data scientists continueront de façonner l'avenir.
Il est crucial que les entreprises commencent à planifier l'intégration des data scientists dans leurs structures organisationnelles dès maintenant, et peut-être encore plus pour les collèges et autres éducateurs de fournir plus d'opportunités aux futurs travailleurs d'explorer ce domaine. Les données ont un pouvoir de pérennité, elles ne disparaîtront pas de sitôt. »
Harry a certainement raison. La science des données est l'un des domaines à la croissance la plus rapide aujourd'hui en raison de son rôle important dans la compréhension des mégadonnées.
En fait, un rapport d'IBM, intitulé The Quant Crunch, estime que jusqu'à 2,72 millions d'emplois nécessitant des compétences en science des données seront publiés d'ici 2020.
Skipper Seabold, Co-Responsable de la R&D en science des données chez Civis Analytics.
« Le rôle de 'data scientist' cessera d'être un poste spécialisé pour lequel on embauche. La boîte à outils de la science des données deviendra un ensemble de compétences que les personnes occupant divers rôles fonctionnels au sein d'une organisation seront censées posséder.
La plupart des data scientists n'auront plus à penser aux systèmes distribués – Hadoop, Spark ou HPCs. Les anciennes technologies, comme les bases de données relationnelles traditionnelles, rattraperont en performance et en capacités ces technologies, et le besoin de penser et de programmer pour plusieurs machines connectées sur un réseau sera éliminé par les outils disponibles via les grands fournisseurs de cloud. »
Vous voulez en savoir plus sur Logiciel d'analyse des mégadonnées ? Découvrez les produits Analyse des Big Data.
2. Les mégadonnées seront plus accessibles
Sam Underwood, VP de la stratégie commerciale chez Futurety.
« D'ici 2021, les mégadonnées deviendront beaucoup plus accessibles, et donc beaucoup plus utiles. Un défi clé pour de nombreuses entreprises aujourd'hui est d'unifier toutes ces données ; par définition, c'est un gros travail !
Construire des lacs de données et d'autres environnements de stockage flexibles est une priorité majeure en 2018, et nous prédisons que d'ici 2021, une grande partie de ces données critiques sera hébergée dans des systèmes beaucoup plus accessibles par les outils qui les utiliseront (visualisation, analyse, modélisation prédictive). Cela ouvre des possibilités illimitées pour chaque aspect des opérations commerciales d'être purement axé sur les données. »
L'intuition de Sam est tout à fait juste. Il ne suffira pas de simplement collecter et traiter les mégadonnées. Si les données ne peuvent pas être facilement comprises par les utilisateurs finaux et les décideurs au sein des entreprises, il sera difficile d'en tirer de la valeur.
Jeff Houpt, Président de DocInfusion.
« Je vois le paysage des mégadonnées évoluer d'un environnement hautement technique et coûteux vers des méthodes plus en libre-service et à la demande où les ressources dont vous avez besoin se mettent en place automatiquement et vous ne payez que pour ce que vous utilisez.
En réalité, dans le paysage actuel pour analyser les mégadonnées, vous avez besoin d'une infrastructure massive ou coûteuse pour capturer, cataloguer et préparer les données à l'utilisation. Ensuite, pour interroger et analyser les données, vous devez avoir les compétences d'un programmeur/mathématicien très technique ou d'un data scientist.
Je pense qu'il y aura des plateformes et des applications qui continueront à rendre ces tâches plus faciles et plus intuitives, et dans 3 ans, nous arriverons à un point où vous alimenterez les données directement dans une seule application qui gérera tous les détails restants pour vous – et le fera à grande échelle.
Je pense aussi qu'à travers l'utilisation de l'intelligence artificielle (IA) et des concepts d'apprentissage automatique, les applications seront capables de comprendre automatiquement vos objectifs en utilisant les connaissances obtenues des utilisateurs précédents qui ont effectué une tâche similaire. Cela permettra aux systèmes d'optimiser les données à des fins spécifiques avec très peu de retour de l'utilisateur. »
3. Le NLP sera utilisé pour la récupération d'informations
KG Charles-Harris, PDG de Quarrio.
« La prédiction la plus fondamentale pour les mégadonnées est que d'ici 2021, la récupération d'informations à partir de dépôts de mégadonnées se fera en utilisant le langage naturel et sera instantanée. Les gens poseront simplement des questions en langage normal et le système répondra en langage ordinaire, avec des graphiques et des tableaux générés automatiquement lorsque cela est applicable. »
4. Les fournisseurs de DBaaS adopteront l'analyse des mégadonnées
Ben Bromhead, CTO et co-fondateur de Instaclustr.
« Nous nous attendons à ce que les fournisseurs de Database-as-a-Service (DBaaS) adoptent vraiment les solutions d'analyse des mégadonnées au cours des trois prochaines années, alors qu'ils s'adaptent pour répondre à un besoin croissant des clients. Les entreprises collectent et stockent de plus en plus de données, et continuent de chercher des moyens de trier ces données de manière efficace et de les faire fonctionner pour elles.
En intégrant des solutions d'analyse des mégadonnées dans leurs plateformes, les fournisseurs de DBaaS ne se contenteront pas d'héberger et de gérer les données, mais aideront également les clients d'entreprise à mieux les exploiter. Par exemple, Elasticsearch est une technologie open source puissante que nous connaissons bien et qui permet aux développeurs de rechercher et d'analyser des données en temps réel.
Attendez-vous à ce que cette technologie et d'autres similaires qui mettent les développeurs aux commandes de leurs données deviennent de plus en plus présentes dans les répertoires des DBaaS. »
5. Le nettoyage des données sera automatisé
Jomel Alos, Responsable des relations publiques en ligne chez Spiralytics Performance Marketing.
« L'un des plus grands problèmes actuellement pour les mégadonnées est l'encombrement et les données incorrectes. La plupart des entreprises ont actuellement leur propre cadre de nettoyage ou sont encore en train de le développer. Finalement, le nettoyage et l'organisation seront automatisés grâce à divers outils. Parce que les mégadonnées ne sont pas statiques, ces outils devraient également automatiser le processus de nettoyage régulièrement. »
Jomel soulève un excellent point. Pour que la récupération rapide des données se produise, les mégadonnées devront être nettoyées pour la qualité et la pertinence. En fait, les États-Unis ont perdu environ 3,1 trillions de dollars en raison de la mauvaise qualité des données en 2016. C'est pourquoi le « nettoyage » des données traitées est si important lorsqu'il s'agit de structurer les mégadonnées.
Les processus actuels de nettoyage des données ne sont pas exactement sensibles au temps. À l'heure actuelle, ils nécessitent près de 60 pour cent du temps d'un data scientist. Une fois que ces processus pourront être automatisés grâce à l'utilisation de l'IA et de l'apprentissage automatique, de réels progrès seront réalisés.
Découvrez comment comprendre efficacement de grands ensembles de données avec l'analyse des mégadonnées et débloquez des opportunités cachées.

Devin Pickell
Devin is a former senior content specialist at G2. Prior to G2, he helped scale early-stage startups out of Chicago's booming tech scene. Outside of work, he enjoys watching his beloved Cubs, playing baseball, and gaming. (he/him/his)