Introducing G2.ai, the future of software buying.Try now

Qu'est-ce que l'échantillonnage de données ? Comment voir la situation dans son ensemble

31 Octobre 2024
par Mara Calvello

Quand vous avez besoin d'une réponse et que vous en avez besoin rapidement, ne serait-il pas agréable de demander à tout le monde dans le monde qui pourrait aider à trouver une réponse ? Bien que oui, ce serait formidable, cela prendrait probablement aussi un temps obscène et serait assez coûteux. Au lieu de cela, il est préférable de recueillir vos données en demandant à un nombre restreint de personnes ayant les informations dont vous avez besoin. Cette méthode est connue sous le nom d'échantillonnage de données. Pour obtenir de l'aide avec l'échantillonnage de données, utilisez un logiciel d'analyse statistique, qui peut non seulement aider à déterminer une taille d'échantillon et à analyser les données, mais aussi à formuler diverses conclusions et hypothèses une fois l'échantillonnage terminé. Qu'est-ce que l'échantillonnage de données ? L'échantillonnage de données est une technique statistique courante pour analyser les modèles et les tendances dans un sous-ensemble de données représentatif d'un ensemble de données plus large examiné. En utilisant des échantillons représentatifs, les scientifiques et analystes de données peuvent rapidement construire des modèles tout en maintenant la précision et en décidant de la quantité et de la fréquence de la collecte de données. L'échantillonnage de données est une forme complexe d'analyse statistique qui peut mal tourner si elle n'est pas effectuée correctement. Elle peut également nécessiter des recherches approfondies avant que l'échantillonnage puisse commencer. Types d'échantillonnage Diverses méthodes d'échantillonnage peuvent être utilisées pour extraire des échantillons de données, l'approche la plus efficace dépendant de l'ensemble de données et du contexte. Ces méthodes d'échantillonnage de données sont généralement classées en échantillonnage probabiliste et non probabiliste. Échantillonnage probabiliste Dans l'échantillonnage probabiliste, chaque aspect de la population a une chance égale d'être sélectionné pour être étudié et analysé. Ces méthodes offrent généralement la meilleure chance de créer un échantillon aussi représentatif que possible. 1. Échantillonnage aléatoire simple Comme son nom l'indique, la méthode simple d'échantillonnage de données est aléatoire. Chaque individu est choisi par hasard, et chaque membre de la population ou du groupe a une chance égale d'être sélectionné. Ceux qui choisissent cette voie peuvent même utiliser un logiciel pour choisir au hasard, car il est utilisé lorsqu'il n'y a pas d'informations préalables sur la population cible. Par exemple, disons que votre entreprise a une équipe marketing de 50 personnes et a besoin de 10 d'entre elles pour un nouveau projet sur le point de démarrer. Chaque membre de l'équipe a une chance égale d'être sélectionné, avec une probabilité de 5%. Un avantage de l'utilisation de l'échantillonnage aléatoire simple est qu'il s'agit de la manière la plus directe de réaliser un échantillonnage probabiliste. D'un autre côté, ceux qui utilisent l'échantillonnage aléatoire simple peuvent constater que les personnes sélectionnées n'ont pas les caractéristiques qu'ils souhaitent étudier. 2. Échantillonnage systématique L'échantillonnage systématique est un peu plus compliqué. Dans cette méthode, le premier individu est sélectionné au hasard, tandis que les autres sont sélectionnés en utilisant un « intervalle d'échantillonnage fixe ». Par conséquent, un échantillon est créé en définissant un intervalle qui dérive des données de la population plus large. Un exemple d'échantillonnage systématique serait de choisir le premier individu au hasard, puis de choisir chaque troisième personne pour l'échantillon. Certains avantages évidents de l'utilisation de l'échantillonnage systématique sont qu'il est facile à exécuter et à comprendre, vous avez un contrôle total sur le processus, et il y a un faible risque de contamination des données. 3. Échantillonnage stratifié L'échantillonnage stratifié est une méthode dans laquelle les éléments de la population sont divisés en petits sous-groupes, appelés strates, en fonction de leurs similitudes ou d'un facteur commun. Les échantillons sont ensuite collectés au hasard dans chaque sous-groupe. Cette méthode nécessite des informations préalables sur la population pour déterminer le facteur commun avant de créer les strates. Ces similitudes peuvent être n'importe quoi, de la couleur des cheveux à l'année de leur diplôme universitaire, le type de chien qu'ils ont, et les allergies alimentaires. Un avantage de l'échantillonnage stratifié est que cette méthode peut fournir une plus grande précision que d'autres méthodes. Pour cette raison, vous pouvez choisir de tester un échantillon plus petit. 4. Échantillonnage en grappes La méthode de regroupement divise l'ensemble de la population ou un grand ensemble de données en grappes ou sections basées sur un facteur déterminant. Ensuite, les grappes sont sélectionnées au hasard pour être incluses dans l'échantillon et analysées. Disons que chaque grappe est basée sur le quartier de Chicago dans lequel vivent les individus. Ces individus sont regroupés par Wrigleyville, Lincoln Park, River North, Wicker Park, Lakeview, et Fulton Market. Ensuite, l'échantillon d'individus est choisi au hasard pour être représenté par ceux vivant à Wicker Park. Cette méthode d'échantillonnage est également rapide et moins coûteuse et permet d'étudier un grand échantillon de données. L'échantillonnage en grappes, spécifiquement conçu pour les grandes populations, peut également permettre de nombreux points de données d'une démographie ou d'une communauté complète. 5. Échantillonnage à plusieurs étapes L'échantillonnage à plusieurs étapes est une forme plus compliquée d'échantillonnage en grappes. Essentiellement, cette méthode divise la population plus large en de nombreuses grappes. Les grappes de deuxième étape sont ensuite subdivisées davantage en fonction d'un facteur secondaire. Ensuite, ces grappes sont échantillonnées et analysées. La « mise en scène » dans l'échantillonnage à plusieurs étapes continue à mesure que plusieurs sous-ensembles sont identifiés, regroupés et analysés. Échantillonnage non probabiliste Les méthodes d'échantillonnage de données dans la catégorie non probabiliste ont des éléments qui n'ont pas une chance égale d'être sélectionnés pour être inclus dans l'échantillon, ce qui signifie qu'elles ne reposent pas sur la randomisation. Ces techniques reposent sur la capacité du scientifique des données, de l'analyste des données ou de quiconque sélectionne pour choisir les éléments pour un échantillon. Pour cette raison, ces méthodes risquent de produire un échantillon non représentatif, c'est-à-dire un groupe qui ne représente pas vraiment l'échantillon. Cela pourrait entraîner une conclusion généralisée. 1. Échantillonnage de commodité Dans l'échantillonnage de commodité, parfois appelé échantillonnage accidentel ou de disponibilité, les données sont collectées à partir d'un groupe facilement accessible et disponible. Les individus sont sélectionnés en fonction de leur disponibilité et de leur volonté de participer à l'échantillon. Cette méthode d'échantillonnage de données est généralement utilisée lorsque la disponibilité d'un échantillon est rare et coûteuse. Elle est également sujette à des biais, car l'échantillon peut ne pas toujours représenter les caractéristiques spécifiques nécessaires à l'étude. Revenons à l'exemple que nous avons utilisé pour l'échantillonnage aléatoire simple. Vous avez toujours besoin de 10 membres de l'équipe marketing pour aider à un projet spécifique. Au lieu de sélectionner au hasard les membres de l'équipe, vous sélectionnez les 10 qui sont les plus disposés à aider. Cette méthode a l'avantage d'être facile à réaliser à un coût relativement bas et rapidement. Elle permet également de recueillir des données et des informations utiles à partir d'une liste moins formelle, comme les méthodes utilisées dans l'échantillonnage probabiliste. L'échantillonnage de commodité est la méthode préférée pour les études pilotes et la génération d'hypothèses. 2. Échantillonnage par quotas Lorsque la méthode des quotas est utilisée dans l'échantillonnage de données, les éléments sont choisis en fonction de caractéristiques prédéterminées. Le chercheur en échantillonnage de données s'assure d'une représentation égale au sein de l'échantillon pour tous les sous-groupes au sein de l'ensemble de données ou de la population. L'échantillonnage par quotas dépend de la norme prédéfinie. Par exemple, la population analysée est composée de 75% de femmes et de 25% d'hommes. Étant donné que l'échantillon doit refléter le même pourcentage de femmes et d'hommes, seuls 25% des femmes seront choisies pour être dans l'échantillon pour correspondre aux 25% d'hommes. L'échantillonnage par quotas est idéal pour ceux qui considèrent les proportions de la population tout en restant rentable. Une fois les caractères déterminés, l'échantillonnage par quotas est également facile à administrer. 3. Échantillonnage par jugement L'échantillonnage par jugement, également connu sous le nom d'échantillonnage sélectif, est basé sur l'évaluation d'experts dans le domaine lors du choix de qui demander à être inclus dans l'échantillon. Dans ce cas, disons que vous sélectionnez parmi un groupe de femmes âgées de 30 à 35 ans, et les experts décident que seules les femmes ayant un diplôme universitaire seront les mieux adaptées pour être incluses dans l'échantillon. Ce serait un échantillonnage par jugement. L'échantillonnage par jugement prend moins de temps que d'autres méthodes, et comme il y a un ensemble de données plus petit, les chercheurs devraient mener des entretiens et d'autres techniques de collecte pratiques pour s'assurer du bon type de groupe de discussion. Étant donné que l'échantillonnage par jugement signifie que les chercheurs peuvent aller directement à la population cible, il y a une pertinence accrue de l'ensemble de l'échantillon. 4. Échantillonnage en boule de neige L'échantillonnage en boule de neige, parfois appelé échantillonnage par référence ou échantillonnage par chaîne de référence, est utilisé lorsque la population est rare et inconnue. Cela se fait généralement en sélectionnant une ou un petit groupe d'individus en fonction de critères spécifiques. La ou les personnes sélectionnées sont ensuite utilisées pour trouver d'autres individus à analyser. Considérons une situation ou un sujet très sensible, comme contracter une maladie contagieuse. Ces individus peuvent ne pas discuter ouvertement de leur situation ou participer à des enquêtes pour partager des informations concernant la maladie. Étant donné que toutes les personnes atteintes de cette maladie ne répondront pas aux questions posées, le chercheur peut choisir de contacter des personnes qu'il connaît, ou celles atteintes de la maladie peuvent contacter d'autres personnes qu'elles connaissent qui l'ont également pour recueillir les informations nécessaires. Cette méthode est appelée boule de neige parce que, comme les personnes existantes sont invitées à nommer des personnes pour être dans l'échantillon, la même augmente en taille comme une boule de neige roulante. L'échantillonnage en boule de neige permet à un chercheur d'atteindre une population spécifique qui serait difficile à échantillonner en utilisant d'autres méthodes tout en gardant les coûts bas. En raison de la taille plus petite de l'échantillon, il nécessite également peu de planification et une main-d'œuvre réduite. Rééchantillonnage de données Une fois que vous avez un échantillon de données, cela peut être utilisé pour estimer la population. Cependant, comme cela ne vous donne qu'une seule estimation, il n'y a pas de variabilité ou de certitude dans l'estimation. Pour cette raison, certains chercheurs estiment la population plusieurs fois à partir d'un échantillon de données, ce qui est appelé rééchantillonnage de données. Chaque nouvelle estimation est appelée un sous-échantillon car elle provient de l'échantillon de données original. Chaque échantillon qui estime la population à partir du rééchantillonnage est son propre outil statistique pour quantifier sa précision. Processus d'échantillonnage de données Le processus global d'échantillonnage de données est une méthode d'analyse statistique qui aide à tirer des conclusions sur les populations à partir d'échantillons. La première étape de l'échantillonnage de données consiste à identifier et à définir la population que vous souhaitez analyser. Cela peut être fait en menant des enquêtes, des sondages d'opinion, des observations, des groupes de discussion, des questionnaires ou des entretiens. Cette étape peut également être appelée collecte de données. Des paramètres doivent être définis, qu'il soit décidé de ne sonder que les femmes âgées de 18 à 35 ans ou les hommes diplômés de l'université en 2010 dans l'État du Vermont. Ensuite, sélectionnez le cadre d'échantillonnage, qui est la liste des éléments ou des personnes formant une population dans laquelle l'échantillon est prélevé. Par exemple, un cadre d'échantillonnage pourrait être les noms des personnes vivant dans une ville spécifique pour une enquête sur la taille de la famille dans cette ville. Ensuite, une méthode d'échantillonnage sera choisie. En fonction des caractéristiques de l'ensemble de données et des objectifs de recherche, vous pouvez choisir l'une des méthodes d'échantillonnage de données mentionnées dans la section précédente. La quatrième étape consiste à déterminer la taille de l'échantillon à analyser. Dans l'échantillonnage de données, la taille de l'échantillon est le nombre exact d'échantillons qui seront mesurés pour qu'une observation soit faite. Disons que votre population sera des hommes diplômés de l'université en 2010 dans l'État du Vermont, et que ce nombre est de 40 000, alors la taille de l'échantillon sera de 40 000. Plus la taille de l'échantillon est grande, plus la conclusion sera précise. Enfin, il est temps de collecter des données à partir de l'échantillon. En fonction des données, vous prendrez une décision, une conclusion ou un plan d'action. Erreurs courantes d'échantillonnage de données Lors de l'échantillonnage de données, les personnes impliquées doivent tirer des conclusions statistiques sur la population à partir d'une série d'observations. Parce que ces observations proviennent souvent d'estimations ou de généralisations, des erreurs sont inévitables. Les trois principaux types d'erreurs qui se produisent lors de l'échantillonnage de données sont : 1. Biais de sélection : Le biais introduit par la sélection d'individus pour faire partie de l'échantillon qui n'est pas aléatoire. Par conséquent, l'échantillon ne peut pas représenter la population qui cherche à être analysée. 2. Erreur d'échantillonnage : L'erreur statistique se produit lorsque le chercheur ne sélectionne pas un échantillon qui représente l'ensemble de la population de données. Lorsque cela se produit, les résultats trouvés dans l'échantillon ne représentent pas les résultats qui auraient été obtenus de l'ensemble de la population. La seule façon d'éliminer à 100% la possibilité d'une erreur d'échantillonnage est de tester 100% de la population. Bien sûr, cela est généralement impossible. Cependant, plus la taille de l'échantillon dans vos données est grande, moins la marge d'erreur sera extrême. 3. Erreur de non-réponse : Cette erreur se produit lorsque les individus sélectionnés ne participent pas à une enquête ou à une étude. Elle résulte de facteurs tels que le manque d'intérêt, la difficulté à atteindre les participants ou la fatigue des enquêtes et affecte la précision des données collectées. Avantages de l'échantillonnage de données Il y a une raison pour laquelle l'échantillonnage de données est si populaire, car il présente de nombreux avantages. Pour commencer, il est utile lorsque l'ensemble de données qui doit être examiné est trop grand pour être analysé dans son ensemble. Un exemple de cela est l'analyse des mégadonnées, qui examine des ensembles de données bruts et massifs dans le but de découvrir des tendances. Dans ces cas, identifier et analyser un échantillon représentatif de données est plus efficace et rentable que de sonder l'ensemble de la population ou de l'ensemble de données. En plus d'être peu coûteux, analyser un échantillon de données prend moins de temps que d'analyser l'ensemble de la population de données. C'est également une excellente option si votre entreprise dispose de ressources limitées. Étudier l'ensemble de la population de données nécessiterait du temps, de l'argent et divers équipements. Si les ressources sont limitées, l'échantillonnage de données est une stratégie appropriée à considérer. Défis de l'échantillonnage de données Certains défis ou inconvénients de l'échantillonnage de données pourraient survenir au cours du processus. Un facteur important à considérer est la taille de l'échantillon requis et la possibilité de rencontrer une erreur d'échantillonnage, en plus du biais d'échantillon. Lors de l'exploration de l'échantillonnage de données, un petit échantillon pourrait révéler les informations les plus importantes nécessaires à partir d'un ensemble de données. Cependant, dans d'autres cas, l'utilisation d'un grand échantillon peut augmenter la probabilité de représenter avec précision l'ensemble de données dans son ensemble, même si la taille accrue de l'échantillon peut interférer avec la manipulation et l'interprétation de ces données. Pour cette raison, certains peuvent avoir du mal à sélectionner un échantillon véritablement représentatif pour des résultats plus fiables et précis. Il n'y a pas de chose telle qu'un échantillon gratuit Du moins, pas quand il s'agit de vos données. Peu importe la méthode que vous choisissez, cela prendra du temps et des efforts. Réduisez la taille de la population que vous souhaitez analyser, retroussez vos manches et commencez. Les chiffres solides dont votre entreprise a besoin pour prendre des décisions basées sur les données ne sont qu'à un échantillon ! Vous avez vos données, votre échantillon et votre analyse. Vous voulez une vue plus claire ? Explorez les outils de visualisation de données pour de meilleures perspectives. Cet article a été publié à l'origine en 2020. Il a été mis à jour avec de nouvelles informations.

Vous voulez en savoir plus sur Outils de visualisation de données ? Découvrez les produits Visualisation des données.

Mara Calvello
MC

Mara Calvello

Mara Calvello is a Content and Communications Manager at G2. She received her Bachelor of Arts degree from Elmhurst College (now Elmhurst University). Mara writes content highlighting G2 newsroom events and customer marketing case studies, while also focusing on social media and communications for G2. She previously wrote content to support our G2 Tea newsletter, as well as categories on artificial intelligence, natural language understanding (NLU), AI code generation, synthetic data, and more. In her spare time, she's out exploring with her rescue dog Zeke or enjoying a good book.