Big data (grands volumes de données)
Le terme “big data” désigne toute quantité volumineuse de données structurées, semi-structurées et non structurées susceptibles d’être exploitées à des fins d’information.
En général, le big data se caractérise par trois V : un volume extrême de données, une grande variété de types et la rapidité avec laquelle elles doivent être traitées. Bien que le big data ne corresponde pas à un volume spécifique, le terme est souvent utilisé pour décrire des téraoctets, des pétaoctets et même des exaoctets de données capturées au fil du temps.
Les trois V en détail
Volume : le volume peut provenir de différentes sources, telles que les registres de ventes commerciales, les résultats collectés lors d’expériences scientifiques ou les capteurs utilisés par l’internet des objets (IoT) en temps réel. Les données peuvent être à l’état brut ou prétraitées à l’aide d’outils logiciels indépendants avant d’être analysées. Cliquez ici !
Variété : peut provenir d’une grande variété de types de fichiers, y compris des données structurées, comme le stockage dans une base de données SQL ; non structurées, comme les fichiers de documents ; ou la transmission de données à partir de capteurs. En outre, les big data peuvent inclure des sources multiples et simultanées qui ne pourraient pas être intégrées autrement. Un projet d’analyse de données, par exemple, peut tenter de mesurer le succès d’un produit et les ventes futures en interprétant les informations provenant des ventes passées, des retours ou des impressions des acheteurs.
Vélocité : fait référence au temps nécessaire à l’analyse de grands volumes de données. Chaque projet consistera à extraire, corréler et analyser des sources de données, puis à fournir une réponse ou un résultat sur la base d’une requête globale. Cela signifie que les analystes humains doivent avoir une compréhension détaillée des données disponibles et une idée de la réponse qu’ils recherchent. La vitesse est également importante car l’analyse des données s’étend à des domaines tels que l’apprentissage automatique et l’intelligence artificielle, dans lesquels les processus analytiques imitent la perception en recherchant et en utilisant des modèles dans les données collectées. Cliquez ici !
Le Big Data dans les demandes d’infrastructure
Le besoin de haut débit impose des exigences particulières à l’infrastructure sous-jacente. La puissance de calcul nécessaire pour traiter rapidement de grands volumes et de grandes variétés de données peut submerger un seul serveur ou une grappe de serveurs. Les organisations doivent appliquer la puissance de calcul appropriée aux tâches de big data pour atteindre la vitesse souhaitée. Cela peut nécessiter des centaines ou des milliers de serveurs qui distribuent le travail et fonctionnent en collaboration.
Atteindre cette vitesse de manière rentable peut être un casse-tête. De nombreux chefs d’entreprise sont réticents à l’idée d’investir dans une puissante infrastructure de serveurs et de stockage qui ne pourra être utilisée qu’occasionnellement, pour des tâches liées au big data. En conséquence, l’informatique en nuage public s’est imposée comme le principal moyen d’envisager des projets d’analyse de données volumineuses. Un fournisseur de cloud public peut stocker des pétaoctets de données et mettre à l’échelle des milliers de serveurs suffisamment longtemps pour entreprendre un projet de big data. De plus, vous ne payez que pour le temps de stockage et de calcul réellement utilisé, tandis que les instances en nuage peuvent être mises hors service jusqu’à ce qu’elles soient à nouveau nécessaires. Cliquez ici !
Pour améliorer encore les niveaux de service, certains fournisseurs de nuages publics offrent des capacités de big data telles que des instances de calcul Hadoop hautement distribuées, des entrepôts de données, des bases de données et d’autres services liés au nuage. Amazon Web Services Elastic MapReduce (Amazon EMR) est un exemple de services de big data dans un nuage public.
L’aspect humain de l’analyse des données massives
En définitive, la valeur et l’efficacité du big data dépendent des opérateurs humains chargés de comprendre les informations et d’élaborer les requêtes appropriées pour mener à bien ces projets. Certains outils de données se trouvent dans des niches spécialisées et permettent à des utilisateurs moins techniques de faire diverses prédictions à partir d’informations commerciales de routine. Cependant, d’autres outils émergent, tels que les appliances Hadoop, pour aider les entreprises à déployer une infrastructure informatique adaptée aux projets de big data, en minimisant le besoin d’expertise en matériel et en logiciels de calcul distribué.
Mais ces outils ne répondent qu’à des cas d’utilisation limités. De nombreuses autres tâches liées aux données, comme la détermination de l’efficacité d’un nouveau médicament, peuvent exiger une grande expertise scientifique et informatique de la part du personnel analytique. Actuellement, il y a une pénurie de scientifiques des données et d’autres analystes qui ont l’expérience du travail avec les big data dans un environnement open source distribué. Cliquez ici !
Source : computerweekly.com