Données, comment les manipuler ?

Class'Code - Allo, la Hotline ?

Chargement de la playlist en cours...

Traitement de données : comment ça marche ?

Musique : comment créer automatiquement des playlists thématiques ?

L'informatique sert à faire du traitement automatique de l'information. L'ordinateur ne traite pas de la musique, mais des données. Une donnée est une valeur décrivant un objet. Les données peuvent être de différents types : un texte, une valeur numérique, une date, etc. Par exemple, 4 minutes 34 secondes est une donnée numérique correspondant à un morceau de musique. Mais elle ne suffit pas à identifier le morceau. Il faut souvent plusieurs données pour décrire un même objet. Une première étape consiste à définir des catégories de données nécessaires pour identifier un objet de manière unique et effectuer les opérations que l'on souhaite. Pour pouvoir être comparées, les données de chaque catégorie doivent être du même type : le titre sous forme textuelle, la durée en seconde, le style choisi par une liste de mots clés, etc.

Structure de données

Pour pouvoir traiter les données, il faut les organiser pour les retrouver facilement. On appelle ça « structurer les données ». Pour ce faire, on crée ce qu'on appelle une table dans laquelle on va regrouper toutes les informations relatives au morceau de musique. C'est comme un tableau, où chaque colonne correspond à une catégorie de données ou descripteurs : durée, interprète principal, style... À chaque ligne correspond un objet. On peut remplir ces tables à la main ou faire une moulinette, un petit programme pour automatiser l'indexation des données et déléguer cette tâche à la machine. 

Toute l'information nécessaire se trouve dans les métadonnées qui accompagnent tout fichier numérique pour en décrire le contenu, ou dans des fichiers de données ouvertes. Une fois que les données sont structurées, il est possible d'effectuer toutes sortes d'opérations dessus, en utilisant ce que l'ordinateur sait faire bien mieux que nous : des opérations. En un clic, on peut rechercher les chansons d'un même style, les plus récentes, ou calculer la durée totale des morceaux.

Croisement des données

Par exemple, si on veut retrouver tous les interprètes aux cheveux rouges, il faut créer une autre table contenant pour chaque interprète toutes les informations utiles : nationalité, date de naissance, sexe, couleur de cheveux, etc. Il suffit ensuite de croiser les deux tables pour avoir à la fois les informations sur les morceaux et sur l'interprète. 

Une base de données peut comporter plusieurs tables que l'on peut croiser si elle possède un descripteur commun ou comparable. Ici : l'interprète. On parle de base de données relationnelle. Ce sont des outils extrêmement puissants. En croisant les informations de la sorte, on peut en obtenir de nouvelles. En 2001, un chercheur américain a démontré qu'il était possible d'accéder aux données médicales individuelles des électeurs de son État en croisant la liste électorale avec une base de données médicale qui ne comportait pourtant pas leurs noms. Avec l'énorme quantité de données aujourd'hui disponibles, préserver l'anonymat est un vrai enjeu pour la recherche, d'où l'importance du règlement général sur la protection des données (RGPD). 
 

Producteur : Inria

Auteur : Liliane Kahmsay / Florent Masseglia

en partenariat avec
Class'Code

Class’Code est un programme de formation gratuit à destination de toutes celles et ceux qui désire initier les jeunes de 8 à 14 ans à la pensée informatique. Retrouvez toutes les informations sur classcode.fr et les Moocs sur openclassrooms.fr

Publié le - Mis à jour le 14-06-2019

Recommandations