Jeu de données
Un jeu de données (en anglais dataset ou data set) est un ensemble de valeurs « organisées » ou « contextualisées » (alias « données »), où chaque valeur est associée à une variable (ou attribut) et à une observation. Une variable décrit l'ensemble des valeurs décrivant le même attribut et une observation contient l'ensemble des valeurs décrivant les attributs d'une unité (ou individu statistique)[1].
Si nous sommes dans une base de données on peut le voir ainsi : chaque colonne est une propriété donc un attribut ou variable, et chaque ligne est une observation puisque décrite par un ensemble d'attributs.
Structure d'un jeu de données
[modifier | modifier le code]Un jeu de données peut avoir une structure tabulaire, par exemple un fichier CSV, une structure d'arbre, comme dans un fichier JSON ou XML, ou encore une structure de graphe, comme dans le RDF.
Lorsque les données sont tabulaires, en principe, chaque ligne correspond à une observation et chaque colonne à une variable[1].
Typologie
[modifier | modifier le code]En statistiques et en économétrie, on distingue les séries temporelles (ou série chronologique) dans lesquelles on observe une unité statistique à différentes périodes, les données en coupe pour lesquelles on observe plusieurs unités statistiques pour une période donnée et les données de panel pour lesquelles on observe plusieurs unités statistiques à différentes périodes[2].
En apprentissage automatique, on distingue le jeu de données d'apprentissage, le jeu de données de validation et le jeu de données de test.
Exemples
[modifier | modifier le code]- Le fichier Fantoir est un jeu de données rassemblant l'ensemble des voies, des lieux-dits et des ensembles immobiliers en France.
- Le quartet d'Anscombe est un ensemble de jeux de données artificiels créés par Francis Anscombe pour montrer l'importance de la visualisation de données.
- Le Penn World Table est un jeu de données permettant des comparaisons internationales du produit intérieur brut réel.
- Le jeu de données Iris est un ensemble de données multivariées introduit par Ronald Fisher en 1936.
Références
[modifier | modifier le code]- (en) Hadley Wickham, « Tidy Data », Journal of Statistical Software, vol. 59, no 10, , p. 1-23 (DOI 10.18637/jss.v059.i10)
- Cameron et Trivedi 2005, p. 47
Annexes
[modifier | modifier le code]Articles connexes
[modifier | modifier le code]- Donnée (statistique)
- Donnée (informatique)
- Structure de données
- Base de données
- Format de données
- Traitement de données
- Visualisation de données
- Jeux d'entrainement, de validation et de test
Bibliographie
[modifier | modifier le code]: document utilisé comme source pour la rédaction de cet article.
- (en) Colin Cameron et Pravin Trivedi, Microeconometrics : Methods And Applications, Cambridge University Press, , 1056 p. (ISBN 978-0-521-84805-3, lire en ligne).