Chaque domaine possède son propre jargon.
Biopsie, pronostic, embolie en milieu de santé.
Affidavit, verdict et litige en justice.
Et comme tous les autres domaines, la science des données possède sa propre liste de jargon. Bien que plus de 130 termes puissent sembler beaucoup, vous constaterez que la majorité sont en fait des concepts dont vous avez déjà entendu parler.
Cette fiche explicative devrait vous aider sur trois points :
Tout est classé par ordre alphabétique, alors n'hésitez pas à sauvegarder et à y revenir en tant que ressource.
1. Tests A/B : Méthode statistique utilisée pour comparer deux versions d'un produit, d'une page Web ou d'une stratégie afin de déterminer laquelle est la plus performante.
2. Précision : Mesure de la fréquence à laquelle un modèle de classification prédit correctement les résultats pour toutes les instances qu'il évalue.
3. Boost publicitaire : Algorithme d'apprentissage d'ensemble qui combine des classificateurs faibles pour créer un classificateur puissant.
4. Algorithme : Ensemble d'instructions ou de règles étape par étape suivi par un ordinateur pour résoudre un problème ou effectuer une tâche.
5. Analyses : Processus d'interprétation et d'examen des données pour en extraire des informations pertinentes.
6. Détection des anomalies : Identifier des tendances inhabituelles ou des valeurs aberrantes dans les données.
7. ANOVA (analyse de la variance) : Méthode statistique utilisée pour analyser les différences entre les moyennes des groupes dans un échantillon.
8. API (interface de programmation d'applications): Ensemble de règles qui permet à une application logicielle d'interagir avec une autre.
9. AUC-ROC (aire sous la courbe ROC): Une métrique qui nous indique la performance globale d'un modèle de classification, en tenant compte des différentes manières de déterminer ce qui est considéré comme une prédiction positive ou négative.
10. Descente en dégradé par lots : Algorithme d'optimisation qui met à jour les paramètres du modèle à l'aide de l'ensemble de données d'entraînement complet (différent de descente en dégradé par mini-lots)
11. Statistiques bayésiennes : Une approche statistique qui combine les connaissances antérieures avec les données observées.
12. BI (intelligence d'affaires) : Technologies, processus et outils qui aident les organisations à prendre des décisions commerciales éclairées.
13. Biais : Erreur dans un modèle qui l'amène à prévoir systématiquement des valeurs différentes des valeurs réelles.
14. Compromis biais/variance : Équilibre entre l'erreur introduite par le biais et la variance dans un modèle.
15. Mégadonnées : Ensembles de données volumineux et complexes qui ne peuvent pas être facilement traités à l'aide des méthodes de traitement des données traditionnelles.
16. Classification binaire : Classer les données en deux groupes, tels que les spams ou les non-spams.
17. Échantillonnage Bootstrap : Technique de rééchantillonnage dans laquelle des échantillons aléatoires sont prélevés et remplacés à partir d'un ensemble de données.
18. Données catégorielles : variables qui représentent des catégories ou des groupes et peuvent prendre un nombre limité et fixe de valeurs distinctes.
19. Test du chi carré: Test statistique utilisé pour déterminer s'il existe une association significative entre deux variables catégorielles.
20. Classement : Catégorisation des points de données dans des classes ou des groupes prédéfinis.
21. Regroupement : Regrouper des points de données similaires en fonction de certains critères.
22. Intervalle de confiance : Plage de valeurs utilisée pour estimer la valeur réelle d'un paramètre avec un certain niveau de confiance.
23. Matrice de confusion : Tableau utilisé pour évaluer les performances d'un algorithme de classification.
24. Corrélation : Mesure statistique qui décrit le degré d'association entre deux variables.
25. Covariance : Mesure de la variation simultanée de deux variables aléatoires.
26. Perte d'entropie croisée : Fonction de perte couramment utilisée dans les problèmes de classification.
27. Validation croisée : Technique permettant d'évaluer les performances d'un modèle en divisant les données en plusieurs sous-ensembles à des fins d'entraînement et de test.
28. Nettoyage des données : Processus d'identification et de correction des erreurs ou des incohérences dans les ensembles de données.
29. Exploration de données : Extraction de modèles ou d'informations précieux à partir de grands ensembles de données.
30. Prétraitement des données : Nettoyage et transformation des données brutes dans un format adapté à l'analyse.
31. Visualisation des données : Présenter les données dans des formats graphiques ou visuels pour faciliter la compréhension.
32. Limite de décision : La ligne de démarcation qui sépare les différentes classes dans un problème de classification.
33. Arbre de décision : Un modèle arborescent qui prend des décisions en fonction d'un ensemble de règles.
34. Réduction de la dimensionnalité: Réduire le nombre d'entités dans un jeu de données tout en conservant les informations importantes.
35. Valeur propre et vecteur propre : Concepts utilisés en algèbre linéaire, souvent utilisés dans la réduction de dimensionnalité pour transformer et simplifier des ensembles de données complexes.
36. Filet élastique : Une technique de régularisation qui combine des pénalités de L1 et de L2.
37. Apprentissage en groupe : Combiner plusieurs modèles pour améliorer les performances et la précision globales.
38. Analyse exploratoire des données (EDA) : Analyser et visualiser les données pour comprendre leurs caractéristiques et leurs relations.
39. Score de F1: métrique qui combine précision et rappel dans les modèles de classification.
40. Faux positif et faux négatif: prévisions incorrectes dans la classification binaire.
41. Fonctionnalité: colonne de données utilisée comme entrée pour les modèles ML afin de faire des prédictions.
42. Ingénierie des fonctionnalités : Création de nouvelles fonctionnalités à partir de fonctionnalités existantes pour améliorer les performances du modèle.
43. Extraction des fonctionnalités : Réduire la dimensionnalité des données en sélectionnant des caractéristiques importantes.
44. Importance de la fonctionnalité : Évaluer la contribution de chaque caractéristique aux prévisions du modèle.
45. Sélection des fonctionnalités : Choisir les fonctionnalités les plus pertinentes pour un modèle.
46. Distribution gaussienne : Type de distribution de probabilité souvent utilisé dans la modélisation statistique.
47. Analyse géospatiale : Analyser et interpréter les modèles et les relations au sein des données géographiques.
48. Renforcement de la pente : Technique d'apprentissage d'ensemble dans laquelle les modèles faibles sont entraînés de manière séquentielle, chacun corrigeant les erreurs du précédent.
49. Descente en pente : Algorithme d'optimisation utilisé pour minimiser l'erreur dans un modèle en ajustant ses paramètres.
50. Recherche dans la grille : Méthode permettant de régler les hyperparamètres en évaluant les modèles selon toutes les combinaisons possibles.
51. Hétéroscédasticité : Variabilité inégale des erreurs dans un modèle de régression.
52. Clustering hiérarchique : Méthode d'analyse des clusters qui organise les données selon une structure arborescente de clusters, où chaque niveau de l'arbre montre les relations et les similitudes entre différents groupes de points de données.
53. Hyperparamètre : Paramètre dont la valeur est définie avant le début du processus d'entraînement.
54. Test d'hypothèses : Méthode statistique pour tester une hypothèse concernant un paramètre de population sur la base de données d'échantillon.
55. Imputation : Compléter les valeurs manquantes dans un jeu de données à l'aide de différentes techniques.
56. Statistiques inférentielles : Branche des statistiques qui consiste à faire des inférences sur une population sur la base d'un échantillon de données.
57. Gain d'informations : Mesure utilisée dans les arbres de décision pour évaluer l'efficacité d'une caractéristique dans la classification des données.
58. Écart interquartile (IQR) : Mesure de la dispersion statistique, représentant l'écart entre le premier et le troisième quartiles.
59. Parcelle commune : Type de visualisation des données utilisé dans Seaborn pour explorer les relations entre deux variables et leurs distributions individuelles.
60. Probabilité conjointe : Probabilité que deux événements ou plus se produisent en même temps, souvent utilisée dans l'analyse statistique.
61. Carnet Jupyter : Application Web open source permettant de créer et de partager des documents contenant du code en direct, des équations, des visualisations et du texte narratif.
62. Clustering K-Means : Algorithme populaire permettant de partitionner un ensemble de données en sous-ensembles distincts ne se chevauchant pas.
63. K-Voisins les plus proches (KNN) : Algorithme de classification simple et largement utilisé basé sur la proximité d'un nouveau point de données par rapport à d'autres points de données.
64. Régularisation L1 : Ajouter les valeurs absolues des coefficients en tant que terme de pénalité à la fonction de perte.
65. Régularisation L2 (Ridge) : Ajouter les valeurs au carré des coefficients en tant que terme de pénalité à la fonction de perte.
66. Régression linéaire : Méthode statistique permettant de modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes.
67. Probabilité du journal : Le logarithme de la fonction de vraisemblance, souvent utilisé dans l'estimation du maximum de vraisemblance.
68. Fonction logistique : Fonction sigmoïde utilisée dans la régression logistique pour modéliser la probabilité d'un résultat binaire.
69. Régression logistique : Méthode statistique pour prédire la probabilité d'un résultat binaire.
70. Apprentissage automatique : Sous-ensemble de l'intelligence artificielle qui permet aux systèmes d'apprendre et de faire des prédictions à partir de données.
71. Erreur absolue moyenne (MAE) : Mesure des différences absolues moyennes entre les valeurs prévues et réelles.
72. Erreur quadratique moyenne (MSE) : Mesure de la différence quadratique moyenne entre les valeurs prévues et réelles.
73. Moyenne : La valeur moyenne d'un ensemble de nombres.
74. Médiane : La valeur centrale d'un ensemble de nombres triés.
75. Métriques : Critères utilisés pour évaluer les performances d'un modèle d'apprentissage automatique, tels que l'exactitude, la précision, le rappel et le score de F1.
76. Évaluation du modèle : Évaluation des performances d'un modèle d'apprentissage automatique à l'aide de diverses mesures.
77. Multicolinéarité : Présence d'une forte corrélation entre des variables indépendantes dans un modèle de régression.
78. Classification multiétiquette : Attribuer plusieurs étiquettes à une entrée, au lieu d'une seule.
79. Analyse multivariée : Analyser des données comportant plusieurs variables pour comprendre les relations entre elles.
80. Bayes naïf : Algorithme probabiliste basé sur le théorème de Bayes utilisé pour la classification.
81. Normalisation : Mise à l'échelle des variables numériques selon une plage standard.
82. Hypothèse nulle : Hypothèse statistique qui suppose qu'il n'y a pas de différence significative entre les résultats observés et attendus.
83. Encodage en un seul coup: Technique permettant de convertir des variables catégorielles en une matrice binaire pour les modèles d'apprentissage automatique.
84. Variable ordinale : Variable catégorique dont l'ordre est significatif mais dont les intervalles ne sont pas nécessairement égaux.
85. Valeur aberrante : Observation qui s'écarte de manière significative des autres observations d'un ensemble de données.
86. Surajustement : Un modèle qui fonctionne bien sur les données d'entraînement, mais peu sur les nouvelles données invisibles.
87. Pandas : Une bibliothèque de manipulation de données standard pour Python permettant de travailler avec des données structurées.
88. Coefficient de corrélation de Pearson : Mesure de la relation linéaire entre deux variables.
89. Distribution de poissons : Distribution de probabilité discrète qui exprime la probabilité qu'un nombre donné d'événements se produisent dans un intervalle de temps ou d'espace fixe.
90. Précision : Rapport entre les prédictions positives réelles et le nombre total de prédictions positives faites par un modèle de classification.
91. Analyses prédictives : Utiliser des données, des algorithmes statistiques et des techniques d'apprentissage automatique pour identifier la probabilité de résultats futurs.
92. Analyse en composantes principales (PCA) : Technique de réduction de la dimensionnalité qui transforme les données en un nouveau cadre de fonctionnalités, simplifiant les informations tout en préservant leurs modèles fondamentaux.
93. Composant principal : L'axe qui capture la plus grande variance dans un ensemble de données lors de l'analyse en composantes principales.
94. Valeur P : Probabilité d'obtenir un résultat aussi extrême ou plus extrême que le résultat observé lors du test d'hypothèse.
95. Diagramme Q-Q (diagramme quantile-quantile) : Outil graphique permettant d'évaluer si un ensemble de données suit une distribution théorique particulière.
96. Quantile : Point de données ou ensemble de points de données qui divise un ensemble de données en parties égales.
97. Forêt aléatoire : Méthode d'apprentissage d'ensemble qui construit une multitude d'arbres de décision et les fusionne pour des prédictions plus précises et plus stables.
98. Échantillon aléatoire : Échantillon où chaque membre de la population a les mêmes chances d'être sélectionné.
99. Variable aléatoire : Variable dont les valeurs possibles sont le résultat d'un phénomène aléatoire.
100. Rappel : Rapport entre les prédictions réellement positives et le nombre total d'instances positives réelles dans un modèle de classification.
101. Analyse de régression : Méthode statistique utilisée pour modéliser la relation entre une variable dépendante et une ou plusieurs variables indépendantes.
102. Régularisation : Ajout d'un terme de pénalité à la fonction de coût pour éviter le surajustement des modèles d'apprentissage automatique.
103. Rééchantillonnage : Des techniques telles que le bootstrap ou la validation croisée pour évaluer les performances d'un modèle.
104. Courbe ROC (courbe caractéristique de fonctionnement du récepteur) : A représentation graphique du compromis entre le taux de vrais positifs et le taux de faux positifs pour différents seuils dans un modèle de classification.
105. Erreur quadratique moyenne (RMSE) : Mesure de la différence entre les valeurs prévues et réelles.
106. R-carré : Mesure statistique qui représente la proportion de la variance de la variable dépendante expliquée par les variables indépendantes dans un modèle de régression.
107. Biais d'échantillonnage : Un biais dans la sélection des participants ou des points de données qui peut affecter la généralisabilité des résultats.
108. Échantillonnage : Processus de sélection d'un sous-ensemble de points de données à partir d'un ensemble de données plus important.
109. Évolutivité : Capacité d'un système à gérer des volumes croissants de données ou de charge de travail.
110. Fonction sigmoïde : Fonction mathématique utilisée dans les problèmes de classification binaire.
111. Score de silhouette : Métrique utilisée pour calculer l'efficacité d'une technique de clustering.
112. Décomposition en valeurs singulières (SVD) : Technique de factorisation matricielle utilisée pour réduire la dimensionnalité.
113. Corrélation entre les rangs de Spearman : Mesure non paramétrique de la corrélation entre deux variables.
114. Écart type : Mesure de l'ampleur de la variation ou de la dispersion dans un ensemble de valeurs.
115. Stationnarité : Propriété des données de séries chronologiques où les propriétés statistiques restent constantes dans le temps.
116. Échantillonnage stratifié : Méthode d'échantillonnage qui garantit une représentation proportionnelle des sous-groupes au sein d'une population.
117. Apprentissage supervisé : Apprentissage à partir de données étiquetées où l'algorithme est entraîné sur un ensemble de paires d'entrées-sorties.
118. Machine vectorielle de soutien (SVM) : Algorithme d'apprentissage automatique supervisé utilisé pour la classification et l'analyse de régression.
119. Distribution en T: Distribution de probabilité utilisée dans les tests d'hypothèses lorsque la taille de l'échantillon est petite ou que l'écart type de la population est inconnu.
120. Analyse des séries chronologiques : Analyser les données collectées au fil du temps pour identifier des modèles et des tendances.
121. Test t : Test statistique utilisé pour déterminer s'il existe une différence significative entre les moyennes de deux groupes.
122. Test t à deux échantillons : Test statistique utilisé pour comparer les moyennes de deux échantillons indépendants.
123. Sous-ajustement : Un modèle trop simple pour saisir les tendances sous-jacentes des données.
124. Analyse univariée : Analyse de la variation d'une variable unique dans l'ensemble de données.
125. Apprentissage non supervisé: apprentissage à partir de données non étiquetées où l'algorithme identifie lui-même des modèles et des relations.
126. Kit de validation : Sous-ensemble de données utilisé pour évaluer les performances d'un modèle pendant l'entraînement.
127. Écart : Le degré d'étalement ou de dispersion d'un ensemble de valeurs, ainsi que la variabilité des prévisions du modèle.
128. XG Boost : Une bibliothèque open source pour les arbres de décision optimisés par gradient, conçus pour la vitesse et les performances.
129. Apprentissage sans faille : Entraîner un modèle à effectuer une tâche sans exemples explicites.
130. Score Z : Score standardisé qui représente le nombre d'écarts types entre un point de données et la moyenne.