Skip to content

Processing

Encodage efficace des variables catégorielles pour du ML

Les variables catégorielles, on les croise partout dans nos datasets, mais les algorithmes de machine learning, eux, préfèrent les chiffres. Dans ce billet, nous allons explorer plusieurs techniques d'encodage pour transformer ces variables, le tout agrémenté d'explications claires, de formulations mathématiques, et quelques exemples pratiques. Nous aborderons aussi les avantages et les limites de chaque technique, que ce soit les "Classic Encoders", le "Contrast Encoder", ou les "Bayesian Encoders".

Faites du Dask plutôt que du Spark si vous avez juste de grosses tables de données

Dans le monde actuel des données, traiter de grands volumes nécessite des solutions performantes et évolutives. Le calcul distribué permet de gérer efficacement ces données en les répartissant sur plusieurs machines/cores/workers (selon votre cas). Cependant, toutes les entreprises n'ont pas besoin d'une infrastructure lourde et coûteuse telle qu'un cluster Spark. Dask, un framework Python, est une alternative légère et flexible, particulièrement adaptée aux environnements déjà basés sur Python.

Apache Arrow pour l'optimisation du traitement des données

La gestion des données en mémoire ressemble parfois à un tatonnement. Les data engineers, scientists et analysts se retrouvent souvent à jongler entre différents formats de données, calculs intensifs et besoins de performance. Jusqu’à récemment, nous étions limités par des outils et formats conçus pour des volumes et des vitesses bien inférieurs à ceux d’aujourd'hui. C’est là qu’Apache Arrow entre en scène, tel un champion prêt à transformer ce marathon en un sprint maîtrisé. Dans ce billet de blog, on ne va parler que de données. Comment python gère les dataframes en backend?