data.table: a must have!


Date
2017-05-26 17:00 — 17:30
Location
Université Laval, Desjardins Building, Hydro-Québec Room
2325 Rue de l'Université, Québec, QC G1V 0A6

Please note that this talk was given in French.

La classe prédestinée à stocker des données structurées en est le data.frame. Conformément à chaque classe développée dans le coeur de , on ne peut accéder à un objet de classe data.frame directement en référence. On doit créer une copie de l’objet à chaque fois où on veut en modifier une partie et ensuite le réassigner.

Introduite en 2006 par Matt Dowle, la classe data.table, provenant du package du même nom, est une extension du data.frame permettant de contourner cette obligation. En effet, un objet de classe data.table permet une modification de lui-même en référence, ce qui devient nécessaire lorsque le jeu de données utilisé s’approche de l’espace disponible en mémoire sur un poste de travail. De plus, un concept de clés, permettant d’effectuer une recherche par arbres binomiaux, a été introduit afin de rendre la jointure d’objets de classe data.table beaucoup plus efficace que la méthode utilisée d’emblée pour une jointure de deux objets équivalents de classe data.frame.

Ma présentation vise à faire une introduction de la classe data.table à des utilisateurs qui ne l’ont jamais utilisée. Les concepts de base seront illustrés à l’aide d’exemples simples.

J.P. Le Cavalier
J.P. Le Cavalier
Data Scientist / Actuary

I consider myself as a hybrid between an actuary and a data scientist. I like to make things the right way.

Related