La classe prédestinée à stocker des données structurées en est le data.frame
. Conformément à chaque classe développée dans
le coeur de , on ne peut accéder à un objet de classe data.frame
directement en référence. On doit créer une copie de l’objet
à chaque fois où on veut en modifier une partie et ensuite le réassigner.
Introduite en 2006 par Matt Dowle, la classe data.table
, provenant du package du même nom, est une extension du data.frame
permettant de contourner cette
obligation. En effet, un objet de classe data.table
permet une modification de lui-même en référence, ce qui devient nécessaire lorsque le jeu de données
utilisé s’approche de l’espace disponible en mémoire sur un poste de travail. De plus, un concept de clés, permettant d’effectuer une recherche par arbres
binomiaux, a été introduit afin de rendre la jointure d’objets de classe data.table
beaucoup plus efficace que la méthode utilisée d’emblée pour une jointure
de deux objets équivalents de classe data.frame
.
Ma présentation vise à faire une introduction de la classe data.table
à des utilisateurs qui ne l’ont jamais utilisée. Les concepts de base seront illustrés
à l’aide d’exemples simples.