Caroline Patenaude
Bibliothécaire - Bibliothèque des lettres et sciences humaines

Script Colab | Script R


Télécharger et charger les packages utilisés


Gestion de packages

## R version 4.0.3 (2020-10-10)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 10 x64 (build 17763)
## 
## Matrix products: default
## 
## locale:
## [1] LC_COLLATE=French_Canada.1252  LC_CTYPE=French_Canada.1252   
## [3] LC_MONETARY=French_Canada.1252 LC_NUMERIC=C                  
## [5] LC_TIME=French_Canada.1252    
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## loaded via a namespace (and not attached):
##  [1] bookdown_0.22   digest_0.6.27   jsonlite_1.7.1  magrittr_2.0.1 
##  [5] evaluate_0.14   highr_0.8       rlang_0.4.9     stringi_1.5.3  
##  [9] rstudioapi_0.11 rmarkdown_2.8   distill_0.8     tools_4.0.3    
## [13] stringr_1.4.0   xfun_0.23       yaml_2.2.1      compiler_4.0.3 
## [17] htmltools_0.5.0 knitr_1.33


1. Les objets

## [1] 4


  • Mais l’intérêt du langage est que l’on stocke les valeurs, résultats, les tableaux, fonctions, … dans des objets qui pourront être réutilisés dans d’autres objets, fonctions, analyses.


## [1] 15.66667
## [1] 15.66667



Les noms d’objets:

  • Peuvent contenir des chiffres, lettres et caractères _ et .
  • Doivent commencer par une lettre, pas un chiffre.
  • Ne pas utiliser d’accents ni d’espace.
  • En principe il faut utiliser des noms significatifs, en pratique on utilise souvent des noms minimalistes pour faciliter la réutilisation.
  • Certains noms courts sont réservés (max, min, c, q, t, …).



Un objet est donc une boite dans laquelle on peut placer un chiffre, un mot, un jeu de données d’un million de répondants, une fonction, un graphique…


2. Les opérateurs

  • Opérateurs d’assignation: <-, = , ->
  • Opérateurs de sélection: [], [[]], $, :
  • Opérateurs booléen: !, &, |
  • Opérateurs arithmétiques: +, -, *, /, ^
  • Opérateurs de comparaison: ==, !=, <, >, <=, >=


3. Les fonctions

  • Permettent d’effectuer des tâches prédéfinies comme des analyses, graphiques, calculs, …
  • Chaque fonction a un nom et plusieurs fonctions peuvent permettre d’effectuer la même tâche: Par exemple pour faire une correlation, on retrouve les fonctions cor(), cor.test(), …
  • On appel une fonction en la nommant et on contrôle son comportement en paramétrant ses arguments
  • On peut imbriquer les fonctions les unes dans les autres avec des parenthèses.



## [1] 12 15 20 35 40
## [1] 24.4
## [1] 24


4. Les arguments

  • Chaque fonction possède une liste plus ou moins longue d’arguments (paramètres ou options) permettant de paramétrer son fonctionnement.
  • Certains arguments ont une valeur par défaut. Si ces valeurs nous conviennent, pas besoin de les indiquer.
  • Si l’argument n’a pas de valeur par défaut, FAUT le renseigner.
  • Pour modifier la valeur d’un argument, on le nomme et change sa valeur à la suite d’un =.
  • La liste d’arguments respecte un ordre. Si on modifie chaque argument dans l’ordre, on peut omettre le nom des arguments. Les arguments peuvent donc être nommés ou non (mais pour assurer la reproductibilité, il est recommandé de les nommer).
  • Le premier argument, toujours les données (on ne le nomme généralement pas x=)
  • Comment savoir quels sont les arguments d’une fonction? Taper Help(NomFonction) ou ?NomFonction .
## [1] NA
## [1] 47


5. Les types d’objets

  • Les objets sont caractérisés par différentes structures.
  • On retrouve 5 différents types de contenants ayant chacun leurs propriétés.


R Data Structures

  1. Vecteur
  2. Liste
  3. Matrice
  4. Arrays (3d)
  5. Dataframe (tableaux)


5.1. Vecteurs

  • La brique élémentaire = série de valeurs.
  • En pratique, c’est une variable (mais qui n’est pas dans un tableau) et ses éléments sont ses valeurs.
  • Objet contenant des valeurs (éléments/composantes) d’un seul mode: numérique, textuel, logique
  • On retrouve aussi des types dérivés comme les dates, les facteurs, les vecteurs labellisés qui ont des attributs particuliers.
## [1] "numeric"
## [1] 33.29370 25.39062 20.76125
## [1] 25.39062
## [1]  6.811842 -1.091231 -5.720611


5.2. Facteurs

  • Vecteur avec des attributs spécifiques, dont la structure correspond aux variables qualitatives.
  • Les modalités de la variable correspondent à des “niveaux” (levels) uniques et fixes, ie impossible d’assigner une valeur qui n’a pas été préalablement définie comme une des modalités.
  • Des étiquettes (labels) peuvent être associées aux niveaux.
  • Lors de l’importation de données, tout dépendant de la fonction d’importation, les variables qualitatives seront importées sous forme de vecteur textuel ou de facteur.
##  Factor w/ 2 levels "Homme","Femme": 2 2 1 2


5.3. Dataframes

  • Tableau de données pouvant regrouper des vecteurs de différents types (variables numériques et/ou textuelles).
  • Structurellement, le dataframe est une liste composées de vecteurs nommés (noms de variables uniques) de même longueur (nombre d’observations) mais qui peuvent être de modes différents (variables numériques, textuelles).
  • C’est donc un tableau avec des colonnes - ncol() et des lignes - nrow(), donc 2 dimensions - dim().
  • Crée un jeu de données avec la fonction data.frame(), mais on le crée rarement manuellement, généralement importé en format .txt, .csv, …
##    age sexe poids
## 1   45    H   150
## 2   65    F   125
## 3   22    F   210
## 4   38    H   175
## 5   54    H   110
## 6   31    F   180
## 7   29    F   130
## 8   44    H   155
## 9   56    F   190
## 10  67    H   120


5.4. Conclusion: Types d’objets et fonctions utiles

  • Les objets dans R sont caractérisés par différentes propriétés : ils possèdent au minimum un mode(), le type de base de ses composantes, et une longueur – length() - le nombre de composantes.

  • La fonction typeof() est très similaire au mode; elle offre une description un peu plus précise du format de stockage interne d’un objet.

  • Les objets ont aussi une classe() : c’est une propriété un peu plus complexe (issue du langage S) assignée à un objet pour définir l’information contenue ET déterminer la façon dont l’objet sera traité par certaines fonctions dites génériques, ie dont le résultat dépend dy type d’objet fourni (comme print(), summary(), plot()).

  • Bref, le mode, le type et la classe sont souvent pareils, mais pas toujours! La fonction str() peut aussi être utile pour plus de détails sur un objet et ses éléments.

  • Les objets, en plus de leurs composantes, peuvent aussi posséder des attributs - attributes() – métadonnées contenant des informations additionnelles sur l’objet comme des noms - names() (étiquettes des éléments) - et des dimensions - dim() (colonnes/lignes dans tableaux).

  • À noter:

    • Il est possible de convertir le type (mode) d’un objet avec: as.character(), as.list(), as.numeric(), as.factor().
    • Pour vérifier le format, remplacer as. par is : is.character(), is.list(), is.numeric(), is.factor(),



