Skip to Tutorial Content

Contenu

Plan

Dans la partie 1, nommée Contexte, vous découvrirez votre mission. Dans la partie 2, appelée Utilisation de Microsoft Excel, vous devrez utiliser le tableur Excel de Microsoft pour créer un visuel. Dans la section 3, Utilisation de R, vous apprendrez à visualiser des données à l'aide du language R.

Instructions

L'exercice est divisé en plusieurs parties offrant différents modes d'interaction. Les interactions vous fournissent des informations supplémentaires, testent vos connaissances ou vous demandent d'écrire vos propres bouts de code. Vous n'êtes pas tenus de résoudre les exercices dans l'ordre donné, mais comme ils se complètent, il est recommandé de les faire dans l'ordre. Vous trouverez ci-dessous les différents types d'interactions avec leur fonction correspondante :

  • Les boîtes d'information fournissent des informations supplémentaires sur les termes techniques ou des explications sur les fonctions R.

  • Les boites de code vous obligent à interagir avec les morceaux de code et sont marqués comme Tâche. Le processus de résolution des boites de code est assez intuitif :

  • startover : Nettoie votre boite de code pour ne garder que le code préétabli.
  • solution : Affiche la solution de la tâche.
  • run code : Exécute le code sans vérifier son exactitude.
  • submit answer : Semblable à run code, vous exécutez le chunk mais cette fois, l'exactitude de votre réponse est vérifiée.

Contexte

En ces temps incertains, vous êtes engagé par l' Organisation mondiale de la santé (OMS) afin de récolter des informations à propos de la Covid-19. En tant qu'analyste, vous décidez de vous pencher sur les données bibliographiques puisque des centaines d'articles ont été écrits à ce sujet depuis le début de la pandémie.

Utilisation de Microsoft Excel

Après avoir calculé le nombre d'articles publiés pour chaque année, vous souhaitez créer un graphique pour mieux visualiser l'évolution du nombre d'articles à travers le temps.

Tâche : À l'aide de Microsoft Excel, produisez en 5 minutes un graphique en ligne du nombre d'articles publiés chaque année.

Utilisation du language R

Après plusieurs tentatives pour effectuer un visuel sur l'évolution du nombre d'articles avec Microsoft Excel, vous voulez utiliser R pour le faire.

Tâche 1 : Téléchargeons à nouveau les données dans une variable appelée mydata en effectuant la ligne de code ci-dessous. Vous pouvez finalement afficher le résultat en écrivant simplement mydata dans la boîte de code et le rouler.

mydata <- 
mydata <- EpiBib_data

Note: Si vous avez affiché le résultat en tapant mydata dans la boîte de code, un tableau apparaît donc, et vous pouvez cliquer sur le triangle en haut à droite du tableau de résultats afin de naviguer à travers les colonnes du tableau.

Tâche 2 : Ensuite, vous devez mettre la variable PY qui contient les années en format numeric à l'aide de la fonction as.numeric().

mydata <-
mydata$___ <- as.numeric(mydata$___)
mydata <- EpiBib_data
mydata$PY <- as.numeric(mydata$PY)

Note: Vous pouvez vérifier si la colonne est bien en format numeric en tapant cette ligne de code is.numeric(mydata$PY) dans la boite de code. Si la réponse qui s'affiche est [1] FALSE alors la colonne n'est pas en format numeric. À l'inverse, si la réponse est [1] TRUE alors la colonne est bien au format numeric. ATTENTION: Faites donc bien la différence entre as.numeric() qui applique le format numeric tandis que is.numeric qui permet de questionner si le format de la colonne est bien en numeric.

Tâche 3 : Finalement, complétez le code du graphique avec pour abscisse (x=) la variable PY qui contient les années maintenant en format numeric. L'argument data= prend pour donnée la variable mydata contenant notre tableau de données.

mydata <-
mydata$___ <- as.numeric(mydata$___)

ggplot(data = ___, aes(x = ___)) +
  geom_line(aes(fill=..count..), stat="bin", bins = 30, size = 0.8, color = "olivedrab") + 
  geom_point(aes(fill=..count..), stat="bin", bins = 30, size = 2.5, color = "olivedrab") + 
  xlab("Years") + ylab("Number of articles") + 
  theme_minimal() + 
  theme(legend.position = "none")
mydata <- EpiBib_data
mydata$PY <- as.numeric(mydata$PY)

ggplot(data = mydata, aes(x = PY)) +
  geom_line(aes(fill=..count..), stat="bin", bins = 30, size = 0.8, color = "olivedrab") + 
  geom_point(aes(fill=..count..), stat="bin", bins = 30, size = 2.5, color = "olivedrab") + 
  xlab("Années") + ylab("Nombre d'articles") + 
  theme_minimal() + 
  theme(legend.position = "none")

Note : Explication des éléments du code.

  • geom_line() : trace la ligne
  • geom_point() : construit les points sur la ligne
  • fill=..count.. : effectue le compte des articles par année (PY)
  • xlab & ylab : renomme les axes x et y
  • theme_minimal() : définit un thème
  • legend.position : enlève la légende

Acknowledgments

To cite this course:

Warin, Thierry. 2020. “Nüance-R: R Courses.” doi:10.6084/m9.figshare.11744013.v2.

Visualisation des données