Analyse exploratoire des données

Contenu

Plan

Dans la partie 1, nommée Contexte, vous découvrirez le contexte de l'exercice. Dans la partie 2, appelée Utilisation de Microsoft Excel, vous utiliserez le tableur Excel de Microsoft pour lire un fichier csv et effectuer un compte par année. Dans la section 3, Utilisation de R, vous apprendrez à utiliser un package de données et à également effectuer un compte par année cette fois-ci à l'aide du language R.

Instructions

L'exercice est divisé en plusieurs parties offrant différents modes d'interaction. Les interactions vous fournissent des informations supplémentaires, testent vos connaissances ou vous demandent d'écrire vos propres bouts de code. Vous n'êtes pas tenus de résoudre les exercices dans l'ordre donné, mais comme ils se complètent, il est recommandé de les faire dans l'ordre. Vous trouverez ci-dessous les différents types d'interactions avec leur fonction correspondante :

Les boîtes d'information fournissent des informations supplémentaires.
Les boites de code vous obligent à interagir avec les morceaux de code et sont marqués comme Tâche. Le processus de résolution des boites de code est assez intuitif :
startover : Nettoie votre boite de code pour ne garder que le code préétabli.
solution : Affiche la solution de la tâche.
run code : Exécute le code sans vérifier son exactitude.
submit answer : Semblable à run code, vous exécutez le chunk mais cette fois, l'exactitude de votre réponse est vérifiée.

Contexte

En ces temps incertains, vous êtes engagé par l'Organisation mondiale de la santé (OMS) afin de récolter des informations à propos de la Covid-19. En tant qu'analyste, vous décidez de vous pencher sur les données bibliographiques puisque des centaines d'articles ont été écrits à ce sujet depuis le début de la pandémie.

Utilisation de Microsoft Excel

Pour accomplir votre mission, vous tentez en premier lieu d'utiliser le logiciel Microsoft Excel pour analyser les données bibliographiques au sujet de la Covid-19.

Pour vous aider dans votre recherche, un fichier csv a été mis disponible contenant les données bibliographiques nécessaires pour votre analyse.

Tâche 1 : Téléchargez le fichier EpiBib.csv grâce à l'adresse suivante : https://warin.ca/datalake/epiBib/EpiBib.csv.

Tâche 2 : Ouvrez le fichier csv dans Microsoft Excel.

Essayez d'effectuer cette tâche tout d'abord par vous mêe, sans consulter la boite d'info "Comment ouvrir un csv". Si après plusieurs tentatives vous n'y parvenez pas, alors consultez la.

Info : Comment ouvrir un csv [Cliquez ici]

Ouvrez Excel, créez un nouveau document et accédez à l'onglet Données.
Cliquez sur «Fichier texte».
Choisissez le fichier EpiBib.csv.
Une fenêtre va s'ouvrir, choisissez le type «Délimité» et cliquez sur suivant.
Cochez l'option «Virgule», cliquez sur suivant puis fin.

Tâche 3 : Découvrez le fichier csv, baladez-vous au travers des données.

Info : Description des variables [Cliquez ici]

Colonne	Descriptions	Colonne	Descriptions
AU	Auteurs	ISSN	Code source
TI	Titre du document	VOL	Volume
AB	Abstrait	ISSUE	Issue Number
PY	Année	LT	Langue
DT	Type de document	C1	Adresse de l'auteur
MESH	Vocabulaire des rubriques médicales	RP	Réimpression de l'adresse
TC	Nombre de fois cités	ID	PubMed ID
SO	Nom de la publication (ou source)	DE	Mots-clés des auteurs
J9	Abréviation de la source	UT	Identificateur unique d'article
JI	ISO Abréviation de la source	AU_CO	Pays d'origine de l'auteur
DI	Digital Object Identifier (DOI)	DB	Base de données bibliographiques

Tâche 4 : À l'aide de Microsoft Excel, trouvez en 5 minutes le nombre d'articles publiés chaque année.

Utilisation du language R

Après plusieurs tentatives pour accomplir votre mission sur Microsoft Excel, vous entendez parler du language de programmation R qui permet une analyse plus rapide et efficace des données.

À cet effet, vous décidez de vous informer à ce sujet. Après quelques recherches vous découvrez que les données ont été mises disponibles via un package de données appelé EpiBibR et publiées ici:

Warin T, “Global Research on Coronaviruses: An R Package J Med Internet Res 2020;22(8):e19615, DOI: 10.2196/19615, PMID: 32730218, PMCID: 7423387

Dans le cadre de l'exercice, nous allons utiliser un échantillon de ces données.

Info : EpiBibR [Cliquez ici]

EpiBibR qui signifie "bibliographie basée sur l'épidémiologie pour R" (en anglais, "epidemiology-based bibliography for R") est un package de données en R. Pour collecter les références, la procédure utilisée par l'Institut Allen pour l'IA pour leur projet CORD-19 a été adoptée. Une requête similaire a été appliquée sur PubMed pour construire les données bibliographiques : "COVID-19" OU "Coronavirus" OU "Corona virus" OU "2019-nCoV" OU "SARS-CoV" OU "MERS-CoV" OU "Severe Acute Respiratory Syndrome" OU "Middle East Respiratory Syndrome".

Tâche 1 : Vous allez devoir stocker dans une variable appelée mydata l'échantillon de données portant le nom EpiBib_data.

mydata <-

mydata <- EpiBib_data

Tâche 2 : À présent que le fichier de données est chargé, vous voulez afficher le tableau de données pour pouvoir observer sa structure. Utilisez la fonction head() pour afficher les 6 premières lignes (n=). Sans le second argument (n=), vous observerez par défaut les 5 premières lignes.

mydata <-
head(mydata, n=___)

mydata <- EpiBib_data
head(mydata, n=6)

Note: Vous pouvez cliquer sur le triangle en haut à droite du tableau de résultats afin de naviguer à travers les colonnes du tableau.

Tâche 3 : Vous voulez maintenant trouver le nombre d'articles publiés par année. Pour cela, il faut compter le nombre d'articles pour chaque année (colonne PY) à l'aide de la fonction count() du package dplyr.

mydata <-
head(mydata, n=___)
dplyr::count(mydata, ___)

mydata <- EpiBib_data
head(mydata, n=6)
dplyr::count(mydata, PY)

Note: Vous pouvez cliquer sur le triangle en haut à droite du tableau de résultats afin de naviguer à travers les colonnes du tableau.

Vous obtenez le nombre d'articles publiés pour toutes les années disponibles dans le tableau de données.

Acknowledgments

To cite this course:

Warin, Thierry. 2020. “Nüance-R: R Courses.” doi:10.6084/m9.figshare.11744013.v2.