sur le codage
EpiBibR Github. EpiBibR signifie “bibliographie basée sur l’épidémiologie pour R”. Il s’agit du deuxième plus grand ensemble de données sur la recherche mondiale sur les coronavirus et du plus grand en R. Le paquet R est sous la licence MIT et en tant que tel est une ressource gratuite basée sur les principes de la science ouverte (recherche reproductible, données ouvertes, code ouvert). La ressource peut être utilisée par des chercheurs, dont le domaine est la scientométrie, mais aussi par des chercheurs d’autres disciplines. Par exemple, la communauté scientifique de l’intelligence artificielle et de la science des données peut utiliser ce paquet pour accélérer les nouvelles perspectives de recherche sur covid-19. Le paquet suit la méthodologie mise en place par l’Allen Institute et ses partenaires pour créer le jeu de données CORD-19, à quelques différences près. Ce dernier est accessible par téléchargement de sous-ensembles ou par une API REST. Les données fournissent des informations importantes telles que les auteurs, les méthodes, les données et les citations afin de permettre aux chercheurs de trouver plus facilement des contributions pertinentes à leurs questions de recherche. Notre paquet propose 22 fonctionnalités pour les 139 724 références (au 16 avril 2021) et l’accès aux données a été rendu aussi facile que possible afin de s’intégrer efficacement dans le pipeline de presque tous les chercheurs (Warin T, “Global Research on Coronaviruses : An R Package”, J Med Internet Res 2020;22(8):e19615, DOI : 10.2196/19615, PMID : 32730218, PMCID : 7423387).
oxfoR Github. oxforR est basé sur le Oxford COVID-19 Government Response Tracker (OxCGRT) et permet de récupérer leurs dernières données dans un format R. Le tracker montre les réponses des gouvernements à COVID-19 à travers 17 indicateurs pour tous les pays.
statcanR CRAN Github. Connectez-vous facilement au Service de données Web de Statistique Canada avec R. Les données économiques ouvertes (anciennement connues sous le nom de tableaux CANSIM, maintenant identifiés par des identifiants de produit (PID)) sont accessibles sous forme de cadre de données, directement dans l’environnement R de l’utilisateur.
iriR CRAN Github. Le tableau de bord de l’IRI vise à fournir des données et des analyses solides sur la contribution de la R&D du secteur privé à la compétitivité durable et à la “prospérité”. Avec iriR, nous voulons rendre les données du tableau de bord de l’IRI facilement accessibles. Nous avons également compilé les tableaux de bord annuels dans le temps pour créer un ensemble de données transversales de séries chronologiques. Les chercheurs et les analystes ont accès à plus de 7 500 entreprises innovantes dans le monde, qui font ou ont fait partie du top 1 000 des entreprises innovantes.
spiR CRAN Github. En 2015, les 17 objectifs de développement durable des Nations unies ont été adoptés. ‘spiR’ est un wrapper de plusieurs jeux de données ouverts publiés par le Social Progress Imperative (https://www.socialprogress.org/), notamment l’indice de progrès social (une mesure synthétique du développement humain à travers le monde). L’objectif de ‘spiR’ est de fournir des données pour aider les décideurs politiques et les chercheurs à prioriser les actions qui accélèrent le progrès social à travers le monde dans le contexte des Objectifs de Développement Durable. L’indice de progrès social propose une nouvelle perspective sur les défis sociaux et les efforts nécessaires pour accélérer le progrès social conformément aux objectifs de développement durable. Dans ce contexte, l’objectif de ‘spiR’ est de permettre une connexion facile avec R à l’Indice de Progrès Social afin de bénéficier de la “puissance des foules”. spiR’ est une application R permettant d’accéder facilement aux données de l’indice de progrès social.
gvcR Github. Le paquet R gvcR fournit des données sur les risques de perturbation ou de restriction du passage aux principaux points d’étranglement dans le monde. Lorsque cela est possible, une liste d’exemples de perturbations et de retards de transit survenus à ces endroits depuis 2002 est donnée. Un maximum de trois incidents est noté pour chaque catégorie de risque. Les risques liés aux goulets d’étranglement sont classés en trois catégories : risques météorologiques et climatiques, risques liés à la sécurité et aux conflits, et risques politiques et institutionnels. Ces catégories sont ensuite divisées en sous-catégories, telles que “brume et brouillard”, “contrôles du commerce et du transit”, etc. Chaque risque possède également un code défini comme suit : première lettre de la catégorie, tiret, première lettre du risque. Si la lettre du risque existe déjà, elle sera accompagnée d’une barre oblique, puis de la première lettre du deuxième mot du risque.
corridoR Github. corridoR est un wrapper R permettant d’accéder facilement à la base de données du projet Northern Corridor. Le projet a été développé afin d’analyser l’impact potentiel du Corridor Nord sur l’économie canadienne et le trafic maritime mondial. Pour ce faire, nous avons pris plus de 20 000 voyages de navires passant par le canal de Panama et calculé leurs distances maritimes. Pour analyser l’applicabilité et la rentabilité du passage du Nord-Ouest canadien, nous avons pris les mêmes 20 000 trajets et les avons fait passer hypothétiquement par l’Arctique canadien. Nous avons ensuite comparé les distances pour voir quels trajets étaient plus courts par le Corridor Nord. Les distances sont exprimées en milles nautiques.
shapeR Github. shapeR vise à simplifier la cartographie SIG en donnant accès, par le biais de fonctions R simples, à des fichiers de forme provenant de différentes sources.
inclus une plateforme de codage interactive :
Économie industrielle avec R
Quantitative methods in International Business with R
Machine Learning for International Business with R
Foundations in quantitative analysis for International Business with R
nuance-R
Plateforme R Shiny basée sur Docker pour le développement d’applications web
drhector: une plateforme dédiée à la science des données que j’ai conçue pour mes étudiants du cours d’analyse industrielle.
quantum simulations
Sports Analytics [Murphy-P3] (2017-2019): Passionné de cyclisme sur route, j’ai conçu une plateforme d’analyse sportive que j’ai utilisée dans le cadre d’une équipe cycliste professionnelle pour prédire les courses lors de trois Tours de France. Cette expérience a été stoppée par la pandémie. En passant, cela m’a permis de monter quelques cols (Izoard, Galibier, Tourmalet, Venoux, Alpe d’Huez, etc.).
Avec le développement de différents paquets de données, j’ai développé plusieurs tutoriels pour questionner ces paquets et d’autres APIs. Visitez les Tutoriels API.
Pour promouvoir l’apprentissage de la science des données, j’ai développé des quiz interactifs en ligne sur la science des données qui permettent une auto-évaluation.
Quelques exemples ici :