Science des données et affaires internationales

BBA

Thierry Warin https://warin.ca/ (HEC Montréal and CIRANO (Canada))https://www.hec.ca/en/profs/thierry.warin.html
01-01-2021

Description

Ce cours s’inscrit dans la spécialisation en affaires internationales. Comme de nombreuses disciplines académiques, le domaine des affaires internationales bénéficie du développement de la science des données afin de formuler de nouvelles approches quantitatives aux grands thèmes des affaires internationales. La science des données couvre trois dimensions: (1) une dimension statistique (2) une dimension algorithmique et (3) une dimension reliée au domaine d’application, ici les affaires internationales.

Tout en utilisant des applications issues du domaine des affaires internationales, ce cours est avant tout un cours de méthodologie. L’objectif de ce cours est de proposer une introduction aux différentes méthodes utilisées en science des données en utilisant des exemples d’application intéressants pour les affaires internationales. Par exemple, comment utiliser la science des données pour avoir un nouveau regard sur l’innovation mondiale? L’utilisation d’API et de paquets de données sur l’innovation des entreprises multinationales et sur les brevets dans le monde permettra de répondre à cette question. Comment utiliser la science des données pour analyser l’industrie financière mondiale? Comment la science des données peut-elle être utile pour analyser le contexte international des entreprises? Comment la science des données peut-elle être utile pour analyser les risques mondiaux, par exemple la pandémie de la COVID-19? Tout au long de ce cours, les étudiant.e.s apprendront et utiliseront le langage R. Ce langage sera complété par l’utilisation de suites logicielles comme Tableau, notamment au début du cours pour la gestion des données. Des paquets d’algorithmes issus de la recherche reproductible seront également utilisés en R, notamment TensorFlow. Les apprentissages du langage R et des différents outils seront soutenus et renforcés grâce à l’accès à des ressources complémentaires (données, cours, IPA, paquets, etc.) mises à leur disposition sur le site Internet du cours.

Au final, les étudiants seront exposés à de nouvelles méthodes permises par les progrès récents des modèles d’analyse en intelligence artificielle, la facilité d’accès aux données du domaine des affaires internationales et l’accès à la puissance de calcul nécessaire.

Thèmes abordés

Prérequis conseillés

Objectifs éducatifs

À la fin du cours, l’étudiant.e sera en mesure de :

Évaluations

Éléments de l’évaluation

À partir de la séance 2 et jusqu’à la séance 11, une fiche d’exercices est à rendre chaque semaine. L’objectif de ces exercices est de renforcer l’appropriation des concepts et méthodes.

Le travail de session est réalisé en équipe de 3 étudiants et porte sur l’étude d’un sujet relié aux affaires internationales en s’appuyant sur les méthodes apprises dans ce cours. Les étudiant.e.s joueront le rôle d’analystes de données et valoriseront les outils et méthodes étudiés en cours pour analyser le sujet choisi. Une liste de sujets sera proposée lors de la séance 1, par exemple sur le commerce international, la finance internationale, l’internationalisation des entreprises multinationales, l’analyse des risques internationaux, etc.

L’examen final porte sur l’ensemble de la matière du cours. Il se déroule sur ordinateur. Les documents sont admissibles.

Calendrier

Pendant cette période, les étudiants travailleront sur notre plateforme de communication ainsi que sur notre plateforme analytique (optionel).

Séance 1 Séance 2 Séance 3 Séance 4 Séance 5 Séance 6
Séance 7 Séance 8 Séance 9 Séance 10 Séance 11 Séance 12

Programme

Séance 1. La Science des données au BAA : Introduction à R Cliquez ici

La première séance consiste d’abord en une présentation du plan de cours. Lors de cette présentation, le plan de cours sera contextualisé par une discussion sur l’approche en termes de programmation par rapport à l’approche logicielle et sur l’importance de l’exposition à la science des données. La révolution des données pour le monde des affaires sera illustrée ainsi que l’historique et les développements récents de la science des données. Présentation des outils de développement utilisés pendant le cours (Tableau, R, RStudio, une plateforme de messagerie instantanée, une plateforme personnalisée de vidéoconférence pour les travaux en équipe, etc.). Présentation du domaine des affaires internationales.

Séance 2. Analyse exploratoire des données I : gestion et manipulation des données Cliquez ici

Présentation du langage Markdown. Création d’un rapport dynamique. Présentation de la syntaxe du langage R. Utilisation de paquets R pour la gestion des données. Présentation de CRAN et OPENCSI pour l’accès aux paquets. Présentation des principes de la science ouverte et de la recherche reproductible.

Séance 3. Analyse exploratoire des données II : interfaces de programmation (IPA) et statistiques descriptives, une application à l’analyse de risque pandémique Cliquez ici

Utilisation des interfaces de programmation applicative (IPA) pour la construction de pipelines de données. Explications sur l’obtention de statistiques descriptives en R. Introduction à l’utilisation d’interfaces de programmation applicative et introduction à la richesse des données non structurées pour informer les modèles empiriques en affaires internationales. Nous allons notamment utiliser le package EpiBibR et l’interface de programmation automatique du New York Times pour étudier l’apport des sciences des données dans l’analyse des risques internationaux, notamment le risque pandémique et les réponses politiques, culturelles et économiques internationales.

Séance 4. Stratégie d’internationalisation des entreprises I : transformation des données et visualisations Cliquez ici

Pendant cette séance, nous commençons par examiner des exemples de science des données et le cadre de la science des données. Nous utiliserons une étude de cas qui nous permettra d’analyser la stratégie d’utilisation de données d’une compagnie québécoise. Nous regarderons notamment la question de la stratégie d’internationalisation de cette entreprise. Ensuite, nous discuterons de la récolte de données à partir de sites Internet en R, des types de données et des formats de données avec Tableau Prep, et de l’analyse exploratoire des données (EDA) et de la visualisation avec Tableau. Fusion de données dans Tableau. Nettoyage des données dans Tableau. Présentation de ggplot2 pour la visualisation des données. Les exemples de données utilisées sont des fichiers de données issues d’articles de recherche en affaires internationales.

Séance 5. Stratégies d’internationalisation des entreprises II : introduction aux principes de l’apprentissage supervisé Cliquez ici

Pendant cette séance, nous abordons les concepts fondamentaux de l’apprentissage supervisé. Nous expliquerons les différences avec les approches non supervisées. Nous expliciterons les étapes d’un modèle d’apprentissage automatique et leurs raisons statistiques. Nous appliquerons ces apprentissages en nous fondant sur une étude de cas portant sur une entreprise viticole désirant mieux connaître ses clients. Nous nous poserons la question du déploiement international de cette entreprise et des données nécessaires à la formalisation d’une stratégie d’internationalisation.

Séance 6. Stratégies d’internationalisation des entreprises III : Régression linéaire, régression logistique et régularisation Cliquez ici

Pendant la séance, nous utiliserons une étude de cas portant sur une compagnie des États-Unis qui cherche à mettre en place une stratégie de données pour mieux appréhender les caractéristiques de ses clients. Nous nous poserons les questions de la qualité prédictive des modèles ainsi que de leur utilité pour le déploiement d’une stratégie internationale.

Séance 7. Commerce international et nouvelles données : introduction aux principes de l’apprentissage non supervisé Cliquez ici

Le domaine du commerce international a beaucoup évolué avec la montée en importance d’analyses à des niveaux de granularité plus fine que les approches macroéconomiques traditionnelles. Dans ce contexte, de nouvelles données sont nécessaires pour informer les nouvelles théories proposées. Pendant cette séance, nous abordons les concepts fondamentaux de l’apprentissage non supervisé. Nous allons notamment nous intéresser à l’utilité de ces approches pour les données de commerce international. Dans ce contexte, nous allons choisir une application particulière : répondre à la question de la régionalisation versus mondialisation créée par les accords commerciaux bilatéraux en complément de l’Organisation mondiale du commerce. Pourquoi cette question ? Sans les outils de la science des données, la réponse à cette question serait en effet limitée en termes de méthodologie. Pendant la séance, nous étudierons le projet des Nations Unies sur le commerce et le développement internationaux se fondant sur des méthodes de science des données.

Séance 8. Finance internationale et nouvelles données : introduction aux principes des arbres de décision et machines à vecteurs de support Cliquez ici

Cette séance couvre les approches de classification de base, telles que les arbres de décision et les machines à vecteurs de support (MVS), et les défis qui découlent de l’utilisation de ces méthodes très flexibles.

Séance 9. Fintech, industrie financière et nouvelles technologies : utilisation des méthodes de forêt aléatoire et renforcement du gradient Cliquez ici

L’industrie financière est une des premières industries à avoir commencé sa transformation numérique. L’importance de gérer les données internes, mais aussi de les contextualiser avec des données externes tout en réfléchissant à de nouvelles sources de données a accéléré cette transformation. Pendant cette séance, nous abordons les modèles d’ensemble, une technique puissante qui permet de combiner de nombreux modèles pour créer des classificateurs améliorés. Nous utiliserons une étude de cas se fondant sur une entreprise financière des États-Unis dont l’objectif est de construire des modèles prédictifs afin d’améliorer l’efficacité dans la prise de décision. Il sera aussi question de commencer à aborder les questions éthiques et les biais statistiques de la collecte des données ainsi que des méthodes algorithmiques elles-mêmes.

Séance 10. Contexte international des entreprises multinationales et données non structurées : introduction au traitement du langage naturel et analyse du sentiment Cliquez ici

Séance 11. Éthique dans un contexte international : introduction des principes des réseaux de neurones Cliquez ici

Cette séance traite des bases de l’apprentissage profond, de l’apprentissage des fonctionnalités, des réseaux de feed-forward, des réseaux neuronaux de formation, des réseaux neuronaux convolutifs (CNN) et des réseaux neuronaux récurrents (RNN). Ce sera aussi une séance qui portera sur l’analyse des biais statistiques et de la question éthique soulevée par l’utilisation d’algorithmes.

Séance 12. Présentations orales des travaux en équipe