Protocole d'analyse de langage naturel
Données du réseau social Twitter
Méthodologie: développement d'un protocole de recherche
Discipline: politiques publiques
Introduction
Collecte des données
Méthodologie
Résultats et leçons
Conclusion
Notre propos est surtout méthodologique et porte sur la faisabilité et la validité de l'analyse des conversations dans un contexte de haute importance pour l'humanité, celui de la maladie Covid-19.
Données structurées et données non-structurées
Modèle de structuration de thèmes ou modèle de sujet structurel
Un exemple d'utilisation de données structurées:
Un exemple d'utilisation de données non-structurées:
Avec la STM, les utilisateurs peuvent modéliser l'encadrement des journaux internationaux (Roberts, Stewart et Airoldi 2016b), les réponses d'enquête ouvertes dans l'American National Election Study (Robertset al., 2014), les forums de classe en ligne (Reich, Tingley, Leder -Luis, Roberts et Stewart 2015), des fils Twitter et des déclarations religieuses (Lucas, Nielsen, Roberts, Stewart, Storer et Tingley 2015), des rapports de lobbying (Milner et Tingley 2015), etc.
L'objectif du modèle de thème structurel est pour permettre aux chercheurs de découvrir des sujets et d'estimer leur relation avec les métadonnées du document.
Les résultats du modèle peuvent être utilisés pour effectuer des tests d'hypothèse sur ces relations.
Cela reflète bien sûr le type d'analyse que les chercheurs en sciences sociales effectuent avec d'autres types de données, où l'objectif est de découvrir des relations entre les variables et de tester des hypothèses.
Nombre de tweets : 2 409 522
Période : 1er janvier 2020 au 21 avril 2021
Mots-clés : “vaccine” OU “vaccines” OU “vaccinate” OU “vaccination” OU “vaccineswork” OU “antivax” OU “vaccinesdontwork” OU “provax” OU “vaxwithme” OU “antivaxxers” OU “immunization”
L'étude des événements
En finance, il s'agit d'étudier comment un événement particulier change les perspectives d'une entreprise en quantifiant l'impact de l'événement sur le stock de l'entreprise.
Nous avons repris ce même principe pour étudier comment un événement a conduit la conversation des individus sur twitter.
Afin d'effectuer ce type d'analyse, les spécialistes de la finance utilisent le rendement, le volume ou la volatilité des actions. Il s'agit de quantifier l'impact économique d'un événement en rendements dits anormaux.
Pour notre étude nous avons choisi d'utiliser la quantité de tweets twittée par jour pour effectuer la détection d'anomalie.
Nous avons tout d'abord effectué une détection d'anomalies sur la totalité des tweets (du 1er janvier 2020 au 21 avril 2021)
Nous avons remarqué une accélération de la conversation sur Twitter au sujet de la vaccination qui débute le 1er octobre 2020.
Nous avons donc décidé de couper les tweets en deux parties :
Pour chaque partie nous avons effectué une nouvelle détection d'anomalies.
Partie 1 (01-01-2020 au 31-09-2020) : Anomalie effectuée avec les paramètres de bases:
Partie 2 (01-10-2020 au 21-04-2021) : Anommalie effectuée avec des paramètres ajustés:
Nous avons regroupé les anomalies par sous période.
Interval de temps de chaque sous période:
Période | Data de début | Date de fin |
---|---|---|
Period 1 | 2020-03-13 | 2020-03-19 |
Period 2 | 2020-05-12 | 2020-05-21 |
Period 3 | 2020-07-13 | 2020-07-30 |
Period 4 | 2020-08-08 | 2020-08-14 |
Period 5 | 2020-09-05 | 2020-09-19 |
Période | Data de début | Date de fin |
---|---|---|
Period 1 | 2020-11-06 | 2020-11-12 |
Period 2 | 2020-11-23 | 2020-11-29 |
Period 3 | 2020-11-29 | 2020-12-17 |
Period 4 | 2020-12-21 | 2021-01-04 |
Period 5 | 2021-02-27 | 2021-03-05 |
Period 6 | 2021-04-10 | 2021-04-16 |
Structural Topic Models (STM)
STM en 6 étapes:
Utilisation du modèle STM pour déterminer le Top 10 des sujets (Topics) pour chaque sous période:
=> 11 sous périodes, donc 11 STM.
Partie 1 Période 1 (13 au 19 mars 2020)
Partie 1 Période 1 (13 au 19 mars 2020)
Partie 2 Période 6 (10 au 16 avril 2021)
Partie 2 Période 6 (10 au 16 avril 2021)
Top 3 des sujets pour chaque sous période
Date | Sujet |
---|---|
13-03-2020 au 19-03-2019 | covid, develop, amp; peopl, get, can; trial, coronavirus, test |
12-05-2020 au 21-05-2020 | get, peopl, need; covid, coronavirus, research; trump, coronavirus, presid |
13-07-2020 au 13-07-2020 | get, peopl, like; amp, need, work; covid, trial, phase |
08-08-2020 au 14-08-2020 | get, peopl, like; russia, first, coronavirus; covid, coronavirus, dose |
05-09-2020 au 19-09-2020 | trump, say, coronavirus; coronavirus, covid, first; covid, develop, work |
Date | Sujet |
---|---|
06-11-2020 au 12-011-2020 | get, peopl, flu; pfizer, covid, effect; news, stock, hope |
23-11-2020 au 29-11-2020 | covid, effect, astrazeneca; take, time, now; covid, develop, india |
29-11-2020 au 17-12-2020 | peopl, get, need; first, covid, dose; pfizer, approv, covid |
21-12-2020 au 04-01-2021 | covid, dose, first; covid, health, state; get, take, like |
26-02-2021 au 05-03-2021 | effect, like, just; covid, johnson, dose; covid, get, can |
10-04-2021 au 16-04-2021 | peopl, just, make; johnson, amp, paus; dose, receiv, million |
Pendant les 5 premières périodes, les conversations portaient chronologiquement sur:
Pendant les 6 dernières périodes, les conversations permettaient le niveaud e développement de l'expertise épidémiologique:
Leçons pour la recherche
Leçons pour les politiques publiques
PLN: protocole d'analyse de langage naturel
Données du réseau social Twitter
Contexte de la pandémie
Projet à objectif méthodologique en priorité
Extensions en cours:
chercher les raisons de ces anomalies dans nos conversations, par exemple est-ce que les conversations sont conséquentes ou causales des sujets développés dans la presse?
nous nous inspirons de travaux précédents sur une autre crise internationale: la crise des réfugiés en Europe (qui décide de l'agenda des conversations?)
Protocole d'analyse de langage naturel
Données du réseau social Twitter
Méthodologie: développement d'un protocole de recherche
Discipline: politiques publiques
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
o | Tile View: Overview of Slides |
Alt + f | Fit Slides to Screen |
s | Toggle scribble toolbox |
Esc | Back to slideshow |
Protocole d'analyse de langage naturel
Données du réseau social Twitter
Méthodologie: développement d'un protocole de recherche
Discipline: politiques publiques
Introduction
Collecte des données
Méthodologie
Résultats et leçons
Conclusion
Notre propos est surtout méthodologique et porte sur la faisabilité et la validité de l'analyse des conversations dans un contexte de haute importance pour l'humanité, celui de la maladie Covid-19.
Données structurées et données non-structurées
Modèle de structuration de thèmes ou modèle de sujet structurel
Un exemple d'utilisation de données structurées:
Un exemple d'utilisation de données non-structurées:
Avec la STM, les utilisateurs peuvent modéliser l'encadrement des journaux internationaux (Roberts, Stewart et Airoldi 2016b), les réponses d'enquête ouvertes dans l'American National Election Study (Robertset al., 2014), les forums de classe en ligne (Reich, Tingley, Leder -Luis, Roberts et Stewart 2015), des fils Twitter et des déclarations religieuses (Lucas, Nielsen, Roberts, Stewart, Storer et Tingley 2015), des rapports de lobbying (Milner et Tingley 2015), etc.
L'objectif du modèle de thème structurel est pour permettre aux chercheurs de découvrir des sujets et d'estimer leur relation avec les métadonnées du document.
Les résultats du modèle peuvent être utilisés pour effectuer des tests d'hypothèse sur ces relations.
Cela reflète bien sûr le type d'analyse que les chercheurs en sciences sociales effectuent avec d'autres types de données, où l'objectif est de découvrir des relations entre les variables et de tester des hypothèses.
Nombre de tweets : 2 409 522
Période : 1er janvier 2020 au 21 avril 2021
Mots-clés : “vaccine” OU “vaccines” OU “vaccinate” OU “vaccination” OU “vaccineswork” OU “antivax” OU “vaccinesdontwork” OU “provax” OU “vaxwithme” OU “antivaxxers” OU “immunization”
L'étude des événements
En finance, il s'agit d'étudier comment un événement particulier change les perspectives d'une entreprise en quantifiant l'impact de l'événement sur le stock de l'entreprise.
Nous avons repris ce même principe pour étudier comment un événement a conduit la conversation des individus sur twitter.
Afin d'effectuer ce type d'analyse, les spécialistes de la finance utilisent le rendement, le volume ou la volatilité des actions. Il s'agit de quantifier l'impact économique d'un événement en rendements dits anormaux.
Pour notre étude nous avons choisi d'utiliser la quantité de tweets twittée par jour pour effectuer la détection d'anomalie.
Nous avons tout d'abord effectué une détection d'anomalies sur la totalité des tweets (du 1er janvier 2020 au 21 avril 2021)
Nous avons remarqué une accélération de la conversation sur Twitter au sujet de la vaccination qui débute le 1er octobre 2020.
Nous avons donc décidé de couper les tweets en deux parties :
Pour chaque partie nous avons effectué une nouvelle détection d'anomalies.
Partie 1 (01-01-2020 au 31-09-2020) : Anomalie effectuée avec les paramètres de bases:
Partie 2 (01-10-2020 au 21-04-2021) : Anommalie effectuée avec des paramètres ajustés:
Nous avons regroupé les anomalies par sous période.
Interval de temps de chaque sous période:
Période | Data de début | Date de fin |
---|---|---|
Period 1 | 2020-03-13 | 2020-03-19 |
Period 2 | 2020-05-12 | 2020-05-21 |
Period 3 | 2020-07-13 | 2020-07-30 |
Period 4 | 2020-08-08 | 2020-08-14 |
Period 5 | 2020-09-05 | 2020-09-19 |
Période | Data de début | Date de fin |
---|---|---|
Period 1 | 2020-11-06 | 2020-11-12 |
Period 2 | 2020-11-23 | 2020-11-29 |
Period 3 | 2020-11-29 | 2020-12-17 |
Period 4 | 2020-12-21 | 2021-01-04 |
Period 5 | 2021-02-27 | 2021-03-05 |
Period 6 | 2021-04-10 | 2021-04-16 |
Structural Topic Models (STM)
STM en 6 étapes:
Utilisation du modèle STM pour déterminer le Top 10 des sujets (Topics) pour chaque sous période:
=> 11 sous périodes, donc 11 STM.
Partie 1 Période 1 (13 au 19 mars 2020)
Partie 1 Période 1 (13 au 19 mars 2020)
Partie 2 Période 6 (10 au 16 avril 2021)
Partie 2 Période 6 (10 au 16 avril 2021)
Top 3 des sujets pour chaque sous période
Date | Sujet |
---|---|
13-03-2020 au 19-03-2019 | covid, develop, amp; peopl, get, can; trial, coronavirus, test |
12-05-2020 au 21-05-2020 | get, peopl, need; covid, coronavirus, research; trump, coronavirus, presid |
13-07-2020 au 13-07-2020 | get, peopl, like; amp, need, work; covid, trial, phase |
08-08-2020 au 14-08-2020 | get, peopl, like; russia, first, coronavirus; covid, coronavirus, dose |
05-09-2020 au 19-09-2020 | trump, say, coronavirus; coronavirus, covid, first; covid, develop, work |
Date | Sujet |
---|---|
06-11-2020 au 12-011-2020 | get, peopl, flu; pfizer, covid, effect; news, stock, hope |
23-11-2020 au 29-11-2020 | covid, effect, astrazeneca; take, time, now; covid, develop, india |
29-11-2020 au 17-12-2020 | peopl, get, need; first, covid, dose; pfizer, approv, covid |
21-12-2020 au 04-01-2021 | covid, dose, first; covid, health, state; get, take, like |
26-02-2021 au 05-03-2021 | effect, like, just; covid, johnson, dose; covid, get, can |
10-04-2021 au 16-04-2021 | peopl, just, make; johnson, amp, paus; dose, receiv, million |
Pendant les 5 premières périodes, les conversations portaient chronologiquement sur:
Pendant les 6 dernières périodes, les conversations permettaient le niveaud e développement de l'expertise épidémiologique:
Leçons pour la recherche
Leçons pour les politiques publiques
PLN: protocole d'analyse de langage naturel
Données du réseau social Twitter
Contexte de la pandémie
Projet à objectif méthodologique en priorité
Extensions en cours:
chercher les raisons de ces anomalies dans nos conversations, par exemple est-ce que les conversations sont conséquentes ou causales des sujets développés dans la presse?
nous nous inspirons de travaux précédents sur une autre crise internationale: la crise des réfugiés en Europe (qui décide de l'agenda des conversations?)