Science des données et recherche scientifique

Nouvelles données et nouveaux modèles

Thierry Warin, PhD

1 Introduction à la science des données

1.1 Introduction

La science des données révolutionne la manière dont la recherche scientifique est menée, transformant non seulement les outils méthodologiques mais aussi les cadres théoriques à travers lesquels nous analysons les phénomènes.

  • Qu’est-ce que la science des données ?

  • Comment impacte-t-elle la recherche scientifique ?

1.2 Qu’est-ce que la science des données

La science des données est un domaine multidisciplinaire qui combine des techniques mathématiques, d’informatique et l’expertise au sein d’un domaine.

1.3 Qu’est-ce que la science des données

  • Les connaissances du domaine d’expertise (fintech, santétech, etc.) servent à collecter les données pertinentes dans le domaine.

  • Ces données sont numériques et sont souvent définies en deux groupes:

    • les données structurées: données tabulaires, bases de données, etc.
    • les données non-structurées: textes, images, vidéos, etc.

1.4 Trois piliers de la science des données

  1. Collecte des données : Obtenir des données massives provenant de multiples sources.
  2. Analyse des données : Utiliser des algorithmes pour détecter des tendances, des modèles et des insights.
  3. Interprétation des résultats : Appliquer les résultats aux questions scientifiques ou pratiques.

2 Nouvelles méthodes

2.1 Nouvelles méthodes

La combinaison entre la nouvelle puissance de calcul et les nouvelles données numériques a permis l’émergence de nouvelles méthodes en science des données.

  • Nous pouvons faire deux choses:

    • répondre à d’anciennes questions de recherche avec des nouvelles méthodes
    • explorer de nouvelles questions de recherche, et notamment des questions de recherche qui n’étaient pas humainement possible précédemment.

2.2 Nouvelles méthodes

La science des données introduit des méthodologies novatrices qui dépassent les approches traditionnelles de recherche.

2.3 Catégories

  • Apprentissage supervisé : Utilisé pour des prédictions basées sur des données étiquetées.
  • Apprentissage non supervisé : Explorations de patterns sans étiquettes dans des datasets massifs.
  • Apprentissage semi-supervisé : Combinaison des deux approches précédentes.
  • Apprentissage par renforcement : Apprentissage basé sur des récompenses et des punitions.

2.4 Méthodes

  • Régression
  • Classification
  • Réseaux de neurones profonds : Capables de modéliser des relations complexes dans des données volumineuses et non linéaires.
  • Algorithmes de regroupements : Regroupement de données selon des similitudes.
  • Traitement du langage naturel : Analyse de textes et de langages humains.

2.5 Exemple

Utilisation des réseaux de neurones pour identifier des structures dans les données économiques ou linguistiques.

Google Playground

2.6 Méthodes

Quels sont les avantages de l’approche par apprentissage automatique?

  • Traitement de données massives : Capacité à traiter des quantités massives de données.
  • Modélisation de relations complexes : Capacité à modéliser des relations non linéaires et complexes.
  • Prédictions précises : Capacité à prédire des événements futurs avec une grande précision.
  • Évitement de biais statistiques : Réduction des biais humains dans l’analyse des données.

2.7 Méthodes

Pour synthétiser:

  • IA explicative
  • IA prédictive
  • IA générative

3 Nouvelles données

3.1 Données Structurées

Les données structurées sont des données tabulaires, des bases de données, des données spatiales, etc.

On peut maintenant utiliser ces nouvelles méthodes sur des données structurées.

Exemples:

  • Analyse des réseaux

3.2 Données non-structurées

On peut maintenant utiliser ces nouvelles méthodes sur des données non-structurées.

Exemples:

  • Traitement automatique du langage sur des données de textes
    • Analyse de sentiments
    • Classification de textes
    • Résumé automatique

3.3 Combinaison des données structurées et non-structurées

Frackmap est un exemple de combinaison de données structurées et non-structurées.

Objectif: comprendre l’impact des puits de gaz de schiste sur les communautés locales

  • Données structurées: données sur les puits de gaz de schiste
  • Données non-structurées: données sur les tweets
  • Données non-structurées: textes scientifiques de santé publique

4 Exemples

4.1 Exemples

  • Objectif : Identifier les relations entre les acteurs d’un réseau social.

  • Méthodes : Analyse des réseaux sociaux, détection de communautés, etc.

  • Applications : 43 499 directeurs de CA de banques

  • Objectif : Analyser des textes et des langages humains.

  • Méthodes : Analyse de sentiments, classification de textes, résumé automatique, etc.

  • Applications : 3.8 millions de tweets sur les élections présidentielles nigériennes.

  • Objectif : Analyser des images et des vidéos.

  • Méthodes : Reconnaissance d’images, détection d’objets, etc.

  • Applications : Haïti

  • Objectif : Analyser des données temporelles.

  • Méthodes : Modèles ARIMA, modèles LSTM, etc.

  • Applications : Prévisions économiques, etc.

5 Évolution épistémologique : L’impact de la science des données sur la recherche

5.1 Épistémologie

La science des données modifie non seulement les méthodes d’investigation, mais aussi les fondements épistémologiques de la recherche scientifique.

  • La fin des hypothèses traditionnelles ?
    • Les méthodes exploratoires basées sur les données permettent de formuler des hypothèses a posteriori, changeant le paradigme classique de la recherche scientifique.
  • Détection de nouveaux phénomènes :
    • L’analyse de grands ensembles de données permet de révéler des corrélations inattendues, ouvrant la voie à de nouvelles questions de recherche.

6 Science des données et reproductibilité de la recherche

6.1 Reproductibilité

Un des avantages cruciaux de la science des données est la capacité à reproduire et à valider les résultats.

Problèmes abordés :

  1. Transparence des données et algorithmes : L’ouverture des codes sources et des fichiers de données
  2. Reproductibilité des expériences : La possibilité de répliquer des expériences avec les mêmes données
  3. Open Science : Un mouvement vers une recherche ouverte et transparente, facilitée par les outils de science des données.

7 Défis éthiques et sociétaux

7.1 Défis éthiques

Bien que prometteuse, la science des données pose aussi des défis éthiques et sociétaux :

  • Biais des algorithmes : Les algorithmes peuvent reproduire ou amplifier les biais humains présents dans les données.
  • Vie privée : Les datasets massifs posent des questions sur la confidentialité et l’utilisation des données personnelles.
  • Équité dans l’accès aux données : Les chercheurs des pays en développement peuvent ne pas avoir accès aux infrastructures nécessaires pour effectuer des recherches en science des données.

8 Conclusion

8.1 Conclusion

La science des données représente un changement de paradigme dans la manière dont nous menons la recherche scientifique. Elle offre des outils puissants pour analyser des quantités massives de données, tout en posant des questions épistémologiques et éthiques importantes.

  • Avenir de la science des données : Vers une intégration plus complète dans tous les domaines scientifiques ?
  • Questions ouvertes : Comment garantir la transparence, l’équité et l’éthique dans la recherche scientifique assistée par des données ?

9 Questions et Discussion

9.1 Questions

N’hésitez pas à partager vos réflexions et poser vos questions sur l’impact de la science des données dans vos propres recherches.

10 Merci!

10.1 Restons connectés