#Février 2017: Retour sur les rencontres d'automne de l'afm

Faire de la recherche avec le big data

Compte rendu des journées d’automne de l’afm 16 novembre 2016

par Aïda Mimouni-Chaabane, MCF à l’Université Paris-Seine (Cergy-Pontoise), Laboratoire Théma CNRS umr 8184

Qu’est-ce que le big data ? Est-il profitable pour les entreprises ? Comment l’appliquer et l’analyser d’un point de vue sociologique ? Comment l’exploiter dans des recherches académiques ? Comment traiter et exploiter les données non structurées ? Tels sont les objectifs de cet atelier d’approfondissement." data-share-imageurl="">

Faire de la recherche avec le big data

Compte rendu des journées d’automne de l’afm 16 novembre 2016

par Aïda Mimouni-Chaabane, MCF à l’Université Paris-Seine (Cergy-Pontoise), Laboratoire Théma CNRS umr 8184

Qu’est-ce que le big data ? Est-il profitable pour les entreprises ? Comment l’appliquer et l’analyser d’un point de vue sociologique ? Comment l’exploiter dans des recherches académiques ? Comment traiter et exploiter les données non structurées ? Tels sont les objectifs de cet atelier d’approfondissement.

« Big data ou big bla bla »

Samppa Suoniemi (Chercheur Post-doc Université Toulouse 1 Capitole / European Commission) et Jean-Sébastien Vayre (Doctorant en sociologie (CERTOP, Université Toulouse))

Dans son intervention, Samppa Suoniemi a présenté le big data, son utilité pour les entreprises ainsi que ses outils d’analyse. Le big data – définit comme un ensemble de technologies utilisées pour collecter, gérer et analyser des quantités massives d’informations – est une forme avancée de business intelligence. Même s’il est profitable, plusieurs challenges restent à relever comme les technologies et leur utilisation, le développement d’une culture big data, le leadership et les compétences big data. En ce qui concerne enfin le processus d’analyse, il est réalisé autour de sept étapes : formulation du problème, sélection des ressources en matière d’informations, préparation des données, sélection d’un type d’analyse de données, mise en œuvre de l’analyse, évaluation des résultats et leur présentation.

Jean-Sébastien Vayre a réalisé une analyse sociologique du big data afin de retracer son histoire, son utilisation dans le cadre des innovations et son impact sur la création de l’intelligence artificielle. Le big data (au singulier) indique un phénomène social alors que le big datas (au pluriel donc) fait davantage référence à des données numériques. C’est un phénomène sociotechnique puisque plusieurs débats se sont constitués autour de ce terme. Les enjeux posés par le big data sont au nombre de neuf : cognitif (qualité des données, ce qu’elles représentent), technique (facilité de manipulation des données), politique (position éthique face au pouvoir de contrôle des big data), droit (adéquation entre big data et les institutions de droits existantes), économie (valorisation économique des données), écologie (consommation énergétique des centres de stockage), culture (les questions de résistante et de gouvernance par la donnée), social (inégalités d’accès et de maitrise des technologies big data) et humain (attention que les hommes portent à leur environnement). Le big data doit être utile, acceptable (pas trop en contradiction avec l’existant) et utilisable.

« De l’exploitation des données à la génération de nouvelles théories »

Herbert Castéran (enseignant-chercheur et directeur général EM Strasbourg) et Daria Plotkina (enseignant-chercheur, EM Strasbourg)

Pour Herbert Castéran, le big data n’est pas uniquement lié au volume des données mais également aux interactions, au mélange entre données structurées et données non structurées. L’intérêt que lui portent les entreprises s’explique par sa capacité à générer l’innovation/satisfaction des clients, la réduction des coûts et de meilleures prises de décisions. D’un point de vue académique, le big data ouvre deux nouvelles perspectives : une montée en puissance des publications dans des revues classiques (MS, JMR, MGT Science, JM, etc.) et une montée en puissance des publications spécifiques au big data (Big data research par exemple). Les recherches autour du big data traitent de deux sujets : l’enjeu managérial et sociétal des big data (par exemple la transformation du marketing induite par la présence des big data) d’une part et les aspects méthodologiques liés à l’exploitation de données massives (analyses, enjeux et effets) d’autre part. Même si la recherche avec et sur les big data représente de réelles opportunités en termes de réduction des coûts de collecte des données et leur exploitation (par exemple, réduction des frontières entre données qualitatives et quantitatives), les freins liés à la maitrise technique et au cloisonnement disciplinaire représentent une menace son développement. Le risque méthodologique (phénomène de la « boite noire ») est également à souligner. Ainsi, en utilisant des données big data, le chercheur risque de prédire un phénomène sans l’expliquer, donc un écueil majeur pour la recherche.

Pour Daria Plotkina, les chercheurs, comme les entreprises, qui souhaitent exploiter le big data font face à une offre vaste de logiciels, qui doivent être jugés en fonction du coût, de la généralisation, de la qualité et de l’exhaustivité. Le choix doit également être guidé par la nature des données à traiter (souhaite-t-on exploiter des données structurées, non structurées ou semi-structurées ?). Même si le big data fait souvent allusion à des données structurées provenant des historiques d’achat, sa valeur réside essentiellement dans les données non-structurées provenant de nouvelles ressources comme les médias sociaux, les images et vidéos, les blogs ou encore les réseaux des senseurs. Daria s’est appuyée sur sa propre recherche doctorale pour illustrer comment on exploite des données non structurées en provenance des avis consommateurs. Pour savoir comment les internautes perçoivent les avis en ligne en général et les avis trompeurs en particulier, elle a retenu la base des publications média FACTIVA avec 600 articles sur les avis en lignes trompeurs et 1507 commentaires des internautes. La démarche d’analyse s’est déroulée en quatre étapes :

  • Comptage des mots : pour avoir les sujets principaux, les profils des consommateurs émettant des avis, les types de produits et services les plus concernés et les plateformes des avis en ligne
  • Classification et visualisation : industries concernées par les avis, rôle des avis en ligne, évaluation de la tromperie
  • Analyse sémantique : relations logiques et chronologiques, le style avec lequel l’avis est exprimé (e.g., argumentatif ?), nature du discours (e.g., personnel et émotionnel ?)
  • Analyse stylométrique : analyser le style pour détecter les faux avis ou les avis trompeurs, comparer des textes de natures différentes