fil-educavox-color1

Lecture de La fabrique des données brutes, Le travail en coulisses de l’open data de Jérôme Denis et Samuel Goëta - Cet article est d’abord publié sur mon blog relation, transformation, partage
Je ne sais d’où vient l’expression "la fabrique de". Je dirais probablement de l’émission "la fabrique de l’histoire". Il y a aussi les 4 émissions radio de "la fabrique de l’homme occidental" de Pierre Legendre en 1996. J’ai aussi trouvé mention de l’expression "fabrique de l’opinion" dans la lignée de Noam Chomsky ? mais cela semble plus récent.
Il y a dans cette expression à la fois un aspect bricolage et artisanal mais aussi l’idée de création alliée à celle d’effort. Il y a aussi l’idée de procédé humain de construction de son propre environnement par opposition aux faits de nature. Il y a aussi, il me semble d’idée de construction intellectuelle, ce qui s’oppose à la logique de fabrique qui est d’abord manufacturée. Employer ce terme, c’est donc parer des vertus du bricolage un processus intellectuel naturalisé que l’on veut remettre en cause en mettant à jour justement les processus de construction. Dans tous les cas l’expression se veut à l’opposée de la croyance magique. C’est une fabrique dans le sens de processus à la construction d’un objet. On est dans la lignée de la maitrise du maitre ouvrier. A noter également la parenté entre le terme de fabrique et le terme de construction qui imprime aujourd’hui une grande partie de l’action de chacun. Une donnée n’est donc pas naturelle, ni magique. C’est un construit qui demande un tour de main.
 
Depuis quelques années, les initiatives d’open data se sont multipliées à travers le monde. Présentées jusque dans la presse grand public comme une ressource inexploitée, le "pétrole" sur lequel le monde serait assis, les données publiques sont devenues objet de toutes les attentions et leur ouverture porteuse de toutes les promesses, à la fois terreau d’un renouveau démocratique et moteur d’une innovation distribuée. Comme dans les sciences, qui ont connu un mouvement de focalisation similaire sur les données et leur partage, l’injonction à l’ouverture opère une certaine mise en invisibilité. Le vocabulaire de la " libération ", de la " transparence " et plus encore celui de la " donnée brute " effacent toute trace des conditions de production des données, des contextes de leurs usages initiaux et pose leur universalité comme une évidence. Ce chapitre explore les coulisses de l’open data afin de retrouver les traces de cette production et d’en comprendre les spécificités. À partir d’une série d’entretiens ethnographiques dans diverses institutions, il décrit la fabrique des données brutes, dont l’ouverture ne se résume jamais à une mise à disponibilité immédiate, évidente et universelle. Il montre que trois aspects sont particulièrement sensibles dans le processus d’ouverture : l’identification, l’extraction et la " brutification " des données. Ces trois séries d’opérations donnent à voir l’épaisseur sociotechnique des données brutes dont la production mêle dimensions organisationnelles, politiques et techniques. Plutôt que d’écarter l’idée de données brutes en les qualifiant de mythe ou d’illusion, la mise en lumière de ces opérations invite à prendre au sérieux ce vocabulaire et comprendre que si les données ne sont jamais données au sens de " déjà là ", ce travail permet en revanche d’en faire des données au sens de " don ".
 
Il s’agit donc, dans cet article de montrer ce qu’il y a derrière l’open data et de montrer ainsi la complexité du processus et les besoins en temps et en ressources. derrière cette notion d’open data, on peut repérer l’émergence des cultures de l’audit qui vise à rendre transparent les processus démocratiques par l’information qualifiée adressée aux citoyens. Il s’agit de transformer en profondeur l’Etat, comme les citoyens par une accessibilité fluide de la mise en mathématiques du réel.
Derrière ce mouvement de fond, il y la donnée qui est tout sauf un objet naturaliste mais belle et bien un construit. Pour cela, les auteurs font un saut vers la fabrique de la donnée scientifique et la transformation de la recherche opérée par cette mise à disposition. Dans les années 80 (Knorr-Cetina, 1981 ; Latour & Woolgar, 1988 ; Lynch, 1985) ont observé (observation ethnographique) le travail au plus près des équipes de recherche et l’impact de la culture des données sur ce travail.
Le résultat est triple :
- d’abord l’aspect profondément situé (au sens de situation et de l’apprentissage situé) de l’activité scientifique vu comme un ensemble de pratiques professionnelles,associé à l’importance de l’organisation collective du travail scientifique et du rapport entre les différents acteurs (et du poids de leurs contributions respectives comme de la reconnaissance des "petits boulots" dans ce processus). L’aspect bricolage de l’activité scientifique par la mise en évidence des tâches nécessaire au processus de recherche qui va de la récolte des données à la publication.
- Ensuite ce travail d’enquête à remis en cause la notion de donnée brute et de résultats scientifiques et montré notamment que
Loin d’être universels par essence, ceux-ci sont toujours ancrés dans des écologies pratiques, orientés vers des problèmes particuliers. Ces éléments ne composent pas un contexte qui entoureraient les données en ne les touchant qu’à la marge : ils constituent un cadre de pertinence dont le détachement est toujours coûteux, voire risqué.
La mise en circulation de ces données et de ces résultats occasionnent également des frictions.
- Le troisième point, après cette l’inscription dans une situation et dans un débat, a été de montrer que la construction des données participaient d’une simplification d’une portion du réel et que les choix de mise en forme (les champs, les critères retenus d’inscription dans la base de données) et les choix de contextualisation de la mise en forme (métadonnées) concourraient à masquer des phénomènes potentiellement intéressant. Ce phénomène de rigidification nécessitant alors de déconstruire la construction des données pour faire émerger une vérité autre.
les bases de données font exister une forme de réalité "sous la main" de leurs utilisateurs, dont la pré-standardisation risque d’effacer une part de la multiplicité du réel (Bowker, 2000 ; Mol, 1999).
 
Après avoir défini ce qui avait été observé par la sociologie des sciences sur le travail de construction de la donnée : construction située, frictions et enjeux politiques, les auteurs vont alors se pencher sur cette fameuse fabrique de la donnée. Les auteurs observent alors le travail des petites mains oeuvrant dans la mise en forme de l’open data au travers des entretiens qu’ils ont eus.
 
L’étape d’exploration pose la question de savoir quoi "libérer" et pour quoi faire avec au coeur de ces questions, le degré de sensibilité des données à ouvrir. Cette étape va avoir des répercussions sur les processus de navigation de la donnée et transformer les pratiques professionnelles des premiers usagers, à savoir les administrations à l’origine de cette libération. Cette étape d’identification des données à ouvrir est aussi instauratrice des données. Il n’y a pas de données sans le processus d’identification. Ce processus est donc créateur (ou recréateur) de la donnée. C’est donc un choix politique avant tout.
 
L’étape d’extraction consiste, à partir de l’identification des données à les extraire des bases de données dans lesquels elles sont enfermées. Hors les données ne sont visibles, pour la plupart des usagers par l’intermédiaire d’interface qui s’ils rendent visibles pour l’usage entrave l’accès à la donnée comme objet numérique manipulable de manière fluide. POur accéder à ces données extractables, il convient souvent de rentrer dans les serveurs et de construire des moulinettes qui vont permettre l’extraction du format de l’outil de visualisation en un format manipulable sur toutes plateformes : en règle générale aujourd’hui le format CSV. C’est la phase opérationnelle de l’instauration des données. Des questions juridiques se posent avec la création de ces moulinettes qui peuvent être illégales en regard des contrats avec les fabricants des logiciels. Ouvrir les données, c’est aussi les rendre libre des supports de consultations traditionnels.
 
L’étape suivante est celle de brutification qui est marquée par trois grands types d’opération : le reformatage des données, leur nettoyage et leur désindexicalisation.
Le reformatage, c’est le passage d’un format propriétaire au format csv (j’ai anticipé un peu plus haut, je conserve néanmoins car il me semble que extraction et mise en format sont les deux aspects d’une même opération). Le nettoyage va consister à revoir les jeux de données et à corriger ce qui peut l’être (valeurs abérentes, trous, cohérence interne à chaque champs, cohérence inter-bases) mais aussi par la déterritorialisation des données attachées par des pratiques professionnelles et des métiers. Ce nettoyage vise à l’universalité de l’accès et non à l’efficacité des pratiques métiers.
En paralèlle au processus de brutification, il convient de rendre intelligible les données notamment par la création de métadonnées afférentes à leur production.
Uniformiser, nettoyer et désindexicaliser en amont, revient à faire travailler chacun avec des données déjà brutes, c’est-à-dire des données génériques qui perdent les qualités de leur ancrage. Autrement dit, il s’agit de faire de la transparence non plus le résultat d’opérations spécifiques, mais l’horizon même des activités administratives, indépendamment des particularités des métiers et des données de chacun.
...
Autrement dit, les données sont brutes lorsque l’on réussit à les dé-spécifier de leurs usages initiaux pour les préparer à un vaste horizon d’usages possibles. L’enjeu des transformations qu’elles subissent n’est plus de corriger des biais de mesure ou de distinguer le bruit de l’information à traiter (comme en sciences), mais d’assurer une migration d’une donnée « étroite », locale, vers une donnée à vocation universelle.
Dernière modification le jeudi, 16 octobre 2014
Peirano Richard

Passionné par tout ce qui touche à l’expérience professionnelle et à la réflexivité dans l’apprentissage au travail, je veux faire évoluer ma pratique vers l’accompagnement et la formation à l’employabilité (promotion de son identité, développement de son réseau, analyse de son activité…) et à la professionnalité (bilan de compétences et d’orientation, portfolio…) 
Je travaille depuis 2006 avec un blog portfolio de compétences qui est à la fois mon outil d’auto-apprentissage de praticien réflexif et la mémoire de mes activités et de mes pratiques. 
C’est ainsi que j’ai analysé mes pratiques dans la durée et défini mon activité et mes compétences. Travail poursuivi par un bilan de compétences (Actual 2013) qui met en avant cette dimension réflexive et formative. 
Je suis aujourd’hui enseignant-documentaliste dans un lycée avec des compétences en pédagogie et didactique autour des 3 littéracies information-documentation, communication, usages des outils numériques ; en médiation culturelle ou numérique ; en management de projet et de service et en accompagnement à la maîtrise de projets pédagogiques et culturels. 
J’interviens depuis 2007 en vacation, de manière ponctuelle ou durable, en présence ou à distance, pour des universités et grandes écoles (Le Mans, d’Angers, Rennes 2, Strasbourg, Limoges, ITIN Cergy) et des organismes de formation liés à l’éducation (IFEAP, CRDP, IFUCOME, INIST) 
Je construits et j’anime des formations sur la veille et la recherche d’informations, la promotion/gestion de son identité numérique et de sa e-reputation, le personnal knowledge management, la certification des compétences en situation, le choix des outils pour son environnement d’apprentissage personnel, les réseaux et médias sociaux auprès de lycéens, d’étudiants en formation initiale ou continue (accompagnement de projet, tutorat, enseignement) et d’adultes en formation professionnelle.
J’ai été membre du jury de CAPES interne de documentation de 2008-2012. 
J’ai aussi écrit des articles pour des revues professionnelles.