fil-educavox-color1

Cet article est initialement paru sur relation, transformation, partage
Voici un cours de 2 heures que j’ai assuré pour des terminales sur les données. 
C’est juste une présentation globale et pas une formation à proprement parlé. Je ne suis de toute façon pas satisfait du déroulement, en partie à cause du dispositif mis en place : pas assez d’activité, pas assez de temps, une salle pas commode pour travailler etc. et en partie car j’ai raté mon animation.

C’est très facile d’intéresser des élèves avec certains services très spectaculaires, encore faut-il arriver à s’appuyer sur cet intérêt pour montrer les enjeux. Et ça je n’y suis pas arrivé !
 
Ce qui suit est plutôt à prendre comme un word in progress, un document de collecte sur le sujet des données. J’y insère des points de vues et des références et des pistes d’évolution possibles du cours ainsi que des ressources utiles à travailler. Le tout s’appuie sur une formation effective. C’est ici le travail en amont de la formation ainsi que le déroulé de cette formation
 
La formation

J’ai d’abord lancé worldometers en arrière plan et je m’en sers comme fil directeur afin de montrer l’évolution de la population en temps réel. L’intérêt de ce service est de montrer un algorithme simple, de montrer l’intérêt d’une visualisation de données et de montrer l’aspect temps réel de la mise à jours. On pourrait aussi proposer wikipedia recent changes map ou la visualisation des hottrends de google.
L’objectif du cours est de découvrir ce qui se cache derrière les données et derrière le buzz d’expression comme "big data" et "opendata". Les élèves ne connaissent pas ces notions en général. Je propose donc un trend google sur les expressions suivantes afin d’entrer de plein pied dans la visualisation de données.


J’en viens enfin à présenter les questions que l’on va aborder dans le cadre du cours.

  • Qu’est-ce qu’une donnée et qu’est-ce qu’une base de données ?
  • Interfacer et corréler les données entre elles pour apporter une plus value dans un service monnayable ?
  • Prédire et faire surgir de nouvelles vérités
  • D’où viennent les données ? Les producteurs ?
  • Big data et internet des objets
  • Le rôle de la visualisation des données par des cartographies, des infographies, des gabarits, des graphes ou des histoires...
  • Données objectivées / données personnelles et les enjeux entre d’une part l’efficacité de nouveaux services face au besoin de contrôle de nos données personnelles
  • L’émergence de nouveaux métiers et la transformation d’un existant : l’exemple de la médecine et des smarts cities
Il s’agit de brosser un portrait de l’existant et là encore j’ai pas été au bout de ma présentation.

Quelques services visuels créés à partir de l’interfaçage de base de données

Je laisse ensuite les élèves manipuler des services en ligne qui s’appuie sur des bases de données interfaçées (je ne sais pas si le terme est juste, c’est celui que j’ai employé).

Visualisation sur 5 postes en patate chaude de 5 services qui utilisent des données : 15 min / 3min par service

 
La journée type d’un lycéen : création d’une base de données

J’ai ensuite proposé un exercice : créer une base de données de la journée type d’un lycéen. Il s’agit de montrer comment on peut construire une base de données à partir de descriptions très particulières :
Ecrire, entre une demi page et une page, la journée type d’un lycéen de terminale. Le texte commence par "je me lève…" A partir de ce texte, on va construire la base de données "une journée type…" Il s’agit dans un premier temps de définir les champs sous forme de colonnes. Après avoir fait au tableau les deux premiers, et d’avoir choisi ensemble les intitulés, les élèves, par groupe de 5 vont travailler 10 minutes sur l’ensemble des champs puis retour à l’oral. Apports sur les notions de champs, de variables et d’enregistrements ; sur les notions de données structurées ; sur la notion de machine readable. On va ensuite afficher le texte d’un élève au tableau avant la base de données et en faire le premier enregistrement puis on va produire une gabarit en sortie et voir comment on passe de la base de données à l’affichage.
 
Cet exercice est intéressant je pense mais il aurait fallu mieux l’exploiter. Probablement en passant par du travail de groupe. Créer une telle base de données permet de montrer que tout est engrammable et que la base de données est au coeur du web. A la suite de l’exercice j’ai montré, via un phpmyadmin, les tables de ce blog. Un autre exercice qui aurait été intéressant mais que je n’ai pas fait : faire travailler les élèves à partir de leur page facebook sur les bases de données à l’oeuvre. Faire une ébauche, à partir du gabarit, des bases de données nécessaires.
 
On pourrait alors reprendre le premier exercice et faire dessiner (crayon + papier) un gabarit à paraitre en html d’une page visualisant les enregistrements de la base de données "journée type du lycéen". On pourrait ainsi travailler sur l’architecture d’une page internet et le rapport qu’il y a entre la base de données et la visualisation des données. Retour de la profondeur contre l’a-plat de la page.
 
Sur l’exportation de données : extension du cours

Avec le phpmyadmin, on peut aussi montrer l’exportation des données (ce que je n’ai pas fait) et travailler sur l’exportation des données. Il s’agirait alors d’aller prendre un jeu de données de l’insee afin de l’importer dans une feuille excel, et de travailler ensuite sur la visualisation. A l’issue de cet exercice, on pourrait être plus ambitieux et proposer un véritable exercice, avec navicrawler et gephitel que proposé par Franck Ghitalla lors de la formation URFIST Rennes2 que j’ai suivie en 2009Il faudrait bien sûr un peu plus de 2 heures mais c’est une piste d’évolution possible. Le diaporama qui suit peut permettre de trouver des entrées possible pour ce travail.
 
Des données vers les services : le travail des données

copier coller pris d’une page dont j’ai perdue la ref. Si vous passez par là, merci de me le dire si vous la connaissez
  1. acquérir, extraire, capter, collecter, intégrer, agréger
  2. transformer, convertir, nettoyer, (et munging etwrangling en anglais, une activité nouvelle, semi-automatique, qui consiste à traiter les données (par exemple les trier) pour les rendre plus facilement exploitables dans les étapes suivantes)
  3. raffiner, géocoder, ajouter des descriptions et des métadonnées, contextualiser
  4. préparer, sérialiser, indexer, classer, anonymiser, protéger
  5. comprendre, interpréter, apprendre sur, analyser, vérifier la pertinence
  6. présenter, visualiser, rapporter, partager
  7. post-traiter, rafraîchir, archiver, détruire
 
Qu’est-ce qu’un algorithme ?

Il s’est agit ensuite pour moi d’aborder la question de l ’algorithme, c’est à dire le traitement entre la base de données et la requête d’un usager. Voici ce que j’ai proposé : Un algorithme, c’est :
si....
Alors...
Sinon...A titre d’exercice, je les fait travailler sur l’algorithme de la recette des crèpeshttp://sweetrandomscience.blogspot.fr/2014/01/quest-ce-quun-algorithme-explication.html

Ensuite on va travailler sur les algorithmes très connu que sont le pagerank et le edgerang. Je n’ai pas travaillé cette partie mais elle mériterait très clairement d’être développé. Voici ce qu’il faudrait travailler :

Quelques rappels :

  • 1% du web est navigué
  • le moteur google indexe 10% du web et le reste est au dessous (analogie de l’iceberg)
  • google dit qu’il indexe 1000 milliards de page (pas de référence de cette affirmation)
  • google c’est 218 services, soit potentiellement au moins 216 bases de données
  • le vrai métier de google et Facebook, monétiser la donnée
Comment la base de données est constituées ? Les données sont donc d’abord produites par les usagers avant d’être indexé :

Comment google peut suggérer une recherche ?

  • - la base des requêtes
  • - l’historique de connexion
  • - l’interconnexion des bases

Nous sommes alors dans la base de données des intentions. Google sait ce que nous voulons et à partir de là, il est capable de prédire l’avenir : les requêtes google sur la grippe. A partir de là, on peut aussi voir la personnalisation à l’oeuvre. 5j’ai fait cet exercice mais il n’a pas fonctionné. A revoir.

recherche avec googleet startpage : “données en directe du monde”
http://www.worldometers.info/fr/ au premier rang sur google, pas sur startpage (ça avait marché en préparation mais sur un autre poste, au vidéo ça n’a pas fonctionné, ce qui peut se concevoir).

même base, serp différents

- l’importance du compte et de l’historique → personnalisation des résultats

Comment est construit l’algorithme de worlddometer ?
et Facebook : le EDGERANK
et Amazon, comment fait-il pour nous proposer des livres à lire ?
 
D’où viennent les données ? L’existant

Outre ces grandes bases de données évoquées ici, d’où proviennent les données. Voici quelques réservoirs de données présentés de manière arbitraire. Chaque partie qui suit pourrait faire l’objet d’un travail spécifique.


De grands sites institutionnels
Des particuliers à faible moyen

Des collectifs citoyens
Le mouvement open data
Enrichie par la foule (crowdsourcing)
Le marché des applications géolocalisées en temps réels
Le tourisme est dans le top cinq de l’utilisation des applications sur mobile. Selon GFK Mobile Insights l’usage des applications sur téléphonie mobile, en Grande Bretagne, aurait dépassé l’utilisation des sites internet.
  • La réservation aérienne et la carte d’embarquement
  • Les comparateurs
  • La réservation ferroviaire
  • La réservation hôtelière, voitures ou taxis privés
  • Les guides de voyages
  • La recherche de restaurants ou de lieux touristiques
  • Les plans
  • Le taux de change
 
D’où viennent les données ? La capture des données

Voici un diaporama qui pourrait être mieux amené. Dans tous les cas, je pense qu’il y a là un travail à faire avec les TPE et la deuxième phase après la problématisation, à savoir la collecte des données. On pourrait tout à fait travailler sur les modes de recueils des données existants et montrer ensuite tout l’internet des objets. Il ne s’agit ici que d’une ébauche.
 
Etude de cas : Les données de la SNCF

Exploration du site de la SNCF (10 minutes) rappel sur l’open data
  • Les données
  • Les API
  • La licence
  • Le logiciel corto de la société spallian

http://ressources.data.sncf.com/explore/ Ce que permet le logiciel spallian pour l’analyse des données sncf Il faudrait monter ici un questionnaire découverte afin de travailler à la fois sur la notion d’API et aussi sur le droit et notamment la licence.
 
Interfaçer
L’interfaçage, c’est l’ouverture d’une base de données au moyen des API
“Application Programming Interface. Interface de programmation permettant d’accéder à une application ou à un programme. Des jeux de données peuvent être rendus accessibles ainsi, soit par téléchargement (pour les jeux de données raisonnablement stables dans le temps) soit par API (pour les jeux de données très volumineux ou très volatiles).”http://www.data-publica.com/content/lexique-de-lopen-data/
 
Licence ouverte
Dans le cadre de la politique du Gouvernement en faveur de l’ouverture des données publiques (« Open Data »), Etalab a conçu la « Licence Ouverte / Open Licence ». Cette licence, élaborée en concertation avec l’ensemble des acteurs concernés, facilite et encourage la réutilisation des données publiques mises à disposition gratuitement. Depuis novembre 2011, la "Licence Ouverte / Open Licence" s’applique à l’ensemble des réutilisations libres gratuites de données publiques issues des administrations de l’Etat et de ses établissements publics administratifs, à l’exclusion de tout autre licence.http://wiki.data.gouv.fr/wiki/Licence_Ouverte_/_Open_Licence
 
Corréler
Corréler signifie mettre en relation deux jeux de données et en tirer des informations invisibles autrement. par exemple : Predpol
Santa Cruz, en Californie, août 2012. Il est 12 h 30. Un policier arpente une rue tranquille qu’il n’a pas l’habitude de surveiller. Quelques minutes plus tard, il arrêtera deux hommes en flagrant délit : ils tentaient de voler un véhicule. Quelques mois auparavant, deux de ses collègues qui "planquaient" aux abords d’un parking du centre-ville avaient interpellé deux femmes qui cherchaient à forcer la portière d’un véhicule. Dans les deux cas, les policiers n’étaient pas là par hasard. Ils se doutaient qu’un délit allait êtrecommis à cet endroit précis et ce jour-là.http://www.lemonde.fr/ameriques/article/2013/01/04/le-logiciel-qui-predit-les-delits_1812195_3222.html

Par exemple : Catch
Le projet CATCH par exemple propose de coupler génétique et analyse passive des comportements des patients atteints de diabète de type 2. En plus des informations médicales classiques sur les patients, une équipe pluridisciplinaire recueille quotidiennement en routine la localisation GPS, les données transmises par leur téléphone, des questionnaires sur leurs habitudes de vie, etc. Une mine d’informations sensibles au-delà des domaines classiques d’investigation, tirée du comportement des individus dans leur vie de tous les jours (living labs). -
http://vincentfromentin.fr/blog/les-big-data-et-lavenir-de-la-sante/
 
Voici comment la banque pourrait corréler plusieurs bases de données différentes
Il ne se passe pas une journée (ou presque) sans qu’un client ne soit en contact avec sa banque, ne serait-ce que via ses paiements par carte. Un acte qui, s’il est analysé, permet par exemple à celle-là de s’apercevoir que tel client se rend moins souvent que de coutume au restaurant et fréquente davantage des magasins à bas prix. Ce qui peut laisser penser qu’il va au-devant de difficultés financières. Une intuition qui peut être corroborée par le décryptage de données externes, comme ses états d’âme sur Facebook ou Twitter. Le big data, c’est-à-dire l’analyse de ces monceaux de données provenant non seulement des systèmes d’informations des banques, mais également des réseaux sociaux, des forums de discussions sur Internet, etc., permet d’établir des profils de clients beaucoup plus précis qu’à l’aide de « simples » statistiques. Si bien que la banque est alors en mesure de proposer à son client un produit véritablement adapté à sa problématique actuelle. http://www.latribune.fr/entreprises-finance/banques-finance/industrie-financiere/20130403trib000757303/vos-traces-numeriques-interessent-diablement-les-banquiers.html
 
Enjeux
Fin de la causalité (cause conséquence) et mise en avant d’un monde ou domine la corrélation, sans comprendre pourquoi ni comment ? Débat actuel à relativiser cependant car très contextuel. Qu’en sera-t-il dans 5 ans ?
 
Les trois V des big data
Aujourdhui, les big datas
infopollution/infobésité…
buzzword : marketting et accomodation conceptuelle
 
Volume des données recensées
  • - augmentation des producteurs d’informations (les usagers qui fréquentent des bases de données)
  • - augmentation et diversification des usages
  • - augmentation des variables
  • - génération de données par les machines
  • - croissance des historiques de données
  • - traçage
  • - puissance de calcul
  • - hétérogénéité des données – structurées / non structurées
  • - hétérognéité des sources

vitesse
  • - temps réel / temps continu
  • - mise à jour en temps réel
  • - temps de réponse du service (détection de carte bancaire fausse)

variété
  • – données numériques
  • – données textuelles : fouille de texte et statistique lexicale
  • – analyse de son / analyse d’image reconnaissance d’image / reconnaissance faciale
 
Besoins de techniques statistiques

text mining, webmining, datamining (fouille de données), analyse de logweb (metadonnées de connexion) travaillé à partir de http://www.sites.univ-rennes2.fr/webtv/appel_film.php?lienFilm=814
Il faudrait travailler ici avec un logiciel comme tropes afin de permettre de faire des comptages de mots sur des corpus de textes. A voir aussi tout le travail sur le traitement automatique du langage chez jean veronis par exemple et son travail sur le lexique des discours de campagne des présidentiables 2012.
 
La donnée, l’or noir du 21e siècle

Voici quatre exemples d’utilisation des données personnelles. Vous vous connectez sur votre profil gmail, sur votre profil facebook et sur votre profil twitter et vous allez pouvoir voir comment sont analysés vos profils. Les deux premières applications sont basées sur le principe de l’analyse mathématique des réseaux.

  • visualiser votre réseau gmail – avec qui êtes-vous le plus en contact – les propriétés des réseaux (distributivité – intensité) - un travail à réaliser à partir du travail de Pierre Mercklé sur la sociologie des réseaux - https://immersion.media.mit.edu/viz

que peut-on savoir à partir de ça ? On peut parler ici du
 Gaydar ? D’autres exemples à trouver de corrélation avec les données personnelles.
 
De nouveaux services en ville : à propos de l’innovation permis par la libération des données
Exemple de création de services à partir de données ouvertes : le vélib à Paris
Open data des transports parisiens à partir du velib
résultat du concours moovinthecity
système de partage de parcours des vélib

Exemple de création de services : Laval
> 1er prix « meilleure idée »

ESIEA Ouest pour le projet « Eco Citizen 53 » : il s’agit de signaler par photo ou par sms les « déchèteries sauvages », identifier la déchèterie la plus proche et ses caractéristiques (horaires, types d’encombrants…) et permettre un retour des actions menées auprès du Conseil général
> 1er prix « meilleure application »

ENSAM – Arts et Métiers Paris Tech pour le projet « Rallye Laval » : c’est un « serious game » pour découvrir une ville via ses sites touristiques (photos) et ses administrations (accès bases de données en open data) en résolvant des énigmes. Il s’agit d’être un touriste intelligent et curieux. L’application proposée a été réalisée sur la ville de Laval.

> 1er prix « conduite de projet »

Institut Informatique Appliquée – Chambre de commerce et d’industrie de la Mayenne pour le projet « Your sport » : il s’agit de proposer ou rechercher des partenaires pour réaliser un événement sportif à partir du recensement des équipements sportifs dans le département.

> 2ème prix « meilleure idée »

Institut Informatique Appliquée – Chambre de commerce et d’industrie de la Mayenne pour le projet « Bouge à Mayenne » : il s’agit de donner des informations sur les événements et de les géo-localiser avec la possibilité d’enrichir les données par l’utilisateur et de proposer d’autres événements via cette application. L’expérience a été menée sur la ville de Mayenne.

> 2ème prix « meilleure application »

Institut Informatique Appliquée – Chambre de commerce et d’industrie de la Mayenne pour le projet « Trail Buddy 53 » : cette application doit permettre d’estimer le temps de parcours sur le chemin de halage et comparer pendant/après avec le temps réalisé quelque soit le mode de déplacement choisi (piéton, cheval et vélo).
 
Pour aller plus loin
Exercice : Les services liés à la santé et au vieillissement /

possible aussi avec les services touristiques
Faites une recherche d’actualité et proposez en commentaires des services actuels (avec le lien de la page trouvée et une présentation rapide du service, qui visent à améliorer la santé et le vieillissement des personnes
 
Exercice : corrélez des bases de données et proposez un service utile au lycée

Par groupe de 5, vous allez proposer un service qui s’appuie sur plusieurs bases de données (toutes ou parties)
  • la base de données des identités des élèves du lycée
  • la base de données des résultats scolaires des élèves et toutes les informations liées au livret scolaire de l’élève
  • la base de données de suivi de la vie scolaire
  • la base de données de la journée type d’un lycéen
  • votre smartphone connecté avec gps et wifi
  • une carte interactive avec représentation des salles, en couche supplémentaire sur un google map
 
Infographie et datajournalisme : visualisez la donnée

Datajournalisme
[caption id="" align="alignnone" width="645"]
800px-Minardb215-b66f8


Carte figurative des pertes successives en hommes de l’armée française dans la campagne de Russie 1812-1813 par Minard - cc wikipedia[/caption]

Trois objectifs

  • - rendre visible l’invisible et recouper les données pour faire surgir des informations inaccessibles autrement (aspect informationnel) - cf les déportations d’enfants juifs
  • - rendre accessible immédiatement (aspect cognitif) - codage de l’information (rôle des émotions - double codage) / image et texte / immédiat vs temps / s’inscrire dans les pratiques médiatiques des usagers
  • - raconter une histoire (aspect communicationnel) - attirer l’attention dune cible désigné (le lectorat du journal), jouer sur l’émotion pour faire passer l’information, jouer sur l’aspect wahooo
 
Quelques exemples
3/ le datajournalisme se base sur l’investigation et la méthode Ce nouvelle forme de journalisme est l’occasion de renouer avec l’investigation, et de s’éloigner du bâtonnage de dépêches. Pour exemple, Doig revient sur l’enquête sur l’ouragan Andrew, qui s’est faite en plusieurs étapes, parmi lesquelles : > la récupération de la liste des maisons qui avaient été endommagées > la récupération des données concernant l’impôt foncier > la recherche d’une correspondance entre les deux bases (année de construction, dimension, localisation) > l’accès à la base de données des inspections de la construction des bâtiments, qui a montré que certains jours un inspecteur pouvait valider jusqu’à 70 toitures. http://atelier.rfi.fr/profiles/blogs/datajournalisme-vers-un-journalisme-d-excel-lence
La data-newsroom du guardian - http://www.theguardian.com/news/datablog L’affaire Snowden : un exemple de traitement sur le washington posthttp://apps.washingtonpost.com/g/page/national/how-the-nsa-is-tracking-people-right-now/634/

Cartographier pour donner du sens
La carte pour représenter : carte sensible
[caption id="" align="alignnone" width="610"]

map 0jpg-a46a464-5a641
Les surprises de la carte du monde selon les connexions internet[/caption]
Cartographier des réseaux

blogo2009png2f0f-fdb37
Infographies

Pour conclure, objectivité des données et de leur exploitation
données/information/connaissance/savoir
objet/sujet différent de objectif/subjectif
1. mais en amont il y a les faits, les actions - une donnée est donc aussi un construit
pose la question de la structuration : qui fait les champs ?
2. et en amont pose la question des choix liés au code : doris lessing code is law. Celui qui code met dans le code une idée du monde
3. pose la question du design de la bdd et du jeu des données et pose aussi la question du nettoyage des données - comment prendre un jeu de données et le réintingrer dans une nouvelle base de données ? Cf. La question des formats : csv, xml
cf. data.gouv.fr
4. pose aussi la question du design de la visibilité et de la mise en scène des données
Et pour conclure, deux questions :
5. en amont, quelles sont les intentions de celui qui structure les données et qu’elles sont les moyens qu’ils se donnent pour faire la collecte des données, selon quelles méthodologies
6. En aval quelles sont les intentions de celui qui rend visible les données
Bibliographie non sélective
Le wiki du gouvernement sur l’opendata
Un symbaloo(favoris sur l’open data) mis à jour et un google drive qui recense les services accessibles
La carte des collectivitésd engagée dans une démarche opendata
un article sur une remise en cause argumentée d’une démarche de visualisation des données Les big data,
le blogd’Henri Verdier
sur les infographies, un magazine russe et aussi many eyes des exercicesde datajournalisme et une méthodologie pourcollecter des données sur Wikipédia : l’exemple des salles du culte musulman à Paris
Dernière modification le vendredi, 10 octobre 2014
Peirano Richard

Passionné par tout ce qui touche à l’expérience professionnelle et à la réflexivité dans l’apprentissage au travail, je veux faire évoluer ma pratique vers l’accompagnement et la formation à l’employabilité (promotion de son identité, développement de son réseau, analyse de son activité…) et à la professionnalité (bilan de compétences et d’orientation, portfolio…) 
Je travaille depuis 2006 avec un blog portfolio de compétences qui est à la fois mon outil d’auto-apprentissage de praticien réflexif et la mémoire de mes activités et de mes pratiques. 
C’est ainsi que j’ai analysé mes pratiques dans la durée et défini mon activité et mes compétences. Travail poursuivi par un bilan de compétences (Actual 2013) qui met en avant cette dimension réflexive et formative. 
Je suis aujourd’hui enseignant-documentaliste dans un lycée avec des compétences en pédagogie et didactique autour des 3 littéracies information-documentation, communication, usages des outils numériques ; en médiation culturelle ou numérique ; en management de projet et de service et en accompagnement à la maîtrise de projets pédagogiques et culturels. 
J’interviens depuis 2007 en vacation, de manière ponctuelle ou durable, en présence ou à distance, pour des universités et grandes écoles (Le Mans, d’Angers, Rennes 2, Strasbourg, Limoges, ITIN Cergy) et des organismes de formation liés à l’éducation (IFEAP, CRDP, IFUCOME, INIST) 
Je construits et j’anime des formations sur la veille et la recherche d’informations, la promotion/gestion de son identité numérique et de sa e-reputation, le personnal knowledge management, la certification des compétences en situation, le choix des outils pour son environnement d’apprentissage personnel, les réseaux et médias sociaux auprès de lycéens, d’étudiants en formation initiale ou continue (accompagnement de projet, tutorat, enseignement) et d’adultes en formation professionnelle.
J’ai été membre du jury de CAPES interne de documentation de 2008-2012. 
J’ai aussi écrit des articles pour des revues professionnelles.