dimanche 28 avril 2013

Open data et données personnelles : mythes et réalité… mouvante



Par S. Blanc
Publié le 26/04/2013
L’open data a récemment été accusé de représenter un danger pour les données personnelles. Dans les faits, le cadre légal est pourtant bien posé. Un mauvais procès qui occulte de vraies questions de fond : formation des administrations, partage volontaire des données personnelles par les internautes, pouvoirs de la Cnil...
En janvier 2013, le sénateur (PS) Gaëtan Gorce, membre de la Cnil, s’est fait remarquer en demandant l’arrêt de l’open data, s’alarmant des « menaces considérables qu’il représente déjà pour le respect de la vie privée », voire « la perspective d’un fichage généralisé à des fins privées », par « recoupement des données brutes [...] voire avec celles (le Big-Data) dont des entreprises sont déjà en possession ».
Dans une question écrite publiée au Journal Officiel, il a renchéri en demandant « la mise en place de règles protectrices des personnes ». Dans la foulée, la Cnil a annoncé une consultation sur le sujet.
('*)

Un “non-sujet” - Cette sortie spectaculaire a de quoi jeter le doute dans l’esprit des collectivités territoriales qui voudraient se lancer, d’autant que l’open data deviendra une obligation pour les collectivités de plus de 3500 habitants, comme le prévoit le troisième texte du projet de loi de décentralisation. Pourtant, les règles qu’exige le sénateur existent bien déjà. « Pour nous, c’est un non-sujet », tranche Tangui Morlier, de Regards citoyens. « Il n’y a pas à notre connaissance de précédent de profilage dans l’histoire de l’open data », rajoute Benjamin Gans, de Data publica, une société qui développe des jeux de données pour ses clients.
L’open data concilie l’accès à l’information publique, encadrée par la loi du 17 juillet 1978 qui crée un droit de réutilisation des informations publiques, réaffirmé par la directive PSI de 2003, transposée en 2005 en droit français et dont la révision a été approuvée par le Conseil de l’UE, le  10 avril 2013 . La loi Informatique et libertés du 6 juin 1978 assure de son côté que la vie privée est bien protégée. De jure, les données personnelles sont exclues de l’open data.
La Cnil rappelle que « “les informations figurant dans des documents produits ou reçus par les administrations, peuvent être utilisées par toute personne qui le souhaite à d’autres fins que celles de la mission de service public pour les besoins de laquelle les documents ont été produits ou reçus” sauf si leur “communication porte atteinte à la protection de la vie privée, au secret médical et au secret en matière commerciale et industrielle.”
La réutilisation est possible dans trois cas :
1.      la personne concernée y a consenti,
2.      les données ont été anonymisées,
3.      une disposition législative ou réglementaire le permet. »
Secret statistique - Pour compléter ce dispositif, la loi n° 51-711 du 7 juin 1951 a défini le concept de secret statistique, détaille l’Insee : « [il] interdit, pendant une durée de soixante-quinze ans et sauf dérogation, faite après avis du Comité du secret statistique et pour une finalité de statistique publique ou de recherche scientifique ou historique, toute communication de données ayant trait à la vie personnelle et familiale, et plus généralement, aux faits et comportements d’ordre privé recueillies au moyen d’une enquête statistique. [...] Ces règles interdisent aussi la publication de données qui permet traient une identification indirecte des répondants et de leur réponse, concept appelé « impossibilité d’identification ». Ces règles limitent la finesse des informations au niveau de la diffusion. »
Séverin Naudet, l’ancien directeur d’Etalab, a aussi précisé, en réponse à Gaëtan Gorce, qu’« aucune donnée brute provenant du service d’Etat civil ou du cadastre n’ont été publiées et les seules informations fournies par les tribunaux sont des statistiques ». De plus, les décisions de justice publiées sur Légifrance sont anonymisées. Le nom des parties est supprimé, remplacé par des X et des Y.
Il faut aussi souligner que de nombreux jeux de données ne concernent pas des individus : le pionnier Rennes par exemple, met à disposition la localisation des déchèteries et des plate-formes pour les déchets verts, celle des aires de jeux pour enfant ou encore les aires de stationnement payant.
Ce que nous mettons en ligne -  « Le problème n’est pas dans l’open data en lui-même mais dans l’usage, avec les croisements de données », résume Claire Gallon, de LiberTIC. Et donc dans les données personnelles que nous mettons spontanément en ligne et qui sont ensuite réutilisées à des fins commerciales. À la Cnil de se pencher sur la question « de la perte de gouvernance des données personnelles, poursuit Tanguy Morlier. Elle devrait pouvoir donner le pouvoir de retirer des données personnelles du cloud ou des services en ligne ».
À ce titre, il faudra suivre avec attention la révision du règlement européen concernant la protection des données personnelles, avec le vote fin mai 2013 du rapport de la commission Libertés publiques sur le sujet. Révision qui pourrait entrer en conflit avec l’actuelle cadre de l’open data.
Formation des administrations - Tout cadre législatif amène bien sûr des écarts, volontaires ou non. La formation des administrations et des établissements publics constitue donc aussi un des vrais enjeux du débat. Ainsi l’Insee a retiré des données carroyées – découpant le territoire en carré de 200 mètres – et géolocalisées indiquant revenu, nombre d’habitations et nombre de personnes par foyer fiscal qui, croisées avec Google Maps ou Earth, permettaient de déduire les revenus de certains (riches) habitants, comme l’avait révélé Le Canard enchainé fin février 2013.
Et les écarts susceptibles de jeter le trouble proviennent parfois de l’Etat lui-même, qui commercialise moyennant redevance le fichier des cartes grises, en mettant en opt out  la réutilisation des données personnelles, c’est-à-dire que par défaut, la case « réutilisation » est cochée. « Ce n’est pas de l’open data, par définition », martèle Tanguy Morlier.
Pas de finalité définie, à l’origine - Le cadre général doit aussi être complété par des « recommandations spécifiques », estime Simon Chignard, auteur de L’open data, comprendre l’ouverture des données publiques. « Il n’y a pas de définition juridique de l’ouverture des données ». Il prend en exemple le fichier des prénoms, très utilisé : « À Rennes, les prénoms utilisés moins de 6 fois ne sont pas listés, un choix inspiré par le secret statistique de l’Etat civil, qui exclut les prénoms utilisés moins de 5 fois, c’est à l’appréciation. Du coup, soit 60% des prénoms ne sont pas indiqués, ce qui fausse les données. Mais sur data.gouv.fr, il y a des villes qui ont indiqué des prénoms donné une seule fois. » Il estime même qu’il y a « inadaptation de l’outil juridique actuel ». Les données personnelles « sont collectées pour des finalités déterminées, explicites et légitimes et ne sont pas traitées ultérieurement de manière incompatible avec ces finalités. » « Or dans l’open data, la finalité n’est pas définie à l’origine », analyse Simon Chignard.
Cada et Cnil , arbitrent la généalogie - De fait, qui aurait pu prévoir voilà 200 ans que les recherches généalogiques susciteraient l’engouement des Français et la création de services commerciaux utilisant les archives départementales ? Une série de décisions de la Cada et de la Cnil ont clarifié le débat qui oppose les archives à Notrefamille.com, qui édite Genealogie.com, un site proposant des données issues des archives départementales.
Les archives, toutes données publiques qu’elles soient ne sont d’ailleurs pas stricto sensu de l’open data, selon les militants de la réutilisation des données, puisqu’elles ne sont pas accessibles gratuitement sous un format exploitable.
Le risque pour les données personnelles faisaient partie des arguments avancés pour justifier que les archives gardent le monopole de la valorisation de ces fonds. « Je ne vois pas de problème », tempère Jordi Navarro, un archiviste blogueur.
« La loi n° 2008-696 du 15 juillet 2008 a introduit le principe de la libre communicabilité des archives, rappelle la Cada. Dans la pratique, les documents administratifs librement communicables, notamment sur le fondement de la loi du 17 juillet 1978, restent communicables sans restriction après leur versement aux archives. » Le délai de communicabilité est actuellement de 75 ans pour l’Etat-civil, contre 100 ans avant cette loi. Sur son site, la CNIL précise qu’elle « encadre cette diffusion en ligne par l’autorisation unique n°AU-029 : “ARCHIVES PUBLIQUES” en demandant notamment : l’occultation, durant un certain délai, des données sensibles ainsi que, pour les actes d’Etat civil, des mentions marginales et une large information des personnes sur les modalités pour exercer leur droit d’opposition à cette publication de leurs données. »
Indexation des données nominatives - En outre, l’indexation des données nominatives est interdite avant un délai qui court de 75 à 120 ans selon leur type. Enfin, le traitement des données doit avoir reçu l’autorisation de la Cnil, ce qui est le cas de NotreFamille. « Parmi ces documents, seuls les recensements de 1851 comportent des données sensibles (religion et santé), poursuit Jordi Navarro. En l’espèce, l’entreprise a apporté la garantie que ces données seront systématiquement masquées. La mise en place d’enclosures par Notrefamille me semble bien plus préoccupante. » En clair, le vrai risque, c’est que Notrefamille ne deviennent une sorte de Google de la généalogie, avec un monopole sur ce service.
L’affaire Fourmi santé a aussi donné lieu à un avis de la Cada concernant les données personnelles. Lauréat du prix Dataconnexion organisé par Etalab, Fourmi santé est un service en ligne qui indique quels sont les médecins qui font des dépassements d’honoraires. Il utilise entre autres les données d’Ameli.fr. La Cada a estimé que les noms des médecins étaient bien des données personnelles, et qu’il fallait donc leur autorisation pour les utiliser ailleurs que sur Ameli.fr. La Caisse nationale d’assurance maladie (CNAM) a envoyé au site une mise en demeure afin qu’il retire « retirer tout lien avec le site Ameli.fr permettant d’exploiter les tarifs ‘publics’ des médecins et de les comparer en toute objectivité.
« La définition entre vie professionnelle et vie privée évolue ; elle doit être redéfinie, commente Claire Gallon. Dans ce cas-là, le nom de la personne se confond avec celui de la structure professionnelle. » Du travail en perspective pour la Cnil, dont les moyens sont déjà maigres pour l’ampleur de ses tâches.
Ni la Cnil ni Gaëtan Gorce n’ont répondu à notre demande d’entretien
 (*)
La liberté, ce bien qui fait jouir des autres biens », écrivait Montesquieu. Et Tocqueville : « Qui cherche dans la liberté autre chose qu’elle même est fait pour servir ». Qui s’intéresse aujourd’hui à la liberté ? A celle qui ne se confond pas avec le libéralisme économique, dont on mesure combien il peut être source de prospérité mais aussi d’inégalités et de contraintes sociales ? A celle qui fonde le respect de la vie privée et la participation authentique à la vie publique ? La liberté devrait être au cœur de la démocratie et de l’Etat de droit. En même temps, elle ne peut être maintenue et garantie que par la vigilance et l’action des individus. Ils ne sauraient en être simples bénéficiaires ou rentiers, ils doivent non seulement l’exercer mais encore surveiller attentivement ses conditions d’exercice. Tâche d’autant plus nécessaire dans une période où les atteintes qui lui sont portées sont aussi insidieuses que multiples.

Aucun commentaire: