Scraping de données en ligne: pratique illicite?

La récente affaire OpenLux ayant visé le Grand-Duché est l’occasion de s’interroger sur la légalité de la pratique consistant à «scraper» des données, c’est-à-dire à extraire de manière automatisée de grands ensembles de données accessibles en ligne et à les réutiliser.

Rappelons que l’affaire OpenLux a pour origine non pas une fuite de documents transmis à la presse, comme cela a été le cas dans les affaires «Panama Papers» ou «LuxLeaks», mais l’extraction massive d’informations issues de bases de données publiques, à savoir le Registre de commerce et des sociétés et le Registre des bénéficiaires effectifs, et leur reconstitution au sein d’une gigantesque base de données comprenant quelque 3,3 millions de documents.

Or, avant de pouvoir exploiter des données, encore faut-il les collecter, soit manuellement, ce qui peut nécessiter un temps considérable lorsque le volume de données à récupérer est important, soit au moyen de programmes informatiques permettant de cibler, récupérer et stocker automatiquement les données contenues sur des sites Internet, ce que l’on appelle web scraping, screen scraping, web data mining ou encore web harvesting. Tel a été le cas dans l’affaire OpenLux.

Le web scraping a toutefois bien d’autres applications: analyser les prix de sites e-commerce concurrents, surveiller la réputation d’une marque, obtenir des informations sur les données rendues publiques par une personne (notamment sur les réseaux sociaux), etc. Mais est-ce toujours légal?

Ce n’est pas parce que des données sont librement accessibles en ligne sur des sites Internet que celles-ci sont librement réutilisables.

Un site Internet comporte généralement des textes, des photographies, des dessins, des vidéos, etc… autant d’éléments qui peuvent être protégés individuellement par le droit d’auteur, dès lors qu’ils sont originaux. Ces éléments ne peuvent en principe pas être reproduits et communiqués au public sans l’autorisation de leur auteur. Ce n’est que dans des cas limités qu’il est possible de passer outre un tel accord préalable (ex.: droit de citation, copie privée, etc.).

Mais un site Internet peut également comporter des éléments qui ne sont pas protégés par le droit d’auteur, tels que des données de contact, des annonces, des statistiques ou d’autres informations «brutes».

Ces données ne sont pas pour autant toujours libres de droit: l’éditeur du site Internet peut en effet bénéficier de droits spécifiques sur celles-ci, en qualité de producteur de bases de données. Pour ce faire, il faut que l’obtention, la vérification ou la présentation du contenu de la base de données atteste d’un investissement qualitatif ou quantitatif substantiel. Si cette condition est remplie, le producteur de la base de données se voit conférer le droit exclusif d’autoriser ou d’interdire l’extraction ou la réutilisation de la totalité ou d’une partie substantielle du contenu de cette base. Il peut également s’opposer à l’extraction ou à la réutilisation de parties non substantielles dès lors qu’il s’agit d’actes répétés et systématiques. Cela signifie a contrario qu’une extraction d’une partie non substantielle d’un site Internet et qui reste isolée et non systématique n’est pas répréhensible. Par exception également, les bases de données appartenant à l’État et rendues licitement publiques sont en principe reproductibles, dans les conditions prévues par le règlement grand-ducal. Aucun règlement grand-ducal n’a été promulgué à ce jour, mais la loi du 4 décembre 2007 sur la réutilisation des informations du secteur public permet expressément aux organismes concernés de subordonner la réutilisation de leurs données à des conditions. Le scraping de données n’est donc pas illégal en soi, mais il doit respecter les droits de propriété intellectuelle des tiers.

Indépendamment de ce point, dès lors que les données collectées et traitées à travers le web scraping sont à caractère personnel, la réglementation applicable, et notamment le RGPD, doit être respectée. Cela implique notamment d’informer les personnes concernées du traitement dont font l’objet leurs données personnelles et des buts de ce traitement, voire d’obtenir leur accord préalable en cas d’utilisation à des fins de démarchage électronique.

Privilégier les données sous licence libre ou se poser les bonnes questions.

La méthode la plus sûre juridiquement pour réaliser un scraping licite de données à grande échelle est de privilégier les données publiques distribuées sous une licence libre et ouverte, telles que les données publiées sur le Portail Open data, . La très grande majorité des documents publiés sur ce portail est sous licence Creative Commons Zero (CC0 – public domain), ce qui signifie que le producteur desdites données a expressément renoncé au droit d’auteur et au droit sui generis de producteur de base de données sur lesdites informations, et que celles-ci peuvent être exploitées de la manière la plus large possible.

Au-delà de ce cas particulier, tout processus de web scraping nécessite de se poser en amont les bonnes questions sur les règles à respecter en matière de propriété intellectuelle, de données personnelles, ou encore de droit de la concurrence.