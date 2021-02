Une grande proportion d’entreprises aujourd’hui prend naissance sur internet ou utilise le web pour accroître potentiel et chiffre d’affaires. Un procédé marketing est particulièrement sollicité et efficace : le web scraping.

Si l’on veut en donner une définition générale, le web scraping est le fait d’extraire des données du web, via des navigateurs internet mais aussi de sites en particulier, à l’aide des protocoles HTTP. Il s’inscrit souvent dans une démarche de growth hacking, qui consiste pour les entreprises à utiliser tout un package de stratégies marketing informatiques et virtuelles.

Le webscraping s’effectue à l’aide de bots, de scripts spécifiques, de programmes ou même d’applications élaborées par des développeurs. L’outil, ou logiciel, va serpenter à travers les méandres du net vers des liens en particulier, « gratter » les informations programmées pour être détectées, puis éventuellement stocker ces données de façon structurée.

Le résultat, bien que parfois éphémère, est généralement une visibilité accrue, des décisions commerciales ajustées sur les tendances actuelles et par conséquent, une croissance de l’entreprise. La liste des données à recueillir est vaste, elle comprend tant des avis clients que des mailing lists, des relevés tarifaires de la concurrence ou encore des profils d’utilisateurs et du contenu web. Les sites annuaires peuvent être visés par le web scraping pour produire d’autres bases de données ailleurs, sur un site concurrent.

Dans les faits, ceux qui produisent ces contenus ou qui référencent ces données, peuvent décider de partager ces informations avec l’usage d’une API en contrôlant les données extraites, voire en les monnayant. Mais il arrive que le « pompage » des données ne soit pas voulu, qu’il soit effectué sans l’autorisation du site source. S’ils ne veulent alors pas partager leurs informations, ils peuvent protéger leur site à l’aide de techniques de détection de bots pour éviter le webscraping. Parfois, cela ne suffit pas.

Toutes les données publiques sont en principe « scrapable » mais il est toutefois nécessaire de s’assurer de la légalité de telle ou telle pratique. La législation définit un certain nombre de points dans ce domaine, même si la jurisprudence, en France ou ailleurs, est encore en train d’évoluer et de se bâtir. Le processus de webscraping n’est pas tout à fait nouveau mais le web et les technologies changent très vite, tout comme les stratégies commerciales. C’est principalement depuis 2010 que cette pratique s’est démocratisée et automatisée. La majorité des procès naissent de différends entre entreprises, certains considérant cette pratique comme déloyale ; un vol de données ou du parasitage.

Pourtant, ce n’est absolument pas le webscraping qui est illégal et répréhensible mais l’utilisation des données récoltées. Selon la législation, il faut qu’elles soient au moins un minimum transformées pour être réutilisées, qu’elles soient sous statut publique et non privé mais aussi que l’entreprise ait dû fournir un effort financier notable pour pouvoir les exploiter, le cas échéant.

Des logiciels ainsi que différents abonnements « clé en main » vous sont proposés par des sites spécialisés pour tout type de scraper (outil) et tout type d’application. Les tarifs sont bien sûr évolutifs en conséquence.

Il existe même des métiers dédiés au webscraping (Data Quality Manager par exemple), ou alors ce sont des compétences dans ce domaine que l’on demande certaines fois aux responsables marketing. Le web scraping fait bel et bien partie des stratégies digitales incontournables de nos jours.

De nombreuses start-ups utilisent ce procédé pour obtenir une croissance rapide mais des géants du net y ont aussi recours, comme Google, qui se sert tout bonnement de ces informations pour améliorer la qualité de ses services (shopping, actualité…).

En tant qu’utilisateur d’Internet, sachez notamment que Leboncoin, LinkedIn ou Les pages Jaunes sont autant d’exemples de sites « victimes » de web scraping, cela explique pourquoi après posé une annonce sur une plateforme spécialisée, vous êtes souvent contacté dans la foulée par des démarcheurs en tout genre.