Web Scraping : Automatisez l’extraction des données

Le Web Scraping ou l’automatisation de la collecte de donnéeVous souvenez-vous de ce moment lors d’une veille concurrentielle en ligne où vous avez dû manuellement rentrer des données sur un tableau Excel ? Imaginez que vous puissiez faire la même chose, avec une collecte de données encore plus complète en seulement quelques minutes ! C’est là qu’intervient le Web Scraping (oui encore un anglicisme).

Le web scraping est aussi appelé data scraping traduit littéralement par « grattage de données ». Et c’est exactement ça.

Le Web Scraping regroupe l’ensemble des techniques qui vont permettre d’automatiser l’extraction de données présentes sur un site web public.

Revenons aux bases : sur un site, certaines données vont être affichées sous un format particulier qui va rendre leur extraction compliquée. Il suffit que ce ne soit pas des lignes de texte HTML pour que l’affaire se complique. Et donc on se retrouve à devoir faire du copier/coller manuel pour pourvoir les exploiter (technique très chronophage). Les outils de scraping vont automatiser l’extraction des données et les mettre sous un format plus facilement exploitable (XML ou CSV par exemple).https://blog.mbadmb.com/wp-content/uploads/2021/01/web-scraping.png

Le Web Scraping regroupe l’ensemble des techniques qui vont permettre d’automatiser l’extraction de données présentes sur un sites web public.

À quoi peut me servir le web scraping?

Le web scraping a de nombreux usages : certains étant légaux et d’autres non (retrouvez cette deuxième catégorie à la fin de l’article). Ici nous allons nous concentrer sur les usages du web scraping qui vont vous êtres utiles au quotidien :

Automatiser le suivi des prix :

Si vous souhaitez avoir un aperçu des prix de vos concurrents et leurs variations dans le temps, certains scrapers (outils de scraping) vont vous permettre de le faire en temps réel. Pour certains secteurs c’est un véritable atout car va permettre un ajustement en continu de la tarification (très intéressant si la demande est élastique au prix). Pour les E-commerçants d’appareils électroniques ou les sites de voyages, cela est d’autant plus important qu’il existe de nombreux comparateurs en ligne pour ces types de produits.

Automatiser sa veille concurrentielle :

Comme dit précédemment, l’automatisation de la collecte de données va vous permettre d’aller beaucoup plus vite sur votre travail de veille. Que ce soit pour avoir un aperçu des listings produits ou leurs descriptions, les données scrapées vont pouvoir être intégrées sur un tableur (XLS par exemple). Cela facilitera leur analyse et les comparaisons avec vos propres données. Imaginez le gain de temps pour les équipes marketing !

Obtenir des données publiques sur des prospects (très utilisé en B2B) :

Le web scraping va permettre d’enrichir votre base de données de prospects en récupérant des informations de contact (numéros de téléphone / e-mails / nom de compte). Cela peut être très utile dans le cadre d’une stratégie de cold mailing. Les sites scrapés sont ceux qui vont agréger ces données publiques. Il va donc s’agir d’annuaires publics en ligne, de sites professionnels comme LinkedIn et Indeed ou encore certains réseaux sociaux comme Instagram et Twitter.

Automatiser la surveillance des médias en ligne :

Si votre activité dépend de l’actualité, le web scraping peut se révéler efficace. Vous allez pouvoir extraire des données de contenu présentes dans les articles des sites médias. Résultat ? Une surveillance en continu de ce qui peut se dire sur un sujet. On peut également scraper directement les tendances sur les réseaux sociaux et ainsi analyser les comportements autour d’un sujet cible.

Le Web Scraping va aussi avoir des usages propres à pleins de secteurs différents. Par exemple on peut faire du scraping de prix d’actions pour optimiser ses investissements. Ou encore scraper des données sur des sites dédiés au sport pour ajuster ses paris. Comme vous l’aurez compris, la liste d’usages possibles du web scraping peut être très longue. Le nombre d’usages se limite réellement de l’utilisation des données collectées (nombre qui est donc presque infini).https://blog.mbadmb.com/wp-content/uploads/2021/01/undraw_data_trends_b0wg-600×443.png

Concrètement comment faire du web scraping ?

Avant même de parler des méthodes de scraping, il est important de rappeler les étapes nécessaires avant de se lancer. Pour que votre web scraping soit efficace il faut en amont :

Définir l’objectif de l’extraction de données. On ne le répètera jamais assez : avancer sans objectif clair en digital n’est pas la bonne marche à suivre. Pour que votre collecte soit optimale il faut définir pourquoi vous collectez ces données (veille concurrentielle ? campagne de cold mailing ? etc…)

Identifier les sites clés pour mon extraction de données. Il est important de voir à cette étape si des conditions particulières de protection des données s’appliquent ou non. Ces informations peuvent se retrouver dans les CGV ou les CGU.

Réfléchir à la manière dont vous souhaitez que vos données soient organisées et traitées. Pourquoi ? Pour permettre l’optimisation de vos analyses en vue de vos objectifs. Cette structuration va vous servir à définir précisément les données qui sont essentielles et les différencier des données parasites.

https://blog.mbadmb.com/wp-content/uploads/2021/01/undraw_Data_re_80ws-600×416.png

Passons maintenant à la pratique

Il existe deux techniques pour scraper un site :

En codant son propre scraper

Cette méthode va permettre une personnalisation particulière du scraping. On va pouvoir coder un outil qui sera parfaitement paramétré pour récupérer les données qui nous intéressent. Le langage utilisé va dépendre du type de site cible. Généralement les scrapers sont codés en Python, JavaScript ou Ruby. Cependant, cette technique de scraping nécessite d’avoir un minimum de connaissances en programmation.

En utilisant des logiciels ou extensions de web scraping

Pour ceux qui ne sont pas à l’aise avec le code pas de panique ! Aujourd’hui il est possible de trouver (presque) tout sur internet. Et gratuit pour certains outils ! Ainsi de nombreux logiciels et extensions navigateur ont vu le jour pour vous permettre de scraper facilement des données.

Pour rappel : il est indispensable de définir ses objectifs au préalable pour savoir quel logiciel ou extension de web scraping sera le plus adapté à vos besoins.

À noter également : les extensions de scraping ont l’avantage d’être directement intégrées aux navigateurs. Elles sont donc plus faciles à utiliser. Cependant, les logiciels restent plus complets en termes de fonctionnalités.https://blog.mbadmb.com/wp-content/uploads/2021/01/undraw_Data_points_re_vkpq-600×386.png

Les logiciels et extensions de Web Scraping

Vous trouverez ci-dessous une liste non-exhaustive de 4 outils de web scraping très utilisés (2 logiciels + 2 extensions). Si vous souhaitez avoir un aperçu d’autres outils existants, je vous conseille de consulter l’article de wydden.com.

Import.io

Import.io (freemium)

Le logiciel le plus connu de web scraping. Import.io est un outil puissant qui va vous permettre de scraper les données sur de nombreuses pages. Facile à prendre en main, l’algorithme va enregistrer les données mises en évidence pour automatiser leur collecte sur l’ensemble des autres pages du site. Possibilité de mise en forme sous CSV / XLS / Google Sheet.

octoparse.com

Octoparse (freemium)

Outil très facile à prendre en main. Il suffit de pointer et de cliquer sur des éléments pour scraper. Pas besoin de savoir coder pour ce logiciel non plus. Le nombre de pages qu’il est possible de crawler est illimité même avec la version gratuite.

Instant Data Scraper

Instant Data Scraper (gratuit)

Extension disponible sous Google Chrome. Cet outil est basé sur le même système de fonctionnement qu’Import.io. La différence avec le logiciel est qu’elle permet de définir où se trouve le bouton suivant sur les pages du site. Le scraping va pouvoir se faire automatiquement sur plusieurs pages d’affilées.

Web Scraper

Web Scraper (freemium)

Extension disponible sous Google Chrome. Elle va permettre de scraper plusieurs sites à la fois. Attention cependant, pour un scraping plus précis cet outil nécessite une compréhension des bases de code HTML/CSS.

Power Bi

Web Scraping et logiciel de Data Vizualisation ?

Il est possible de scraper des données avec le logiciel de data vizualisation Power Bi. Son utilisation ne nécessite pas de savoir coder. Faire du web scraping avec Power Bi peut être une alternative intéressante : après avoir collecté les données, le logiciel va nous permettre de réaliser des analyses poussées en plus d’une visualisation personnalisée des résultats. Cette technique est très utilisée pour récupérer des données sur des sites E-commerce. Si vous souhaitez apprendre à scraper avec Power Bi, je vous conseille de regarder la vidéo de la chaine Youtube La Formation Power Bi ci-dessous.

PGlmcmFtZSB3aWR0aD0iNTYwIiBoZWlnaHQ9IjMxNSIgc3JjPSJodHRwczovL3d3dy55b3V0dWJlLmNvbS9lbWJlZC9Ud3RET3h5aW9QZyIgZnJhbWVib3JkZXI9IjAiIGFsbG93PSJhY2NlbGVyb21ldGVyOyBhdXRvcGxheTsgY2xpcGJvYXJkLXdyaXRlOyBlbmNyeXB0ZWQtbWVkaWE7IGd5cm9zY29wZTsgcGljdHVyZS1pbi1waWN0dXJlIiBhbGxvd2Z1bGxzY3JlZW4+PC9pZnJhbWU+https://blog.mbadmb.com/wp-content/uploads/2021/01/undraw_secure_data_0rwp-400×319.png

Web scraping : À partir d’où s’arrête la légalité ?

Pour répondre à cette question il faut prendre en compte 3 éléments :

Les données sont-elles publiques ?

À entendre par là : est-ce qu’elles ont été mises sur des sites publics de manière consentie par les utilisateurs ou les propriétaires du site ? Si les données récupérées sont privées le web scraping peut être lourdement puni.

Quelle utilisation faites-vous des données récupérées ?

S’il s’agit de scraping à titre personnel ou informatif, pour le RGPD vous êtes dans la légalité. Cependant, si certaines données de contenu sont scrapées, copiées et re-publiées, cela peut être considéré comme du vol de propriété intellectuelle. L’utilisation du scraping peut également être jugé dans certains cas comme de la concurrence déloyale. Enfin, le web scraping peut être définis comme « negative SEO ». Si vous copiez/collez du contenu de pages entières à l’aide du web scraping, vous courrez le risque de vous faire blacklister des moteurs de recherche.

Que disent les mentions légales (CGV ou CGU) du site scrapé ?

Il est essentiel avant toute chose de vérifier l’accessibilité des données et le scope d’utilisation permis par les mentions légales. Tous les sites en ont, alors n’hésitez pas à les consulter si vous avez un doute sur l’utilisation de certaines données.

Pour conclure, le web scraping peut s’avérer être un outil très puissant qui va permettre d’automatiser certaines taches et donc vous faire gagner un temps précieux. Qu’il soit utilisé par des data scientists ou des marketeux, il permet de générer rapidement une base de données importante, clé d’une bonne analyse.

Cependant, on ne le répètera jamais assez : il est capital de faire attention avec le web scraping pour ce qui est de l’utilisation que vous faites des données. Le RGPD peut sanctionner très fortement l’utilisation de données à mauvais escient. D’autant plus si ces dernières ne sont pas publiques vont donc être considérées comme volées.