Un secteur à l’avant-garde de la technologie
L’extraction de données des médias sociaux, appelée “Social Listening”, est au cœur des préoccupations actuelles en raison de la confidentialité des données. Qu’il s’agisse de Cambridge Analytica et de la collecte de grandes quantités de données sur des personnes inconnues, des appareils Amazon qui, à l’avenir, nous écouteront en permanence, des technologies athlétiques qui diffuseront les bases militaires, qu’elles soient ou non utilisées pour contrôler les immigrants, ou du FBI qui les utilisera, il peut s’agir d’un problème épineux et politique (surtout lorsqu’il est comparé à la surveillance de masse ou au capitalisme de surveillance). Ce sujet constitue une bonne étude de cas pour l’éthique de l’IA.
Le web scraping est plus souvent utilisé pour des cas d’utilisation moins politiques, comme pour les entreprises qui veulent mieux comprendre les opinions de leur clientèle sur les produits, découvrir des marchés inexploités ou les besoins des clients, protéger l’image d’une marque, prédire les actions en fonction du sentiment des nouvelles, combattre les fake news, entre autres cas d’utilisation. Même les influenceurs des médias sociaux utilisent probablement ces plateformes pour gérer les milliers, voire les millions, de commentaires, de tags, de messages et de messages que les gens leur envoient, ou simplement pour découvrir le type de contenu que leurs adeptes aiment vraiment (voir l’analyse du sentiment).
Les plateformes de médias sociaux ont des règles d’accès à leurs données. Facebook n’autorise actuellement pas le web scraping sur sa plateforme ou sur d’autres plateformes qu’il possède (Facebook prendra des mesures juridiques et l’a fait à plusieurs reprises). Pour avoir accès aux données publiques de Facebook (ou d’autres sites appartenant à Facebook), une entreprise doit devenir un partenaire commercial de Facebook (voir cette page puis rechercher la rubrique “Gestion de la communauté” pour trouver de telles entreprises). Toutes les données considérées comme privées ne sont pas disponibles (par exemple, les groupes privés, les messages privés, les publications d’un profil privé, etc.)
Les entreprises partenaires de Facebook scrape également à partir d’une poignée d’autres sites web, Meltwater affirme être en mesure d’extraire des données à partir des sites suivants :
Twitter, Facebook, Instagram, YouTube, Reddit, Twitch, Pinterest, TikTok, Sina Weibo, WeChat, Douyin, Blogs, Forums de discussion, Podcasts, Nouvelles en ligne, Sites d’évaluation des consommateurs.
Il est relativement facile d’accéder aux données de Twitter, qui sont très nombreuses (voir cet article sur la façon d’extraire des données de Twitter avec BeautifulSoup).
Reddit est une autre plateforme qui possède des tonnes de données publiques de textes sociaux (les threads sont un excellent moyen de contenir les conversations à un seul sujet à analyser), voir ce guide pour connecter Python à l’API Reddit pour avoir accès à ses données.
Au cours de l’été 2019, Instagram a changé ses règles de manière drastique pour attraper plus de bots (il a attrapé le bot que j’ai créé pour gérer mon compte d’art), presque toutes les applications existantes pour “botter” Instagram sont devenues bloquées. Il y a des personnes et des entreprises qui prétendent encore gratter Instagram, comme celles ci-dessous (avertissement : je ne sais pas si ces entreprises respectent les règles ou non), mais tenter de le faire vous-même ne sera probablement pas fructueux et je conseille à nouveau de ne pas enfreindre les règles d’une entreprise pour gratter ses données.
- ScrapeHero prétend pouvoir télécharger les données de n’importe quel compte public.
- Minter.io est plus axé sur l’aide à la gestion du compte.
- Spatulah by GoodStuph prétend pouvoir télécharger les commentaires directement dans un fichier .csv, mais ne donne pas beaucoup de détails sur le service.
- PhantumBuster prétend pouvoir gratter à peu près n’importe quoi.
- Ce site contient des informations sur le raclage du Web Instagram (il explique que vous avez besoin d’un proxy résidentiel pour réduire les risques d’être pris), ainsi que sur d’autres sociétés qui proposent ce service.
- Ce site contient plusieurs exemples de code pour le scraping d’Instagram, mais presque aucun ne fonctionne plus, sauf peut-être le projet de ce type (article sur ses méthodes ici).
Pour faire du web scraping officiel sur Instagram, vous devez créer une application à laquelle une entreprise ou un compte d’influenceur se connecte et vous pouvez ensuite uniquement faire du web scraping sur les données de leur compte. Cette application doit être associée à Facebook en tant que partenaire commercial.
Il n’est pas conseillé d’essayer de faire du web scraping par vous-même sans connaître les règles, car cela peut frôler une attaque DDOS si vous vous y prenez mal, et les tribunaux peuvent statuer de plusieurs façons différentes, donc je vous recommande de lire autant que possible sur le web scraping en toute sécurité avant de vous lancer à fond (surtout si vous voulez faire du web scraping sur Facebook vous-même – encore une fois, je vous recommande de ne pas aller à l’encontre des directives d’une entreprise).
Si vous êtes intéressé par le web scraping pour les médias sociaux, j’essaierais d’abord d’identifier où se déroule la discussion que vous voulez analyser. Si ce sont les groupes privés de Facebook, ce n’est pas la peine, vous ne pouvez pas accéder à ces données. Si c’est Twitter, Reddit, des sites d’information ou d’autres sites n’appartenant pas à Facebook, vous êtes probablement dans la zone verte (n’oubliez pas de vérifier s’ils ont des directives en matière de scraping). Contactez l’une des entreprises qui entretiennent des relations officielles pour obtenir une démonstration, puis fournissez-leur des termes clés afin de savoir si les données que vous recherchez existent, et dans quelle mesure.
Ces entreprises peuvent coûter entre 5 000 et 75 000 dollars par an pour leurs plates-formes, donc si le prix est trop élevé, voyez s’il existe des entreprises plus petites que vous pouvez utiliser tout en respectant toutes les règles (éventuellement celles mentionnées ci-dessus, demandez quelle est leur politique en matière de respect des fichiers robot.txt des sites Web), ou engagez un ingénieur logiciel expérimenté dans le traitement du langage naturel pour créer un outil permettant de récupérer ce que vous voulez à partir de l’endroit où vous voulez, d’analyser les principaux termes, les thèmes et le sentiment autour de ces thèmes et de les afficher dans un tableau de bord.
Si vous souhaitez monter en compétence en Data Science n’hésitez pas à vous intéresser à la formation Data Science & Machine Learning de chez DATAROCKSTARS.
Merci pour votre lecture ! Si vous souhaitez lire nos prochains articles autour de la Data Science, vous pouvez nous suivre sur Facebook, LinkedIn et Twitter pour être notifié lorsqu’un nouvel article est publié !