Guide 2023 : import de données avec IMPORT XML dans Google Sheets

Guide 2023 : import de données avec IMPORT XML dans Google Sheets

La collecte de données avec IMPORTXML est un game-changer pour quiconque a déjà ressenti la frustration d'extraire des informations d'un site.

Imaginez : vous démarrez un projet frais, plein d'enthousiasme. Mais très vite, vous réalisez que vous manquez de données essentielles pour concocter ces annonces percutantes. Si vous vous demandez comment les influenceurs gagnent de l'argent, cet article pourrait vous être utile.

La plupart d'entre nous ne sont pas des ninjas du codage ni des experts en web scraping.

Pourtant, qui n'a jamais été tenté de copier-coller manuellement des montagnes d'informations ? À ce sujet, découvrez 12 outils de heatmaps pour optimiser votre site.

Récemment, un défi m'a été lancé :

  • Naviguer sur le site d'un client.
  • Récupérer plus de 150 nouveaux articles dispersés sur une quinzaine de pages.
  • Enregistrer le titre de chaque produit et l'URL correspondante dans un spreadsheet.

Sans les bons outils, cette mission aurait pu se transformer en un marathon d'ennui et d'erreurs.

Pensez aux heures passées... et aux innombrables risques d'erreurs qui pourraient s'accumuler, nécessitant encore plus d'efforts pour tout vérifier et rectifier.

Logo Google Sheets

Plongeons ensemble dans l'univers de la collecte de données avec IMPORTXML grâce à Google Sheets. Pas besoin d'être un as du codage pour maîtriser cette astuce. Je vais vous guider pas à pas, rendant le processus accessible à tous.

Quand utiliser IMPORTXML pour collecter des données ?

Import XML

Si vous avez déjà songé à puiser des informations depuis des sites web ou des flux XML comme les atom xml feeds, cette fonctionnalité est pour vous.
C'est particulièrement utile lorsque vous souhaitez accéder à des données sur des pages sans recourir à des outils complexes ou si vous ne maîtrisez pas les langages de programmation.

Mais une question se pose souvent : est-ce que l'utilisation d'IMPORTXML est à la fois légale et éthique ?

Pour la plupart des usages, recourir à IMPORTXML est légal, à condition, bien sûr, de ne pas utiliser les données pour des activités illégales.

Néanmoins, il faut être vigilant. Les sites web ont leurs propres conditions d'utilisation, et certains peuvent clairement interdire la collecte de données, surtout si elle est destinée à des fins commerciales ou obtenue via des méthodes automatisées comme IMPORTXML.

Avant de plonger tête baissée, je recommande toujours de jeter un œil aux conditions d'utilisation du site en question. Prudence est mère de sûreté, après tout.

Lisez également : Comment promouvoir votre blog avec l'automatisation.

Comment utiliser IMPORTXML dans Google Sheets pour collecter des données

Besoin d'une solution efficace pour la collecte de données avec IMPORTXML sur internet ?

Imaginons que vous souhaitiez extraire un tableau d'un site web sans tracas. Ou peut-être désirez-vous discrètement décortiquer les éléments SEO de la concurrence.

Eh bien, IMPORTXML est votre allié incontournable pour automatiser ces tâches directement dans Google Sheets. Allons-y, découvrons comment maximiser votre efficacité avec cet outil.

Qu'est-ce que la fonction IMPORTXML ?

Si vous vous demandez comment optimiser la collecte de données avec IMPORTXML, laissez-moi vous éclairer.

La magie de Google Sheets réside dans sa capacité à importer des données de divers formats structurés, que ce soit XML, HTML, CSV, TSV ou même des flux comme XML RSS et ATOM (atom xml feeds).

En termes simples, cette fonction puise dans n'importe quel champ XML. Imaginez tous ces champs délimités par des balises HTML sur les pages web, tels que <balise> et </balise>. C'est là que réside le pouvoir d'IMPORTXML.

En exploitant cette fonction, vous avez la capacité d'importer tout un éventail d'informations disponibles au grand public sur le net.

Et pour ceux qui aiment se plonger dans les détails techniques, la syntaxe de la fonction IMPORTXML est assez intuitive.

Lorsqu'il s'agit de la collecte de données avec IMPORTXML, il y a certaines limites à garder à l'esprit. Par exemple, cette méthode ne fonctionne pas pour les sites nécessitant une connexion ou une authentification.

Si vous êtes avide d'en savoir plus sur ce sujet, je vous suggère de jeter un œil à l'article ci-dessous. Il pourrait bien éclairer votre lanterne.

Bases à connaître pour utiliser IMPORTXML

Démystifions la collecte de données avec IMPORTXML et les fondamentaux pour bien l'exploiter. La fonction ImportXML est un couteau suisse pour importer des informations depuis une variété de formats structurés comme xml, html, csv, tsv, et rss.

La base d'une URL

En ce qui concerne l'ImportXML URL, il s'agit simplement de

  • L'adresse web de laquelle vous souhaitez extraire vos données.
  • N'oubliez pas d'inclure le protocole, que ce soit https:// ou http://.
  • Et un petit conseil : assurez-vous que l'URL soit soit entre guillemets, soit référencée depuis une cellule contenant l'adresse exacte.

La base d'une Requête XPath

Plongeons dans l'univers fascinant de la collecte de données avec IMPORTXML et comment maîtriser la requête XPath, un élément crucial de ce processus.

  • L'argument xpath_query représente la commande XPath que vous souhaitez exécuter sur les données de l'URL spécifiée.
  • Chaque résultat obtenu via cette requête se retrouve dans une ligne distincte de votre feuille de calcul
  • Si vous ne le saviez pas, XPath est ce langage d'interrogation puissant conçu pour extraire des fragments d'info depuis les sites web.
  • Et oui, il a sa propre syntaxe, que vous pouvez décortiquer grâce à de nombreuses ressources disponibles en ligne.

Jetons un œil à quelques règles fondamentales pour forger votre argument xpath_query :

La double barre oblique :

  • Utiliser "//" c'est comme dire "Je veux tous les éléments de la balise suivante".
  • Par exemple, //h1 cible tous les titres h1, tandis que //p s'attaque à tous les paragraphes.

La classe

  • ‍Si vous voyez [@class=''], cela signifie que vous visez spécifiquement les éléments qui correspondent à ce critère particulier.
  • Donc, //h1[@class='title'] se traduit par "Je veux tous les h1 dont la classe est 'title'".

Éléments

  • Vous pouvez empiler ces éléments, un peu comme des poupées russes.
  • Prenons //h1/span : ici, vous commencez par rechercher les éléments h1, puis vous fouillez à l'intérieur pour trouver les éléments span qu'ils renferment.

Les bases de XPath

Xpath Logo

Lorsque vous vous aventurez dans la collecte de données avec IMPORTXML, une compréhension solide du HTML est indispensable. Pourquoi ? Parce que :

  • Le contenu visuel que vous voyez sur un site est généralement rendu grâce au HTML, tandis que les données sous-jacentes sont souvent stockées en XML.
  • Et pour fouiller dans ces trésors d'informations, nous utilisons XPath, le langage spécialisé pour interroger ces données.
  • Le mieux dans tout ça ? Vous pouvez ajuster ces commandes XPath pour extraire précisément ce que vous chassez sur le site.

Exemples de XPaths pour les spécialistes du marketing

Plongeons dans le vaste univers de la collecte de données avec IMPORTXML et explorons quelques astuces XPath que chaque spécialiste du marketing devrait avoir dans sa boîte à outils.

Voici quelques commandes XPath pour extraire efficacement des informations précieuses des sites web :

  • Pour tous les liens sur une page : "//@href"
  • Pour dénicher les liens internes : "//a[contains(@href, 'exemple.com')]/@href"
  • Pour filtrer les liens sortants : "//a[not(contains(@href, 'example.com'))]/@href"
  • Pour le titre de la page : "//titre"
  • Pour les titres principaux (H1) : "//h1"
  • Pour la meta description : "//meta[@name='description']/@content"
  • L'URL canonique : "//link[@rel='canonical']/@href"
  • La directive robots : "//meta[@name='robots']/@content"
  • Pour les attributs de localisation : "//link[@rel='alternate']/@hreflang"

La beauté de la fonction IMPORTXML, c'est qu'elle vous offre la liberté d'aspirer des données web directement dans vos feuilles de calcul Google Sheets. La méthode ?

Explorez le code source du site d'intérêt, repérez l'élément HTML que vous voulez, et cueillez-le à l'aide de ces requêtes XPath. C'est aussi simple que ça !

Quelles sont les étapes pour utiliser IMPORTXML dans Google Sheets ?

1. Commencez par ouvrir une nouvelle feuille Google

Tout d'abord, nous ouvrons un nouveau document Google Sheets vierge :

Google sheets Vierge

Pour cet exemple, vous pouvez utiliser la feuille d'exemple de Google Sheets :

Feuille d'exemple Google Sheets : Collecte de données avec ImportXML

2. Intégrez les éléments à extraire pour votre collecte de données avec IMPORTXML

Indiquez l'URL de la page (ou des pages) dont vous souhaitez puiser les informations.

Pour notre exemple pratique, nous allons nous concentrer sur l'extraction des titres des articles, leurs URL respectives, et leurs méta descriptions. C'est l'essence même de l'art de collecter des données web de manière optimisée.

3. Découvrez comment dénicher le bon XPath

Plongez dans les outils de votre navigateur

Lorsque vous êtes engagé dans la collecte de données avec IMPORTXML, l'étape cruciale est de déterminer le XPath adéquat. Heureusement, il y a un outil intégré à presque tous les navigateurs modernes qui vient à la rescousse : l'Inspecteur.

Ce chemin d'accès XPath est votre clé pour cibler précisément les informations que vous voulez sur la page. Que ce soit de manière :

  • Relative : par exemple, si vous voulez tous les titres des blogs sur une page donnée.
  • Spécifique : disons que vous ne cherchez que les titres des 10 ou 30 premiers articles, ou même un titre en particulier.

Prenons un exemple concret. Imaginons que nous voulons les titres des 30 articles les plus récents.

  1. Lancez votre navigateur favori, survolez le titre d'un article qui vous intrigue
  2. Effectuez un clic droit et optez pour "Inspecter" (ou "Inspect" si votre navigateur est en anglais)
    Voilà, vous êtes sur la bonne voie !
Inspecter page

Lorsque vous vous lancez dans la collecte de données avec IMPORTXML, l'arme secrète pour cibler les bonnes données est souvent cachée à la vue de tous : l'outil d'inspection de votre navigateur.

Après avoir cliqué, vous vous retrouverez face à un dédale de code HTML, comme illustré ci-dessous.

HTML

Si cela vous semble être du charabia, ne vous inquiétez pas. La bonne nouvelle ? Le pas le plus complexe pour vous sera de faire un simple "clic droit".

Copier/Coller le Xpath

L'outil d'inspection, généralement niché dans la section Outils de Développement de votre navigateur, est un véritable détective. Il vous permet de pointer précisément l'élément de la page qui vous intrigue :

  1. Avec l'inspecteur, mettez en surbrillance la section qui vous intéresse, par exemple, le titre d'un des articles.
  2. Assurez-vous que le titre reste sélectionné et en évidence. Ensuite, un autre clic droit, et optez pour Copier > Copier XPath.
Xpath

Voilà ! En quelques clics, vous avez en main le précieux XPath, prêt à être utilisé dans Google Sheets.

4. Mettez en pratique : Extraction de données directement dans Google Sheets

Si vous êtes prêt à expérimenter la [collecte de données avec IMPORTXML] directement dans Google Sheets, j'ai quelque chose pour vous. Utilisez la feuille d'exemple ci-dessous (n'oubliez pas de créer une copie avant de la manipuler) :

Feuille d'exemple Google Sheets : Maîtrisez la collecte de données grâce à ImportXML

Note : Pour cet exemple, j'ai intentionnellement limité la collecte de données des articles de blog à 10 éléments. Cela permet d'éviter les éventuelles restrictions imposées par Google.

Extraction des titres d'articles de blog

Une fois de retour dans votre Google Sheets, il est temps d'initier la fonction IMPORTXML.

La beauté de Google Sheets, c'est sa capacité à interagir avec des XPath spécifiques pour récupérer vos données.

Prenons l'exemple de l'étape 3, où nous avons défini le XPath pour un article particulier :

=IMPORTXML(B1,"/html/body/div[3]/div[1]/div[2]/div[3]/div/div["&B3&"]/div/div/a/h3")

Dans cette formule, notez comment j'ai substitué l'URL directe par la référence à la cellule contenant cette URL.

Et rappelez-vous, lorsque vous collez le XPath dans la formule, il doit toujours être encadré de guillemets. Voilà, c'est aussi simple que ça !

Extraction des URL des articles de blog

Plongez-vous dans le document Google Sheets et observez la magie de la collecte de données avec IMPORTXML.

Si vous jetez un œil, vous remarquerez que la feuille dévoile tous les articles et leurs URL associées, directement extraits de la page web que nous avons ciblée.

Mais ne vous arrêtez pas là. Ce principe d'extraction peut être étendu à d'autres éléments essentiels pour vos projets.

Par exemple, imaginez récupérer les meta descriptions de chaque page avec Google Sheets. Pour un exemple concret, jetez un œil au fichier ci-dessous :

Feuille d'exemple Google Sheets : Collecte de données avec ImportXML

Comment est-ce que je peux rendre cette collecte de données avec IMPORTXML dans Google Sheets encore plus fluide ?
La réponse ? Automatisez le tout.
Avec des scripts Google Apps ou des outils de codage externes comme Python, vous pouvez définir un calendrier pour vos extractions, ajouter les données directement dans vos feuilles de calcul, et même recevoir des notifications dès qu'une mise à jour est effectuée.
Voilà comment vous passez au niveau supérieur !
Logo Python

Autres Exemples de formules IMPORTXML

Imaginons que vous souhaitiez extraire les titres des sections d'un article Wikipedia en utilisant la magie de la collecte de données avec IMPORTXML dans Google Sheets.

Après avoir jeté un œil au code source, vous remarquez que ces titres sont encadrés par des balises <h2>.

Voilà exactement ce qu'il faut insérer dans votre formule IMPORTXML. En termes de syntaxe XPath, cela se traduit par "//h2".

Testez la fonction suivante, en supposant que la cellule A2 détienne l'URL de l'article :

Au début, vous rencontrerez un affichage "Loading..." pendant que la magie opère en arrière-plan. L'importation depuis le site prend un moment, mais c'est indéniablement plus rapide que de le faire à la main.

Après un court laps de temps, la fonction vous dévoile les trésors cachés derrière ces balises <h2>.

Bien sûr, ce n'est pas parfait. Vous remarquerez des ajouts tels que [edit] à côté des titres, une particularité du site. Cependant, elle capture fidèlement les titres des sections.

La vraie beauté de la fonction IMPORTXML réside dans sa polyvalence.

Au-delà du contenu visible, elle peut aspirer presque n'importe quelle donnée du code HTML. Par exemple, c'est un jeu d'enfant d'extraire des méta-informations, des URLs ou tout autre trésor caché dans le code source.

Prenons un autre exemple : Imaginez extraire les liens des vidéos YouTube directement depuis la page des règles de confidentialité de Google.

D'abord, l'argument principal de la fonction IMPORTXML serait l'URL de cette page.

En inspectant le code, on note que les vidéos YouTube sont encapsulées entre les balises <iframe> et </iframe>.

Ainsi, votre XPath ciblerait //iframe.

Mais ne vous arrêtez pas là. Pour obtenir précisément l'URL de la vidéo, il faudra naviguer plus profondément dans cette balise <iframe> jusqu'à l'attribut src.

En ajoutant "/@src" à votre requête XPath, vous obtenez la formule parfaite : //iframe/@src.

Naviguer dans le vaste monde du code HTML à la recherche du contenu exact que vous souhaitez extraire peut parfois ressembler à chercher une aiguille dans une botte de foin. Heureusement, le langage XPath est là pour vous donner les outils nécessaires afin de créer des requêtes précises et d'isoler les données ciblées.

L'une des superpuissances de XPath est sa gamme de fonctions, comme "contains" et "starts with", qui vous permettent d'affiner vos requêtes.

Prenons un exemple concret : imaginons que vous souhaitiez extraire toutes les références citées en bas de l'article Google Sheets sur Wikipedia.

En inspectant le code source, il est évident que ces références sont nichées à l'intérieur des balises <li>.

Mais, voilà le hic : il y a une multitude de balises <li> dispersées partout sur la page.

Comment différencier celles qui contiennent des références des autres ?

La clé réside dans l'attribut id de ces références, qui inclut systématiquement le mot "cite_note".

C'est là que la fonction "contains" de XPath entre en jeu. Elle nous permet de zoomer uniquement sur les éléments <li> dont l'id renferme le terme 'cite_note'.

Et voilà, cette formule renvoie toutes les références identifiées par cet identifiant unique sur la page.

Mais, au fait, quel genre d'informations pouvez-vous vraiment aspirer avec [collecte de données avec IMPORTXML] dans Google Sheets ? Eh bien, le ciel est la limite : prix, descriptions de produits, coordonnées, heures d'ouverture, taux de change, détails de mise en page, et la liste continue.

En Résumé

Dive deep into the world of collecte de données avec IMPORTXML et vous découvrirez une fonction Google Sheets exceptionnellement robuste à portée de main.

Imaginez un outil qui, en un clin d'œil, vous permet d'extraire des données de pratiquement n'importe quelle page Web. Que ce soit pour récupérer des détails sur des produits, des informations e-commerce comme les prix ou les frais de livraison, cette fonction se révèle être un atout redoutable.

Dans un monde numérique où chaque fragment d'information peut propulser votre entreprise au-dessus de la concurrence, avoir la compétence pour collecter des données de manière fluide est un avantage colossal.

À une époque où les informations et les données peuvent constituer l'avantage nécessaire pour obtenir des résultats supérieurs à la moyenne, la capacité de collecter des données de pages Web et du contenu structuré de manière simple et rapide peut être inestimable.

Ce qui rend IMPORTXML particulièrement impressionnant, c'est sa capacité à minimiser les délais et à éliminer pratiquement le risque d'erreurs humaines.

Et bien que cet outil puisse être un allié précieux pour les professionnels du PPC, son application dépasse largement ce cadre.

Que ce soit pour des projets liés au SEO, au marketing de contenu ou à d'autres domaines nécessitant une extraction web précise, la puissance de cette fonction est indéniable.

Questions Fréquentes

Qu'est-ce que c'est, IMPORTXML dans Google Sheets ?

IMPORTXML, c'est cette merveilleuse fonction dans Google Sheets qui vous offre le pouvoir d'importer des données XML directement depuis des sites web, le tout affiché impeccablement dans votre feuille de calcul.

Alors, comment ça marche, cet IMPORTXML sur Google Sheets ?

Le secret derrière IMPORTXML, c'est l'utilisation d'expressions XPath. Ces expressions sont comme un GPS, guidant la fonction vers les bonnes données sur la page.

Pour un novice, c'est compliqué d'utiliser IMPORTXML ?

Au début, ça peut ressembler à de la magie noire. Mais rassurez-vous, avec un peu d'effort, même les plus novices peuvent maîtriser IMPORTXML. Et si jamais vous êtes coincé, le web regorge de tutoriels et de forums pour vous guider.

Il y a des limites à cette magie, IMPORTXML dans Google Sheets ?

Bien sûr, comme tout outil, IMPORTXML a ses limites. Certains sites, par exemple, jouent à cache-cache et bloquent l'accès à leurs données. Ou parfois, la masse d'informations est si énorme que notre chère fonction a du mal à suivre.

Et IMPORTXML, ça marche sur tous les sites ?

La plupart du temps, IMPORTXML est comme un ninja, il s'infiltre partout. Mais certains sites, avec leurs gardiens numériques comme les captchas ou les blocages d'IP, peuvent poser des défis. Cela dit, dans l'ensemble, IMPORTXML fait un travail impressionnant pour extraire des informations.

Vous voulez développer votre blog plus rapidement ?

Abonnez-vous et obtenez un accès gratuit aux guides, modèles et listes de contrôle réservés aux abonnés. 👇

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.