Bonjour,
Mon problème est un tout petit peu complexe. J'aimerai scrapper des sites, et je le fais actuellement en récupérant le DOM en php avec une librairie (simple-html-dom), mais grossomodo c'est un
file_get_content($url)
Le problème est avec les sites qui génèrent leur contenu ou une partie de leur contenu en javascript (de manière asynchrone).
En gros ils chargent la base du site (header, footer , "mon compte"... ) et ensuite par un appel ajax le site récupèrent les informations importantes de la page.
(eg : http://www.massimodutti.com/fr/fr/men/gilets/gilet-cuir-surpiqûres-c1543502p6199622.html?colorId=700&categoryNav=1543502 )
Ma question est : Comment faire pour récupérer un DOM APRÈS la génération par javascript ? J'imagine qu'avec du PHP c'est impossible ? Est-ce qu'avec un serveur Node.js ça semble faisable ? Charger une URL => attendre que tous le javascript soit éxecuté puis rendre le DOM ?
En vous remerciant