Scraping HTML nascosto (quando visibile = falso) usando Hpricot (Ruby on Rails)

Mi sono imbattuto in un problema che sfortunatamente non riesco a superare, sono anche solo un neonato di Ruby on rails purtroppo da qui il numero di domande

Sto tentando di analizzare una pagina Web come la seguente:

http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo.aspx 

Mi piacerebbe raschiare gli indirizzi, i telefoni e l’URL della prossima pagina che in questo caso è

 http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo+Ismol.aspx 

Ho provato praticamente qualsiasi cosa a cui potessi pensare, ma nulla sembra funzionare a causa del fatto che sono impostati come invisibili o così.

L’indirizzo si trova all’interno di un tag h3 ma non sembra in grado di essere recuperato. Ho anche esaminato ScRUBYt dal seguente URL http://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/ , ma non riesco a trovare teste o code su come applicarli in questo caso.

Gradirei davvero qualsiasi suggerimento in quanto si tratta di un ostacolo che ho davvero bisogno di superare per andare avanti nel mio incarico. Grazie in anticipo per qualsiasi aiuto.

Nell’esempio particolare che hai fornito, gli elementi non sono nascosti, ma caricati tramite Ajax dopo il caricamento della pagina. Quindi in pratica quello di cui hai bisogno è un client http che può eseguire javascript (browser web?) Per vedere quegli indirizzi e altri contenuti.

Se si desidera automatizzare realmente il processo e scartare i dati ottenuti tramite ajax o javascript, è ansible provare il selenium . Anche se non è sviluppato per quello scopo, serve le tue esigenze.

Non ho una risposta alla tua domanda specifica, ma ho pensato di puntare l’episodio di Railscast di Ryan Bates sullo schermo raschiando con ruby: http://railscasts.com/episodes/173-screen-scraping-with-scrapi

Usa una libreria chiamata scrAPI invece di ScRUBYt, dal momento che non riusciva a far funzionare ScRUBYt. scrAPI sembra essere un po ‘più facile forse?

Spero che questo aiuti un po ‘, buona fortuna per il tuo incarico! 🙂

-John

C’è un buon script pubblicato nel gruppo di google . Sembra estrarre l’indirizzo, ecc. Potresti voler vedere il codice per lo script page.txt .