Articles of analizza

Estrai dati da tabelle HTML complesse a array 2d in Java

Come convertire le tabelle HTML con colspan e rowspan in array 2d (martix) in Java? Ho trovato delle belle soluzioni in Python e jQuery ma non in Java (solo tabelle molto semplici via jsoup). C’è una soluzione carina con XSLT ma, a causa di file HTML di input malformati, non è OK per me. Esempio […]

beautifulsoup con un documento html non valido

Sto cercando di analizzare il documento http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/5923en8.htm . Voglio estrarre tutto prima della Commission: ( Ho bisogno di Beautifulsoup perché il secondo passo è estrarre paesi e nomi di persone ) Se lo faccio: import urllib import re from bs4 import BeautifulSoup url=”http://www.consilium.europa.eu/uedocs/cms_data/docs/pressdata/en/ecofin/5923en8.htm” soup=BeautifulSoup(urllib.urlopen(url)) print soup.find_all(text=re.compile(“Commission”)) L’unico risultato che ottengo è: [u’The Governments of the […]

phpQuery ignora parte di un file importato

il seguente codice: <? require_once "phpQuery.php"; $dom = phpQuery::newDocument( "this is ignored” ); echo nl2br( htmlentities( $dom ) ); ?> dovrebbe dare questo è ignorare, ma l’intero corpo sembra essere ignorato. Ho spogliato il codice fino a dove il problema era ancora lì. Voglio leggere i link ($dom->find(‘a’)) dal corpo, ma ho scoperto che non […]

Come visualizzare i dati analizzati jsoup

Sto cercando di analizzare da una pagina HTML che ha solo un corpo e nel corpo è un tag pre ma questo è tutto. Ho bisogno di ottenere le informazioni da esso e metterlo nella mia app per Android che utilizza PhoneGap. Conosco bene javascript. Ho sentito che Jsoup funzionerà bene, ma non sono sicuro […]

L’analisi di Jsoup dal collegamento diretto non funziona

Ho bisogno di ricevere contenuti dal sito web. Generalmente funziona bene ma ho problemi con l’altro. La pagina Web ha la pagina principale in cui una foto si trova nel mezzo e dopo aver fatto clic su di essa, ci sposta nella pagina successiva. Provo a mostrare il contenuto dal collegamento diretto ma ricevo sempre […]

Jsoup che analizza il problema HTML

Sono nuovo di Jsoup e sto cercando di analizzare un sito Web, con il seguente html, e recuperare il valore del testo inserito nel codice HTML sottostante, in particolare il “valore = 14” che poi voglio mostrare quel valore (il numero 14 in questo caso) come una stringa in una visualizzazione testuale nella mia app […]

Python Beautiful Soup analizza una tabella codificata UTF-8 (usando meccanize)

Sto cercando di analizzare la seguente tabella, codificata in UTF-8 (questo è parte di esso): שווי שוק (אלפי ש”ח)הון רשום למסחרשער נמוךשער גבוהשער בסיסשער פתיחהשער נעילה (באגורות) שער נעילה מתואםתאריך Il mio codice è: html = br.response().read().decode(‘utf-8’) soup = BeautifulSoup(html) table_id = “ctl00_SPWebPartManager1_g_c001c0d9_0cb8_4b0f_b75a_7cc3b6f7d790_ctl00_HistoryData1_gridHistoryData_DataGrid1” table = soup.findall(“table”, id=table_id) E sto ricevendo il seguente errore: TypeError: ‘NoneType’ […]

Utilizzando Regex per cercare una stringa che contiene “http: //” e non contiene “mysite.com”

come posso scrivere Regular Rxpression per cercare una stringa che contenga “http: //” E non contenga “mysite.com”?

Utilizzo di BeautifulSoup su file HTML di grandi dimensioni – errore di memoria?

Sto imparando Python lavorando su un progetto – un analizzatore di messaggi di Facebook. Ho scaricato i miei dati, che includono un file messages.htm di tutti i miei messaggi. Sto provando a scrivere un programma per analizzare questo file e produrre i dati (numero di messaggi, parole più comuni, ecc.) Tuttavia, il mio file messages.htm […]

È necessario analizzare la stringa dal documento HTML in un file batch

Ho provato a cercare ma non ho trovato nulla di specifico per ciò di cui ho bisogno. Questo è un estratto dal mio file HTML: 1 Australian Dollar = 93.663 Japanese Yen rate on Fri, 6 March, 2015 15:58:20 (AEDT) Get Rate Ho bisogno di analizzare il valore 93.663 dalla riga 5. Questo valore sarà […]