Articles of analizzando

Rileva il parser XML o SGML usato in JavaScript

HTML è un sottoinsieme di SGML. XHTML è un sottoinsieme di XML. Entrambi usano parser separati. Presumendo che un documento HTML sia servito correttamente come text/html e un’applicazione XHTML sia correttamente servita come application/xhtml+xml è ansible rilevare quale parser è usato per il rendering della pagina e, in caso affermativo, come? Capisco esattamente cosa sto […]

Analisi pagine Web – WP8 – HTMLAgilityPack

In realtà sto cercando di analizzare il contenuto di questa pagina web, http://www.cryptocoincharts.info/v2/coins/show/tips In particolare, avrei bisogno di ottenere i numeri, come “Difficoltà attuale”, “Monete estratte fino ad ora” ecc Non sono sicuro di come farlo, in realtà ho individuato la sezione in cui sono i miei numeri, eppure non sono in grado di scrivere […]

Estrai contenuto da Tag C # RegEx

Ho un codice » string tag = “div”; string pattern = string.Format(@”\(?.+?)\”, tag.Trim()); Regex regex = new Regex(pattern, RegexOptions.ExplicitCapture); MatchCollection matches = regex.Matches(data); ` e ho bisogno di ottenere il contenuto tra …. ВАЗ 2121 за 2 700 $1990 г.1.6 л, бензин, КПП механика, с пробегом, белый, литые диски, тонировка, спойлер, ветровики, противотуманки, Движок после […]

Ottieni elementi per attributi

sarò breve. Per quanto ne so la libreria watir offre due metodi per ottenere elementi html. Quasi per ogni elemento (div, pulsante, tabella, li, ecc.) Watir fornisce due metodi: . Uno è il metodo ‘singolare’ che ottiene solo un elemento specifico. Per esempio: watir_instance.div(:id,’my_div_id’) watir_instance.link(:href,’my_link_href’) watir_instance.button(:class =>’my_button_class’, :index => 4) Questi metodi recuperano solo UN […]

Angular2 analizza la stringa in html

Sto importando articoli rss dove nella descrizione c’è molto codice html (link, paragrafi, ecc …). Quando lo visualizzo in vista componente come: {{rss.description}} l’output nel sito è come: Something Long text Come posso rapidamente e facilmente analizzarlo in HTML? Non voglio attraversarlo con jQuery. Grazie

Come evitare che i crawler a seconda di XPath ottengano contenuti delle pagine

Esiste una libreria di PHP che permette a tutti di attirarmi (qualcosa come cURL) . Quindi ho un’idea per prevenirlo, voglio usare un nome di class dinamico per i miei elementi. guarda questo: <div class="”>anything // $className is taken from the database Nota: $ClassName varierà a seconda del tempo. In questo caso, nessuno sa quale […]

Usa PhantomJS per estrarre html e testo

Cerco di estrarre tutto il contenuto del testo di una pagina (perché non funziona con Simpledomparser) Provo a modificare questo semplice esempio dal manuale var page = require(‘webpage’).create(); console.log(‘The default user agent is ‘ + page.settings.userAgent); page.settings.userAgent = ‘SpecialAgent’; page.open(‘http://www.httpuseragent.org’, function (status) { if (status !== ‘success’) { console.log(‘Unable to access network’); } else { […]

In che modo Facebook sa quale immagine può trarre da un articolo?

Prima di tutto voglio dire che non ero davvero sicuro di dove postare questo, ma è molto legato alla programmazione. Se è nel posto sbagliato, mi scuso e per favore fammi sapere dove dovrei postarlo. Quando condividi un articolo su un muro di amici, Facebook prenderà una miniatura dell’articolo. Come ottengono sempre la miniatura giusta […]

XPath to Parse “SRC” dal tag IMG?

In questo momento ho afferrato con successo l’elemento completo da una pagina HTML con questo: //img[@class=’photo-large’] per esempio restituirebbe questo: Ma ho solo bisogno dell’URL SRC ( http://example.com/img.jpg ). Qualsiasi aiuto?

Analisi dell’HTML con CSQuery

Come posso recuperare il valore da un tag div tramite l’ID usando CSQuery? Per esempio, Room 1 145 In questo caso mi piacerebbe ottenere il contenuto all’interno di type e price .