Come faccio a sapere quando una pagina web è stata aggiornata l’ultima volta?

C’è un modo per scoprire quanto tempo è passato da quando una pagina web è stata cambiata?

Ad esempio, ho una pagina ospitata su: www.mywebsitenotupdated.com

C’è un modo per scoprire quando questa pagina html è stata caricata sul server?

Molto importante, non ho accesso al server; solo un link alla pagina web.

No, non puoi sapere quando una pagina è stata aggiornata o modificata l’ultima volta o caricata su un server (che potrebbe, a seconda dell’interpretazione, essere tre cose diverse) semplicemente accedendo alla pagina.

Un server può, e dovrebbe (secondo il protocollo HTTP 1.1), inviare un’intestazione Last-Modified , che è ansible scoprire in diversi modi, ad esempio utilizzando il visualizzatore HTTP di Rex Swain . Tuttavia, secondo il protocollo, questo è solo “la data e l’ora in cui il server di origine ritiene che la variante sia stata modificata per l’ultima volta”. E il protocollo aggiunge realisticamente: “Il significato esatto di questo campo di intestazione dipende dall’implementazione del server di origine e dalla natura della risorsa originale. Per i file, potrebbe essere solo il tempo dell’ultimo aggiornamento del file system. Per le quadro con parti incluse dynamicmente, potrebbe essere il più recente del set di tempi di ultima modifica per le sue parti componenti. Per i gateway di database, potrebbe essere il timestamp dell’ultimo aggiornamento del record. Per gli oggetti virtuali, potrebbe essere l’ultima volta che lo stato interno è cambiato. ”

In pratica, le pagine Web vengono spesso create dynamicmente da un sistema di gestione dei contenuti o in altro modo e, in tali casi, l’intestazione Last-Modified solito mostra un timestamp di creazione della risposta, che è normalmente molto vicino al momento della richiesta. Ciò significa che l’intestazione è praticamente inutile in questi casi.

Anche nel caso di una pagina “statica” (il server preleva semplicemente un file corrispondente alla richiesta e lo invia), il timbro data Last-Modified normalmente indica solo l’ultimo accesso in scrittura al file sul server. Questo potrebbe riguardare un momento in cui il file è stato ripristinato da una copia di backup o un momento in cui il file è stato modificato sul server senza apportare alcuna modifica al contenuto o un momento in cui è stato caricato sul server, eventualmente sostituendo un vecchio copia identica. In questi casi, supponendo che il timestamp sia tecnicamente corretto, indica un tempo dopo il quale la pagina non è stata modificata (ma non necessariamente il momento dell’ultima modifica).

Apri la tua console browser ( ? ) E inserisci quanto segue:

 javascript:alert(document.lastModified) 

C’è un altro modo per trovare l’aggiornamento della pagina che potrebbe essere utile in alcune occasioni (se funziona :).

Se la pagina è stata indicizzata da Google, o da Wayback Machine puoi provare a scoprire quale data (s) è stata (sono) salvata da loro (questi metodi non funzionano per nessuna pagina e hanno alcune limitazioni, che sono ampiamente studiate in queste domande della webmasters.stackexchange risposte, ma in molti casi possono aiutarti a trovare la / le data / e di aggiornamento della pagina:

  1. Google way: vai al link https://www.google.com.ua/search?q=site%3Awww.example.com&biw=1855&bih=916&source=lnt&tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000%2Ccd_max% 3A & tBM =
    • Puoi cambiare il testo nel campo di ricerca con qualsiasi URL di pagina che desideri.
    • Ad esempio, la ricerca della pagina di domande stackover corrente ci dà come risultato 14 maggio 2014 – che è la data di creazione della domanda: inserisci la descrizione dell'immagine qui
  2. Wayback machine way: vai al link https://web.archive.org/web/*/www.example.com
    • per questo wayback della pagina StackOverflow ci dà più risultati: Saved 6 times between June 7, 2014 and November 23, 2016. , e puoi vedere tutte le copie salvate per ogni data

Per controllare l’intestazione Last Modified , puoi usare httpie ( docs ).

Installazione

 pip install httpie --user 

uso

 $ http -h https://martin-thoma.com/author/martin-thoma/ | grep 'Last-Modified\|Date' Date: Fri, 06 Jan 2017 10:06:43 GMT Last-Modified: Fri, 06 Jan 2017 07:42:34 GMT 

La Date è importante in quanto segnala l’ora del server, non l’ora locale. Inoltre, non tutti i server inviano Last-Modified (ad esempio, il superuser sembra non farlo).

Ho scritto un blog su questo, che mostra alcuni semplici passaggi per verificare la data e l’ora dell’ultimo aggiornamento del tuo sito web. https://sachinapatel.wordpress.com/ Puoi controllarlo sul primo post del blog

un modo pazzesco per farlo da https://gist.github.com/EronHennessey/6996195

 import httplib import yaml c = httplib.HTTPConnection(address) c.request('GET', url_path) r = c.getresponse() # get the date into a datetime object lmd = r.getheader('last-modified') if lmd != None: cur_data = { url: datetime.strptime(lmd, '%a, %d %b %Y %H:%M:%S %Z') } else: print "Hmmm, no last-modified data was returned from the URL." print "Returned header:" print yaml.dump(dict(r.getheaders()), default_flow_style=False) 

il resto dello script include un esempio di archiviazione di una pagina e controllo delle modifiche rispetto alla nuova versione e avviso di qualcuno via email.

Per me è stato il

 article:modified_time 

nel sorgente della pagina.

Visualizza origine pagina