
Cosa è il Crawl Budget e a cosa serve
Cosa è il Crawl Budget? Insieme ad altri indicatori ci può aiutare a capire se il nostro sito è sulla “strada SEO giusta” o se invece ci sono miglioramenti che possiamo eseguire.
Il Crawl Budget è un parametro che riguarda il comportamento del bot sul nostro sito e che ci dice quante pagine, immagini oppure file vengono scansionati ogni giorno, quanti kilobyte vengono scaricati e il tempo trascorso per il download di una pagina. Diventa pertanto fondamentale cercare di servire ai crawler il maggior numero di pagine, assegnando una priorità alle risorse da scansire per prime, come nuovi articoli, ultimi prodotti inseriti o comunque tutte le pagine utili agli utenti e alle finalità del tuo business online.
Per capire se il Crawl Budget rappresenta un problema per il tuo sito, puoi calcolare il Crawl Ratio.
Questo parametro misura la percentuale di URL “canonici”, ovvero gli URL ritenuti più rappresentativi in un insieme di pagine duplicate o molto simili, presenti nella struttura del sito, sottoposti a scansione da parte del crawler. Dividi il valore medio di pagine scansionate giornalmente (nella “vecchia” GSC alla voce “Statistiche di scansione”) per il numero di URL del sito web potenzialmente indicizzabili (pagine HTML, canoniche e che restituiscano uno status code 200). Gli URL di cui devi tenere conto per il calcolo del Crawl Ratio hanno le seguenti caratteristiche.
• Pagine HTML : non conteggiare le immagini e le dipendenze CSS e JavaScript.
• Pagine canoniche : non tenere conto delle pagine che vengono “canonicalizzate”, come quelle parametrizzate o i filtri.
• Pagine con status code 200 : conteggia solo le pagine esistenti e quindi indicizzabili, e tralascia gli URL con status code 3xx, 4xx, e 5xx.
Il concetto di cos’è il Crawl Budget può essere a sua volta spaccato in due, ovvero in: Crawl Rate Limit e Crawl Demand.
Il Crawl Rate Limit rappresenta il limite massimo della frequenza con cui Googlebot sottopone a scansione il tuo sito e indica inoltre il tempo di attesa che intercorre tra una scansione e l’altra. Google cerca di evitare di sovraccaricare i siti web scansionandoli con il proprio crawler, e a tal proposito il Crawl Rate Limit è strettamente correlato alla capacità di carico che può essere sopportata dall’host analizzato: se il web server è lento o risponde ripetutamente con errori e timeout , il limite della capacità di scansione sarà automaticamente ridimensionato verso il basso. Viceversa, se un sito web risponde rapidamente e senza problemi, allora il Crawl Rate Limit potrebbe essere destinato ad aumentare. Il che è cosa buona e giusta.
Il Crawl Demand indica il grado di attenzione dedicato da Googlebot alle pagine del tuo sito. Questo parametro è influenzato da due indicatori: la popolarità ottenuta dall’URL nel web e la sua “ staleness ”, letteralmente “mancanza di freschezza”, ovvero la frequenza con cui i contenuti di un determinato URL vengono ritenuti non più “attuali” rispetto alla copia indicizzata da Google e vengono pertanto sottoposti a nuova scansione per evitare l’obsolescenza delle SERP.
Questi sistemi sono molto spesso open source, cioè liberamente utilizzabili e modificabili dagli utenti, come nel caso di WordPress. Questa possibilità di espandere liberamente i CMS ha consentito agli utenti di creare i widget, ossia dei programmi aggiuntivi in grado di ampliare le funzionalità e i servizi offerti dalle piattaforme di blogging e social networking.
I numeri relativi alla diffusione dei blog su internet ci forniscono una prima misura sulle capacità di sviluppo del web 2.0. Technorati, un motore di ricerca dedicato al mondo dei blog, nel 2008 ha stimato che in tutta la rete ce ne siano circa 133 milioni di cui quasi un milione aggiornati quotidianamente6. I blog vengono scritti in 81 lingue diverse, a dimostrazione che si tratta di un fenomeno davvero globale e che non conosce confini, fermo restando ovviamente il problema del digita/ divide relativo della disponibilità anche nelle aree meno sviluppate del pianeta di PC e reti di telecomunicazione.
Dal punto di vista della comunicazione di marketing l’aspetto più importante di un blog è il fatto che esso favorisce le attività di conversazione. La realtà delle relazioni nel mercato globale implica necessariamente l’utilizzo delle tecnologie digitali per costruire e gestire i rapporti che le imprese hanno con il proprio mercato di riferimento. Gli strumenti tradizionali come il telefono, il fax, l’e-mail e l’instant messaging facilitano le conversazioni a distanza, ma nessuno di questi strumenti consente a una singola persona di conversare potenzialmente con milioni di utenti cosi come può avvenire attraverso l’uso di un blog’. Le aziende hanno la necessità di partecipare alle conversazioni perché esse possono diventare uno strumento funzionale alla costruzione di un rapporto di fiducia reciproca, in base al concetto di marketing bidirezionale.