Come Funziona il Bot di Qoop

Quali pagine vengono spiderizzate
Il bot qoop usa i feed come google usa le sitemap, e prende le url delle pagine dal feed (RSS o Atom), dall'url del feed recupera l'indirizzo canonico e lo controlla per vedere se la pagina è stata già elaborata. Nel caso in cui la pagina non sia stata ancora lavorata dal bot viene scaricata, elaborata, e se ritenuta valida viene indicata passata all'indicizzatore.

Dati elaborati
Con l'ultimo aggiornamento è stata implementata l'analisi della pagina con il recupero del testo tramite Open Graph e Microdata, lo schema dei microdati è consultabile qui, ed in caso di blog Wordpress il bot cerca il testo seguendo la struttura standard della piattaforma.
Attraverso OG, Microdata e strutture note, vengono recuperate e filtrate le informazioni fino a farle diventare 3 elementi distinti: il titolo, il testo e l'immagine principale della pagina.
Se vengono soddisfatti i requisiti, che sono avere un titolo, un testo sufficientemente lungo ed un'immagine che identifichi l'argomento o il sito d'origine, la pagina viene ritenuta valida per l'indicizzazione.
Cosa filtra il bot?
Filtra contenuti per adulti, immagini con nudità eccessive, argomenti offensivi o lesivi e personaggi che possono entrare in queste tre categorie.

Indicizzazione
L'indicizzazione delle nuove pagine avviene 3 volte al giorno per i nuovi contenuti nell'indice che noi chiamiamo "corrente" che contiene le pagine elaborate nell'anno in corso. Gli indici con i dati più vecchi vengono aggiornati una volta al mese, se non è richiesta un'azione manuale che li aggiorni prima, per eliminare quelle pagine che nel tempo sono state eliminate.

Post Indicizzazione
A campione vengono controllate le pagine già indicizzate, e in caso di 404 (page not found) vengono segnalate per l'eliminazione sia dall'indice che dal database.

Cosa non fa il bot
Dove è tecnicamente possibile il bot non indicizza commenti, non segue link all'interno della pagina, non da pesi diversi ai contenuti che stanno in tag particolari.

Frequenza di scansione
Mediamente il bot passa 3 volte al giorno per controllare se ci sono nuove url nel feed, ci possono essere casi in cui passa più frequentemente ma è molto raro.
Per ogni nuova url trovata vengono effettuate al massimo 2 chiamate, una all'url indicata e una all'immagine (se esiste), con una pausa di almeno 1 secondo tra una chiamata e l'altra. Un normale feed con 10 url, tutte nuove, vengono fatte al massimo 20 chiamate.
E' riconoscibile tramite lo useragent: "qoopbot/1.0 (http://www.qoop.it/)" per il recupero delle pagine e "Mozilla/5.0 (compatible; qoopbot/2.0; +http://www.qoop.it/bot)" per il recupero dei Feed.

Quante pagine vengono scansionate
Non c'è un limite di pagine scansionate, ma di tempo, il bot non rimane mai più di un'ora sullo stesso sito.
Se ci sono problemi di rete, connessioni che cadono, sito lento o quant'altro viene indicato al bot di non passare più fino all'esito positivo del check del sito, che avviene 24 ore dopo.

Se Qoop ti piace e vuoi inserire i tuoi siti sul nostro motore di ricerca usa il form nella pagina Suggerisci un sito.
Se hai commenti, messaggi o suggerimenti puoi scriverci usando l'apposito form: Contattaci.

2024 Copyright Qoop.it - All Rights Reserved.