Annotazioni: definizione dei siti in cui eseguire la ricerca

In questa pagina viene descritto come definire la copertura del tuo motore di ricerca utilizzando un file di annotazioni XML.

  1. Panoramica
  2. Utilizzare il formato XML Ricerca programmabile
  3. Migliorare la copertura della Ricerca
  4. Limiti delle annotazioni

Panoramica

Gestire un'ampia raccolta di siti può essere noioso se stai creando un motore di ricerca di grandi dimensioni. Puoi invece aggiungere e gestire molti siti elencandoli in un file di annotazioni e caricandolo. Inoltre, i file di annotazioni offrono un controllo molto maggiore sul ranking dei risultati di ricerca.

Un file di annotazioni è semplicemente un elenco di annotazioni. Ogni annotazione ha due componenti: il sito e le relative etichette associate. L'etichetta indica a Motore di ricerca programmabile come gestire un sito; cioè se un sito deve essere incluso, escluso, promosso o retrocesso. Nel file di contesto, definisci le etichette; nel file delle annotazioni, tagghi i siti con le etichette appropriate.

Quando inizi a modificare il file di annotazioni, inizia con un numero ridotto di annotazioni. È più facile testare e risolvere i problemi del tuo motore di ricerca con un numero limitato di annotazioni. Quando ottieni i risultati previsti, aggiungi in modo incrementale altre annotazioni.

Puoi caricare il file delle annotazioni sul pannello di controllo. Per maggiori dettagli sui limiti dei file, consulta la sezione Limiti delle annotazioni.

Torna all'inizio

Utilizzo del formato XML Ricerca programmabile

Se vuoi sfruttare tutte le funzionalità disponibili nel file di configurazione di Motore di ricerca programmabile, XML è la soluzione.

Annotazioni XML

Di seguito è riportato un esempio di annotazioni XML. Questo file di annotazioni indica al Motore di ricerca programmabile di includere tutto ciò che si trova in www.webmd.com/hw/* ma di escludere tutto ciò che si trova in www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

Il file delle annotazioni contiene quattro elementi nella seguente gerarchia:

  • Annotations (elemento principale)
    • Annotation
      • Label
      • Comment (facoltativo)

Torna all'inizio

Creazione di annotazioni esterne

Per elencare i siti da coprire con il motore di ricerca, procedi nel seguente modo:

  1. Inizia il file con l'elemento principale <Annotations></Annotations>.
  2. Crea un'annotazione aggiungendo i tag <Annotation></Annotation>, quindi definisci l'attributo about con il pattern URL del sito.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Associa il sito al motore di ricerca utilizzando il tag <Label name=" "/> e specifica come il sito deve essere trattato dal motore di ricerca. Puoi ottenere le etichette per il tuo motore di ricerca dal file di contesto del motore di ricerca. Sono disponibili due etichette: una per aggiungere siti al Motore di ricerca programmabile e una per escluderne i siti. Se non hai modificato il nome dell'etichetta del motore di ricerca nel file di contesto, l'etichetta per l'inclusione dei siti è nel formato _include_, mentre l'etichetta per l'esclusione dei siti è nel formato _exclude_. Per evitare errori, copia e incolla queste etichette anziché digitarle a mano.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Un sito può avere più etichette associate,

    Se hai modificato il nome dell'etichetta nel file di contesto, ricordati di aggiornare i valori Label name nel file di annotazioni.

  4. Per aggiungere altri siti, crea e definisci un altro elemento Annotation.
  5. Salva il file XML.

Torna all'inizio

Migliorare la copertura della Ricerca

Il Motore di ricerca programmabile si basa sull'indice Google. Ciò significa che le pagine web presenti nell'Indice Google sono disponibili per il tuo motore di ricerca. al contrario, le pagine web che non sono state sottoposte a scansione da parte di Google non verranno visualizzate nei risultati di ricerca. Se vuoi che il tuo Motore di ricerca programmabile includa siti che non sono attualmente presenti nell'Indice Google, invia una Sitemap a Google Search Console.

Una Sitemap include un elenco di pagine del sito, nonché informazioni sulla frequenza di aggiornamento delle pagine web e sulla loro importanza le une rispetto alle altre. L'invio di una Sitemap consente a Google di trovare le tue pagine web e di migliorare la pianificazione della scansione. Per ulteriori informazioni sulle Sitemap, visita il Centro assistenza per i webmaster e visita il sito Utilizzo del Protocollo Sitemap. Se ti interessa creare Sitemap più elaborate, consulta la pagina http://www.sitemaps.org/protocol.php.

L'invio di Sitemap è particolarmente utile se il sito presenta quanto segue:

  • Contenuti dinamici
  • Pagine web che non sono facilmente individuabili da Googlebot (il web crawler di Google), ad esempio pagine con funzioni avanzate di AJAX o Flash
  • Pochi siti web con link che rimandano a questa pagina.

    Googlebot esegue la scansione del web seguendo i link da una pagina all'altra, quindi se il tuo sito non è ben collegato, è difficile per il crawler rilevarlo. Se il tuo sito web è nuovo, probabilmente non molti siti web rimandano al tuo sito.

  • Un grande archivio di pagine di contenuti che non dispone di una solida rete di link incrociati

Google può indicizzare solo le pagine a cui può accedere. Pertanto, se utilizzi il file robots.txt o i meta tag robots nelle tue pagine web, assicurati che non blocchino i crawler.

Una copertura migliorata non è istantanea, in quanto occorre un po' di tempo per la scansione e l'indicizzazione delle pagine. Ma una volta inserite l'indice, le tue pagine web potrebbero essere visualizzate sia nella Ricerca Google sia nel tuo Motore di ricerca programmabile.

Torna all'inizio

Limiti delle annotazioni

La tabella seguente elenca i limiti per i file di annotazioni che vengono caricati su Motore di ricerca programmabile:

Nota: rispetta attentamente i limiti. se li superi, il tuo motore di ricerca potrebbe non mostrare risultati.

Aspetto Limite
Dimensioni del file (file di contesto o annotazioni) 30 kB
Numero massimo di annotazioni per motore di ricerca 5000

Suggerimento:se il tuo motore di ricerca supera il limite massimo di 5000 siti, valuta la possibilità di consolidare i singoli URL in pattern URL.

Torna all'inizio