Trust Rank, oltre il Page Rank

Google ha registrato il marchio Trust Rank. Qual è il suo significato? Il Page Rank è il cuore del motore di ricerca di Google. Sebbeno il PageRank (PR) determini l’importanza di un sito web, non determina il suo valore in termini di credibilità del contenuto. Per questo si è pensato ad un meccanismo per valutare l’indice di credibilità che troviamo esplicato in questo pdf di ricercatori sul Trust Rank: “Combating Web Spam with Trust Rank“. Qui c’è un abstract per coloro che non hanno conoscenze tecniche:

Le pagine di web spam utilizzano varie tecniche per raggiungere risultati nella classifica dei motori di ricerca. Mentre esperti umani possono identificare lo spam, risulta troppo costoso valutare manualmente un gran numero di pagine. Invece noi proponiamo tecniche semi-automatiche per separare le pagine spam.

Per prima cosa selezioniamo un piccolo set di pagine per essere valutato da un esperto. Una volta che noi manualmente identifichiamo le pagine degne di reputazione, utilizziamo una struttura di link per scoprire altre pagine che probabilmente sono buone.

I nostri risultati mostrano che noi possiamo efficacemente filtrare lo spam da una frazione significante del Web, basata su di un set di 200 siti.

Il documento poi presenta la metodologia di ricerca:

  1. Formaliziamo il problema dello spam sul web e gli algoritmi per rilevarlo.
  2. Definiamo le metriche per valutare gli algoritmi di rilevamento.
  3. Presentiamo set di strutture per selezionare set di pagine da essere valutate manualmente.
  4. Introduciamo l’algoritmo di Trust Rank per determinare la probabilità che queste pagine siano degne di reputazione.
  5. Discutiamo i risultati di una valutazione estesa, basata su 31 milioni di siti scansionati da AltaVista e una valutazione manuale di più di 2000 siti.
  6. Forniamo delle statistiche interessanti sul tipo e la frequenza dei contenuti incontrati sul web ed utilizziamo i nostri dati per valutare gli algoritmi proposti.