Modalit� di ricerca documenti simili del server eXtraWay

Autore:: Tirabassi Roberto

Introduzione alla ricerca documenti simili.

Se pure le basi dell'esperienza sulla ricerca dei documenti simili origina nel primigeno progetto HighWay, � solo in eXtraWay che tale funzionalit� ha raggiunto un interessante livello di raffinamento.

Il presente documento ha lo scopo di chiarire cosa si intenda per ricerca dei documenti simili e come il server eXtraWay cerchi di raggiungere nel migliore dei modi il risultato desiderato e metta gli amministratori di archivi in condizione di personalizzare il comportamento del server per ottimizzarne i risultati.

Buona parte di quanto descritto in questo documento si applica tanto alla ricerca dei documenti simili quanto alla ricerca pesata di documenti generici in quanto gli algoritmi che tendono a stabilire se un documento debba appartenere alla selezione sulla base della pertinenza dei suoi contenuti sono fondamentalmente identici.

Per documenti simili, comunque, si vuole indicare documenti che, rispetto al documento di origine o ai documenti appartenenti ad una selezione di partenza, contengano informazioni che siano quanto pi� possibile pertinenti con quelle contenute nel campione iniziale.
Intuitivamente, se il campione iniziale � formato da un solo documento, la ricerca dei suoi simili porter� a risultati solitamente soddisfacenti. Se, per contro, il campione iniziale � rappresentato da un insieme di documenti, la bont� dell'esito della ricerca dei simili sar� tanto maggiore quanto meno eterogenei sono i documenti appartenenti al set iniziale.
Palesemente, quindi, a fronte di dati iniziali scarsamente uniformi si avranno esiti poco significativi e vice versa.

Nota:: Mente le ricerche pesate esse sono una particolare forma di selezione, la ricerca dei documenti simili pu� avvenire tanto in fase di selezione (richiesta direttamente di trovare i documenti simili alla frase di ricerca espressa) quanto in una fase successiva in cui al server viene richiesto di trovare i documenti simili ad uno o pi� documenti o ad una porzione di testo ben precisa.

Che operazioni compie il server per identificare i documenti simili

Come annunciato per sommi capi, l'esigenza di trovare documenti simili ad un campione iniziale si traduce nella necessit� di identificare documenti il cui contenuto sia pertinente il medesimo contenuto dei documenti del campione.

Per giungere a questo risultato � necessario che il contenuto venga adeguatmente filtrato perch� solo un sottoinsieme di esso � effettivamente significativo. Lo definiremo, di seguito, come rappresentativo. Quest'operazione avviene in modi diversi a seconda che il campione sia inferiore o superiore ad una soglia configurabile. Vediamo come ci� avviene:

Campione superiore alla soglia definita o utilizzo di chiavi contenitore: In questo caso i termini da utilizzare per la selezione vengono determinati per mezzo di un'analisi diretta del contenuto dei vocabolari dei canali di ricerca coinvolti, analisi che compie direttamente una valutazione sulla rappresentativit� dei termini analizzati. Quest'operazione � tanto pi� rapida quanto pi� ampio � il campione originario ed � comunque l'unica ragionevolmente percorribile quando tale campione conta un numero consistente di documenti.
Adottata anche per gli archivi ove la somiglianza venga richiesta per canali di ricerca di tipo contenitore (Vds. eXtraWay Technical Reference per maggiori chiarimenti) rende pi� lento, ma corretto, lo svolgimento di quest'operazione anche per meno documenti della soglia definita.
Campione inferiore alla soglia definita ed utilizzo di chiavi che non sono contenitori: In questo caso i termini da utilizzare vengono acquisiti direttamente leggendo il contenuto dei doucmenti ed eleggendo solo i termini rappresentativi.

Il valore di default della soglia indicata � pari a 5 documenti.

Perch� un termine presente in un documento risulti essere rappresentativo, esso deve essere presente in un numero di documenti non eccessivamente vasto. Se cos� fosse, il termine non sarebbe di alcuna utilit� nell'identificare un ben preciso set di documenti perch� condurrebbe al contrario ad una mole di dati esagerata.

Ne deriva che la prima operazione da compiere consiste nello stabilire, nell'ambito del campione iniziale, quale sia il set di termini rappresentativi su cui svolgere la selezione.

Una volta effettuata la selezione, l'esito di questa viene pesato ed ordinato in modo che ad ogni documento rilevato venga assegnato un valore percentuale, valore che intende rappresentare quanto il documento in esame somigli al campione iniziale. Quest'operazione consente, sulla base della configurazione adottata, di eliminare sin da subito i documenti che risultino eccessivamente dissimili dal campione iniziale, di tornare un massimo ed un minimo di record e quindi di cercare di dare l'esito pi� somigliante possibile alla ricerca.

I capitoli successivi indicheranno quale sia la configurazione di default utilizzata dal server, il significato delle singole voci di configurazione e quale impatto esse abbiano sul risultato della ricerca.

Modalit� di configurazione del server, comportamenti e valodi di default

Come detto in precedenza, gli algoritmi per la pesatura dei documenti e per la ricerca dei documenti simili sono in gran parte comuni tra la ricerca documenti simili e le ricerche in ranking, ovvero pesate.

Di seguito vedremo le singole componenti della ricerca pesata o per documenti simili e le possibilit� di configurazione presenti. Alcune di esse interessano le attivit� che possono essere svolte direttametne in ricerca, quindi non sono applicabili se non in quel caso e possono non interessare la determinazione dei documenti simili (che pur essendo una ricerca nel senso stretto del termine, viene eseguita in modo differente).

Soglia di Rappresentativit�

Innanzitutto dobbiamo comprendere cosa si intenda per rappresentativit� di un termine da coinvolgere nella selezione. Un termine � rappresentativo quando seleziona un numero sufficientemente contenuto (quindi rappresentativo) dei documenti dell'archivio.

I termini al di sotto di una certa soglia vanno ignorati mente quelli considerati rappresentativi verranno presi in esame. La soglia di rappresentativit� da un indice di quanti documenti debbano essere selezionati, al massimo, da una chiave perch� essa risulti rappresentativa nella ricerca.

Questo valore � il divisore di 100 ed il risultato � la percentuale d'archivio selezionabile dalla chiave. Ad esempio la soglia 100 comporta una selettivit� massima del (100/100=1) 1% dell'archivio. Una soglia 25 comporta una selettivit� massima del (100/25=4) 4% dell'archivio. Pi� grande � questo valore e pi� selettive saranno le chiavi (ovvero minore il numero massimo di documenti selezionabile da tali chiavi).

Valore di Default: Il valore di default impostato presso il server � 100 ad indicare che un termine � rappresentativo quando selezione l'1% dell'archivio. Si presta particolarmente per archivi di grandi dimensioni.

Configurazione d'archivio

E' possibile configurare un archivio perch� utilizzi un diverso valore di default per tutte le valutazioni sulla rappresentativit� intervenendo nel file nomearchivio.conf.xml alla voce di profilo probab.similartuning come nell'esempio che segue...

<profile type="probab.similartuning" value="25"/>

... in cui impostando una soglia di rappresentativit� pari a 25 si richiede che ogni termine da coinvolgere possa selezionare sino ad un massimo del 4% dell'archivio.

Configurazione temporanea in ricerca

In selezione � possibile impostare la soglia di rappresentativit� introducendo nella frase di ricerca la sintassi...

[?SIMILAR:BASEFACTOR:<numero>]

...ad indicare il nuovo numero corrispondente alla soglia di rappresentativit�. Se impostato esso sovrascrive sia il default che quanto indicato nel file nomearchivio.conf.xml

Eccezioni: Nel successivo paragrafo viene spiegata una condizione di eccezione che causa il ricalcolo dinamico della soglia di rappresentativit� se essa risulta inadeguata alla ricerca in esecuzione.

Numero delle chiavi da coinvolgere nella selezione

Se � vero che la soglia di rappresentativit� serve ad identificare un quorum di termini utile ad identificare documenti ragionevolmente simili, le impostazioni di tale soglia o la natura (ed in particolare le dimensioni) dell'archivio possono condurre a due condizioni estreme: la determinazione di un numero eccessivo di termini e la determinazione di un numero troppo esiguo di essi.

In ambo i casi, se pure per motivi diversi, si corre il rischio di non trovare documenti realmente somiglianti o di troverne troppo pochi. Per ovviare a quest'inconveniente esistono due soglie: il numero minimo e massimo di termini che concorrono alla selezione. Tali soglie, attualmente non modificabili, corrispondono a 10 e 50 termini.

Se i termini selezionati dall'algoritmo basato sulla soglia di rappresentativit� superano la soglia massima di termini ne vengono assunti solo i 50 pi� rappresentativi.
Se i termini selezionati dall'algoritmo basato sulla soglia di rappresentativit� sono inferiori alla soglia minima di termini la soglia di rappresentativit� viene ammorbidita cos� da selezionare un maggior numero di termini.

Valori di default: Come detto il valore di default � pari a 10 per la soglia minima dei termini coinvolti e 50 per la soglia massima.

Regole determinazione peso dei documenti rilevati

L'ordine che i documenti assumono nella ricerca documenti simili o nelle ricerche pesate determina quali di essi vengano eletti per essere effettivamente tornati. Questo ordine � dato dal peso attribuito ad essi. Tale peso � la sommatoria di due pesi relativi ponderati sul numero dei termini trovati nel documento (hits) e la rilevanza relativa di tali termini.

L'esperienza dimostra che dando maggior peso alla rilevanza dei termini, ovvero privilegiando quei documenti in cui si trovano termini particolarmente rari nell'intero archivio, si ottengono risultati scarsamente veritieri (i documenti simili si distinguono non tanto per la rappresentativit� di singoli termini contenuti ma per un maggior numero di essi), mentre il contrario tende a migliorare il comportamento del server se pure si deve provvedere a compiere un tuning per ottenere la miglior combinazione.

In sostanza si suggerisce di privilegiare il peso calcolato sulle hits a quello calcolato sulla rappresentativit� dei termini.

Il valore di questa voce di configurazione rappresenta la percentuale di peso data sulla base delle hits. Ovviamente, quella assegnata alla rappresentativit� dei termini � derivata da questa come complemento a 100.

Valore di default: Il valore di default � 50 non attribuendo alcun privilegio alle due unit� di calcolo.

Configurazione d'archivio

Nel file nomearchivio.conf.xml il valore pu� essere variato con la configurazione...

<profile type="probab.hitweight" value="70"/>

...ad indicare, ad esempio, che le hits contano per il 70% del peso complessivo.

Configurazione Temporanea in Ricerca

In selezione � possibile impostare la percentuale di peso introducendo nella frase di ricerca la sintassi...

[?PROBAB:HITWEIGHT:<numero>]

...ad indicare la nuova percentuale di peso da assegnare alle hits. Se impostato esso sovrascrive sia il default che quanto indicato nel file nomearchivio.conf.xml

Percentuale minima di somiglianza

Nonostante le precedenti impostazioni, la ricerca pu� condurre ad identificare documenti che risultano somiglianti ma non in modo particolarmente significativo. Ovviamente questo dipende moltissimo da archivio ad archivio nel senso che, sulla base della tipologia di contenuti pi� o meno eterogenea, sulla base delle dimensioni dell'archivio e delle modalit� con le quali vengono richieste le ricerche di documenti simili, questa stima pu� variare sensibilmente.

Per evitare che vengano tornati documenti che non sono effettivamente simili vengono ignorati tutti i documenti la cui percentuale di somiglianza finale � inferiore ad un certo punteggio.

Valore di default: Il valore di default per quest'impostazione � 25 ad indicare che non verranno tornati documenti esito della selezione con una somiglianza inferiore al 25% del campione originario.

Configurazione d'archivio

Nel file nomearchivio.conf.xml il valore pu� essere variato con la configurazione...

<profile type="probab.minrank" value="10"/>

...ad indicare che non verranno tornati i documenti con punteggi di somiglianza inferiore al 10%.

Configurazione Temporanea in Ricerca

In selezione � possibile impostare la percentuale di peso al di sotto della quale i documenti non devono essere considerati simili introducendo nella frase di ricerca la sintassi...

[?PROBAB:MINRANK:<numero>]

...ad indicare la nuova percentuale di peso sotto la quale non tornare documenti. Se impostato esso sovrascrive sia il default che quanto indicato nel file nomearchivio.conf.xml

Dimensioni massima e minima della selezione tornata

Per quanto le precedenti impostazioni possano portare ad un valido raffinamento della selezione � comunque possibile che la ricerca trovi un numero eccessivo di record o troppo esiguo. Per far fronte a questa condizione possono essere impostati il numero massimo e minimo di documenti da tornare dopo aver svolto le operazioni di peso.

Valori di default: Le soglie massime e minime sono rispettivamente 100 ed 1 ad indicare che le selezioni di anche un solo record sono accettabili e che le selezioni, pur pesate, che superino le 100 unit� vengono tagliate a 100.

Configurazione d'archivio

E' possibile impostare valori diversi agendo direttamente sulla configurazione d'archivio come nell'esempio che segue...

<profile type="probab.ranksize" value="75"/>
<profile type="probab.minranksize" value="5"/>

...ove si indica di non tornare mai pi� di 75 documenti e non meno di 5 se disponibili, indipendentemente dal peso.

Configurazione Temporanea in Ricerca

I due valori discussi possono essere impostati dinamicamente in ricerca introducendo nella frase di selezione la sintassi...

[?PROBAB:MINRANKSIZE:<numero>] [?PROBAB:RANKSIZE:<numero>]

...ad indicare soglia minima e massima. Ovviamente anche solo una di esse pu� essere impostata ed in tal caso sovrascrive sia il default che quanto indicato nel file nomearchivio.conf.xml

Sovrapposizioni delle impostazioni

Si fa notare che, indipendentemente da come vengono espressi, i valori di dimensione minima della selezione tornata e di percentuale minima di peso in somiglianza si sovrappongono.

Se � impostata una dimensione minima, quel numero di documenti verr� tornato anche se di percentuale inferiore alla percentuale di somiglianza minima indicata.

Altrettanto dicasi per la soglia superiore, se ci sono pi� documenti della quantit� massima che hanno una percentuale di voto superiore al minimo dichiarato non ne vengono comunque tornati pi� del massimo richiesto.

Altra documentazione disponibile

Per farsi un'idea pi� completa di cosa abbia portato alle decisioni prese e di come le configurazioni descritte assumano un ruolo nell'esito della ricerca dei documenti simili si suggerisce di prendere visione della seguente documentazione:

Studio Tuning Ricerce per Documenti Simili nell'Applicazione ItalgiureWeb

Date: 2007/03/01 08:53:43

Torna a Indice delle voci