Manuale Amministratore xCrossWay

Semplice manuale per l'Amministratore di xCrossWay

Indice dei contenuti

  1. Introduzione: lo scopo di xCrossWay
  2. I Comandi Amministrativi
  3. Il Target: elementi necessari alla configurazione
  4. Suggerimenti sulla costituzione dei Target
  5. Esempio d'uso delle Categorie Descrittive
  6. Regole di Scansione

Introduzione: lo scopo di xCrossWay

Scopo di un Internet Crawler, ed in particolare di uno strumento come xCrossWay, è quello di consentire la raccolta di informazioni eterogenee da fonti dati differenti, sia che siano locali, sia che siano remote.

La raccolta di informazioni locali fa riferimento ai documenti che siamo soliti avere nel nostro Computer, documenti di diversa natura che sta a noi distribuire secondo una logica di directory così da poter reperire facilmente un documento in base al raggruppamento nel quale abbiamo provveduto a riporlo.
Ciò non toglie che quanto detto non è sufficiente ad isolare i documenti che effettivamente rispondono alle nostre esigenze quindi uno strumento come xCrossWay, offrendo ampie potenzialità di ricerca, si presta particolarmente ad un uso come quello suggerito che, in seguito, verrà identificato come Personal Indexer.

La raccolta di informazioni remote, per contro, consta nell'analisi del contenuto di Siti Internet alla ricerca di informazioni che possono essere di nostro interesse. Chi dovesse perseguire un simile scopo dovrà quindi studiare le caratteristiche di tali Siti per poter scegliere la porzione di essi che risulta effettivamente pertinente così da ottimizzare il compito di xCrossWay.
L'uso di questo strumento consente quindi di effettuare una raccolta ponderata di informazioni che sappiamo essere di nostro interesse senza dover far affidamento su motori di ricerca generici che sovente non sono in grado di darci la risposta che effettivamente vogliamo.

Elemento determinante perché la raccolta delle informazioni risulti efficace è la scelta dei Target. Un Target altro non è che la fonte di informazioni dalla quale intendiamo attingere i dati da raccogliere. Il primo passo è quindi la scelta di questa fonte ed il secondo passo consta nella determinazione del sottoinsieme della fonte che risulta effettivamente utile.
Per fare un esempio potremmo dire che il disco fisso di una macchina può essere considerato al pari di una fonte di informazioni ma solo la directory che contiene effettivamente i documenti ne rappresenta un sottoinsieme significativo. Al pari di quest'esempio possiamo ritenere che un ben preciso sottoinsieme di un Sito Internet sia significativo rispetto alla sua totalità.

Compito dell'Amministratore di xCrossWay, quindi, è quello di scegliere con cura i Target e di configurare l'archivio alimentato da questa procedura con le indicazioni più utili ad ottimizzare il risultato. Nei paragrafi successivi verranno descritte la forma del Target e portati alcuni esempi. esempi

Date
2005/11/23 12:38:45

Torna: Indice dei contenuti

I Comandi Amministrativi

I comandi amministrativi sono quelli che consentono di creare e manutenere i Target, meglio descritti nel paragrafo successivo, compiere le scansioni ed amministrarne il risultato.

Comandi amministrativi possono essere trovati nel menù principale, in tutte le pagine strettamente legate ai Target ed ovviamente nel menà amministrativo. L'utente Amministratore ha comunque facoltà di raggingere il menù amministrativo con il bottome Amministra un po' da tutti i punti dell'applicazione.
Dal momento che i comandi amministrativi presenti nel menù principale sono presenti anche nel menù dedicato poniamo l'attenzione esclusivamente su di esso. Tale menù, come detto, può essere raggiunto tramite il bottone Amministra.

Nel Menù di Amministrazione sono presenti dei bottoni ed un Combo Box. Il Combo Box contiene i nomi dei Gruppi di Target (Vds. Regole di Scansione) sui quali svolgere alcune delle operazioni disponibili.
I Bottoni hanno il seguente scopo:

Parte di questi comandi, ovvero quelli specifici di scansione, saranno presenti nella scheda del Target stesso. In tal caso le operazioni di scansione sono riferite esclusivamente a tale Target.
Nella fattispecie saranno presenti, oltre a quanto detto, i comandi:

Date
2005/11/23 12:38:45

Torna: Indice dei contenuti

Il Target: elementi necessari alla configurazione

La configurazione di un Target richiede, in primo luogo, di identificare chiaramente la fonte di informazioni ed al suo interno il più adeguato punto di partenza. Come detto, tale identificazione avviene determinando esattamente la URL del Sito Internet o la directory sul disco locale. Mentre il secondo caso è più semplice ed intuitivo, la determinazione della URL più adeguata può richiedere qualche accorgimento. Una URL fa riferimento, chiaramente, ad una Pagina che rappresenta per xCrossWay un punto di partenza. Mentre nella scansione dei documenti su disco fisso, la determinazione di una directory è più che sufficiente e da essa di discende a tutte le directory sottostanti secondo le indicazioni poste nel Target, in questo caso la discesa dipende da quante e quali ulteriori URL si troveranno nella Pagina inizialmente acquisita. Queste URL possono far riferimento ad altri Siti ed in tal caso non verranno seguite, o ad altre Pagine sullo stesso Sito dislocate in diverse posizioni. Ecco che si deve prestare attenzione alle decisioni che vengono prese in quanto il sottoinsieme del Sito da scandire ed il punto di partenza in esso possono differire.

Vediamo l'esempio che segue: Vogliamo scandire il sito "http://www.lexia.it" e di aver determinato che la sezione rappresentata dall'ulteriore componente della URL "/sentenze/" sia effettivamente di nostro interesse. Sempre nel nostro esempio immaginiamo che, pur senza indicare alcuna pagina html, il sito ne presenti una di default per la URL indicata.
Avremo quindi una Sito identificato dalla URL "http://www.lexia.it/" ed un punto di partenza identificato dalla URL "http://www.lexia.it/sentenze/".
Per motivi che risulteranno più chiari in seguito, diciamo quindi che la URL che identifica il sito è "http://www.lexia.it/" mentre la sottoURL che ne identifica il sottoinsieme significativo, quindi il punto di partenza, è "sentenze/".
A questo punto, se scandendo la Pagina inizaile dovessimo rilevare in essa una URL "http://www.lexia.it/note/index.html" essa sarebbe comunque oggetto di scansione in quanto, pur non trovandosi sotto il punto di partenza indicato avrebbe comunque in comune con ogni altra URL scandita la parte di URL che rappresenta il Target.
Invertendo l'esempio, se volessimo restringere alla sola porzione di Sito rappresentata da "sentenze/" la nostra scansione, sarebbe sufficiente indicare come URL identificativa del Sito stesso la URL "http://www.lexia.it/sentenze/" e come punto di partenza, non avendo il nome di una Pagina html da caricare, semplicemente un punto ("."). Sulla base di questa configurazione, la URL "http://www.lexia.it/note/index.html" non verrebbe scandita in quanto appartenente ad una porzione di Sito con una diversa radice.

Fatta questa necessaria premessa, ecco nel dettaglio le componenti di un Target:

Date
2005/11/23 12:38:45

Torna: Indice dei contenuti

Suggerimenti sulla costituzione dei Target

I paragrafi precedenti hanno illustrato come sia opportuno configurare i Target al fine di ottimizzare il risultato ottenuto da una scansione raccogliendo quante più informazioni utili ed evitando di caricare Pagine inutili da un Sito. Per mettere a punto la configurazione del Target, quindi, diventa particolarmente importante stabilire il più opportuno punto di partenza ed il più corretto livello di recursione. Bisogna inoltre tutelarsi dalle redirezioni sempre più frequenti nelle varie implementazioni dei Siti Web.

Vediamo quindi come ottenere quanto detto. In primo luogo vale la pena di fare una navigazione manuale del Sito così da identificare le parti interessanti. Per lo stesso sito nulla vieta di creare Target diversi (aventi Host diversi e diversi Directory) per acquisire dati da porzioni del sito differenti e quindi più o meno interessanti. A questo punto si può effettuare un primo tentativo di scansione scegliendo l'opzione Simula. Quest'opzione compie tutti i passi normalmente svolti durante la scansione ma evita il salvataggio dei documenti. L'esito della scansione viene registrato nel file di log del Modulo, xcrwl.log, analizzando li quale è facile renersi conto se il Target è stato configurato adeguatamente, se vengono acquisite troppe o troppo poche Pagine e se il punto di origine risulti sensato o meno.
Inoltre la presenza di redirezioni che non possono essere seguite (perché conducono ad Host differenti o ad altre porzioni dello stesso Sito) possono indicarci altri Target da sviluppare.

Compiuta questa valutazione si può passare ad una scansione vera e propria ricordando che è sempre possibile svuotare un target e/o rimuoverlo.

Date
2005/11/23 12:38:45

Torna: Indice dei contenuti

Esempio d'uso delle Categorie Descrittive

Come detto le Categorie Descrittive rappresentano una sorta di libera classificazione che viene assegnata a tutti i documenti acquisiti a partire da un Target. Ad ogni Target ne possono essere assegnate diverse.

Per capire meglio come si possono usare queste categorie facciamo un esempio legato all'editoria. Immaginiamo di voler scandire una serie di Siti Internet inerenti alcuni giornali, periodici e così via e che le Categorie Descrittive che vogliamo attribuire loro ci consentano di compiere, in fase di ricerca dei raggruppamenti logici. Ecco alcune Categorie Descrittive divise per competenza.

Distribuendo in ogni Target una o più delle precedenti Categorie Descrittive avremo la possibilità, in ricerca, di restringere, la ricerca testuale che faremo ad un raggruppamento logico di Target significativi. Potremo quindi cercare i documenti appartenenti alla "Stampa Nord Americana in lingua francese in tema di Sport" trovando presumibilmente quotidiani e settimanali Canadesi, oppure "Quotidiani Europei in lingua Tedesca" trovandone di Austriaci e di Tedeschi.

La scelta delle Categorie Descrittive sta alla sensibilità dell'Amministratore di xCrossWay e può rappresentare un importante valore aggiunto in fase di ricerca.

Date
2005/11/23 12:38:45

Torna: Indice dei contenuti

Regole di Scansione

La configurazione di un target prevede di poter esplicitare delle regole di scansione. L'elenco di tali regole è destinato a crescere con le esigenze che si incontreranno nello sviluppo delle varie versioni del Modulo.

Di seguito l'elenco dei codici attualmente riconosciuti ed il loro significato. L'elenco è rappresentato dal codice della Regola di Scansione e dalla spiegazione del valore che ad essa deve essere associato (se pertinente).

Autore:
Tirabassi Roberto
Date
2005/11/23 12:38:45

Torna: Indice dei contenuti


HighWay/eXtraWay Project - Frequently Asked Questions (Doxygen 1.6.1)