Archivi e database, storia degli archivi, componenti, vantaggi etc

« Older   Newer »
  Share  
"Ariannina"
view post Posted on 27/6/2009, 15:36




Archivi e database



In generale un archivio è un insieme organizzato di informazioni caratterizzate da alcune proprietà fondamentali:
- Tra esse esiste un nesso logico, sono cioè inerenti a un medesimo argomento
- Sono rappresentate secondo un formato che ne rende possibile l’interpretazione
- Sono registrate con un supporto su cui è possibile scrivere e rileggere informazioni anche a distanza di tempo
- Sono organizzate in modo da permettere una facile consultazione

Prima di creare un archivio bisogna definire:
- Il nome dell’archivio stesso, che deve essere inerente al contenuto
- Il tracciato record
- I supporti da usare per archiviare i dati
- La dimensione massima dell’archivio
- Il modo in cui i dati sono strutturati e organizzati tra di loro, cioè l’organizzazione dell’archivio

La gestione degli archivi viene realizzata attraverso delle operazioni:
- La creazione dell’archivio stesso, cioè tutto ciò che riguarda la realizzazione, sul supporto di memorizzazione, dello spazio destinato a contenere i dati
- La consultazione o interrogazione, cioè il reperimento all’interno dell’archivio delle informazioni necessarie per l’elaborazione desiderata. È ovvio che la possibilità di reperire le informazioni volute è il motivo principale dell’esistenza di un archivio
- L’inserimento di nuovi dati dopo che l’archivio è stato creato
- La modifica o l’aggiornamento dei dati già presenti nell’archivio
- La cancellazione di informazioni che non si vogliono più conservare perché non esiste più un nesso logico rispetto alle informazioni già presenti nell’archivio
- L’ordinamento dei dati secondo un determinato criterio. Questa operazioni facilita la consultazione degli archivi
- La fusione tra due o più archivi, cioè la formazione di un nuovo archivio utilizzando i dati contenuti negli archivi di partenza

Questi insieme di informazioni logicamente organizzate e riferite a un unico soggetto vengono chiamati con il termine record, le singole informazioni che compongono il record si chiamano campi. L’elenco ei campi che lo compongono viene detto tracciato dei campi.

Supporti fisici
Per ragioni di velocità nella ricerca e nell’elaborazione dei dati, e di spazio nella loro memorizzazione, si è passati da archivi registrati su supporti cartacei a supporti ideati per essere trattati in modo automatico dai computer.
Gli archivi memorizzati su tali supporti vengono detti file.
Le apparecchiature, esterne al calcolatore e ad esso collegate, che hanno il compiti di leggere e scrivere le informazioni contenute nei file, vengono dette unità periferiche di memoria o semplicemente periferiche.
I dati desinati ad essere elaborati dal computer devono essere memorizzati in modo opportuno, la memoria centrale del computer è costituita da componenti, in ognuno dei quali è possibile distinguere due stati a cui vengono associati i valori 0 e 1.
Questi componenti sono elementi binari e lo stato che assumono prende il nome di bit.
Le informazioni sono rappresentate utilizzando disposizioni diverse di bit, l’insieme di 8 bit ovvero un byte, può assumere 28=256 configurazioni diverse. Possiamo quindi rappresentare qualsiasi informazione stabilendo una corrispondenza biunivoca tra queste configurazioni e le cifre, le lettere e gli altri segni di punteggiatura e speciali.
Queste corrispondenze vengono dette codici binari: il codice binario più usato nei computer moderni è il codice ASCII, che è un codice di 8 bit che utilizza una combinazione di 8 zero e uno per definire un carattere. Ma i 256 caratteri rappresentabili con il codice ASCII sono ormai insufficienti per rappresentare informazioni che impiegano simboli tratti da diversi alfabeti, per questo motivo si sta diffondendo da alcuni anni la codifica Unicode che essendo un codice a 16 bit, permette di utilizzare fino a 216=65536 caratteri.

Oltre ai bit che compongono le informazioni, sui supporti di memoria di massa vengono registrati anche i bit di controllo, detti bit di parità.
Il bit di parità è un bit che viene aggiunto alla sequenza di bit che rappresentano i dati. La parità può essere pari (even) o dispari (odd). In fase di registrazione, nel caso di parità pari viene aggiunto un bit 1 o 0 in modo da rendere pari il numero dei bit con il valore 1, mentre in caso di parità dispari il bit aggiunto deve rendere dispari il numero dei bit con valore 1.
In fase di lettura vengono ricalcolati i bit di parità e nel caso di valori non corretti viene segnalato l’errore di parità. Questo tipo di controllo è in grado di riconoscere la presenza di errori e viene detto controllo di parità.

Il trasferimento di dati dalla periferica verso la memoria centrale (operazione di input con ingresso di dati in memoria) e ogni trasferimento di dati dalla memoria centrale alla periferica (operazione di output con uscita di dati in memoria) non riguarda un singolo carattere, ma un insieme di caratteri detto blocco.
Il blocco è l’unità fisica di memorizzazione di dati sulla memoria di massa.
Si definisce fattore di blocco di un file il numero di record logici contenuti in un file, un file con un fattore di blocco uguale a 1 viene detto a record sbloccati.

Le memoria di massa
Per molti anni, la scheda perforata è stata il più diffuso supporto per la registrazione dei dati.
La scheda era un cartoncino di forma rettangolare, aventi le dimensioni della banconota di un dollaro, diviso in 12 righe e 80 colonne.
Ogni carattere memorizzato occupava una colonna e la registrazione veniva fatta perforando (valore simbolico 1) o no (valore simbolico 0) le caselle della colonna.
I dati, registrati con il perforatore di schede, potevano essere letti da un’altra periferica, il lettore di schede, che per ogni colonna era in grado di riconoscere la sequenza di bit memorizzati: infatti una casella perforata permetteva il passaggio della luce, mentre ciò non avveniva per le caselle non perforate.
La scheda perforata è ormai stata completamente abbandonata per diversi motivi:
- La bassa velocità nelle operazioni di trasferimento, lettura e scrittura dei dati
- Il volume eccessivo occupato dai supporti di memorizzazione in rapporto al numero di informazioni registrate: in ogni scheda potevano essere memorizzati al massimo 80 caratteri e quindi erano necessarie migliaia di schede anche per archivi di medie dimensioni
Gli inconvenienti delle schede perforate sono state superati con l’arrivo dei nastri e dei dischi magnetici. Questi prendono il nome di memorie di massa perché possono contenere notevole quantità di dati. Si chiamano anche memorie ausiliarie, perché costituiscono un’estensione della memoria centrale di un calcolatore e consentono, a differenza della memoria centrale che è una memoria volatile, la permanenza delle registrazioni nel tempo.
Le memorie di massa sono caratterizzate da alcuni parametri fondamentali che vengono di solito utilizzati per illustrarne le prestazioni:
- Il tipo di accesso ai dati che può essere diretto come nei dischi, oppure sequenziale come nei nastri
- La capacità ovvero la quantità di dati che il supporto è in grado di contenere; si misura in Megabyte (=1024 KB), Gigabyte (=1024 MB) e in Terabyte (=1024 GB)
- Il tempo medio di accesso (access time) misurato in millisecondi, cioè il tempo medio necessario per ritrovare i dati e per trasferirli nell’unità centrale
- La velocità medio di trasferimento dei dati (transfer rate) dalla memoria di massa alla memoria centrale misurata in KB/sec o MB/sec

Il nastro magnetico e l’unità a nastri
Il nastro magnetico è formato da una lunga striscia di materiale plastico, ricoperta da materiale ferromagnetico. La superficie del nastro è suddivisa in nove piste longitudinali: otto piste servono per i bit di un byte e una pista per memorizzare il bit di parità.
La superficie è inoltre suddivisa in moltissime colonne, ciascuna detta frame.
La capacità di memorizzazione del singolo nastro è dell’ordine di alcuni, ma può raggiungere anche diverse centinaia di GB. La capacità dipende dalla quantità di bit che possono essere registrati in un pezzo di nastro usando la misura americana bpi (bits per inch), cioè bit per pollice.
Una bobina di nastro magnetico viene chiamata volume e può contenere uno o più file, può anche accadere che un file per la sua dimensione occupi più bobine e in questo caso viene detto file multivolume.
Le informazioni che permettono l’identificazione e il controllo di un nastro e dei file in esso registrati, sono contenute in particolari gruppi di caratteri, registrati su nastro, detti label.
La label più significative sono.
- La label di volume: che è il primo blocco registrato sul nastro che contiene informazioni atte a identificare la bobina, per esempio il nome del proprietario
- La label di file: che è posta prima dell’inizio di un file, contiene informazioni sul nome e il codice del file, la data di registrazione e il periodo di conservazione del file stesso e il numero d’ordine della bobina se il file è multivolume
- La label di fine file: è il blocco contente il gruppo di caratteri che chiude ogni file
- La label di fine volume: è posta alla fine di un nastro per indicare che è terminata la bobina, ma non il file
L’uso dei nastri come supporto per la memorizzazione delle informazioni è conveniente per l’alto numero di informazioni immagazzinate con scarso ingombro e per il basso costo delle bobine che sono anche riutilizzabili, anche se lo sfregamento delle testine di lettura e di scrittura sul nastro ne comportano il deterioramento nel tempo.
Gli svantaggi sono invece le probabili alterazioni della magnetizzazione, se le bobine non vengono conservate in un luogo adatto, e soprattutto l’accesso obbligatorio sequenziale delle informazioni. Anche se modelli recenti di unità a nastro consentono lo scorrimento del nastro in modo bidirezionale, questo significa che non è necessario riavvolgere tutto il nastro per effettuare operazioni di lettura e di scrittura.

Il disco magnetico e l’unità a dischi
Il disco magnetico è costituito da un sottile disco metallico con le facce ricoperte da materiale magnetizzante. Più dischi possono essere montanti su un medesimo asse centrale intorno al quale ruotano con velocità uniforme: si parla in questo caso di pacchetti di dischi o disk-pack.
Le due facce del disco, che prendono il nome di superfici, sono divise in settori separati da gap. L’insieme delle piste a uguale distanza dal centro viene detto cilindro.
Un gruppo di settori di un disco si chiama cluster e costituisce la quantità di dati che viene effettivamente trasferita in un’operazione di I/O del disco.
Nei dischi magnetici si parla di accesso diretto alle informazioni in quanto l’accesso a un blocco è indipendente dalla posizione degli altri e il tempo di accesso è indipendente dalla posizione del blocco sul disco: per poter accedere in lettura o scrittura al blocco contenente il record desiderato occorre specificare il numero del cilindro, della testina o del settore.
Il tempo di ritrovamento dei dati, cioè il tempo che intercorre tra l’interpretazione dell’indirizzo del blocco e il posizionamento della testina all’inizio del blocco stesso, risulta quindi formato dal:
- Tempo di posizionamento del braccio. Varia in funzione del numero di tracce che devono essere attraversate per posizionarsi sul cilindro desiderato. Nei dischi attualmente utilizzati varia da 0.2 – 0.6 millesimi di secondo per traccia attraversata
- Tempo di latenza rotazionale, cioè il tempo occorrente perché il settore cercato passi sotto la testina.
La somma dei due tempi costituisce il tempo di accesso e assume valori compresi tra 5 e 10 ms al secondo.
La capacità dei dischi attuali varia da alcune decine ad alcune centinaia di GB. La capacità di un disco dipende da quanto stretti possono essere registrati i bit in una stessa traccia (densità lineare) e di come possono essere messe vicine le tracce sulla superficie di un disco (densità delle tracce).
Le due densità e la loro combinazione, detta densità di area, dipendono dai materiali con cui viene realizzato il disco.
 
Top
0 replies since 27/6/2009, 15:36   474 views
  Share