GAWK(1) | Utility Commands | GAWK(1) |
gawk - linguaggio per il riconoscimento e il trattamento di espressioni regolari
gawk [ opzioni in stile POSIX o GNU ] -f file di
programma [ -- ] file ...
gawk [ opzioni in stile POSIX o GNU ] [ -- ] testo del
programma file ...
Gawk è l'implementazione nell'ambito del Progetto
GNU del linguaggio di programmazione AWK . Si attiene alla definizione del
linguaggio descritta nello Standard POSIX 1003.1. Questa versione è
basata a sua volta sulla descrizione contenuta in The AWK Programming
Language, di Aho, Kernighan e Weinberger. Gawk fornisce le
funzionalità aggiuntive presenti nella versione corrente di
awk
di Brian Kernighan e diverse estensioni specifiche di GNU.
La riga di comando contiene opzioni per gawk stesso, il testo del programma AWK (se non è stato fornito con le opzioni -f o --file ), e valori da rendere disponibili nelle variabili AWK predefinite ARGC e ARGV .
Quando gawk è invocato con l'opzione --profile , inizia a raccogliere statistiche sul comportamento del programma durante l'esecuzione. Gawk in questa modalità è più lento, e produce automaticamente un profilo di esecuzione nel file awkprof.out alla fine dell'esecuzione. Si veda l'opzione --profile più avanti.
Gawk ha anche una capacità integrata di debugging. Una sessione interattiva di analisi degli errori (debug) può essere iniziata fornendo l'opzione --debug sulla riga di comando. In questa modalità di esecuzione, gawk carica il codice sorgente di AWK e poi richiede l'inserimento di comandi di debug. Gawk può analizzare solo il sorgente di un programma AWK fornito tramite l'opzione -f. Il debugger è documentato in GAWK: Effective AWK Programming.
Le opzioni di Gawk possono essere sia nella tradizionale forma a una lettera di POSIX, sia nella forma estesa tipica di GNU. Le opzioni POSIX cominciano con un “-” singolo, quelle in forma lunga cominciano con “--”. Sono disponibili opzioni in forma lunga sia per le funzionalità specifiche di GNU, sia per quelle previste da POSIX.
Le opzioni specifiche di Gawk sono usate normalmente nella forma lunga. Gli argomenti delle opzioni in forma lunga possono essere uniti ad esse da un segno =, senza spazi, oppure sono indicati nel successivo argomento della riga di comando. Le opzioni lunghe possono essere abbreviate, sempre che l'abbreviazione rimanga univoca.
In aggiunta, ogni opzione lunga ha una corrispondente opzione corta, in modo che la funzionalità dell'opzione possa essere usata all'interno di script #! eseguibili.
Gawk accetta le seguenti opzioni. Le opzioni standard sono elencate per prime, seguite dalle opzioni per le estensioni gawk, elencate nell'ordine alfabetico delle opzioni corte.
Avere una lista di tutte le variabili globali è un buon modo per cercare errori tipografici nei programmi. Questa opzione potrebbe essere usata anche se si ha un grosso programma con tantissime funzioni, e ci si vuole assicurare che le funzioni non usino inavvertitamente variabili globali che sono supposte essere locali (è facile commettere questo errore quando si usano nomi di variabili semplici come i, j, e così via).
In modalità compatibile, qualsiasi altra opzione è contrassegnata come non valida e viene ignorata. Nell'uso normale, sempre che sia stato fornito il testo del programma, le opzioni sconosciute sono passate al programma AWK nel vettore ARGV per l'elaborazione. Questo è particolarmente utile per eseguire i programmi AWK attraverso il meccanismo dell'interprete eseguibile “#!”.
Per compatibilità con POSIX, si può usare l'opzione -W , seguita dal nome di un'opzione lunga.
Un programma AWK consiste di una sequenza di istruzioni di tipo criterio-azione e di definizioni di funzione opzionali.
@include "nome_del_file"
@load "nome_del_file"
criterio di ricerca { istruzioni di azione }
function nome(lista di parametri) {
istruzioni }
Gawk prima legge il codice del programma dal/dai file_di_programma se specificato/i, dagli argomenti passati a --source, o dal primo argomento sulla riga di comando che non sia un'opzione. Le opzioni -f e --source possono essere usate più volte nella riga di comando. Gawk legge il testo del programma come se tutti i file_di_programma e i testi sorgenti della riga di comando fossero concatenati. Questo permette di realizzare librerie di funzioni AWK senza bisogno di includerle in ogni nuovo programma AWK che le usi; inoltre si possono combinare funzioni di libreria con programmi provenienti dalla riga di comando.
Oltre a ciò, le righe che iniziano con @include possono essere usate per includere altri file sorgenti nel programma, rendendo l'uso della libreria ancora più facile. Questo è equivalente all'uso dell'opzione -i.
Le righe che iniziano con @load possono essere usate per caricare librerie condivise nel programma. Questo è equivalente all'uso dell'opzione -l.
La variabile d'ambiente AWKPATH specifica il percorso lungo il quale cercare i file sorgenti indicati con le opzioni -f e -i. Se questa variabile non esiste, il percorso predefinito è ".:/usr/local/share/awk" (la directory in questione può variare a seconda di come gawk è stato compilato e installato). Se un nome di file dato con l'opzione -f contiene un carattere “/”, non viene eseguita nessuna ricerca sul percorso.
La variabile d'ambiente AWKLIBPATH specifica il percorso lungo il quale cercare i file sorgenti indicati con l'opzione -l , Se questa variabile non esiste, il percorso predefinito è ".:/usr/local/lib/gawk" (la directory in questione può variare a seconda di come gawk è stato compilato e installato).
Gawk esegue i programmi AWK nell'ordine seguente. Per prima cosa, vengono effettuati tutti gli assegnamenti di variabile indicati dall'opzione -v. Successivamente, gawk compila il programma in un formato interno. Poi gawk esegue il codice nella regola/e BEGIN (se esistente/i), quindi procede con la lettura di ciascun file indicato nel vettore ARGV (fino a ARGV[ARGC]). Se non ci sono file indicati nella riga di comando, gawk legge dallo standard input.
Se un nome di file nella riga di comando ha la forma var=val, è trattato come un assegnamento di variabile. Alla variabile var sarà assegnato il valore val (questo accade dopo che ogni regola BEGIN è stata eseguita). L'assegnamento di variabili da riga di comando è utilissima per assegnare dinamicamente valori alle variabili che AWK usa per controllare come l'input è organizzato in campi e record. È utile inoltre per controllare variabili di stato quando siano necessari più passi di elaborazione su un singolo file di dati.
Se il valore di un particolare elemento di ARGV è la stringa vuota (""), gawk lo salta.
Per ogni file in input, se esiste una regola BEGINFILE, gawk esegue il codice associato prima di elaborare il contenuto del file. Similarmente, gawk esegue il codice associato a ENDFILE dopo l'elaborazione del file.
Per ogni record in input, gawk controlla se c'è corrispondenza con qualche criterio di ricerca specificato nel programma AWK. Per ogni criterio di ricerca a cui un record corrisponde, gawk esegue l'azione associata. I criteri di ricerca sono verificati nell'ordine in cui appaiono nel programma.
Infine, dopo che sono esauriti i dati in input, gawk esegue il codice nelle regola/e END (se esistente/i),
Secondo POSIX, i file indicati sulla riga di comando di awk devono essere file di testo. Se non lo sono il comportamento è ``indefinito''. La maggior parte delle versioni di awk considerano una directory sulla riga di comando come un errore fatale.
A partire dalla versione 4.0 di gawk, una directory sulla riga di comando produce solo un messaggio di avvertimento, senza conseguenze. Se sono date le opzioni --posix o --traditional gawk ritorna a trattare le directory sulla riga di comando come errore fatale.
Le variabili di AWK sono dinamiche; iniziano a esistere la prima volta che vengono usate. I loro valori sono numeri in virgola mobile, o stringhe, o entrambe le cose, a seconda di come sono usati la prima volta. Inoltre AWK dispone di vettori monodimensionali; i vettori multidimensionali possono essere simulati [da vettori monodimensionali]. Gawk fornisce veri vettori di vettori; si veda Vettori, più avanti. Al momento dell'esecuzione del programma sono impostate parecchie variabili predefinite; saranno descritte di volta in volta quando sarà necessario, ed elencate più avanti.
Normalmente i record sono separati dal carattere newline. Si può controllare il modo in cui i record sono separati assegnando valori alla variabile incorporata RS. Se RS contiene un qualsiasi carattere singolo, tale carattere separa i record. Altrimenti, se RS è un'espressione regolare, il testo nell'input che corrisponde a questa espressione regolare sarà il separatore di record. Tuttavia, nella modalità compatibile è preso in considerazione solo il primo carattere della stringa risultante, come separatore. Se RS contiene la stringa nulla, i record sono separati da righe vuote. Quando RS contiene la stringa nulla, il carattere newline ha sempre la funzione di separatore di campo in aggiunta a quello indicato dalla variabile FS, quale che esso sia.
Ogni volta che gawk legge un record lo spezza in campi, usando il valore della variabile FS come separatore di campo. Se FS è un carattere singolo, i campi sono separati da quel carattere. Se FS è la stringa nulla, ogni singolo carattere diventa un campo a sé. Diversamente, si presume che FS sia un'espressione regolare completa. Nel caso particolare in cui FS sia un singolo spazio, i campi sono separati da sequenze di spazi, caratteri di tabulazione o newline (ma si veda la sezione COMPATIBILITÀ POSIX più avanti). NOTA: Il valore di IGNORECASE (vedi più avanti) influenza anche il modo in cui i campi sono spezzati quando FS è un'espressione regolare, e come i record vengano separati quando RS è un'espressione regolare.
Se alla variabile FIELDWIDTHS è assegnata una lista di numeri separati da spazi, ogni campo è considerato di lunghezza fissa, e gawk spezza il record secondo le ampiezze specificate. Il valore di FS è ignorato. Assegnando un nuovo valore a FS o a FPAT si annulla l'effetto di FIELDWIDTHS.
Similmente, se alla variabile FPAT è assegnata una stringa che rappresenta un'espressione regolare, ogni campo è composto di testo che corrisponde a quella espressione regolare. In questo caso, l'espressione regolare descrive i campi stessi, invece che il testo che separa i campi. Assegnando un nuovo valore a FS o a FIELDWIDTHS si annulla l'effetto di FPAT.
Ogni campo nel record in input può essere individuato dalla sua posizione: $1, $2, e così via. $0 è l'intero record. Non è necessario che i campi siano indicati da costanti:
n = 5
print $n
stampa il quinto campo del record in input.
La variabile NF contiene il numero di campi nel record in input.
Riferimenti a campi inesistenti (cioè campi dopo $NF) producono la stringa vuota. Tuttavia, l'assegnamento ad un campo inesistente (per esempio $(NF+2) = 5) provoca l'incremento del valore di NF, crea tutti i campi intermedi assegnando loro la stringa nulla, e fa sì che il valore di $0 sia ricalcolato utilizzando OFS per separare i campi. Riferimenti a campi con indice negativo producono un errore fatale. Il decremento di NF provoca la perdita dei campi di indice superiore al valore impostato, ed il ricalcolo di $0, utilizzando OFS per separare i campi.
L'assegnamento di un valore a un campo esistente provoca la ricostruzione dell'intero record quando si faccia riferimento a $0. Analogamente, assegnare un valore a $0 provoca una nuova divisione del record, creando nuovi valori per i suoi campi.
Le variabili incorporate di gawk sono:
Così, se IGNORECASE è diverso da zero, /aB/ corrisponde a tutte queste stringhe : "ab", "aB", "Ab", e "AB". Come per tutte le variabili di AWK, il valore iniziale di IGNORECASE è zero, cosicché tutte le operazioni sulle espressioni regolari e su stringhe normalmente distinguono tra maiuscole e minuscole.
function cmp_func(i1, v1, i2, v2)
dove i1 e i2 sono gli indici, e v1 e v2 sono i valori corrispondenti dei due elementi che si stanno confrontando. Dovrebbe restituire un numero minore, uguale o maggiore di 0, a seconda di come devono essere ordinati gli elementi del vettore.
foo = 5 SYMTAB["foo"] = 4 print foo # stampa 4
La funzione isarray() può essere usata per controllare se un elemento in SYMTAB è un vettore. Non è possibile usare l'istruzione delete per il vettore SYMTAB .
I vettori hanno per indice un'espressione tra parentesi quadre ([ e ]). Se l'espressione è formata da una lista di espressioni (expr, expr ...) l'indice del vettore è una stringa ottenuta concatenando i valori (stringa) di ogni espressione, separati dal valore della variabile SUBSEP . Questa modalità è usata per simulare vettori multidimensionali. Per esempio:
assegna la stringa "hello, world\n" all'elemento del vettore x che è indicizzato dalla stringa "A\034B\034C". In AWK, tutti i vettori sono associativi, cioè indicizzati da valori di tipo stringa.
L'operatore speciale in può essere usato per controllare se un vettore contiene un certo valore come indice.
if (val in vettore) print vettore[val]
Se il vettore ha indici multipli, si usi (i, j) in vettore.
Il costrutto in può anche essere usato in un ciclo for per iterare su tutti gli elementi di un vettore.
Un elemento di un vettore può essere cancellato con l'istruzione delete . delete può anche essere usato per cancellare l'intero contenuto di un vettore, basta specificare il nome del vettore stesso senza indici.
gawk supporta veri vettori multidimensionali. Non richiede che tali vettori siano ``rettangolare'' come in C or C++. Per esempio:
a[1] = 5 a[2][1] = 6 a[2][2] = 7
NOTA: Si potrebbe aver necessità di dire a gawk che un elemento di un vettore è in realtà un sottovettore per usarlo dove gawk si aspetta di trovare un vettore (come nel secondo argomento di split()). Si può fare questo creando un elemento nel sottovettore e cancellandolo poi con l'istruzione delete .
Le variabili e i campi possono essere numeri (in virgola mobile), stringhe, o entrambe le cose. Come sia interpretato il valore di una variabile dipende dal contesto. In un'espressione numerica, sarà trattato come un numero; usato come stringa, sarà trattato come tale.
Per far trattare una variabile come numero, le si sommi 0; per ottenere che venga trattata come come stringa, le si concateni la stringa nulla.
Le variabili non inizializzate hanno sia il valore numerico 0 che il valore di stringa "" (la stringa nulla, o vuota).
Quando una stringa deve essere convertita in un numero, la conversione è compiuta con strtod(3). I numeri sono convertiti a stringhe usando sprintf(3) col valore di CONVFMT come stringa di formato ed il valore numerico della variabile come argomento. Tuttavia, anche se tutti i numeri in AWK sono in virgola mobile ("float"), i valori privi di decimali sono sempre convertiti in numeri interi. Così, dati
CONVFMT = "%2.2f" a = 12 b = a ""
la variabile b ha un valore di tipo stringa di "12" e non "12.00".
NOTA: Quando si opera in modalità POSIX (come con l'opzione --posix), bisogna fare attenzione che le impostazioni per la localizzazione possono interferire col modo in cui sono trattati i numeri decimali: il separatore decimale dei numeri che si forniscono a gawk deve essere conforme a quello che si aspetta la localizzazione in uso, che sia un punto (.) o una virgola (,).
Gawk esegue i confronti nel modo seguente: Se due variabili sono numeriche, sono confrontate numericamente. Se una è numerica e l'altra è una stringa interpretabile come “stringa numerica,” sono pure confrontate numericamente. Negli altri casi, gli eventuali valori numerici sono convertiti in stringhe, ed è eseguito un confronto tra stringhe. Ovviamente, due stringhe sono confrontate come stringhe.
Si noti che le costanti stringa, come "57", non sono stringhe numeriche, ma solo costanti stringa. L'idea di “stringa numerica” si applica solo ai campi, all'input di getline, a FILENAME, agli elementi di ARGV di ENVIRON , ed agli elementi di un vettore creato da split() o da patsplit() che abbiano le caratteristiche di una stringa numerica. L'idea fondamentale è che i dati immessi dall'utente, e solo essi, se risultano essere numerici, saranno trattati come numeri.
Nel codice sorgente del programma si possono usare costanti ottali ed esadecimali in stile C. Per esempio, il valore ottale 011 è uguale al decimale 9, e il valore esadecimale 0x11 è uguale al decimale 17.
Le costanti stringa in AWK sono sequenze di caratteri racchiusi tra doppi apici (come "valore"). All'interno delle stringhe, sono riconosciute alcune sequenze di protezione, come in in C. Queste sono:
Le sequenze di protezione possono essere usate anche all'interno di espressioni regolari utilizzate come costanti (per esempio, /[ \t\f\n\r\v]/ corrisponde a spazi vuoti).
In modalità compatibile, i caratteri rappresentati da sequenze di protezione ottali ed esadecimali sono trattati letteralmente, se usati in costanti costituite da espressioni regolari. Così, /a\52b/ è equivalente a /a\*b/.
AWK è un linguaggio che procede per righe. Il criterio va a inizio riga, l'azione lo segue. Le istruzioni dell'azione sono racchiuse tra { e }. Sia il criterio che l'azione possono mancare ma, naturalmente, non entrambi. Se manca il criterio, l'azione è eseguita per ogni record in input. Omettere invece l'azione equivale a specificare
{ print }
ossia stampare l'intero record.
I commenti cominciano col carattere #, e continuano fino a fine riga. Si possono separare le istruzioni con righe vuote. Un'istruzione finisce normalmente alla fine della riga, a meno che non termini con una virgola, {, ?, :, &&, o ||. Le istruzioni in righe terminanti con do o else continuano automaticamente alla riga successiva. Negli altri casi, una riga terminante con un “\” continua alla successiva, e il "newline" è ignorato.
Si possono scrivere più istruzioni sulla stessa riga separandole con “;”. Questo si applica sia alle istruzioni all'interno di un'azione (il caso più comune), sia ai gruppi criterio-azione stessi.
I criteri di ricerca di AWK possono assumere le forme seguenti:
BEGIN END BEGINFILE ENDFILE /espressione regolare/ espressione di relazione criterio && criterio criterio || criterio criterio ? criterio : criterio (criterio) ! criterio criterio1, criterio2
BEGIN e END sono due tipi speciali di criteri di ricerca, che non dipendono dai dati in input. Le azioni di tutti i criteri di ricerca BEGIN sono unite insieme, come se tutte le istruzioni fossero scritte in un'unica regola BEGIN , e sono eseguite prima che sia letto qualsiasi input. Allo stesso modo, tutte le regole END sono fuse insieme, ed eseguite dopo che tutti i dati in input sono terminati o dopo che si è incontrata l'istruzione exit . BEGIN e END non possono essere combinati con altri criteri in espressioni di ricerca. I criteri BEGIN e END devono necessariamente essere seguiti dall'indicazione di un'azione
BEGINFILE e ENDFILE sono altri criteri speciali il cui contenuto è eseguito prima della lettura del primo record di ogni file di input richiamato sulla riga di comando, e dopo la lettura dell'ultimo record di ognuno di questi file. All'interno della regola BEGINFILE il valore di ERRNO sarà una stringa vuota se il file è stato aperto con successo. Altrimenti, in caso di problemi col file il codice dovrebbe usare nextfile per saltarlo. Se non lo fa, gawk emette il solito errore fatale per i file che non possono essere aperti.
Per i criteri del tipo /espressione regolare/ l'azione associata è eseguita per ogni record in input che corrisponde all'espressione regolare. Le espressioni regolari hanno la stessa forma di quelle di egrep(1), e sono descritte più avanti.
In un'espressione relazionale si può usare qualsiasi operatore definito nella sezione sulla azioni, più avanti. Generalmente l'espressione relazionale è utilizzata per verificare se certi campi siano individuati da determinate espressioni regolari.
Gli operatori &&, ||, e ! sono rispettivamente l'AND logico, l'OR logico e il NOT logico. Come i loro equivalenti del linguaggio C, sono valutati solo il numero di operandi strettamente necessario a decidere il risultato, a partire da quello più a sinistra ("short-circuit evaluation"). Sono usati per combinare espressioni di ricerca più semplici. Come nella maggior parte dei linguaggi, si possono usare parentesi per cambiare l'ordine di valutazione.
L'operatore ?: è simile allo stesso operatore in C: se il primo criterio è vero, allora il criterio utilizzato per il test è il secondo, altrimenti è il terzo. Dei criteri secondo e terzo, ne è valutato sempre solo uno.
Un'espressione nella forma criterio1, criterio2 è detta criterio intervallo. Essa individua tutti i record a partire da quello che ha corrispondenza con criterio1, fino a quello che corrisponde a criterio2, compreso. Non può essere combinata con alcun'altra espressione.
Le espressioni regolari sono del tipo esteso che si trova in egrep. Sono composte da caratteri secondo le regole seguenti:
Le sequenze di protezione valide all'interno delle costanti stringa (si veda Costanti di tipo stringa) sono ammesse anche nelle espressioni regolari.
Le classi di caratteri sono una nuova funzionalità introdotta nello standard POSIX. Una classe di caratteri è una speciale notazione per indicare liste di caratteri accomunati da uno specifico attributo, dove però i caratteri veri e propri possono variare a seconda della nazione e del set di caratteri. Per esempio, la nozione di "carattere alfabetico" valida negli Stati Uniti è diversa da quella valida in Francia.
Una classe di caratteri è ammessa solo all'interno delle parentesi quadre di una lista di caratteri di una espressione regolare. Le classi di caratteri si rappresentano con [:, una parola chiave indicante la classe, e :]. Queste sono le classi di caratteri definite dallo standard POSIX:
Per fare un esempio, prima dell'introduzione dello standard POSIX si sarebbe dovuto scrivere /[A-Za-z0-9]/ per individuare caratteri alfanumerici. Qualora il set di caratteri vigente avesse compreso altri caratteri alfanumerici, l'espressione non li avrebbe riconosciuti, e se il set di caratteri fosse rappresentato in modo diverso da ASCII, non sarebbero riconosciuti neanche i caratteri alfanumerici ASCII. Con le classi di caratteri POSIX, si può scrivere /[[:alnum:]]/, che troverà corrispondenza con i caratteri alfabetici e numerici previsti dal set di caratteri in uso, qualunque esso sia.
Nelle liste di caratteri possono comparire due sequenze speciali aggiuntive. Esse si applicano ai set di caratteri non ASCII, i quali possono comprendere sia simboli singoli (chiamati elementi di collazione) rappresentati da più di un carattere, sia gruppi di caratteri tra loro equivalenti ai fini della collazione o dell'ordinamento. Per esempio, in francese una “e” semplice ed una “e"`” con l'accento grave sono equivalenti.
Queste funzionalità sono molto apprezzabili quando la lingua corrente non è l'inglese. Le funzioni di libreria che gawk usa nella valutazione di espressioni regolari riconoscono attualmente solo le classi di caratteri POSIX, non i simboli di collazione né le classi di equivalenza.
Gli operatori \y, \B, \<, \>, \w, \W, \`, ed \' sono specifici di gawk; queste estensioni sono possibili grazie alle facilitazioni derivanti dall'uso della libreria "regexp" di GNU.
Quelle che seguono sono le opzioni della riga di comando che controllano come gawk interpreta i caratteri nelle espressioni regolari.
Le istruzioni di azione sono racchiuse tra parentesi graffe, { e }. L'insieme delle istruzioni di azione è formato dalle solite istruzioni di assegnamento, condizionali e iterative presenti nella maggior parte dei linguaggi. Gli operatori, le strutture di controllo e le istruzioni di input/output ricalcano quelli corrispondenti nel linguaggio C.
Gli operatori di AWK, in ordine decrescente di precedenza, sono
Le istruzioni di controllo sono le seguenti:
if (condizione) istruzione [ else istruzione ] while (condizione) istruzione do istruzione while (condizione) for (espressione1; espressione2; espressione3) istruzione for (var in vettore) istruzione break continue delete vettore[indice] delete vettore exit [ espressione ] { istruzione } switch (espressione) { case valore|espressione_regolare : istruzione ... [ default: istruzione ] }
Le istruzioni di input/output sono le seguenti:
Sono permessi anche altri tipi di ridirezione in scrittura per print e printf.
Il comando getline restituirà 1 se tutto va bene, 0 in caso di fine file, e -1 in caso di errore. ERRNO è impostato a una stringa che descrive il problema.
NOTA: L'insuccesso nell'apertura di un socket bidirezionale genera un errore non fatale che viene restituito alla funzione chiamante. Se si sta usando una pipe, un co-processo, o un socket per alimentare la getline, o da print o printf all'interno di un ciclo, si deve usare close() per creare una nuova istanza del comando o del socket. AWK non chiude automaticamente pipe, socket, o co-processi quando questi restituiscono EOF.
Le versioni di AWK dell'istruzione printf e della funzione sprintf() (vedi più avanti) accettano i seguenti formati di richiesta conversione:
Alcuni ulteriori parametri facoltativi possono comparire fra il % e la lettera che indica il tipo di visualizzazione richiesta:
La definizione dinamica di ampiezza e prec prevista dalle funzioni printf() dell'ISO C sono supportate. Un * al posto sia di ampiezza che di prec farà sì che i loro valori siano presi dalla lista degli argomenti di printf o sprintf(). Per usare uno specificatore di posizione con una larghezza o una precisione dinamica inserire il contatore$ dopo il carattere * nella stringa di formattazione. Per esempio, "%3$*2$.*1$s".
effettuando delle ridirezioni di print o printf in un file, o attraverso getline da un file, gawk riconosce internamente alcuni nomi di file speciali, che permettono di accedere a descrittori di file già aperti ereditati dal processo genitore di gawk (la shell, solitamente). Questi nomi di file possono anche essere usati nella riga di comando per designare dei file di dati. I nomi di file sono:
Questi ultimi sono utili in particolare per i messaggi di errore. Per esempio:
laddove, per ottenere lo stesso effetto, si sarebbe stati costretti a scrivere
I seguenti nomi speciali di file si possono usare con l'operatore |& di co-processo per creare connessioni di rete TCP/IP:
AWK ha le seguenti funzioni aritmetiche incorporate:
Gawk offre le seguenti funzioni di stringa incorporate:
Gawk gestisce i caratteri multi-byte. Ciò implica che index(), length(), substr() e match() lavorano in termini di caratteri, non di byte.
Poiché uno dei principali campi di applicazione dei programmi AWK è l'elaborazione dei file di log contenenti informazioni relative alla data e all'ora [di un evento], gawk mette a disposizione le seguenti funzioni per ottenere data e ora e per formattarle come desiderato.
Gawk prevede le seguenti funzioni di manipolazione dei bit. Sono realizzate dapprima convertendo valori in virgola mobile con precisione doppia in interi nel formato uintmax_t, eseguendo l'operazione indicata, e poi convertendo il risultato nuovamente in virgola mobile. Le funzioni sono:
La funzione seguente va usata per vettori multidimensionali.
Le seguenti funzioni possono essere usate all'interno di un programma AWK per tradurre stringhe in fase di esecuzione del programma. Per informazioni più complete, vedere GAWK: Effective AWK Programming.
Il valore predefinito per dominio è il valore della variabile TEXTDOMAIN. Se directory è impostato alla stringa nulla (""), bindtextdomain() restituisce il collegamento corrente per il dato dominio.
Se si fornisce un valore per categoria, dev'essere una stringa uguale a una delle categorie di localizzazione note, come descritto in GAWK: Effective AWK Programming. Occorre anche fornire un dominio di testo. Si usi TEXTDOMAIN se ci si vuole servire del dominio corrente.
Se si fornisce un valore per categoria, dev'essere una stringa uguale a una delle categorie di localizzazione note, come descritto in GAWK: Effective AWK Programming. Occorre anche fornire un dominio di testo. Si usi TEXTDOMAIN se ci si vuole servire del dominio corrente.
Le funzioni in AWK sono definite in questo modo:
Le funzioni sono eseguite tramite chiamata dall'interno di espressioni, presenti sia all'interno di criteri di ricerca, che all'interno di azioni. I parametri forniti al momento della chiamata sono sostituiti ai parametri formali dichiarati nella funzione. I vettori sono passati per riferimento, le altre variabili per valore.
Poiché le funzioni non erano in origine previste nel linguaggio AWK, la gestione delle variabili locali è piuttosto goffa: sono dichiarate semplicemente come parametri in più nella lista dei parametri formali. Per convenzione, si usa separare le variabili locali dai veri parametri con qualche spazio in più nella lista. Per esempio:
function f(p, q, a, b) # a e b sono variabili locali { ... } /abc/ { ... ; f(1, 2) ; ... }
La parentesi di sinistra che indica una chiamata deve seguire immediatamente il nome della funzione chiamata, senza spazi in mezzo; questo per evitare l'ambiguità sintattica con l'operatore di concatenazione [di stringhe]. Questa restrizione non si applica alle funzioni incorporate elencate sopra.
Le funzioni possono chiamare a loro volta altre funzioni, e possono essere ricorsive. I parametri utilizzati come variabili locali sono inizializzati alla stringa nulla e al numero zero al momento dell'invocazione.
Si usi return expr per restituire un valore da una funzione. Il valore di ritorno è indefinito se non si fornisce alcun valore, o se la funzione ritorna automaticamente dopo aver eseguito l'ultima istruzione della funzione stessa, nella modalità detta “falling off”.
Come estensione gawk le funzioni possono essere chiamate indirettamente. Per far ciò basta assegnare il nome della funzione da chiamare, in formato stringa, a una variabile. Poi si usi la variabile come se fosse un nome di funzione, premettendole il segno @ come si può vedere qui sotto:
function mia_funzione() { print "mia_funzione è stata chiamata" ... } { ... nome_funzione = "mia_funzione" @nome_funzione() # chiamata tramite nome_funzione di mia_funzione ... }
Se è stata data l'opzione --lint, gawk avvertirà in caso di chiamate a funzioni indefinite al momento della valutazione sintattica del programma anziché durante l'esecuzione. La chiamata di una funzione indefinita in fase di esecuzione è un errore fatale.
Si può usare la parola func al posto di function. anche se questo modo di operare è deprecato.
Si possono aggiungere dinamicamente nuove funzioni incorporate all'interpreter gawk con l'istruzione @load. Una descrizione dettagliata non è possibile in questa pagina di manuale; vedere GAWK: Effective AWK Programming.
Il profilo gawk riconosce due segnali. SIGUSR1 provoca la scrittura di un profilo e dello stack delle chiamate a funzione nel file di profilazione, che ha per nome awkprof.out, o qualsiasi nome sia stato fornito specificando l'opzione --profile. Poi l'esecuzione del programma prosegue regolarmente. SIGHUP chiede a gawk di scrivere il profilo e lo stack delle chiamate a funzione e di terminare l'esecuzione del programma.
Le costanti di tipo stringa sono sequenze di caratteri racchiuse fra doppi apici. In un ambiente dove non si parla inglese, è possibile segnare delle stringhe in un programma AWK per richiederne la traduzione nel linguaggio utilizzato in loco. Tali stringhe sono precedute nel programma AWK da un carattere di sottolineatura (“_”). Per esempio,,
stampa sempre il messaggio hello, world. Ma,
potrebbe invece stampare bonjour, monde se eseguito in Francia.
Parecchi passi sono necessari per produrre ed eseguire un programma AWK localizzabile.
BEGIN { TEXTDOMAIN = "mio_programma" }
Ciò consente a gawk di trovare il file .gmo associato al vostro programma. Se non si fa ciò, gawk usa il dominio di testo associato ai messaggi il quale, molto probabilmente, non contiene le traduzioni necessarie al programma in uso.
Le procedure da usare per la traduzione sono descritte in dettaglio in GAWK: Effective AWK Programming.
Un obiettivo fondamentale di gawk è la compatibilità con lo standard POSIX, come pure con l'ultima versione di awk scritta da Brian Kernighan. Per questa ragione gawk include le seguenti caratteristiche a disposizione dell'utente che non sono descritte nel libro di AWK, ma che fanno parte della versione di awk scritta da Brian Kernighan, e che sono incluse nello standard POSIX.
Il libro indica che l'assegnazione delle variabili fornite sulla riga di comando è fatta subito prima che awk apra il primo file fra gli argomenti, il che avviene dopo che la regola BEGIN è stata eseguita. Peraltro, in implementazioni precedenti, quando una tale assegnazione compariva prima di un nome di file, l'assegnazione sarebbe avvenuta prima di eseguire la regola BEGIN . Esistono applicazioni che dipendono da questa “funzionalità.” Quando awk è stato cambiato per corrispondere alla sua documentazione l'opzione -v per assegnare valori alle variabili prima dell'inizio dell'esecuzione è stata aggiunta per tener conto delle applicazioni che dipendevano dal precedente comportamento. (Questa funzionalità ha ottenuto l'approvazione sia dei Bell Laboratories che degli sviluppatori di GNU .)
Nella scansione degli argomenti, gawk usa l'opzione speciale “--” per segnalare la fine degli argomenti. In modalità compatibile, emette un messaggio e poi ignora le opzioni non disponibili. Nella modalità normale di operazione, siffatti argomenti sono passati al programma AWK per essere trattati.
Il libro di AWK non definisce il valore restituito dalla funzione srand(). Lo standard POSIX richiede che restituisca il "seme" che è stato usato, per consentire di tener traccia delle sequenze di numeri casuali. Pertanto srand() in gawk restituisce anche il suo "seme" corrente.
Altre nuove funzionalità sono: L'uso di opzioni -f multiple (dalla versione MKS [Mortice Kern Systems] di awk); il vettore ENVIRON; le sequenze di protezione \a, e \v (provenienti originalmente da gawk e poi riversate nella versione Bell Laboratories); le funzioni incorporate tolower() e toupper() (dalla versione Bell Laboratories); e le specifiche di conversione ISO C in printf (presenti per prime nella versione Bell Laboratories).
C'è una caratteristica dell'implementazione storica di AWK che gawk supporta: È possibile chiamare la funzione incorporata length() non solo senza alcun argomento, ma perfino senza parentesi! Quindi,
a = length # Sant'Algol 60, Batman!
equivale sia a
a = length()
a = length($0)
Usare questa funzionalità è una pratica deprecata, e gawk emette un messaggio di avvertimento se la si usa, qualora si sia specificato --lint sulla riga di comando.
Gawk ha fin troppe estensioni rispetto alla versione POSIX di awk. Esse sono descritte in questa sezione. Tutte le estensioni qui descritte possono essere disabilitate invocando gawk con le opzioni --traditional o --posix.
Le seguenti funzionalità di gawk sono sono disponibili nella versione POSIX di awk.
Il libro AWK non definisce il valore restituito dalla funzione close(). Invece la funzione close() di Gawk restituisce il valore ottenuto da fclose(3) o pclose(3) alla chiusura, rispettivamente, di un file di output o di una pipe. Alla chiusura di una pipe di input viene restituito lo stato di uscita del processo. Il valore restituito è -1 se il file, la pipe o il co-processo in questione non sono stati aperti con una ridirezione.
Quando gawk è invocato con l'opzione --traditional, se l'argomento fs all'opzione -F è “t”, FS è impostato avendo come valore il carattere di tabulazione (<TAB>). Si noti che immettendo gawk -F\t ... si chiede alla shell di preservare “t,” e non di passare “\t” all'opzione -F. Poiché questo è un caso speciale piuttosto antipatico, non è il comportamento predefinito. Questo comportamento non viene seguito neppure quando si specifica --posix. Per ottenere che un carattere <TAB> faccia da delimitatore di campo, è meglio usare apici singoli: gawk -F'\t' ....
La variabile d'ambiente AWKPATH può essere usata per fornire una lista di directory che gawk esamina alla ricerca di file coi nomi indicati tramite le opzioni -f, --file, -i e --include. Se la ricerca iniziale non ha successo, una seconda ricerca è effettuata accodando .awk al nome del file indicato.
La variabile d'ambiente AWKLIBPATH può essere usata per fornire una lista di directory che gawk esamina alla ricerca di file coi nomi indicati tramite le opzioni -l e --load
La variabile d'ambiente GAWK_READ_TIMEOUT può essere usata per specificare un tempo massimo in millisecondi per leggere input da un terminale, da una pipe o da una comunicazione bidirezionale, inclusi i socket.
Per le connessioni a un host remoto via socket, GAWK_SOCK_RETRIES controlla il numero di tentativi di lettura, e GAWK_MSEC_SLEEP l'intervallo fra un tentativo di lettura e l'altro. L'intervallo è in millisecondi. Su sistemi che non supportano usleep(3), il valore è arrotondato a un numero intero di secondi.
Se la variabile POSIXLY_CORRECT esiste nell'ambiente, gawk si comporta esattamente come se --posix fosse stato specificato sulla riga di comando. Se --lint è stato specificato, gawk emette un messaggio di avvertimento riguardo a questo.
Se l'istruzione exit è usata avendo come parametro un valore, gawk termina restituendo il valore numerico in questione.
Altrimenti, se non sono stati riscontrati problemi in fase di esecuzione, gawk termina con il valore della costante C EXIT_SUCCESS. Questo valore è normalmente zero.
In caso di errore, gawk termina con il valore della costante C EXIT_FAILURE. Questo valore è normalmente uno.
Se gawk termina a causa di un errore fatale, il valore restituito è 2. Su sistemi non-POSIX, questo valore può essere visualizzato come EXIT_FAILURE.
Questa pagina man documenta gawk, versione 4.1.
La versione originale di UNIX awk è stata progettata e implementata da Alfred Aho, Peter Weinberger, e Brian Kernighan dei Bell Laboratories. Brian Kernighan continua a mantenere e migliorare il programma.
Paul Rubin e Jay Fenlason, della Free Software Foundation, hanno scritto gawk, in modo che fosse compatibile con la versione originale di awk distribuita con la Settima Edizione di UNIX. John Woods ha contribuito con numerose correzioni di errori. David Trueman, con contribuzioni da Arnold Robbins, ha reso gawk compatibile con la nuova versione di UNIX awk. Arnold Robbins è il manutentore corrente.
Vedere GAWK: Effective AWK Programming per una lista completa di contributori a gawk e alla sua documentazione.
Vedere il file README nella distribuzione gawk per informazioni aggiornate riguardo ai manutentori e per sapere per quali sistemi operativi gawk è disponibile.
Traduzione in italiano a cura di ILDP - Italian Linux Documentation Project http://www.pluto.it/ildp
Se trovate un bug in gawk, siete pregati di inviare un messaggio di posta elettronica a bug-gawk@gnu.org. Siete pregati di includere il vostro sistema operativo e la versione di gawk (da gawk --version), quale compilatore C avete usato per compilarlo, e un programma di test con anche i dati, ridotti allo stretto necessario, per riprodurre il problema.
Prima di spedire un rapporto di errore fate quanto segue. Per prima cosa, verificate che stiate usando l'ultima versione di gawk. Molti bug (normalmente abbastanza difficili da incontrare) sono corretti in ogni nuova versione, e se la vostra versione è molto datata, il problema potrebbe essere già stato risolto. Secondariamente, siete pregati di controllare se impostando la variabile d'ambiente LC_ALL a LC_ALL=C faccia sì che il problema scompaia. Se così è, si tratta di un problema legato alla localizzazione, che può essere o meno un errore. Infine, siete pregati di leggere questa man page e il manuale di riferimento con attenzione, per assicurarvi che quello che voi ritenete essere un errore lo sia veramente, invece di essere solo un comportamento strano del linguaggio.
Qualsiasi cosa facciate, NON inviate un messaggio per segnalare l'errore a comp.lang.awk. Anche se gli sviluppatori di gawk di tanto in tanto leggono questo forum, inviare qui messaggi di segnalazione di errore è una maniera poco affidabile per segnalare errori. Siete invece pregati di usare l'indirizzo di posta elettronica scritto più sopra. Veramente!
Se state usando un sistema GNU/Linux o basato sulla distribuzione BSD, potreste rivolgervi a chi fornisce la vostra distribuzione software. Questo va bene, ma siete pregati di spedire una copia all'indirizzo email specificato, poiché non esiste alcune certezza che il vostro messaggio sia inoltrato al manutentore di gawk.
Segnalare eventuali errori di traduzione a ildp@pluto.it
L'opzione -F non è più necessaria, vista la possibilità di assegnare variabili nella riga di comando; viene mantenuta solo per compatibilità all'indietro.
Può capitare che dei programmi contenenti singoli caratteri sintatticamente non validi tendano a esaurire la stack di analisi, generando un messaggio di poca utilità. Tali programmi sono sorprendentemente difficili da riconoscere nel caso più generale possibile, e lo sforzo richiesto per fare ciò non è veramente giustificato.
egrep(1), sed(1), getpid(2), getppid(2), getpgrp(2), getuid(2), geteuid(2), getgid(2), getegid(2), getgroups(2), usleep(3)
The AWK Programming Language, Alfred V. Aho, Brian W. Kernighan, Peter J. Weinberger, Addison-Wesley, 1988. ISBN 0-201-07981-X.
GAWK: Effective AWK Programming, Edition 4.1, disponibile con il codice sorgente gawk. La versione originale corrente di questo documento è disponibile online a: http://www.gnu.org/software/gawk/manual.
Stampa ed ordina i nomi di login di tutti gli utenti: BEGIN { FS = ":" } { print $1 | "sort" } Conta le righe di un file: { nlines++ } END { print nlines } Aggiunge il numero di riga all'inizio di ogni riga del file: { print FNR, $0 } Concatena e aggiunge numerazione (variazione sul tema): { print NR, $0 } Esegui un comando esterno per alcune linee di dati: tail -f access_log | awk '/myhome.html/ { system("nmap " $1 ">> logdir/myhome.html") }'
Brian Kernighan ha fornito valida assistenza durante il test e la correzione degli errori. Lo ringraziamo.
Copyright © 1989, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2001, 2002, 2003, 2004, 2005, 2007, 2009, 2010, 2011, 2012, 2013 Free Software Foundation, Inc.
Permission is granted to make and distribute verbatim copies of this manual page provided the copyright notice and this permission notice are preserved on all copies.
Permission is granted to copy and distribute modified versions of this manual page under the conditions for verbatim copying, provided that the entire resulting derived work is distributed under the terms of a permission notice identical to this one.
Permission is granted to copy and distribute translations of this manual page into another language, under the above conditions for modified versions, except that this permission notice may be stated in a translation approved by the Foundation.
Questa è una traduzione non ufficiale in italiano dei permessi di copia riportati nella precedente sezione "COPYING PERMISSIONS". Non è una pubblicazione della Free Software Foundation, e non ha validità legale per i termini di distribuzione della documentazione; solo il testo originale inglese ha tale validità.
This is an unofficial translation into Italian of the above section "COPYING PERMISSIONS". It was not published by the Free Software Foundation, and does not legally state the distribution terms for this documentation; only the original English text does that.
Copyright © 1989, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2001, 2002, 2003, 2004, 2005, 2007, 2009, 2010, 2011, 2012, 2013 Free Software Foundation, Inc.
È permesso stampare e distribuire copie letterali di questa pagina di manuale, a patto che il copyright e questa nota di autorizzazione siano conservate e presenti in ogni copia.
È permesso copiare e distribuire versioni modificate di questa pagina del manuale, sotto le condizioni poste per la copia letterale, a patto che l'intero lavoro derivato sia distribuito secondo permessi di stampa identici a questi.
È permesso copiare e distribuire traduzioni di questa pagina di manuale in un'altra lingua, sotto le condizioni poste sopra per le versioni modificate, salvo che quest'informazione sui permessi di copia e ristampa deve essere espressa in una traduzione approvata dalla Free Software Foundation.
May 09 2013 | Free Software Foundation |