Codifica della voce e dell'audio/Tecniche PCM

Da testwiki.
Vai alla navigazione Vai alla ricerca

Template:Codifica della voce e dell'audio Le tecniche di quantizzazione Template:Tooltip si basano su:

  • codifica campione-per-campione: lavorano su un campione alla volta, e per ogni campione x[n] in ingresso producono un campione quantizzato x^[n] in uscita;
  • codifica di forma d'onda: l'obiettivo è produrre una forma d'onda geometricamente simile all'originale → la forma d'onda risultante sarà anche percettivamente simile.

Le tecniche PCM per la codifica della voce in banda telefonica possono essere suddivise in:

  • statiche: una volta che l'algoritmo è stato progettato, esso non cambia nel tempo:
    • senza memoria (o stateless): ogni campione è quantizzato indipendentemente dagli altri campioni;
    • differenziali o predittive: la quantizzazione di ogni campione sfrutta anche informazioni dagli altri campioni nel passato e/o nel futuro;
  • adattative: l'algoritmo si adatta al segnale corrente stimato.
Caratteristiche delle tecniche PCM
  • + robustezza ai segnali di ingresso: poiché l'algoritmo non fa assunzioni sul tipo di segnale, esso continua a funzionare dando buone prestazioni se il tipo di segnale fornito in input non è voce;
  • + complessità: è quasi nulla, al massimo pari a 1 MIPS;
  • + ritardo: è basso;
  • bit rate: le tecniche PCM non riescono a garantire la toll quality con un bit rate al di sotto di 32 kb/s (4 bit/campione) → è un bit rate medio-alto, e può essere troppo alto per specifiche applicazioni (ad es. telefonia satellitare).

Tecniche PCM senza memoria

Quantizzatore uniforme: PCM lineare

Esempio di quantizzazione uniforme.
Caratteristica ingresso/uscita di un quantizzatore uniforme.

Il quantizzatore uniforme è caratterizzato da una distribuzione dei livelli uniforme: la zona operativa Xm è suddivisa in 2N1 gradini di quantizzazione di ampiezza costante Δ=Xm2N.

La potenza σe2 dell'errore di quantizzazione e[n], avente una funzione densità di probabilità PDFe(t) uniforme, è:

σe2=Δ2+Δ2e2(t) PDFe(t)dt=Δ212

Il rapporto segnale/rumore SNR è lineare nel numero di bit 6N:

SNR=10log10σx2σe2dB=K+αXmσx+6N

→ il rapporto segnale/rumore SNR migliora di 6 dB per ogni bit in più utilizzato.

La codifica PCM lineare è basata su un quantizzatore uniforme a 4096 livelli:

  • frequenza di campionamento: (imposta dal teorema di Shannon)
    Fc=8000Hz=125μs>2×3400Hz
  • numero di bit:
    N=12bit/campioneNQ=2N=4096livelli
  • bit rate:
    R=12bit/campione×8000Hz=96kb/s

Template:Clear

Quantizzatore ottimo: PCM logaritmico (log PCM)

Caratteristica ingresso/uscita di un quantizzatore ottimo per la voce.

Il quantizzatore uniforme è un quantizzatore ottimo per segnali distribuiti uniformemente sulla zona operativa, ma i segnali audio naturali hanno una distribuzione di probabilità non uniforme. In particolare, la voce ha una funzione distribuzione di probabilità PDF gaussiana fortemente concentrata intorno al valor medio → a parità di qualità, è possibile risparmiare bit utilizzando un quantizzatore avente una distribuzione dei livelli non uniforme:

  • intorno all'intensità media il segnale è più probabile → servono livelli più fitti;
  • alle basse e alle alte intensità il segnale è meno probabile → i livelli possono essere più radi.

Poiché l'orecchio umano è sensibile in modo para-logaritmico, il quantizzatore ottimo per la voce ha una distribuzione dei livelli simil-logaritmica:

I livelli del quantizzatore uniforme sono mappati ai livelli del quantizzatore ottimo secondo una distribuzione simil-logaritmica.
  • intorno all'intensità media, i livelli del quantizzatore uniforme sono mappati a tanti livelli vicini tra loro del quantizzatore ottimo;
  • alle basse e alle alte intensità, i livelli del quantizzatore uniforme sono mappati a pochi livelli lontani tra loro del quantizzatore ottimo.

Standard ITU G.711

Lo standard G.711, sviluppato da Template:Tooltip, usa una codifica PCM logaritmica (log PCM) basata su un quantizzatore ottimo a 256 livelli:

  • numero di bit: i livelli di quantizzazione sono in minor numero ma sono meglio distribuiti secondo le caratteristiche del segnale vocale:
    N=8bit/campioneNQ=2N=256livelli
  • bit rate: lo standard G.711 raggiunge un bit rate più basso rispetto al PCM lineare pur mantenendone le stesse prestazioni:
    R=8bit/campione×8000Hz=64kb/s
Applicazioni
  • il primo standard per la telefonia digitale, chiamato ISDN

Ulteriori evoluzioni

  • telefonia cellulare (GSM, 3G...): il bit rate arriva a 13 kb/s, anche se con la tecnologia di oggi si potrebbe arrivare a circa 6 kb/s;
  • applicazioni militari (es. telefoni criptati) e civili (es. telefoni satellitari): il bit rate scende addirittura a 1 kb/s, ma la voce, seppur intelligibile, non è tanto naturale.

Tecniche PCM differenziali o predittive

Le tecniche PCM senza memoria sono adatte per la codifica del rumore bianco: ogni bit vale 0 o 1 con probabilità 50% → dato un qualunque campione, nessun campione nel passato o nel futuro può fornire informazioni sul campione corrente, perché i campioni sono tutti completamente scorrelati tra loro. Nei segnali audio naturali invece esistono molte correlazioni tra un campione e l'altro, che possono essere sfruttate per comprimere di più.

Quantizzatore differenziale: PCM differenziale (DPCM)

L'idea delle tecniche differenziali è quella di codificare e trasmettere non il campione del segnale originario, con tutta la sua ampia dinamica possibile di valori, ma solo la differenza, detta segnale differenziale, tra ogni campione e uno o più dei suoi campioni precedenti.

Se i campioni sono sufficientemente in media correlati tra loro, il segnale differenziale ha una dinamica Xm molto inferiore e una distribuzione gaussiana più stretta (σxσd) rispetto al segnale originario → servono meno livelli di quantizzazione per raggiungere le stesse prestazioni.

Quantizzatore differenziale del 1º ordine

La differenza d[n] codificata e trasmessa è calcolata tra il campione corrente x[n] e il campione precedente x[n1]:

d[n]=x[n]x[n1]

Il coefficiente di correlazione ρ dice quanto due campioni consecutivi sono correlati tra loro:[1]

ρ=E[x[n]x[n1]]E[x2[n1]],0ρ1
  • se il campione x[n] è uguale al campione precedente x[n1], la correlazione ρ è pari a 1:
    x[n]=x[n1]ρ=E[x2[n1]]E[x2[n1]]=1
  • se il campione x[n] è completamente differente rispetto al campione precedente x[n1], la correlazione ρ è pari a 0.

Il coefficiente di correlazione ρ è il valore ottimo che minimizza l'energia del segnale differenza d[n]:

minσd2d[n]=x[n]ρx[n1]

Template:Cassetto

Il quantizzatore differenziale funziona molto bene con la voce telefonica grazie al fatto che statisticamente è un segnale fortemente correlato:

ρ0,9d[n]=x[n]0,9x[n1]
Processo di codifica e decodifica
  1. il codificatore calcola il segnale differenziale d[n] tra il campione corrente x[n] e il campione precedente x[n1]:
    d[n]=x[n]ρx[n1]
  2. il codificatore invia al decodificatore la versione quantizzata d^[n] del segnale differenziale;
  3. il decodificatore riceve il segnale differenziale quantizzato d^[n] e ricostruisce il campione corrente x^[n]:
    x^[n]=d^[n]+ρx^[n1]

Quantizzatore differenziale di ordine N

La differenza d[n] è calcolata tra il campione corrente x[n] e la combinazione lineare degli N campioni precedenti:

d[n]=x[n]f(x[n1],x[n2],,x[nN])=x[n]i=1Nαix[ni]

L'ordine N deve essere scelto dal compromesso tra:

  • prestazioni di compressione: più l'ordine è alto, più informazioni da campioni passati vengono prese per il campione corrente;
  • prestazioni di calcolo: all'aumentare dell'ordine aumentano:
    • la memoria necessaria per bufferizzare gli N campioni passati;
    • la complessità di calcolo.

Per la voce telefonica, la correlazione di breve termine (= relativa ai campioni adiacenti) è concentrata in media entro 8÷12 campioni → per la codifica della voce in banda telefonica è sufficiente il quantizzatore differenziale di ordine 10: il campione corrente viene codificato prendendo informazioni fino a 10 campioni (equivalenti a 1,2 ms) nel passato.

I valori ottimi dei parametri αi possono essere calcolati risolvendo un sistema di N derivate parziali in modo analogo al caso del 1º ordine:

{σd2α1=0σd2αN=0

Codifica predittiva: Linear Predictive Coding (LPC)

Un approccio alternativo alla codifica differenziale è la codifica predittiva, che affronta un problema di predizione: data la serie storica dei valori passati, è possibile fare una predizione del campione x[n] a partire dai campioni passati?

L'idea delle tecniche predittive è quella di codificare e trasmettere l'errore di predizione e[n], cioè la differenza tra il valore effettivo del campione corrente x[n] e il valore predetto x~[n]:

e[n]=x[n]x~[n]
  • codifica predittiva di ordine 1: la predizione x~[n] del campione corrente è basata solo sull'ultimo campione x[n1]:
    x~[n]=f(x[n1])=αx[n1]
    Se α è il coefficiente di correlazione ρ tra il campione predetto x~[n] e il campione effettivo x[n], l'errore di predizione e[n] è minimizzato e la codifica è ottima;
  • codifica predittiva di ordine N: la predizione x~[n] del campione corrente è basata sulla combinazione lineare degli ultimi N campioni:
    x~[n]=f(x[n1],x[n2],,x[nN])=i=1Nαix[ni]
    Se i parametri αi sono i coefficienti di predizione lineare, l'errore di predizione e[n] è minimizzato e la codifica è ottima.
Processo di codifica e decodifica

La codifica predittiva funziona grazie al fatto che, dato che il decodificatore ha a disposizione una serie storica simile a quella a disposizione del codificatore, le predizioni svolte da entrambi indipendentemente l'uno dall'altro saranno simili:

  1. il codificatore calcola il valore predetto del campione corrente a partire dagli ultimi N campioni:
    x~[n]=f(x[n1],x[n2],,x[nN])=
    • ordine 1:
      =ρx[n1]
    • ordine N:
      =i=1Nαix[ni]
  2. il codificatore calcola l'errore di predizione e[n] confrontando il valore predetto x~[n] con il valore effettivo x[n]:
    e[n]=x[n]x~[n]=
    • ordine 1:
      =x[n]ρx[n1]
    • ordine N:
      =x[n]i=1Nαix[ni]
  3. il codificatore invia al decodificatore la versione quantizzata e^[n] dell'errore di predizione;
  4. anche il decodificatore calcola il valore predetto per il campione corrente a partire dagli ultimi N campioni ricostruiti:
    x~[n]=f(x^[n1],x^[n2],,x^[nN])=
    • ordine 1:
      =ρx^[n1]
    • ordine N:
      =i=1Nαix^[ni]
  5. il decodificatore riceve l'errore di predizione quantizzato e^[n] e ricostruisce il campione corrente x^[n]:
    x^[n]=e^[n]+x~[n]=
    • ordine 1:
      =e^[n]+ρx^[n1]
    • ordine N:
      =e^[n]+i=1Nαix^[ni]

Tecniche PCM adattative: adaptive PCM (APCM)

Schema a blocchi dell'algoritmo usato dalle tecniche APCM.

Le tecniche PCM statiche sono progettate in base alle caratteristiche statistiche di lungo termine del segnale (valor medio μ, varianza σ, funzione PDF...) → sono adatte per segnali stazionari le cui caratteristiche non dipendono dal tempo. I segnali audio naturali tuttavia sono fortemente non stazionari.

L'idea delle tecniche adattative è quella di usare un algoritmo in grado di adattarsi al segnale corrente stimato nel tempo, con l'obiettivo di risparmiare bit quando il segnale è meno complesso da codificare.

Algoritmo
  1. stima dello stato del segnale: si determina lo stato del segnale (ad es. rumore o voce) all'interno di una finestra ampia M campioni centrata in n0;
  2. scelta dell'algoritmo ottimo: si sceglie quale algoritmo di codifica è il più adatto al segnale corrente stimato entro la finestra corrente.
    L'algoritmo di codifica scelto deve essere mandato direttamente al ricevitore, cosicché il ricevitore sappia in che modo è stato codificato il segnale. I bit necessari per comunicare queste informazioni al ricevitore sono detti bit di overhead perché sono inviati insieme ai campioni quantizzati del segnale e quindi pesano sul bit rate complessivo;
  3. codifica di M campioni: si applica l'algoritmo di codifica scelto sulla sequenza di M campioni compresa nella finestra corrente, e i campioni quantizzati sono mandati al ricevitore;
  4. si ritorna al passo 1 avanzando la finestra alla sequenza di M campioni successivi.

Il numero M di campioni su cui viene applicato l'algoritmo di codifica scelto è un compromesso tra:

  • prestazioni di compressione dei bit che trasportano informazioni multimediali: un adattamento molto frequente permette di seguire fedelmente l'evoluzione del segnale nel tempo e stimare lo stato in modo meno grezzo;
  • limitazione dei bit di overhead: occorre contenere il bit rate complessivo evitando di inviare troppi bit di overhead.

Siccome il segnale vocale varia approssimativamente da 50 a 100 volte al secondo, è sufficiente aggiornare la scelta dell'algoritmo ottimo:

  • ogni 20 ms:
    1s50volte/s=20ms
  • ogni M=160 campioni:
    20ms125μs/campione=160campioni
Vantaggi/svantaggi
  • + prestazioni di compressione
  • complessità di calcolo: occorre stimare lo stato del segnale 50 volte al secondo (per la voce);
  • overhead: i bit di overhead, essendo inviati insieme ai campioni quantizzati del segnale, pesano sul bit rate complessivo;
  • robustezza: a volte è difficile stimare lo stato del segnale (ad es. voce con rumore di fondo)

Template:Clear

Energy-tracking APCM

Schema a blocchi dell'algoritmo usato dalla codifica energy-tracking APCM.

La codifica energy-tracking APCM è basata su un quantizzatore uniforme con fondo scala variabile nel tempo al fine di adattarsi ai cambiamenti nel tempo dell'energia del segnale:

  • il fondo scala si riduce quando il segnale ha meno energia;
  • il fondo scala si allarga quando il segnale ha più energia.

Riducendo del fondo scala quando possibile, si possono ottenere due risultati:

  • aumento del rapporto segnale/rumore SNR a parità di bit rate: viene ridotta l'ampiezza Δ del gradino di quantizzazione, e quindi l'errore di quantizzazione e[n], mantenendo costante il numero NQ di livelli di quantizzazione;
  • riduzione del bit rate a parità di rapporto segnale/rumore SNR: viene ridotto il numero NQ di livelli di quantizzazione, mantenendo costante l'ampiezza Δ del gradino di quantizzazione.
Algoritmo
  1. stima dell'energia istantanea: si misura l'energia locale istantanea del segnale x[n] all'interno della finestra corrente:
    E[n0]=i=n0M2n0+M2x2[i]
  2. scelta del fondo scala: si calcola il fondo scala più adatto per la finestra corrente (ad es. tramite la regola euristica del 4σ), e si invia come overhead al ricevitore il fondo scala scelto;
  3. quantizzazione uniforme di M campioni con il fondo scala scelto;
  4. si ritorna al passo 1.

Template:Clear

Tecniche ADPCM

Schema a blocchi dell'algoritmo usato dalle tecniche ADPCM.

Le tecniche ADPCM introducono nelle tecniche DPCM l'adattività ai cambiamenti nel tempo dell'energia del segnale differenziale:

  • DPCM: i valori ottimi dei parametri αi sono calcolati una volta in fase di progetto, in modo da minimizzare globalmente l'energia σd2 del segnale differenziale:
    d[n]=x[n]i=1Nαix[ni],<n<+
  • ADPCM: i valori ottimi dei parametri αi sono calcolati di volta in volta per la finestra corrente di M campioni, in modo da minimizzare localmente l'energia istantanea E[n0] del segnale differenziale:
    d[n]=x[n]i=1Nαix[ni],n0M2<n<n0+M2
Algoritmo
  1. stima dell'energia istantanea: si misura l'energia istantanea del segnale differenziale d[n] all'interno della finestra corrente:
    E[n0]=i=n0M2n0+M2d2[i]
  2. calcolo dei valori localmente ottimi dei parametri αi: si risolve il sistema di N derivate parziali (N=10 per la voce), e si inviano come overhead al ricevitore i valori ottimi calcolati e quantizzati α^i (il ricevitore dovrà compiere un'operazione di inversione della matrice);
  3. quantizzazione differenziale di ordine N di M campioni con i parametri αi calcolati, e il segnale differenziale quantizzato d^[n] è mandato al ricevitore;
  4. si ritorna al passo 1.

Quantizzazione dei parametri αi

Quantizzatore uniforme

I valori ottimi dei parametri αi calcolati per la finestra di trasmissione corrente sono numeri reali → oltre ai campioni del segnale stesso, occorre quantizzare anche questi valori per poterli mandare al ricevitore in modo digitale → occorre progettare un quantizzatore uniforme per ognuno dei 10 parametri αi:

  1. creazione di un database: si raccoglie un numero statisticamente significativo di valori del parametro αi a partire da un campione rappresentativo di segnali vocali;
  2. caratterizzazione statistica: si costruisce la funzione densità di probabilità PDF del parametro αi, ricavandone le caratteristiche statistiche (per una gaussiana: la media μ e la varianza σ);
  3. scelta del fondo scala Xm, ad esempio tramite la regola euristica del 4σ;
  4. scelta del numero NQ di livelli:
    • se è noto a priori il rapporto segnale/rumore SNR desiderato, è facile ricavare il numero di livelli per mezzo della formula:
      SNR=10log10σx2σe2dB=K+αXmσx+6NQ
    • nel caso di segnali multimediali, si usano tanti livelli quanti bastano per ottenere una quantizzazione percettivamente trasparente: la voce ricostruita usando il parametro quantizzato αi è percettivamente indistinguibile dalla voce ricostruita usando il parametro non quantizzato α^i.
Quantizzatore ottimo

La distribuzione di probabilità di ognuno dei parametri αi però è fortemente concentrata intorno al valor medio → occorre progettare un quantizzatore ottimo, con distribuzione di livelli non uniforme, per ognuno di questi parametri.

Una volta progettato il quantizzatore ottimo, esso è in grado di quantizzare ogni parametro αi su 3÷4 bit → i 10 parametri quantizzati α^i richiedono complessivamente circa 40 bit (sarebbe richiesto circa il doppio dei bit con il quantizzatore uniforme) → essendo inviati 50 volte al secondo (ogni 20 ms), generano un overhead di 2000 b/s: le prestazioni di compressione devono apportare un miglioramento tale da giustificare questo notevole overhead.

Standard ITU G.726

Lo standard ITU G.726, grazie a una codifica molto complessa che è derivata dalla tecnica ADPCM, riesce a dimezzare il bit rate del precedente standard, l'ITU G.711, mantenendo la stessa qualità (toll quality):

R=4bit/campione×8000Hz=32kb/s

al prezzo di una complessità molto alta pari a 1 MIPS.

Applicazioni
  • cordless
  • ambito spaziale

Note

  1. E[X] è la funzione di valore atteso della variabile casuale X.