Home Page
cover of Aula 6_Voz_Digitalização
Aula 6_Voz_Digitalização

Aula 6_Voz_Digitalização

Marcelo B Santiago

0 followers

00:00-20:58

Nothing to say, yet

Voice Overclickingspeechcomputer keyboardtypinginside
0
Plays
0
Shares

Audio hosting, extended storage and much more

AI Mastering

Transcription

This transcription discusses voice characteristics, sampling, quantization, and PCM format in telephony. It explains that human auditory perception is not uniform, and voice signals have a spectrum of about 10 kHz, but in telephony, the signal is limited to 3.4 kHz. The transcription also discusses the almost periodic and almost random nature of voice signals and the relationship between vocal cord vibration and the production of voiced or voiceless sounds. It explains the concepts of sampling and quantization, including the use of a low-pass filter in sampling and the use of uniform quantization for voice signals. It also mentions the option of non-uniform quantization for signals with exponential amplitude distribution. The transcription further discusses the effects of quantization errors and the compression and expansion processes in transmission and reception of voice signals. Overall, it provides an overview of voice signal processing in telephony. Aula 6 Vamos falar agora de voz. Digitalização Vamos tratar então de características do sinal de voz, amostragem e quantização, e formato PCM, telefonia. Vamos começar com características do sinal de voz. Características do sinal de voz A percepção auditiva do ser humano não é uniforme. Algumas frequências sensibilizam mais o ouvido humano do que outras frequências críticas. A voz possui um espectro que vai de 10 kHz em média. Em telefonia, limita-se o sinal de voz em 3,4 kHz, o que limita a percepção de alguns sons, mas não prejudica a compreensão. O sinal de voz apresenta trechos quase periódicos e trechos quase aleatórios. A produção de sinais surdos é praticamente aleatórios com os soantes S da figura do próximo slide, ou pelo contrário, sonoros e praticamente periódicos, vogal O da figura do próximo slide. Relaciona-se respectivamente com a ausência ou a presença de vibração das cordas vocais. Novamente, a produção de sinais surdos é praticamente aleatórios com os soantes S da figura do próximo slide, ou pelo contrário, sonoros e praticamente periódicos, vogal O da figura do próximo slide. Relaciona-se respectivamente com a ausência ou a presença de vibração das cordas vocais. Amplitude reduzida. Quando você pega o gráfico do som, então é a primeira parte, que é aquela parte mais escura, ou seja, tem menor espaçamento. E a amplitude maior é o O, ou seja, que tem uma amplitude maior, e o S tem, então, uma mescla disso, vamos dizer assim. Então, a gente tem a parte surda, aleatória, que é a semelhança com o ruído, que é o S. A parte de impressão de uma periodicidade, mas não é, que aí é a parte O sonora. E o M, que é aquela parte mais mixada, seria uma parte entre os dois. Vamos agora para amostragem e quantização. Vamos falar agora de amostragem. No processo de amostragem, nós temos o filtro passa-baixas, anti-aliasing, para limitar a largura de banda do sinal de voz. Em telefonia, o filtro passa-baixas possui frequência de corte de 3,4 kHz. A taxa de amostragem é de 8 kHz. Portanto, a faixa de transição do filtro vai de 3,4 kHz até 4,6 kHz. Aqui um detalhe, a taxa de amostragem é de 8 kHz. 8 kHz tem que ser superior a 2 vezes 3,4, que é o que prevê o teorema de Nyquist. E um filtro elíptico de 6, de sexta ordem, é suficiente para atenuar, em cerca de 60 dB, as frequências acima de 4,6 kHz. Ou seja, quanto maior a ordem, mais abrupta é essa atenuação. Não há distinção aqui entre som estéreo e som mono, somente destacando o teorema de Nyquist, que já foi abordado. Então, continuando aqui, nós temos um gráfico. Esse gráfico tem o eixo x, ou seja, as escalas que estão descritas como começam com zero, depois, na sequência, passa para 3,4 e finaliza com 4,6 kHz. Essas frequências, é bom informar, então, que ela respeita um sinal, que é uma espécie de parábola, só que não é bem uma parábola, vamos dizer assim, um traço que inicia quase que linearmente, que é a parte que a gente está falando do passa-baixas, que é o filtro. Então, até o 3,4, ele meio que é linear, com um sinal ali de 3,01 dB. Então, esse filtro passa-baixas, ele tem essa qualidade de fazer com que a intensidade de entrada, a frequência, seja a mesma da saída. E a partir do momento que saiu, a partir de 3,4 kHz até 4,6 kHz, nós chamamos isso, então, de transição do filtro. É onde você tem, então, acontece a curva e ela cai, então, de uma forma de 45 graus. Então, o filtro passa-baixas, ele passa na parte linear e depois ele entra nessa fase de transição do filtro, que vai de 3,4 a 4,6. E aqui é aquela história, quanto maior a ordem, mais abrupta é esta atenuação. Então, vamos lá. Aqui é o corte da frequência. Está em 3,01 dB ou 3,4 kHz, que é o corte da frequência. E depois disso, ele cai num ângulo de 45 graus, esse sinal. Morre até no 4,6 kHz. Quantização de voz. O que a gente falou dessa questão do passar-baixas e tal, é a amostragem. O passa-baixas está na amostragem. Agora, a gente vai para a quantização para a voz. Quantização uniforme, ou seja, seriam intervalos de quantização, são uniformemente distribuídos ao longo da dinâmica, faixa de variação do quantizador. Portanto, sinais de amplitude inferiores sofrerão mais efeitos do erro de quantização. Então, a gente tem um gráfico aqui. Esse gráfico tem uma variação. Vamos dizer que é uma exponencial, um gráfico exponencial negativo. Ele começa no eixo y lá em cima, no 1, e ele vai nessa forma exponencial caindo no eixo x até o último valor do eixo x de 3,6. É curioso porque na escala do eixo x ele está de 0 até 3,6, variando de 0,4. Então, 0, 0,4, 0,8, 1,2, 1,6, ele vai até 3,6 dessa forma. Já no eixo y, que a gente tem essa queda, ou seja, lá no eixo y mais alto, lá em cima no 1, ele vai variando mais ou menos de 0,13. Então, 0,13, 0,25, 0,38, 0,5, 0,63, enfim, ele vai até o 1. Então, você tem essa exponencial negativa que vai do 1, do eixo y, até o 3,6, que é a última medida do x. Lembrando que o x começa no zero e vai até o 3,6. Então, aqui nós temos o quê? Nós temos, então, no eixo x, a magnitude em relação ao valor, em rmsx, e nós temos, então, no eixo y, a probabilidade verso o ser excedido. Então, a gente tem um erro de quantização aqui. Então, maior o erro de quantização, quando a amplitude se torna reduzida. Ou seja, se você tem uma amplitude reduzida, você tem um maior erro de quantização. Então, no gráfico dessa exponencial para baixo, é possível, então, que você perceba que sinais mais elevados, vamos dizer assim, maiores que 2, têm maior probabilidade, aliás, têm menor probabilidade, muito menor, de erro de quantização. Enquanto sinais menores do que 2 têm maior probabilidade de erro de quantização. Então, novamente, o intervalo de valores de um sinal de origem leva a um valor de sinal quantizado. Exemplo, a tensão elétrica. Sinal de origem que está em processo de digitalização dentro de uma mostragem. Então, eu tenho um único valor correspondente ao valor quantizado. Esses valores todos juntos, seguindo cada um dos momentos em que a mostragem acontece, eu tenho um sinal quantizado. Então, ele tem um aspecto de escada. A palavra som, o S com som surdo, tem amplitudes menores. Agora, a gente vai falar aqui ainda da parte de quantização para voz, mas existe aqui uma solução. Sinais com distribuição estatística de amplitude do tipo exponencial, que foi o que eu falei no outro gráfico, sinal de voz, devem ser quantizados de maneira não uniforme, com intervalos de quantização menores para as menores amplitudes e maiores para as maiores amplitudes, fazendo com que a relação sinal-ruído de quantização fique aproximadamente constante em toda a faixa dinâmica do sinal de entrada do quantizador. Então, a gente tem um gráfico aqui, no eixo x e y, em que você tem ali aquela senoide, que é o sinal, vamos dizer assim, analógico do som. E para cada sinal desse, você vai estabelecer aquela parte horizontal, que seriam as amostras que você vai retirar nesses tempos, de acordo com essa senoide. Então, você vai ter ali uma característica de uma escada, porque quando a senoide sobe, você pega alguns sinais, alguns pontos, você tem ele cravado ali. Então, esse cravamento, ele vai subindo de forma de escada e ele vai seguindo, digamos assim, a direção dessa senoide de forma de escada até o final. Então, quando você tem essa variação entre essas amostras que você está pegando, essas faixas na horizontal, é chamada amplitude de quantização, que é o ΔL, ou o ΔQ, desculpe, amplitude de quantização. Então, olhando para o sinal cinza, na medida que estou amostrando esse sinal cinza para um certo nível de quantização, ao amplificar esse sinal cinza aqui, a quantidade de níveis de quantização irá aumentar. Simplesmente porque eu aumentei o surdo do som S, eu tenho, então, uma quantização de maneira não uniforme. Eu quebro a uniformidade dessa forma, fazendo essa amplificação aqui para os níveis de amplitude inferior. Portanto, uma maior quantidade de níveis quantizados. Ainda sobre a quantização de voz. Quando se fala em sinais de não linearidade, quando se fala em sinais de não linearidade, conformidade, se fala em transmissão. Falou em não linear, é transmissão. Na transmissão, os sinais de pequena amplitude são mais amplificados que os de grande amplitude. Dessa forma, níveis de quantização são ocupados por esses sinais menores quando aplicados a um quantizador uniforme, que seria a compressão. E a recepção? Na recuperação do sinal, o processo inverso é realizado, que seria a expansão. Então, essa uniformidade que acontece na transmissão é devido a uma ampliação do sinal. No caso desse sinal, tem um aspecto de ruído, um aspecto aleatório. Então, esse processo nós chamamos de compressão. Ainda sobre a quantização de voz. Após o processo de compressão no transmissor, o sinal de voz analógico é quantizado linearmente, ou seja, uniformemente, usando 256 níveis de quantização. Entre aspas, 8 bits. E transmitidos. No receptor, após a conversão digital analógica, o sinal de voz é expandido. Ou seja, é realizado o processo inverso da compressão. Então, aqui a gente tem um gráfico. Esse gráfico é, novamente, XY. No eixo X, você tem os decibéis. Logo no cruzamento do X com Y, você começa com menos 44. Ele vai até zero, ao mais alto valor do S ali, em decibéis. Já no eixo Y, você começa em zero, depois vai de 4 em 4, 4, 8, 12, até o nível máximo, lá em cima, de 48 no eixo Y. E aí você tem, então, traçada uma reta que inicia no eixo, no cruzamento do X com Y. Bem ali, você inicia uma reta linear. E essa reta linear tem, então, mais ou menos um ângulo de 45 graus. Então, ou seja, aqui é informado o seguinte, são 8 bits sem compressão. Ou seja, essa reta linear, no ângulo de 45, ela representa 8 bits sem compressão. Agora, você tem, então, aquela outra exponencial, só que a exponencial, assim, quase que uma reta, na verdade. Ela começa com uma curva bem sutil, de 8 bits com compressão. Então, quando você falar em com compressão, você fala nessa exponencial. E quando você fala sem compressão, você fala nessa reta linear, com ângulo de 45 graus, começando no cruzamento entre X e Y. Então, algumas informações. A quantização pode ocorrer de maneira uniforme, linear, 8 bits sem compressão, ou pode ocorrer de uma forma não uniforme, ou não linear, que seria 8 bits com compressão. Nessa situação da exponencial, já na compressão, o sinal e o ruído têm um aumento de amplitude. Especialmente o sinal surdo. Isso se dá uma não conformidade que produz essa compressão. Na codificação linear, as amplitudes inferiores são amplificadas antes da quantização. Então, isso é importante. Na codificação linear, as amplitudes inferiores não são amplificadas antes da cotização. Elas não são, mas só depois. Então, ocorre o aumento do sinal e não o aumento dos valores inferiores, que são aqueles de caráter aleatório, como o ruído. Então, vamos aos detalhes aqui. Você tem, então, no eixo X, a potência normalizada do sinal de voz em decibéis. A parte sonora é amplificada, a parte surda é bem mais amplificada e isso gera uma não conformidade. Essa não conformidade gera a compressão. Quando a gente estiver falando, então, na exponencial, ok? Detalhes. Quando o eixo X, o zero, indica que é a maior amplitude, enquanto o menos 44 é quase que a menor amplitude, diferente do eixo Y, ok? No zero, que é a maior amplitude, a potência normalizada do sinal de voz em decibéis. Ou seja, aquele decibéis significa isso. E a relação sinal-ruído de quantização em decibéis é o eixo Y. Vamos falar agora do formato PCM-telefonia. É a forma mais básica e mais usada na codificação para sinais de voz telefonia digital padronizada pela norma ITU-TG711. Ou seja, algumas variações do PCM são complexas e não serão tratadas nessa disciplina. No sistema PCM, para a telefonia, o sinal de voz é amostrado a uma taxa de 8 kHz e quantizado de maneira não uniforme usando compressão segmentada, usando 8 bits por amostra. Agora aqui a gente tem, então, um exemplo didático de PCM de 3 bits. Então, vamos lá. O PCM é de 8 bits. Usamos o 3 somente para efeito didático. Aqui a gente tem aquele gráfico completo com todas as fases do processo. Tem o processo de amostragem, de quantização e da digitalização que aparece os números binários embaixo. O intervalo de valores do sinal resulta em um valor quantizado. Então, a gente tem aquela... vamos dizer, aquela senoide, na verdade, pensando no passabaixas, como se fosse uma senoide. Onde que ela vai? Na crista. Depois da crista, ela começa a cair de uma forma em um ângulo de 45 graus. E todas aquelas faixas do lado, você tem, então, ela completa ali com a... com a quantização, desculpe, a amplitude de quantização. Enquanto no eixo horizontal, você tem aquelas amostras que são retiradas de tempos em tempos, de forma a dar aquele efeito de um único valor da quantização. Então, é isso. Vamos lá. Aqui a gente, então, tem os elementos básicos de um sistema PCM usado em telefonia digital. Então, a gente tem o transmissor, a mensagem contínua. Ela passa pelo filtro passabaixas que segue as teorias do Alliance, do teorema de Niquist. Depois, ela vai para o amostrador, passa pelo quantizador, e, então, ela finaliza com o codificador. Então, sinal de PCM aplicado à entrada do canal. Na transmissão, ocorre, então, a compressão. Ou seja, esse daí é o transmissor. Então, ocorre a compressão, não linearidade no processo de codificação, de forma a minimizar o erro de codificação para amplitudes menores, ou de surdas do som. E a gente tem, então, o canal, que a gente não vai tratar sobre isso, e tem a parte do receptor, que é o sinal, a saída do canal, que é o circuito de regeneração, o decodificador e o filtro de reconstrução, que é o destino. Então, com isso, a gente finaliza os elementos básicos de um sistema PCM. E, com isso, também, finalizamos a aula 6.

Listen Next

Other Creators