A acústica de salas tratou do espaço ao redor da fonte. Este artigo trata de um espaço diferente: o palco sonoro que se forma entre dois alto-falantes (ou entre os dois lados de um fone). Com apenas dois canais, é possível criar a ilusão de instrumentos posicionados à esquerda, à direita, ao centro, mais perto, mais longe. Essa ilusão — a imagem estéreo — é construída explorando a forma como o cérebro localiza sons no mundo real.
Como localizamos sons
O sistema auditivo usa principalmente duas pistas para saber de onde vem um som:
- Diferença de tempo entre os ouvidos (ITD, interaural time difference) — um som à esquerda chega ao ouvido esquerdo alguns microssegundos antes do direito. O cérebro lê esse atraso como direção. Dominante nas frequências graves e médias.
- Diferença de nível entre os ouvidos (ILD, interaural level difference) — um som à esquerda é mais forte no ouvido esquerdo, porque a cabeça "sombreia" o ouvido oposto. Dominante nas frequências agudas (onde a cabeça bloqueia melhor).
Estéreo é, no fundo, um sistema para fabricar essas duas pistas com dois alto-falantes. Quando o som sai igualmente dos dois lados, o cérebro o coloca no centro — uma fonte fantasma que não existe fisicamente em lugar nenhum. Desequilibre o nível (ou o tempo) entre os canais, e a fonte fantasma se desloca.
Panning
Panning é o ato de posicionar uma fonte mono no campo estéreo. A forma padrão em mixagem é por diferença de nível: mandar mais sinal para um canal que para o outro. Totalmente à esquerda, totalmente à direita, e qualquer ponto intermediário.
Há uma sutileza importante — a lei de panorama (pan law). Se você simplesmente somasse metade do nível em cada canal no centro, a fonte centralizada soaria mais fraca que quando jogada totalmente para um lado, porque potência não soma linearmente. A solução é o panorama de potência constante: no centro, cada canal recebe cerca de 70,7% do nível (–3 dB), de modo que a potência total se mantém constante em qualquer posição.
Panorama de potência constante. Conforme a fonte vai da esquerda total à direita total, o ganho do canal esquerdo cai de 1 a 0 enquanto o direito faz o oposto. As curvas se cruzam no centro em 0,707 (–3 dB cada), garantindo que a potência total — proporcional à soma dos quadrados — permaneça constante em qualquer posição. Sem essa compensação, fontes centralizadas soariam mais fracas que as jogadas para os lados.
O campo estéreo
Com panning, monta-se o palco: cada elemento ocupa uma posição horizontal. Mas a imagem estéreo tem mais dimensões que a horizontal:
- Largura — quanto um elemento (ou a mixagem inteira) se espalha entre os lados.
- Profundidade — a sensação de distância, criada principalmente por nível e por reverb (mais reverb e menos nível empurram para trás).
- Posição — o ponto horizontal definido pelo panning.
A convenção clássica em mixagem musical: graves e elementos fundamentais (bumbo, baixo, voz principal) ao centro; demais elementos distribuídos para criar equilíbrio e separação. O centro não é só estético — é também onde mora a maior parte da energia, e mantê-lo sólido é essencial.
Mid-Side (M/S)
Uma forma poderosa de pensar (e processar) o estéreo é decompô-lo em dois componentes:
- Mid (M) = L + R — o que é comum aos dois canais, ou seja, o conteúdo central (mono).
- Side (S) = L – R — o que difere entre os canais, ou seja, o conteúdo lateral (a "estereofonia" em si).
A decodificação inversa reconstrói os canais: L = M + S, R = M – S. A transformação é reversível e sem perdas.
A utilidade prática é enorme: processar M e S independentemente. Por exemplo:
- EQ M/S — adicionar brilho só nos lados (S) para "abrir" a mixagem sem afetar a clareza do centro; ou cortar grave dos lados deixando o grave só no centro (mono).
- Compressão M/S — comprimir o centro sem mexer nos lados, mantendo a dinâmica espacial.
- Controle de largura — aumentar o nível do componente S em relação a M alarga a imagem; reduzi-lo a estreita; zerar S resulta em mono puro.
Largura estéreo
Algumas formas de criar ou aumentar largura:
- Balanço M/S — subir o lado (S) em relação ao mid. A forma mais "honesta", mas pode prejudicar a compatibilidade mono se exagerada.
- Efeito Haas (precedência) — atrasar levemente uma cópia em um canal (1–35 ms). O cérebro funde os dois sons num só, mas percebe largura. Acima de ~35 ms, vira eco audível (ver reverb e delay).
- Truques de fase — inverter ou defasar conteúdo entre canais cria sensação de largura artificial. Perigoso: tende a colapsar (ou sumir) quando a mixagem é somada em mono.
Compatibilidade mono
Este é o conceito que reencontra a fase de forma central. Quando os canais L e R são somados em mono — algo que acontece o tempo todo no mundo real — o conteúdo que está fora de fase entre eles se cancela.
Onde a soma em mono acontece:
- Sistemas de PA em clubes (muitos são mono ou parcialmente).
- Telefones, bluetooth speakers pequenos, rádios.
- Broadcast (parte da cadeia ainda soma para mono).
- Reprodução em pontos onde o ouvinte está mais perto de um alto-falante.
Se você criou largura com truques de fase, o resultado em mono pode ser desastroso: instrumentos que somem, grave que enfraquece, vocais que perdem corpo. Por isso a regra de ouro: sempre verifique a mixagem em mono.
Ferramentas que ajudam:
- Medidor de correlação — mostra a relação de fase entre os canais, numa escala de +1 (idênticos, perfeitamente mono-compatíveis) a –1 (totalmente fora de fase, cancelam em mono). Valores positivos são seguros; persistentemente negativos são alerta.
- Grave em mono — manter as frequências graves centralizadas (em fase) evita cancelamentos no grave e problemas em sistemas e na prensagem de vinil. Muitos mixers aplicam um mono maker abaixo de ~120 Hz.
Técnicas de captação estéreo
Quando se grava estéreo direto da fonte (em vez de montar com panning), a escolha da técnica define o equilíbrio entre largura/espacialidade e compatibilidade mono.
Quatro técnicas de captação estéreo, vistas de cima (a fonte está acima). A diferença fundamental é o que cada uma captura — diferenças de nível, de tempo, ou ambas.
- Coincidentes (XY, Blumlein) — dois microfones no mesmo ponto, angulados. Capturam só diferenças de nível (não de tempo, pois estão no mesmo ponto). Imagem precisa e perfeitamente mono-compatível. XY usa dois cardioides; Blumlein usa dois figura-oito a 90°.
- Quase-coincidentes (ORTF, NOS) — pequeno espaçamento (17 cm no ORTF) e angulação. Capturam diferenças de nível e de tempo. Imagem mais ampla e natural, com boa (mas não perfeita) compatibilidade mono.
- Espaçados (AB, par espaçado) — microfones bem afastados (dezenas de centímetros), geralmente omni. Capturam principalmente diferenças de tempo. Som muito amplo e espaçoso, mas pior compatibilidade mono (o espaçamento gera defasagens que cancelam). O Decca tree é uma variante de três microfones muito usada em orquestra.
- M/S — um cardioide (mid, apontado à fonte) mais um figura-oito (side, apontado aos lados), coincidentes. Decodificado depois para L/R pela mesma álgebra do mid-side. Vantagem única: a largura é ajustável depois da gravação (mudando o nível do S), e é totalmente mono-compatível (em mono, só o mid permanece — o side se cancela por definição).
O trade-off central: quanto mais a técnica depende de diferenças de tempo (espaçados), mais ampla e espaçosa a imagem, porém mais frágil em mono. Quanto mais depende de diferenças de nível (coincidentes), mais sólida em mono, porém menos "envolvente".
Onde aparece na prática
- Mixagem: panning para posicionar elementos, M/S para esculpir largura e centro independentemente, mono maker no grave.
- Masterização: ajuste sutil de largura por M/S, verificação rigorosa de compatibilidade mono e correlação.
- Captação de fontes acústicas: escolha da técnica estéreo conforme a sala e o destino (XY/coincidente quando mono importa; espaçado para espacialidade em fontes grandes como orquestra, piano, coro).
- Broadcast: compatibilidade mono é mandatória — boa parte da audiência ouve em mono.
- Vinil: o grave precisa estar em mono (em fase) para o sulco ser cortável sem fazer a agulha pular.
- Ao vivo: muitos sistemas são mono ou quase; mixar pensando em mono evita surpresas.
Onde tudo se conecta
A imagem estéreo fabrica, com dois canais, as pistas de tempo e nível que o cérebro usa para localizar frequências no espaço. O panning equilibra níveis em dB; o mid-side decompõe os canais em soma e diferença — e a diferença é, no fundo, uma questão de fase, que é também o que decide a compatibilidade mono. A profundidade vem de reverb e nível; a captação estéreo depende de microfones e de suas técnicas; e a sala onde tudo é ouvido (acústica de salas) precisa ser simétrica para a imagem não se distorcer. É a camada que transforma uma coleção de sons numa cena — algo que se ouve "à frente", com lugar, largura e profundidade.
Próximos artigos possíveis: modulação (chorus, flanger, phaser, tremolo, vibrato), fechando a família de efeitos baseados em delay curto; e loudness e metering (LUFS, true peak, K-system, normalização de streaming), amarrando dBFS, dinâmica e masterização.