O ruído de 18 segundos que eu não consegui decifrar
Um som estranho num vídeo, supostamente ouvido sem fonte física no ambiente. Tentei isolar, transcrever, decodificar e medir por todos os ângulos. Aqui está o que encontrei e o que continua sem explicação.
Tem um trecho de uns 18 segundos num vídeo que me incomodou. Entre 00:05 e 00:23 aparece um ruído craquelado, irregular, meio metálico, e quem gravou jura que ouviu aquilo sem nenhuma fonte física por perto. Resolvi tratar como um problema de sinal e ir até onde a matemática deixasse.
Já adianto, com toda honestidade: não achei mensagem nenhuma. Mas o caminho até essa conclusão foi mais interessante do que eu esperava, e no fim consegui dizer com bastante precisão o que esse som é, e o que ele não é.
Montei uma página interativa com tudo, vídeo, todos os áudios e os gráficos, caso você queira mexer. Aqui embaixo conto a história.
Primeiro, separar o que dá pra ouvir
O áudio original é uma sopa: vento, algum bicho, ambiente, e o tal craquelado por cima. Escrevi um pipeline em Python (scipy, noisereduce) que faz a limpeza em etapas: reduz o ruído estacionário, corta as frequências que não interessam, detecta os transientes e abre um gate só nos estalos.
Dá pra ouvir a diferença. Esse é o trecho cru:
E esse é depois de isolar só o craquelado:
Ficou limpo, mas continua sendo estalo. Nenhuma fala escondida saltou aos ouvidos.
Será que é linguagem?
A primeira hipótese, meio ingênua, era de que tinha voz ali. Alguém tinha dito que parecia latim. Joguei no Whisper (o modelo de fala da OpenAI, rodando local) forçando latim. Saiu “Unnemalcatne Naaau! I pickled viv exact”. Tirei o latim e deixei a detecção automática: o modelo passeou por inglês, japonês, russo, e cuspiu pérolas como “Thank you. Thank you.” e “Like and subscribe”.
Isso não é mensagem, é alucinação. Quando você alimenta o Whisper com ruído sem fala, ele inventa a partir do que viu no YouTube durante o treino. A confiança de idioma foi baixíssima nas oito tentativas, o que é o jeito do modelo dizer “não tem voz aqui”.
A caça à mensagem escondida
Se não é fala, talvez seja algo codificado. Testei seis hipóteses, uma por uma:
- Morse nos estalos? O ritmo é irregular demais, sem os dois grupos limpos de ponto e traço.
- Tons e DTMF (aqueles bipes de teclado de telefone)? Os “detectados” eram só os harmônicos de um bicho.
- Ultrassom acima de 16 kHz? Vazio, e não por acaso: o codec do vídeo corta tudo acima de ~12 kHz. Nada se esconde lá em cima.
- Reverso e câmera lenta passados de novo pelo Whisper? Mais alucinação.
- Dados embutidos no arquivo? Só lixo de codec.
Esse é o espectrograma do trecho. As riscas verticais são os estalos; aquele borrão por volta dos 12 segundos é uma vocalização animal. Nenhum texto, nenhum desenho, nenhum padrão escondido:

Se quiser ouvir o experimento, aqui está o áudio quatro vezes mais lento:
Quando não acho nada, eu vou fundo
Aqui eu poderia ter parado. Mas a premissa era “o som existe, mesmo que as ferramentas não interpretem”. Então virei a chave: em vez de procurar mensagem, resolvi caracterizar o sinal por inteiro e ver se ele tinha qualquer estrutura que o diferenciasse de ruído natural.
Rodei dezesseis famílias de métodos: entropia, fractais, teoria do caos, grafos, separação de fontes. Cada medida foi testada contra um modelo nulo (surrogados IAAFT, que embaralham o sinal mas preservam o espectro). A lógica é simples: se o sinal real difere de forma significativa das versões embaralhadas, tem estrutura de verdade.
Dez medidas deram “significativo”. Por uns minutos achei que tinha alguma coisa. Mas dois gráficos me trouxeram de volta pra Terra.
O primeiro é o plano complexidade-entropia. Ele separa três mundos: ruído, caos e sinal periódico. O ponto do meu sinal cai bem no canto do ruído, com complexidade baixíssima:

O segundo é o retrato de espaço de fase. Um sistema com regra clara, um caos determinístico, desenha uma forma reconhecível, tipo a borboleta de Lorenz. O meu desenha uma bola de lã sem estrutura nenhuma:

Traduzindo: os “dez significativos” são reais como números, mas explicados pela natureza do som (suave, impulsivo, com um evento alto no meio) e não por qualquer codificação. É a assinatura de som natural, não de mensagem.
E o vídeo, será que entrega a fonte?
Última pista. Cruzei a energia do áudio com o que acontece na imagem, quadro a quadro. Se o som tivesse uma fonte física visível, os picos casariam com movimento ou mudança de brilho. Não casam:

O som não está amarrado a nada que se vê. O que, curiosamente, combina com o relato de “sem fonte física aparente”, mas do ponto de vista do sinal só quer dizer que a câmera não capturou a fonte.
O que dá pra afirmar
O som existe e está completamente medido. É uma gravação natural, mono, limitada a ~12 kHz pelo codec, dominada por graves (300 a 600 Hz), cheia de estalos, estatisticamente indistinguível de ruído impulsivo. Tem um evento mais alto perto dos 12 segundos, provavelmente um bicho. Não tem atrator, não tem periodicidade, não tem código, não tem fala, e não tem fonte visível no vídeo.
O que continua em aberto não é uma propriedade misteriosa do som. É só a identidade da fonte. E “não identificado” não é a mesma coisa que “anômalo”: em dezesseis famílias de análise, nada nesse áudio pede uma explicação fora do comum.
Era o tipo de investigação que eu queria que terminasse com um grand finale. Terminou com honestidade, que talvez seja melhor. Todo o material, áudios, vídeo, gráficos e os números crus, está na página interativa.