Investigação do Som

O caso em 30 segundos

Um vídeo de 98 segundos contém um som curioso — um ruído craquelado — que teria sido ouvido sem fonte física no ambiente. Tentamos isolá-lo, transcrevê-lo, decodificá-lo e medi-lo por todos os ângulos matemáticos possíveis.

A pergunta não é só "há uma mensagem?", mas "o que esse som é, exatamente?". Passamos por 4 fases: isolar o ruído, tentar transcrever como linguagem, busca forense por mensagem oculta, e por fim uma caracterização matemática exaustiva (16 famílias de métodos) com teste estatístico rigoroso.

🎬 O vídeo original

98 segundos, áudio estéreo 44.1 kHz. É a fonte de tudo — assista e ouça.

⏱️ Linha do tempo do áudio

Onde há som nos 98 segundos, e onde está o trecho craquelado (5–23s). Clique nos blocos para saltar o vídeo.

★

0s20s40s60s80s98s

regiões com som trecho craquelado (5–23s) ★ vocalização animal 👆 clique para saltar o vídeo

A maior região contínua de som é 76–94s. O trecho que motivou tudo é o craquelado de 5–23s. A ★ marca uma vocalização animal (~11.5–13.5s) que confunde os detectores. Acima de ~12 kHz o codec do vídeo cortou tudo — nada pode se esconder lá.

Fase 1 — Isolar o som

Limpamos o ruído em 5 estágios para deixar só o craquelado. Ouça a transformação:

1 · Bruto

antes de tudo

2 · Sem ruído

vento atenuado

3 · Passa-banda

graves/agudos cortados

4 · Transientes

isola estalos

5 · Gate final

só o craquelado

Pipeline de isolamento

**O que é:** o passo a passo do tratamento.

**O que mostra:** extração → redução de ruído → filtro → máscara → gate.

Mapa da investigação

**O que é:** o quadro de estratégia desenhado à mão.

**O que mostra:** as abordagens de tratamento e as imagens forenses lado a lado.

Fase 2 — Tentar transcrever

Pedimos ao Whisper (IA de fala) para transcrever como Latim e traduzir. Resultado: o texto é alucinação — não há fala no áudio.

Arquivo fonte : extracted_raw.wav
Modelo Whisper: large-v3 (openai-whisper)
Língua fonte  : Latim (la)
============================================================

=== LATIM — transcrição por segmento ===
  [00:00 → 00:02]  Unnemalcatne
  [00:04 → 00:06]  Naaau!
  [00:15 → 00:17]  I pickled viv exact

=== INGLÊS — tradução por segmento ===
  [00:00 → 00:02]  Unnemalcat?
  [00:04 → 00:06]  Naaaa!
  [00:15 → 00:17]  I pickled viv exactly

=== PORTUGUÊS — tradução por segmento ===
  [00:00 → 00:02]  Unnemalcat?
  [00:04 → 00:06]  Naaaa!
  [00:15 → 00:17]  Eu peguei viv exatamente

============================================================

=== TEXTO COMPLETO — LATIM ===
Unnemalcatne Naaau! I pickled viv exact

=== TEXTO COMPLETO — INGLÊS ===
Unnemalcatne Naaau! I pickled viv exactly

=== TEXTO COMPLETO — PORTUGUÊS ===
Unnemalcatne Naaau! Eu peguei viv exatamente

Por quê? Quando alimentado com ruído sem fala, o Whisper "inventa" texto a partir do que viu no treino (ex.: "Thank you", "Like and subscribe"). A confiança de idioma foi baixíssima em todas as 8 tentativas.

Fase 3 — Busca forense por mensagem oculta

Seis hipóteses de "mensagem escondida" — todas deram negativo.

Espectrograma (imagem/texto oculto): nada
Morse (ritmo dos estalos): irregular, não é Morse
Tons / DTMF: falso-positivo da vocalização
Ultrassom (16–24 kHz): vazio (codec cortou)
Reverso / câmera lenta + Whisper: alucinação
Dados embutidos no arquivo: só padding de codec

Ouça as versões processadas:

Reverso

de trás pra frente

Lento 2×

Lento 4×

Espectrograma 0–8 kHz Nada oculto

**O que é:** mapa do som onde está 99% da energia.

**O que mostra:** só estalos + vocalização; nada escondido.

Ultrassom 16–24 kHz Vazio

**O que é:** a faixa inaudível.

**O que mostra:** vazia.

Fase 4 — Caracterização matemática exaustiva

16 famílias de métodos (entropia, fractais, caos, grafos…) testadas contra um modelo nulo rigoroso. Conclusão: ruído natural, não estrutura codificada.

Apareceram 10 medidas "significativas" — mas as provas visuais decisivas mostram que são artefatos de um som suave e impulsivo, não uma mensagem:

Plano Complexidade-Entropia Estocástico

**O que é:** separa ruído × caos × periódico.

**O que mostra:** cai em RUÍDO (C=0.042).

Espaço de fase Sem atrator

**O que é:** a 'forma' da dinâmica.

**O que mostra:** nuvem sem atrator = ruído.

Real vs surrogados Artefato

**O que é:** teste de significância.

**O que mostra:** 10 medidas 'significativas' = artefato de suavidade, não mensagem.

Áudio × vídeo Sem fonte visível

**O que é:** o som casa com a imagem?

**O que mostra:** não — sem fonte visível.

Entropia de permutação H=0.867, complexidade C=0.042, determinismo RQA=0.845 (de um único evento), β=4.604 (corte do codec), correlação estéreo=1.0 (mono).

🖼️ Galeria completa de gráficos

Todos os gráficos da investigação, cada um explicado em duas linhas. Clique para ampliar.

Espectrograma completo (0–24 kHz) Corte do codec

**O que é:** o espectro inteiro até o limite da gravação.

**O que mostra:** tudo acima de ~12 kHz está vazio (preto): o codec do vídeo cortou. Nada pode se esconder lá em cima.

Banda ultrassônica (16–24 kHz) Vazio

**O que é:** a faixa 'inaudível' que o ouvido humano não escuta.

**O que mostra:** apenas ruído de fundo — sem sinal escondido em alta frequência.

Espectrograma log-frequência

**O que é:** o mesmo mapa com escala que valoriza os graves.

**O que mostra:** estrutura harmônica natural (a vocalização) — nada artificial.

Detecção de eventos (Morse?) Não é Morse

**O que é:** marca cada 'estalo' detectado no tempo.

**O que mostra:** os estalos são irregulares e agrupados — o oposto do ritmo regular do código Morse.

Durações dos estalos Não é Morse

**O que é:** histograma de quanto dura cada estalo.

**O que mostra:** sem os dois grupos limpos (ponto/traço) que o Morse exigiria.

Intervalos entre estalos Não é Morse

**O que é:** histograma do silêncio entre estalos.

**O que mostra:** sem a hierarquia de pausas do Morse (letra/palavra).

Frequência dominante no tempo Sem portadora

**O que é:** qual a nota mais forte a cada instante.

**O que mostra:** não há uma linha contínua = nenhum tom-portadora escondido.

Envelope ultrassônico Vazio

**O que é:** a energia na banda inaudível ao longo do tempo.

**O que mostra:** praticamente zero (−76 dB) — banda vazia.

Espectro de potência (PSD)

**O que é:** como a energia se distribui entre graves e agudos.

**O que mostra:** pico em 300–600 Hz e penhasco em ~12 kHz (codec). É som natural band-limited, não fractal.

Retrato de espaço de fase Sem atrator

**O que é:** reconstrói a 'forma' da dinâmica do sinal em 3D (teorema de Takens).

**O que mostra:** uma nuvem difusa sem desenho → não há atrator/dinâmica determinística. É ruído.

Plot de recorrência Um evento

**O que é:** mostra quando o sinal 'repete' estados parecidos.

**O que mostra:** um único bloco central = um evento alto. O 'determinismo' alto vem dele, não de estrutura oculta.

Real vs. surrogados (rigor) Artefato

**O que é:** compara o sinal contra cópias embaralhadas que preservam o espectro (teste de hipótese).

**O que mostra:** as diferenças existem mas refletem suavidade + impulsividade do som natural, não mensagem.

Correlação áudio × vídeo Sem fonte visível

**O que é:** o som coincide com algo que se vê na imagem?

**O que mostra:** correlação fraca (movimento r=0.206) → o som NÃO tem fonte visível no vídeo.

Espectro multifractal (MFDFA)

**O que é:** mede se o sinal tem complexidade em múltiplas escalas.

**O que mostra:** largura=1.416 — multifractal, mas por causa das rajadas/estalos (intermitência natural).

Escalograma (wavelets)

**O que é:** decomposição tempo-frequência multi-escala.

**O que mostra:** estrutura difusa típica de som natural; sem padrão geométrico artificial.

Amplitude e frequência instantâneas

**O que é:** envelope e 'nota' do som instante a instante (Hilbert).

**O que mostra:** variação errática — consistente com ruído impulsivo.

Espectro de modulação Não é fala

**O que é:** ritmo com que o som 'pulsa' (fala humana pulsa ~4 Hz).

**O que mostra:** pico em ~0 Hz, não em 4 Hz → não é fala.

Entropia multiescala

**O que é:** quão imprevisível é o sinal em várias escalas de tempo.

**O que mostra:** perfil compatível com sinal estocástico suave.

Espectro SSA

**O que é:** separa o sinal em componentes; autovalores mostram quantos são relevantes.

**O que mostra:** precisa de ~81 componentes para 90% da variância → não há poucos modos dominantes (sem estrutura simples).

Grafo de visibilidade Não-fractal

**O que é:** converte a série em rede e mede a distribuição de conexões.

**O que mostra:** expoente γ=1.84 → fora da faixa fractal (2–3).

Bicoerência

**O que é:** detecta acoplamento não-linear entre frequências.

**O que mostra:** moderada (0.46), explicada pelos harmônicos da vocalização.

Componentes NMF

**O que é:** tenta separar o som em 'fontes' espectrais.

**O que mostra:** templates difusos de banda larga — som natural, não tons codificados.

Matriz de auto-similaridade

**O que é:** compara cada trecho com todos os outros.

**O que mostra:** sem padrões repetidos/diagonais fortes = sem estrutura repetida.

Correlação entre segmentos Distintos

**O que é:** as regiões com som se repetem entre si?

**O que mostra:** correlação máxima 0.45 → segmentos distintos, sem loop/repetição.

Coerência estéreo Mono

**O que é:** diferença entre os canais esquerdo e direito.

**O que mostra:** correlação 1.0 → canais idênticos = som efetivamente MONO (sem informação espacial).

🔊 Biblioteca de áudio — tudo disponível

Todas as versões do som, prontas para tocar: original, canais, estágios de limpeza, reverso e câmera lenta.

Áudio completo (mono 44.1kHz)

os 98s em mono

Canal esquerdo

extraído do estéreo

Canal direito

idêntico ao esquerdo (é mono)

Estágio 1 — bruto

trecho 5–23s sem tratamento

Estágio 2 — redução de ruído

vento/ambiente atenuados

Estágio 3 — filtro passa-banda

graves e agudos cortados

Estágio 4 — máscara de transientes

isola os estalos

Estágio 5 — gate final

só o craquelado

Reverso

tocado de trás pra frente

Câmera lenta 2×

metade da velocidade

Câmera lenta 4×

1/4 da velocidade

⚖️ Veredito final

✅ O que está caracterizado

Gravação natural, mono, band-limited (≤12 kHz), dominada por baixas frequências (300–600 Hz), impulsiva (muitos estalos), estatisticamente tipo-ruído. Um episódio acústico dominante (~12s, vocalização). Sem atrator, sem periodicidade, sem código, sem mensagem, sem fonte visível no vídeo.

❓ O que permanece em aberto

A identidade da fonte física do som — ela não aparece na imagem e não é identificável só pelo sinal. Mas atenção: "fonte não-identificada" ≠ "sinal anômalo". Nada na matemática exige explicação não-natural.

O fato irrefutável: o som existe e foi exaustivamente medido. Em 16 famílias de análise, nada o distingue de som natural impulsivo band-limited. Os "10 padrões significativos" são artefatos de suavidade + não-gaussianidade contra os surrogados, não evidência de codificação.

📖 Glossário (para qualquer pessoa)

Todo termo técnico usado, em linguagem simples.

Espectrograma: Mapa de calor do som: tempo × frequência × intensidade. Permite 'ver' o som.
Frequência (Hz): Quantas vibrações por segundo. Grave = poucos Hz; agudo = muitos.
β (slope espectral): Inclinação do espectro. Som natural costuma ter β entre 1 e 2; aqui o valor é inflado pelo corte do codec.
Entropia: Medida de imprevisibilidade. Alta = parece aleatório; baixa = previsível/repetitivo.
Plano Complexidade-Entropia: Gráfico que separa três naturezas: ruído (canto), caos (meio, complexidade alta) e periódico. Nosso som cai em RUÍDO.
Espaço de fase (Takens): Reconstrução 3D da dinâmica. Um sistema com regra clara forma um desenho (atrator); ruído forma uma nuvem.
Expoente de Lyapunov: Mede se trajetórias próximas divergem (sinal de caos). Aqui é pequeno e artefato de um evento.
RQA / Recorrência: Quantifica quando o sinal repete estados. 'Determinismo' alto aqui vem de um único evento alto.
Fractal / Multifractal: Estrutura que se repete em várias escalas. Rajadas naturais (estalos) parecem multifractais sem serem mensagem.
Surrogado IAAFT: Cópia embaralhada do sinal que mantém o espectro mas destrói estrutura fina. Comparar com ele separa 'padrão real' de 'ruído colorido'.
Morse: Código de pontos/traços com ritmo regular. Os estalos aqui são irregulares — não é Morse.
DTMF: Os tons de teclado de telefone (pares de frequências). Os 'detectados' aqui são falsos positivos da vocalização.
Hilbert: Técnica que extrai o 'envelope' (volume) e a frequência instantânea do som.
Codec / band-limited: A compressão do vídeo descartou tudo acima de ~12 kHz — por isso a faixa alta está vazia.
Estéreo / Mono: Estéreo = dois canais com diferença espacial. Aqui os dois canais são idênticos → mono.

🧰 Apêndice — metodologia e dados

Os 4 scripts

Script	O que faz
isolate_crackling.py	Isola o ruído craquelado (pipeline de 8 estágios: extração → redução de ruído → passa-banda → máscara de transientes → gate).
transcribe_translate.py	Transcreve (Whisper local) e traduz Latim→PT/EN. Resultado: alucinação (não há fala).
forensic_decode.py	Busca mensagem oculta: espectrograma, Morse, tons/DTMF, ultrassom, reverso/lento + Whisper, strings. Tudo nulo.
pattern_analysis.py	Caracterização matemática exaustiva (16 famílias) com teste de significância por surrogados.

Métricas por segmento

Segmento	Entropia	Hurst
2.2-35.3s	0.993	0.05
39.7-51.1s	0.935	0.017
57.8-65.6s	0.843	0.003
66.6-74.2s	0.942	0.02
76.2-94.5s	0.923	0.021
96.2-98.2s	0.946	0.031

Tabela mestra de significância (real vs surrogados)

TABELA MESTRA DE SIGNIFICÂNCIA (ordenada por |z|)
==========================================================================================
família       medida                          real      surr_μ       z      p  flag
------------------------------------------------------------------------------------------
I_surr_full   sample_entropy                 0.364       1.272  -41.81  0.050  STRUTURA
I_surr_seg76-94sample_entropy               0.07108      0.6889  -24.21  0.050  STRUTURA
I_surr_seg76-94corr_dim                      0.3544       1.457  -15.84  0.050  STRUTURA
I_surr_full   time_irrev                   -0.6053   -0.001648  -12.81  0.050  STRUTURA
I_surr_full   perm_entropy                  0.9119      0.9443  -11.37  0.050  STRUTURA
I_surr_full   corr_dim                       1.726        2.36  -11.29  0.050  STRUTURA
I_surr_full   lyapunov                     0.02743    0.000442   10.13  0.050  STRUTURA
I_surr_seg76-94perm_entropy                  0.9683      0.9831   -9.89  0.050  STRUTURA
I_surr_full   dfa_hurst                   0.009664     0.02321   -2.81  0.050  STRUTURA
I_surr_seg76-94dfa_hurst                   0.001084     0.02877   -2.24  0.050  STRUTURA
I_surr_seg76-94time_irrev                   0.04744     0.00464    0.78  0.650  null
I_surr_seg76-94lyapunov                    0.005997    0.004953    0.51  0.700  null

MEDIDAS SEM SURROGADO (descritivas):
--------------------------------------------------
  A_espectral   psd_slope_beta            = 4.604
  A_espectral   spectral_entropy          = 0.7154
  A_espectral   spectral_flatness         = 0.001692
  A_espectral   cepstrum_peak             = 0.04511
  B_info        shannon_bits              = 6.447
  B_info        perm_entropy              = 0.9248
  B_info        sample_entropy            = 0.2189
  B_info        lempel_ziv                = 0.7375
  B_info        compress_gzip             = 0.794
  B_info        compress_bz2              = 0.8009
  B_info        compress_zlib             = 0.7932
  C_fractal     dfa_hurst                 = 0.02666
  C_fractal     hurst_rs                  = 0.1696
  C_fractal     higuchi_fd                = 1.891
  C_fractal     petrosian_fd              = 1.017
  C_fractal     katz_fd                   = 4.733
  C_fractal     mfdfa_width               = 1.416
  D_naolinear   embed_tau                 = 3
  D_naolinear   embed_dim_m               = 4
  D_naolinear   corr_dim                  = 1.55
  D_naolinear   lyapunov                  = 0.02206
  D_naolinear   zero_one_chaos            = 0.9922
  D_naolinear   rqa_recurrence_rate       = 0.0239
  D_naolinear   rqa_determinism           = 0.845
  E_estat       skewness                  = -0.07796
  E_estat       kurtosis                  = 10.85
  E_estat       kurtosis_noclip           = 10.31
  E_estat       jarque_bera               = 1.151e+05
  E_estat       time_irreversibility      = -0.1626
  E_estat       runs_test_z               = -7580
  E_estat       adf_stat                  = -29.85
  E_estat       kpss_stat                 = 0.02922
  E_estat       bicoherence_max           = 0.4632
  F_motif       matrix_profile_min        = 2.127
  G_tempofreq   wavelet_entropy           = 5.744
  G_tempofreq   inst_freq_std             = 2976
  G_tempofreq   emd_n_imfs                = 12
  H_estereo     interchannel_corr         = 1
  H_estereo     itd_lag_samples           = 0
  H_estereo     mean_coherence            = 1
  H_estereo     side_mid_energy_ratio     = 0
  H_estereo     side_perm_entropy         = 0
  J_complexidadeperm_entropy_H            = 0.8665
  J_complexidadejensen_complexity_C       = 0.04249
  J_complexidaderenyi_q2                  = 0.7367
  J_complexidadetsallis_q2                = 0.9706
  K_nist        linear_complexity         = 0
  K_nist        frequency_p               = 7.288e-193
  K_nist        runs_p                    = 0
  L_decomp      ssa_top_eigenvalue        = 0.05286
  L_decomp      ssa_components_90pct      = 81
  M_grafos      vg_mean_degree            = 10.52
  M_grafos      vg_powerlaw_gamma         = 1.843
  M_grafos      vg_clustering             = 0.7404
  N_acustica    modulation_peak_hz        = 0.0102
  N_acustica    rt60_seconds              = 14.36
  O_segmentos   max_intersegment_xcorr    = 0.4492
  P_video       audio_motion_corr         = 0.2063
  P_video       audio_brightness_corr     = 0.03554