🛸 Investigação do Som — mike-leao

O som existe. Aqui está tudo o que ele é — e o que não é.
Uma análise completa, áudio + vídeo + matemática, explicada para qualquer pessoa. O som foi ouvido sem fonte física aparente no ambiente; investigamos exaustivamente o que ele contém.

O caso em 30 segundos

Um vídeo de 98 segundos contém um som curioso — um ruído craquelado — que teria sido ouvido sem fonte física no ambiente. Tentamos isolá-lo, transcrevê-lo, decodificá-lo e medi-lo por todos os ângulos matemáticos possíveis.

A pergunta não é só "há uma mensagem?", mas "o que esse som é, exatamente?". Passamos por 4 fases: isolar o ruído, tentar transcrever como linguagem, busca forense por mensagem oculta, e por fim uma caracterização matemática exaustiva (16 famílias de métodos) com teste estatístico rigoroso.

🎬 O vídeo original

98 segundos, áudio estéreo 44.1 kHz. É a fonte de tudo — assista e ouça.

⏱️ Linha do tempo do áudio

Onde há som nos 98 segundos, e onde está o trecho craquelado (5–23s). Clique nos blocos para saltar o vídeo.
0s20s40s60s80s98s
regiões com som trecho craquelado (5–23s) vocalização animal 👆 clique para saltar o vídeo

A maior região contínua de som é 76–94s. O trecho que motivou tudo é o craquelado de 5–23s. A ★ marca uma vocalização animal (~11.5–13.5s) que confunde os detectores. Acima de ~12 kHz o codec do vídeo cortou tudo — nada pode se esconder lá.

Fase 1 — Isolar o som

Limpamos o ruído em 5 estágios para deixar só o craquelado. Ouça a transformação:
1 · Bruto
antes de tudo
2 · Sem ruído
vento atenuado
3 · Passa-banda
graves/agudos cortados
4 · Transientes
isola estalos
5 · Gate final
só o craquelado
Pipeline de isolamento
Pipeline de isolamento
O que é: o passo a passo do tratamento.
O que mostra: extração → redução de ruído → filtro → máscara → gate.
Mapa da investigação
Mapa da investigação
O que é: o quadro de estratégia desenhado à mão.
O que mostra: as abordagens de tratamento e as imagens forenses lado a lado.

Fase 2 — Tentar transcrever

Pedimos ao Whisper (IA de fala) para transcrever como Latim e traduzir. Resultado: o texto é alucinação — não há fala no áudio.
Arquivo fonte : extracted_raw.wav
Modelo Whisper: large-v3 (openai-whisper)
Língua fonte  : Latim (la)
============================================================

=== LATIM — transcrição por segmento ===
  [00:00 → 00:02]  Unnemalcatne
  [00:04 → 00:06]  Naaau!
  [00:15 → 00:17]  I pickled viv exact

=== INGLÊS — tradução por segmento ===
  [00:00 → 00:02]  Unnemalcat?
  [00:04 → 00:06]  Naaaa!
  [00:15 → 00:17]  I pickled viv exactly

=== PORTUGUÊS — tradução por segmento ===
  [00:00 → 00:02]  Unnemalcat?
  [00:04 → 00:06]  Naaaa!
  [00:15 → 00:17]  Eu peguei viv exatamente

============================================================

=== TEXTO COMPLETO — LATIM ===
Unnemalcatne Naaau! I pickled viv exact

=== TEXTO COMPLETO — INGLÊS ===
Unnemalcatne Naaau! I pickled viv exactly

=== TEXTO COMPLETO — PORTUGUÊS ===
Unnemalcatne Naaau! Eu peguei viv exatamente

Por quê? Quando alimentado com ruído sem fala, o Whisper "inventa" texto a partir do que viu no treino (ex.: "Thank you", "Like and subscribe"). A confiança de idioma foi baixíssima em todas as 8 tentativas.

Fase 3 — Busca forense por mensagem oculta

Seis hipóteses de "mensagem escondida" — todas deram negativo.

Ouça as versões processadas:

Reverso
de trás pra frente
Lento 2×
Lento 4×

Fase 4 — Caracterização matemática exaustiva

16 famílias de métodos (entropia, fractais, caos, grafos…) testadas contra um modelo nulo rigoroso. Conclusão: ruído natural, não estrutura codificada.

Apareceram 10 medidas "significativas" — mas as provas visuais decisivas mostram que são artefatos de um som suave e impulsivo, não uma mensagem:

Entropia de permutação H=0.867, complexidade C=0.042, determinismo RQA=0.845 (de um único evento), β=4.604 (corte do codec), correlação estéreo=1.0 (mono).

🖼️ Galeria completa de gráficos

Todos os gráficos da investigação, cada um explicado em duas linhas. Clique para ampliar.

🔊 Biblioteca de áudio — tudo disponível

Todas as versões do som, prontas para tocar: original, canais, estágios de limpeza, reverso e câmera lenta.
Áudio completo (mono 44.1kHz)
os 98s em mono
Canal esquerdo
extraído do estéreo
Canal direito
idêntico ao esquerdo (é mono)
Estágio 1 — bruto
trecho 5–23s sem tratamento
Estágio 2 — redução de ruído
vento/ambiente atenuados
Estágio 3 — filtro passa-banda
graves e agudos cortados
Estágio 4 — máscara de transientes
isola os estalos
Estágio 5 — gate final
só o craquelado
Reverso
tocado de trás pra frente
Câmera lenta 2×
metade da velocidade
Câmera lenta 4×
1/4 da velocidade

⚖️ Veredito final

✅ O que está caracterizado

Gravação natural, mono, band-limited (≤12 kHz), dominada por baixas frequências (300–600 Hz), impulsiva (muitos estalos), estatisticamente tipo-ruído. Um episódio acústico dominante (~12s, vocalização). Sem atrator, sem periodicidade, sem código, sem mensagem, sem fonte visível no vídeo.

❓ O que permanece em aberto

A identidade da fonte física do som — ela não aparece na imagem e não é identificável só pelo sinal. Mas atenção: "fonte não-identificada" ≠ "sinal anômalo". Nada na matemática exige explicação não-natural.

O fato irrefutável: o som existe e foi exaustivamente medido. Em 16 famílias de análise, nada o distingue de som natural impulsivo band-limited. Os "10 padrões significativos" são artefatos de suavidade + não-gaussianidade contra os surrogados, não evidência de codificação.

📖 Glossário (para qualquer pessoa)

Todo termo técnico usado, em linguagem simples.
Espectrograma
Mapa de calor do som: tempo × frequência × intensidade. Permite 'ver' o som.
Frequência (Hz)
Quantas vibrações por segundo. Grave = poucos Hz; agudo = muitos.
β (slope espectral)
Inclinação do espectro. Som natural costuma ter β entre 1 e 2; aqui o valor é inflado pelo corte do codec.
Entropia
Medida de imprevisibilidade. Alta = parece aleatório; baixa = previsível/repetitivo.
Plano Complexidade-Entropia
Gráfico que separa três naturezas: ruído (canto), caos (meio, complexidade alta) e periódico. Nosso som cai em RUÍDO.
Espaço de fase (Takens)
Reconstrução 3D da dinâmica. Um sistema com regra clara forma um desenho (atrator); ruído forma uma nuvem.
Expoente de Lyapunov
Mede se trajetórias próximas divergem (sinal de caos). Aqui é pequeno e artefato de um evento.
RQA / Recorrência
Quantifica quando o sinal repete estados. 'Determinismo' alto aqui vem de um único evento alto.
Fractal / Multifractal
Estrutura que se repete em várias escalas. Rajadas naturais (estalos) parecem multifractais sem serem mensagem.
Surrogado IAAFT
Cópia embaralhada do sinal que mantém o espectro mas destrói estrutura fina. Comparar com ele separa 'padrão real' de 'ruído colorido'.
Morse
Código de pontos/traços com ritmo regular. Os estalos aqui são irregulares — não é Morse.
DTMF
Os tons de teclado de telefone (pares de frequências). Os 'detectados' aqui são falsos positivos da vocalização.
Hilbert
Técnica que extrai o 'envelope' (volume) e a frequência instantânea do som.
Codec / band-limited
A compressão do vídeo descartou tudo acima de ~12 kHz — por isso a faixa alta está vazia.
Estéreo / Mono
Estéreo = dois canais com diferença espacial. Aqui os dois canais são idênticos → mono.

🧰 Apêndice — metodologia e dados

Os 4 scripts

ScriptO que faz
isolate_crackling.pyIsola o ruído craquelado (pipeline de 8 estágios: extração → redução de ruído → passa-banda → máscara de transientes → gate).
transcribe_translate.pyTranscreve (Whisper local) e traduz Latim→PT/EN. Resultado: alucinação (não há fala).
forensic_decode.pyBusca mensagem oculta: espectrograma, Morse, tons/DTMF, ultrassom, reverso/lento + Whisper, strings. Tudo nulo.
pattern_analysis.pyCaracterização matemática exaustiva (16 famílias) com teste de significância por surrogados.

Métricas por segmento

SegmentoEntropiaHurst
2.2-35.3s0.9930.05
39.7-51.1s0.9350.017
57.8-65.6s0.8430.003
66.6-74.2s0.9420.02
76.2-94.5s0.9230.021
96.2-98.2s0.9460.031

Tabela mestra de significância (real vs surrogados)

TABELA MESTRA DE SIGNIFICÂNCIA (ordenada por |z|)
==========================================================================================
família       medida                          real      surr_μ       z      p  flag
------------------------------------------------------------------------------------------
I_surr_full   sample_entropy                 0.364       1.272  -41.81  0.050  STRUTURA
I_surr_seg76-94sample_entropy               0.07108      0.6889  -24.21  0.050  STRUTURA
I_surr_seg76-94corr_dim                      0.3544       1.457  -15.84  0.050  STRUTURA
I_surr_full   time_irrev                   -0.6053   -0.001648  -12.81  0.050  STRUTURA
I_surr_full   perm_entropy                  0.9119      0.9443  -11.37  0.050  STRUTURA
I_surr_full   corr_dim                       1.726        2.36  -11.29  0.050  STRUTURA
I_surr_full   lyapunov                     0.02743    0.000442   10.13  0.050  STRUTURA
I_surr_seg76-94perm_entropy                  0.9683      0.9831   -9.89  0.050  STRUTURA
I_surr_full   dfa_hurst                   0.009664     0.02321   -2.81  0.050  STRUTURA
I_surr_seg76-94dfa_hurst                   0.001084     0.02877   -2.24  0.050  STRUTURA
I_surr_seg76-94time_irrev                   0.04744     0.00464    0.78  0.650  null
I_surr_seg76-94lyapunov                    0.005997    0.004953    0.51  0.700  null

MEDIDAS SEM SURROGADO (descritivas):
--------------------------------------------------
  A_espectral   psd_slope_beta            = 4.604
  A_espectral   spectral_entropy          = 0.7154
  A_espectral   spectral_flatness         = 0.001692
  A_espectral   cepstrum_peak             = 0.04511
  B_info        shannon_bits              = 6.447
  B_info        perm_entropy              = 0.9248
  B_info        sample_entropy            = 0.2189
  B_info        lempel_ziv                = 0.7375
  B_info        compress_gzip             = 0.794
  B_info        compress_bz2              = 0.8009
  B_info        compress_zlib             = 0.7932
  C_fractal     dfa_hurst                 = 0.02666
  C_fractal     hurst_rs                  = 0.1696
  C_fractal     higuchi_fd                = 1.891
  C_fractal     petrosian_fd              = 1.017
  C_fractal     katz_fd                   = 4.733
  C_fractal     mfdfa_width               = 1.416
  D_naolinear   embed_tau                 = 3
  D_naolinear   embed_dim_m               = 4
  D_naolinear   corr_dim                  = 1.55
  D_naolinear   lyapunov                  = 0.02206
  D_naolinear   zero_one_chaos            = 0.9922
  D_naolinear   rqa_recurrence_rate       = 0.0239
  D_naolinear   rqa_determinism           = 0.845
  E_estat       skewness                  = -0.07796
  E_estat       kurtosis                  = 10.85
  E_estat       kurtosis_noclip           = 10.31
  E_estat       jarque_bera               = 1.151e+05
  E_estat       time_irreversibility      = -0.1626
  E_estat       runs_test_z               = -7580
  E_estat       adf_stat                  = -29.85
  E_estat       kpss_stat                 = 0.02922
  E_estat       bicoherence_max           = 0.4632
  F_motif       matrix_profile_min        = 2.127
  G_tempofreq   wavelet_entropy           = 5.744
  G_tempofreq   inst_freq_std             = 2976
  G_tempofreq   emd_n_imfs                = 12
  H_estereo     interchannel_corr         = 1
  H_estereo     itd_lag_samples           = 0
  H_estereo     mean_coherence            = 1
  H_estereo     side_mid_energy_ratio     = 0
  H_estereo     side_perm_entropy         = 0
  J_complexidadeperm_entropy_H            = 0.8665
  J_complexidadejensen_complexity_C       = 0.04249
  J_complexidaderenyi_q2                  = 0.7367
  J_complexidadetsallis_q2                = 0.9706
  K_nist        linear_complexity         = 0
  K_nist        frequency_p               = 7.288e-193
  K_nist        runs_p                    = 0
  L_decomp      ssa_top_eigenvalue        = 0.05286
  L_decomp      ssa_components_90pct      = 81
  M_grafos      vg_mean_degree            = 10.52
  M_grafos      vg_powerlaw_gamma         = 1.843
  M_grafos      vg_clustering             = 0.7404
  N_acustica    modulation_peak_hz        = 0.0102
  N_acustica    rt60_seconds              = 14.36
  O_segmentos   max_intersegment_xcorr    = 0.4492
  P_video       audio_motion_corr         = 0.2063
  P_video       audio_brightness_corr     = 0.03554