Ezaudio

Ezaudio논문을 읽고
김호진's avatar
May 30, 2025
Ezaudio
Contrib
  1. T2A model on the latent space of a 1D waveform VAE - 2d mel을 다루고, mel → audio를 하는 vocoder의 필요성을 없앴다.
  1. audio latent reprep 학습에 최적화된 아키텍처를 제안했다. 속도, 안정성, 메모리, 복잡도
  1. 학습 데이터가 적은 문제를 해결하기 위해 몇가지 전략 제시
  1. 최적의 CFG, rescale 값을 제안
 
notion image
 
다른 논문들에서 검증된 좋은 테크닉들을 엄선해서 하나로 합친 느낌
 
  • FlanT5 사용
 
사용한 테크닉들
1d waveform VAE
RVQ 안쓰고 VAE bottle neck으로 학습
AdaLN SOLA
하나의 adaLN layer를 모든 DiT block에서 공유하는게 adaLN-Single
근데 Single은 성능을 저하시키고 학습이 불안정하게 만든다.
→ AdaLN-SOLA (Single Orchestrated by Low-rank Adjustment)
 
notion image
 
모든 block에 하나의 MLP를 쓰는데, 각 block마다 추가적인 Low-rank matrix를 가진다. Diffusion step을 입력으로 받는.
→ block마다 diffusion timestep에 따라 조금씩 다른 연산이 적용되도록 했다.
 
DiT의 비교
notion image
DiTTo-TTS도 adaLN을 timestep, text condition 주입으로 사용(text를 cross attention으로도)
Long-skip connection
Diffusion model에서 low-level feature가 더 디테일하고 중요한 정보를 담고있다.
그래서 DiT block들 중 앞 쪽의 latent를 뒤에 연결해주는 Long skip connection을 추가했다.(한 블럭의 input → output 뿐만 아니라)
Pre-training
  1. Masked modeling : minimum span 0.2초로 전체의 25~100%를 마스킹하고 그 부분을 예측하도록 학습 - text condition 없이 pre-training
    1. from MDTv2
      DPM이 이미지 안의 객체들간의 연관성을 학습하는걸 어려워한다는 점을 관찰하고 이게 학습이 오래걸리게 한다고 봤다.
      notion image
      50스텝에서 몸, 귀, 눈, 입의 모양자체는 만드는데, 그 위치를 정확히 그리는데 200스텝이 필요하다. 그마저도 귀는 위치가 이상하다. 이걸 문제라고 봤음.
       
      notion image
       
      notion image
      FID 측면에서 DiT보다 학습이 3배 빠르고 성능은 더 좋다고 말함. 직접 비교해보고싶다.
       
  1. Synthetic caption을 뽑고 CLAP score이 threshold 이하인 캡션들은 버림. 이제 text conditioner를 추가하고, zero-init for stable training
  1. Finetuning with GT label-audio dataset
QK-Norm
attention layer의 QK에 normalization을 적용하고 long-skip connection을 합친 뒤에 Layer norm을 적용했다.
 
attention에서 Q와 를 dot product하기 전에 L2 정규화해서 연산된 값이 cosine similarity가 되도록 했다(-1 ~ 1).
기존에는 softmax를 통과한 분포의 분산이 매우 작아져서 특정한 부분에만 집중하는 경우가 생길 수도 있었는데, 그걸 방지.
그리고 learnable한 값 한개가 곱해지도록 했다. LayerNorm을 대체하는건 아니고, 같이 사용됨.
Snake activation for vae training
Stable audio도 사용
RoPE
 
  1. Absolute Positional Embeddings 값을 input representation에 더한다.
  1. Relative : sequence element(token) 사이의 상대적인 거리를 반영하도록 모델링
    1. Query와 Key의 dot product 연산시 relative positional 정보가 반영되도록 모델링
      1. notion image
        notion image
  1. Rotary PE : Q와 K의 inner product에 relative position 정보가 반영되도록 하고싶다.
    1. notion image
      notion image
 
CFG rescaling 적용했다.
from Common Diffusion Noise Schedules and Sample Steps are Flawed
text를 잘 따르게 하기위해 CFG 값을 높이고 싶은데 그러면 값이 커진다. 그럼 값 자체가 커져서 over-exposure 될 수 있다(특히 snr이 0에 가까울 때)
notion image
따라서 방향성은 유지하되 큰 cfg 값이 곱해져서 과하게 커진 표준편차를 cfg 적용 전의 표준편차로 만들어주고 이걸 적절하게 업데이트에 반영한다.
 
notion image
  • velocity-prediction
  • zero-SNR
 
 
빠른 수렴
  • long-skip connections
  • RoPE
stable training
  • AdaLN-SOLA
  • QK-Norm
  • Skip-Norm
 
notion image
 
 
notion image
 
 
Share article
Subscribe to our newsletter

Kim Hojin