Ezaudio

Ezaudio논문을 읽고

김호진

May 30, 2025

Contrib

T2A model on the latent space of a 1D waveform VAE - 2d mel을 다루고, mel → audio를 하는 vocoder의 필요성을 없앴다.

audio latent reprep 학습에 최적화된 아키텍처를 제안했다. 속도, 안정성, 메모리, 복잡도

학습 데이터가 적은 문제를 해결하기 위해 몇가지 전략 제시

최적의 CFG, rescale 값을 제안

다른 논문들에서 검증된 좋은 테크닉들을 엄선해서 하나로 합친 느낌

FlanT5 사용

사용한 테크닉들

1d waveform VAE

RVQ 안쓰고 VAE bottle neck으로 학습

AdaLN SOLA

하나의 adaLN layer를 모든 DiT block에서 공유하는게 adaLN-Single

근데 Single은 성능을 저하시키고 학습이 불안정하게 만든다.

→ AdaLN-SOLA (Single Orchestrated by Low-rank Adjustment)

모든 block에 하나의 MLP를 쓰는데, 각 block마다 추가적인 Low-rank matrix를 가진다. Diffusion step을 입력으로 받는.

→ block마다 diffusion timestep에 따라 조금씩 다른 연산이 적용되도록 했다.

DiT의 비교

DiTTo-TTS도 adaLN을 timestep, text condition 주입으로 사용(text를 cross attention으로도)

Long-skip connection

Diffusion model에서 low-level feature가 더 디테일하고 중요한 정보를 담고있다.

그래서 DiT block들 중 앞 쪽의 latent를 뒤에 연결해주는 Long skip connection을 추가했다.(한 블럭의 input → output 뿐만 아니라)

Pre-training

Masked modeling : minimum span 0.2초로 전체의 25~100%를 마스킹하고 그 부분을 예측하도록 학습 - text condition 없이 pre-training

from MDTv2

DPM이 이미지 안의 객체들간의 연관성을 학습하는걸 어려워한다는 점을 관찰하고 이게 학습이 오래걸리게 한다고 봤다.

50스텝에서 몸, 귀, 눈, 입의 모양자체는 만드는데, 그 위치를 정확히 그리는데 200스텝이 필요하다. 그마저도 귀는 위치가 이상하다. 이걸 문제라고 봤음.

FID 측면에서 DiT보다 학습이 3배 빠르고 성능은 더 좋다고 말함. 직접 비교해보고싶다.

Synthetic caption을 뽑고 CLAP score이 threshold 이하인 캡션들은 버림. 이제 text conditioner를 추가하고, zero-init for stable training

Finetuning with GT label-audio dataset

QK-Norm

attention layer의 QK에 normalization을 적용하고 long-skip connection을 합친 뒤에 Layer norm을 적용했다.

attention에서 Q와

K^T

를 dot product하기 전에 L2 정규화해서 연산된 값이 cosine similarity가 되도록 했다(-1 ~ 1).

기존에는 softmax를 통과한 분포의 분산이 매우 작아져서 특정한 부분에만 집중하는 경우가 생길 수도 있었는데, 그걸 방지.

그리고 learnable한 값 한개가 곱해지도록 했다. LayerNorm을 대체하는건 아니고, 같이 사용됨.

Snake activation for vae training

Stable audio도 사용

RoPE

RoFormer: Enhanced Transformer with Rotary Position Embedding

Position encoding recently has shown effective in the transformer architecture. It enables valuable supervision for dependency modeling between elements at different positions of the sequence. In...

https://arxiv.org/abs/2104.09864

Absolute Positional Embeddings 값을 input representation에 더한다.

Relative : sequence element(token) 사이의 상대적인 거리를 반영하도록 모델링

Query와 Key의 dot product 연산시 relative positional 정보가 반영되도록 모델링

Rotary PE : Q와 K의 inner product에 relative position 정보가 반영되도록 하고싶다.

CFG rescaling 적용했다.

from Common Diffusion Noise Schedules and Sample Steps are Flawed

text를 잘 따르게 하기위해 CFG 값을 높이고 싶은데 그러면

x_{cfg}

값이 커진다. 그럼 값 자체가 커져서 over-exposure 될 수 있다(특히 snr이 0에 가까울 때)

따라서 방향성은 유지하되 큰 cfg 값이 곱해져서 과하게 커진 표준편차를 cfg 적용 전의 표준편차로 만들어주고 이걸 적절하게 업데이트에 반영한다.

velocity-prediction

zero-SNR

빠른 수렴

long-skip connections

RoPE

stable training

AdaLN-SOLA

QK-Norm

Skip-Norm