Contrib
- T2A model on the latent space of a 1D waveform VAE - 2d mel을 다루고, mel → audio를 하는 vocoder의 필요성을 없앴다.
- audio latent reprep 학습에 최적화된 아키텍처를 제안했다. 속도, 안정성, 메모리, 복잡도
- 학습 데이터가 적은 문제를 해결하기 위해 몇가지 전략 제시
- 최적의 CFG, rescale 값을 제안

다른 논문들에서 검증된 좋은 테크닉들을 엄선해서 하나로 합친 느낌
- FlanT5 사용
사용한 테크닉들
1d waveform VAE
RVQ 안쓰고 VAE bottle neck으로 학습
AdaLN SOLA
하나의 adaLN layer를 모든 DiT block에서 공유하는게 adaLN-Single
근데 Single은 성능을 저하시키고 학습이 불안정하게 만든다.
→ AdaLN-SOLA (Single Orchestrated by Low-rank Adjustment)

모든 block에 하나의 MLP를 쓰는데, 각 block마다 추가적인 Low-rank matrix를 가진다. Diffusion step을 입력으로 받는.
→ block마다 diffusion timestep에 따라 조금씩 다른 연산이 적용되도록 했다.
DiT의 비교

DiTTo-TTS도 adaLN을 timestep, text condition 주입으로 사용(text를 cross attention으로도)
Long-skip connection
Diffusion model에서 low-level feature가 더 디테일하고 중요한 정보를 담고있다.
그래서 DiT block들 중 앞 쪽의 latent를 뒤에 연결해주는 Long skip connection을 추가했다.(한 블럭의 input → output 뿐만 아니라)
Pre-training
- Masked modeling : minimum span 0.2초로 전체의 25~100%를 마스킹하고 그 부분을 예측하도록 학습 - text condition 없이 pre-training
from MDTv2
DPM이 이미지 안의 객체들간의 연관성을 학습하는걸 어려워한다는 점을 관찰하고 이게 학습이 오래걸리게 한다고 봤다.

50스텝에서 몸, 귀, 눈, 입의 모양자체는 만드는데, 그 위치를 정확히 그리는데 200스텝이 필요하다. 그마저도 귀는 위치가 이상하다. 이걸 문제라고 봤음.


FID 측면에서 DiT보다 학습이 3배 빠르고 성능은 더 좋다고 말함. 직접 비교해보고싶다.
- Synthetic caption을 뽑고 CLAP score이 threshold 이하인 캡션들은 버림. 이제 text conditioner를 추가하고, zero-init for stable training
- Finetuning with GT label-audio dataset
QK-Norm
attention layer의 QK에 normalization을 적용하고 long-skip connection을 합친 뒤에 Layer norm을 적용했다.
attention에서 Q와 를 dot product하기 전에 L2 정규화해서 연산된 값이 cosine similarity가 되도록 했다(-1 ~ 1).
기존에는 softmax를 통과한 분포의 분산이 매우 작아져서 특정한 부분에만 집중하는 경우가 생길 수도 있었는데, 그걸 방지.
그리고 learnable한 값 한개가 곱해지도록 했다. LayerNorm을 대체하는건 아니고, 같이 사용됨.
Snake activation for vae training
Stable audio도 사용
RoPE
- Absolute Positional Embeddings 값을 input representation에 더한다.
- Relative : sequence element(token) 사이의 상대적인 거리를 반영하도록 모델링
- Query와 Key의 dot product 연산시 relative positional 정보가 반영되도록 모델링
.png%3Ftable%3Dblock%26id%3D13ccf957-61f4-8043-a8ca-c525d85eb579%26cache%3Dv2&w=1920&q=75)
.png%3Ftable%3Dblock%26id%3D13ccf957-61f4-8090-8953-c3c9a70fc57d%26cache%3Dv2&w=1920&q=75)
- Rotary PE : Q와 K의 inner product에 relative position 정보가 반영되도록 하고싶다.


CFG rescaling 적용했다.
from Common Diffusion Noise Schedules and Sample Steps are Flawed
text를 잘 따르게 하기위해 CFG 값을 높이고 싶은데 그러면 값이 커진다. 그럼 값 자체가 커져서 over-exposure 될 수 있다(특히 snr이 0에 가까울 때)

따라서 방향성은 유지하되 큰 cfg 값이 곱해져서 과하게 커진 표준편차를 cfg 적용 전의 표준편차로 만들어주고 이걸 적절하게 업데이트에 반영한다.

- velocity-prediction
- zero-SNR
빠른 수렴
- long-skip connections
- RoPE
stable training
- AdaLN-SOLA
- QK-Norm
- Skip-Norm


Share article
Subscribe to our newsletter