papers - Kim Hojin

See All papers personal thoughts deeplearning

CosyVoice v3 Paper review

Dec 07, 2025

papers

CosyVoice v1, v2 논문 리뷰

CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens

Aug 17, 2025

papers

SupertonicTTS: Towards Highly Scalable and Efficient Text-to-Speech System

Supertone 논문을 읽어보았다.

Jul 28, 2025

papers

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Jul 19, 2025

papers

LTX-Video

ltx-video paper review 논문

Jul 05, 2025

papers

CosyVoice v3 Paper review

Dec 07, 2025

papers

CosyVoice v1, v2 논문 리뷰

CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens

Aug 17, 2025

papers

SupertonicTTS: Towards Highly Scalable and Efficient Text-to-Speech System

Supertone 논문을 읽어보았다.

Jul 28, 2025

papers

Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Jul 19, 2025

papers

LTX-Video

ltx-video paper review 논문

Jul 05, 2025

papers

Seedance technical report 리뷰

Seedance 테크니컬 리포트 리뷰

Jun 19, 2025

papers

DC-AE : AutoEncoder used at SANA

DEEP COMPRESSION AUTOENCODER FOR EFFICIENT HIGH-RESOLUTION DIFFUSION MODELS 논문 리뷰

Jun 08, 2025

papers

Flow matching 논문 리뷰 및 설명

가장 아래에 요약 버전이 있습니다.

Jun 06, 2025

papers

Ezaudio

Ezaudio논문을 읽고

May 30, 2025

papers

Stable Diffusion 3

Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

May 28, 2025

papers

DPO

Direct Preference Optimization: Your Language Model is Secretly a Reward Model을 읽고

May 22, 2025

papers

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training 논문 리뷰

May 08, 2025

papers

HART : EFFICIENT VISUAL GENERATION WITH HYBRID AUTOREGRESSIVE TRANSFORMER

HART : EFFICIENT VISUAL GENERATION WITH HYBRID AUTOREGRESSIVE TRANSFORMER 논문 리뷰

May 04, 2025

papers

Learning to Act without Actions

May 04, 2025

papers

DIFFUSION MODELS ARE REAL-TIME GAME ENGINES

May 04, 2025

papers

ONE STEP DIFFUSION VIA SHORTCUT MODELS

ONE STEP DIFFUSION VIA SHORTCUT MODELS 논문 리뷰

May 04, 2025

papers

Common Diffusion Noise Schedules and Sample Steps are Flawed

Common Diffusion Noise Schedules and Sample Steps are Flawed 논문 리뷰

Oct 29, 2024

papers

SANA: EFFICIENT HIGH-RESOLUTION IMAGE SYNTHESIS WITH LINEAR DIFFUSION TRANSFORMERS 논문 리뷰

SANA by NVIDIA paper review 논문 리뷰

Oct 24, 2024

papers

High-Fidelity Audio Compression with Improved RVQGAN(DAC)

DAC를 읽었다.

Oct 02, 2024

papers

High-Resolution Image Synthesis with Latent Diffusion Models

High-Resolution Image Synthesis with Latent Diffusion Models 논문 읽기

Oct 01, 2024

papers

Stable audio

stable audio 논문 paper 리뷰

Sep 29, 2024

papers

AnimateDiff : ANIMATE YOUR PERSONALIZED TEXT-TO-IMAGE DIFFUSION MODELS WITHOUT SPECIFIC TUNING

animateDiff 논문 paper

Sep 27, 2024

papers

GAN

GAN 읽기

Sep 25, 2024

papers

InstantDrag: Improving Interactivity in Drag-based Image Editing

InstantDrag: Improving Interactivity in Drag-based Image Editing 논문 리뷰

Sep 22, 2024

papers

Positive, Negative and Neutral: Modeling Implicit Feedback in Session-based News Recommendation

Positive, Negative and Neutral: Modeling Implicit Feedback in Session-based News Recommendation paper review, 논문 리뷰

Sep 10, 2024

papers

Autoregressive Image Generation without Vector Quantization

Autoregressive Image Generation without Vector Quantization 논문 리뷰

Aug 13, 2024

papers

LRM: Large Reconstruction Model for Single Image to 3D

LRM 3d paper review

Aug 08, 2024

papers

Efficient Geometry-aware 3D Generative Adversarial Networks

Efficient Geometry-aware 3D Generative Adversarial Networks 리뷰 for tri-plane understanding

Aug 08, 2024

papers

3D Gaussian Splatting for Real-Time Radiance Field Rendering

3DGS 논문 리뷰

Aug 05, 2024

papers

LANGUAGE MODEL BEATS DIFFUSION — TOKENIZER IS KEY TO VISUAL GENERATION

MAGVIT2 논문 리뷰

Aug 01, 2024

papers

VideoPoet: A Large Language Model for Zero-Shot Video Generation

videopoet 논문 리뷰

Jul 30, 2024

papers

Generative Modeling by Estimating Gradients of the Data Distribution

Generative Modeling by Estimating Gradients of the Data Distribution 양송 블로그 리뷰

Jul 24, 2024

papers

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

VASA-1 논문 리뷰

Jul 23, 2024

papers

Rich Human Feedback for Text-to-Image Generation

Rich Human Feedback for Text-to-Image Generation 논문 리뷰

Jul 21, 2024

papers

The Platonic Representation Hypothesis

The Platonic Representation Hypothesis 논문 리뷰

Jul 21, 2024

papers

ViVid-1-to-3 paper reveiw

ViVid-1-to-3 논문 리뷰

Jul 18, 2024

papers

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [review]

VAR paper

Jul 16, 2024

papers

Retrieval Augmented Generation at Planet Scale 아티클

논문은 아니고, RAG 관련 글에 대한 번역

Sep 14, 2023

papers

LLaVA 논문 읽으면서 생각들

[paper] LLaVA : Visual Instruction Tuning

Aug 31, 2023

papers

[논문] Multi-persona LLM

[논문] Multi-persona LLM, UNLEASHING COGNITIVE SYNERGY IN LARGE LANGUAGE MODELS: A TASK SOLVING AGENT THROUGH MULTI-PERSONA SELF-COLLABORATION

Aug 19, 2023

papers

Speed-up LLM inference : Inference 최적화 방법

LLM을 Inference할 때 최적화하는 방법에 관하여

Aug 11, 2023

papers

Patterns for Building LLM-based Systems

Patterns for Building LLM-based Systems이라는 긴 아티클을 읽고 중요하다고 생각되는 부분만 뽑아서 정리한 내용

Aug 05, 2023

papers

[논문리뷰] What is LoRA? : Low-Rank Adaptation of Large Language Models

LoRA에 관해서. 읽고 간단하게 작성 논문 : https://arxiv.org/abs/2106.09685

Aug 05, 2023

papers