무료 tts 오픈소스 한국 Nari Labs, TTS 모델 ‘Dia-1.6B’ 공개
한국 스타트업 Nari Labs가 2025년 4월 발표한 오픈소스 TTS 모델 Dia-1.6B는 감정 표현, 음성 클로닝, 다중 화자 처리 등을 지원하며 Apache 2.0 라이선스로 상업적 사용이 가능합니다.
Dia-1.6B란?
Dia-1.6B는 Nari Labs에서 개발한 텍스트-투-스피치(TTS) 모델로, 16억 개의 파라미터를 기반으로 정교한 음성 합성이 가능합니다. 특히 대화형 음성 생성과 감정 표현이 가능한 것이 특징입니다.
목차
주요 기능
- 다중 화자 대화 지원: [S1], [S2] 태그로 화자 전환 가능
- 감정/비언어 표현: (laughs), (sighs), (coughs) 등 감정 음성 출력
- 음성 클로닝: 짧은 음성으로도 특정 화자 음색 복제 가능

기술 사양
항목 | 내용 |
---|---|
모델 크기 | 1.6B 파라미터 |
라이선스 | Apache 2.0 |
GPU 요구사항 | 약 10GB VRAM (예: A4000) |
현재 언어 지원 | 영어 |
향후 계획 | 다국어, CPU 지원, 모델 경량화 예정 |
개발사 정보
- 국가: 대한민국 🇰🇷
- 개발자: 대학생 2인
- 지원: Google TPU Research Cloud
- 특징: 완전한 오픈소스 프로젝트
사용 예시 (Python)
import soundfile as sf
from dia.model import Dia
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
text = "[S1] 안녕하세요. [S2] 반갑습니다. (laughs)"
output = model.generate(text)
sf.write("output.wav", output, 44100)
관련 사이트
깃헙 : https://github.com/nari-labs/dia
일레븐랩스, SESAME CSM-1B와 비교 참고 페이지
https://yummy-fir-7a4.notion.site/dia
웹 데모에서 직접 체험할 수 있습니다: https://huggingface.co/spaces/abidlabs/Dia-1.6B
https://github.com/devnen/Dia-TTS-Server
체험 페이지 아래쪽에 보시면 Fun Examples에 oh fire하면서 흥분하는 목소리가 있는데 감정표현이 진짜 처럼 풍부한거 같습니다.
놀랍게도 라이센스는 아파치 2.0이므로 상업적으로 사용이 가능하다.참고로 apache 라이센스는 상업적, 수정, 재배포 가능하고 라이선스 고지 의무, 상표 사용제한 등이 습니다.
별도 프로그램과 연동하지 않고 현재 독립적으로 실행이 되는 ai tts모델입니다.
설치법 :
Install via pip
Install directly from GitHub
pip install git+https://github.com/nari-labs/dia.git
Run the Gradio UI
This will open a Gradio UI that you can work on.
git clone https://github.com/nari-labs/dia.git
cd dia && uv run app.py
or if you do not have uv pre-installed:
git clone https://github.com/nari-labs/dia.git
cd dia
python -m venv .venv
source .venv/bin/activate
pip install -e .
python app.py
사용법
from dia.model import Dia
model = Dia.from_pretrained(“nari-labs/Dia-1.6B”, compute_dtype=”float16″)
text = “[S1] Dia is an open weights text to dialogue model. [S2] You get full control over scripts and voices. [S1] Wow. Amazing. (laughs) [S2] Try it now on Git hub or Hugging Face.”
output = model.generate(text, use_torch_compile=True, verbose=True)
model.save_audio(“simple.mp3”, output)
Dia-1.6B는 단순한 TTS 기술을 넘어서, 감정 표현과 비언어적 소리까지 담아내는 정교한 음성 합성 모델로 보이며 샘플만 들었을 때는 굉장히 만족스러웠습니다.
음성 일관성이나 일관성을 유지하는 프롬프트 설정이나 텍스트를 음성으로 자연스럽게 출력하는지 등 실제 설치 하고 테스트를 해 보면 좀 더 정확하게 알지도 모르겠습니다.
점점 더 대단한 모델들이 등장을 하고 있는 시점입니다.