
# Overview
Zonos-v0.1 is a leading open-weight text-to-speech model trained on more than 200k hours of varied multilingual speech, delivering expressiveness and quality on par with—or even surpassing—top TTS providers. Our model enables highly natural speech generation from text prompts when given a speaker embedding or audio prefix, and can accurately perform speech cloning when given a reference clip spanning just a few seconds. The conditioning setup also allows for fine control over speaking rate, pitch variation, audio quality, and emotions such as happiness, fear, sadness, and anger. The model outputs speech natively at 44kHz.
Zonos-v0.1은 20만 시간 이상의 다양한 다국어 음성을 학습한 최신 오픈 가중치 텍스트-음성 변환(TTS) 모델로, 뛰어난 표현력과 품질을 제공하여 주요 TTS 제공업체와 동등하거나 그 이상의 성능을 자랑합니다. 이 모델은 화자 임베딩 또는 오디오 프리픽스를 제공받을 때 텍스트 프롬프트로부터 매우 자연스러운 음성을 생성할 수 있으며, 단 몇 초의 참조 클립만으로도 정확한 음성 클로닝을 수행할 수 있습니다. 또한, 조정 설정을 통해 말하기 속도, 음조 변이, 오디오 품질 및 행복, 두려움, 슬픔, 분노와 같은 감정을 세밀하게 제어할 수 있습니다. 모델은 음성을 기본적으로 44kHz로 출력합니다.
GitHub
https://github.com/Zyphra/Zonos
GitHub - Zyphra/Zonos: Zonos-v0.1 is a leading open-weight text-to-speech model trained on more than 200k hours of varied multil
Zonos-v0.1 is a leading open-weight text-to-speech model trained on more than 200k hours of varied multilingual speech, delivering expressiveness and quality on par with—or even surpassing—top TTS ...
github.com
Hugging Face
https://huggingface.co/Zyphra/Zonos-v0.1-transformer
Zyphra/Zonos-v0.1-transformer · Hugging Face
Zonos-v0.1 Zonos-v0.1 is a leading open-weight text-to-speech model trained on more than 200k hours of varied multilingual speech, delivering expressiveness and quality on par with—or even surpassing—top TTS providers. Our model enables highly natural
huggingface.co
Playground
https://playground.zyphra.com/audio
Zyphra Playground
playground.zyphra.com
# 세팅 환경
Mac Mni M1 2020, Memory : 16GB, Disk : 512GB, OS : 15.3.1(24D70)
# 총평
- TTS 모델 스터디 입문용으로 추천(모델 성능이 아주 좋은 듯)
- Playground에서 미리 테스트해 보고 관심 있으면 로컬 환경으로 세팅 추천
- Docker 세팅 시 Nvidia 그래픽 카드가 필요하다는 에러가 발생하여 로컬에 생짜로 세팅
- 10~30초 정도의 클론할 오디오 파일만 준비하면 돼서 아주 간편한 데다 별다른 옵션 설정 없이도 꽤 괜찮은 결과물을 뱉어줌
- 13초 정도의 결과물을 생성하는데 7분 정도 소요됨(생성될 동안 P-CPU 100%), M1에서는 맛보기만. Colab 활용.
# 세팅 및 테스트 상세
1. 프로젝트 클론
git clone https://github.com/Zyphra/Zonos.git
cd Zonos
2. 필수 종속 라이브러리 설치
brew install espeak-ng
3. 가상 환경 세팅
conda create -n 3.9 python=3.9.21
conda activate 3.9
4. 파이썬 패키지 설치
pip install -e .
5. 샘플 코드 실행(with 모델 다운로드)
python sample.py
6. Web UI(Graido) 실행
python gradio_interface.py
7. 클론할 음성 데이터 준비
'김영하의 책 읽는 시간, 너는 나를 파괴할 권리가 있다' 발췌
파리는 19세기에 뛰어난 도시교육의 훌륭한 산물이지만 파리의 음악과 예술극장이 그러한 것처럼 건축물도 중세풍에서부터 아방가르드적인 것, 아니 아방가르드를 넘어서는 것까지 다양한 양식의 건물이 어우러져 있다. 역사와 새로운 문화와 문명 그 자체의 자기인식인 파리가 이 세상에 존재하지 않았다면 우리 모두가 그것을 창조해냈을 것이다.
8. 테스트


9. 결과물
안녕하세요. 박상진입니다.
저는 개발자로 커리어를 시작해 개발PM, 기획, 디자인 등의 실무 경험과 다양한 분야의 프로젝트 경험을 가지고 있습니다.
- input
- 클론할 음성 샘플 : 22s, 4MB
- 생성할 텍스트 : 82자(공백포함), 140B
- output
- 생성시간 : 439s(약 7분)
- 생성된 파일 : 13s, 1.2MB
# Action Item
Zonos에 MPS 적용
https://github.com/Zyphra/Zonos/pull/190
Add MPS support by 12v · Pull Request #190 · Zyphra/Zonos
Hello, this is an attempt to add MPS support. There are two issues preventing MPS from working with the transformer backend: torch.compile doesn't support MPS (see: here) The solution for this ...
github.com
'Tech' 카테고리의 다른 글
AI 모델 벤치마크 툴 (1) | 2025.03.10 |
---|