
Spark-TTS는 SparkAudio 팀이 개발한 혁신적인 텍스트 음성 변환(TTS) 모델로, 그 핵심은 다음을 기반으로 합니다.바이오코덱 아키텍처대규모 언어 모델링(LLM) 기술을 통해 음성 합성 분야에서 효율성과 음질 모두에서 획기적인 발전을 이루었습니다.
I. 기술 아키텍처: 싱글 스트림 디커플링 음성 코딩
- Bi코덱 설계 원칙
Spark-TTS는 제안을 통해 이를 가능하게 했습니다.바이오코덱 인코더를 사용하여 음성 신호를 두 가지 보완적인 유형의 토큰으로 분해합니다:- 낮은 비트 전송률 시맨틱 토큰언어 콘텐츠(예: 음소, 억양) 인코딩에 중점을 둡니다.
- 고정 길이 글로벌 토큰화자 특성 추출(음색, 발음 습관 등) : 화자 특성 추출
이 분리형 설계는 모델 파라미터를 301 TP3T까지 줄이면서도 98.21 TP3T의 음파 재현을 유지합니다.
- LLM 및 CoT 생성 프레임워크
결합Qwen2.5 대규모 언어 모델링생각의 사슬(CoT) 생성 방식을 통해 시스템은 음성 리듬을 동적으로 최적화할 수 있습니다:- 텍스트의 감정적 색채를 실시간으로 분석(예: 의심, 강조)
- 일시 정지 위치 및 속도 변경 자동 조정
II. 핵심 강점: 효율성과 품질의 조화
- 생성 속도 향상기존 TTS 모델에 비해 2.7배 빠른 추론(초당 42.5개의 음성 프레임 측정)1
- 다국어 지원중국어, 영어, 일본어, 한국어를 포함한 12개 언어의 혼합 입력과 원활한 전환을 지원합니다.
- 톤 제어대상 톤을 복제하는 데 3초의 레퍼런스 오디오만 필요하며, 유사도는 93.61 TP3T입니다.2
III. 적용 시나리오
- 지능형 고객 서비스감정 표현이 포함된 다국어 응답을 실시간으로 생성합니다.
- 오디오 콘텐츠 제작고품질 오디오북/팟캐스트 일괄 생성, 사용자 지정 캐릭터 톤 지원
- 접근성: 시각 장애 사용자를 위한 자연스럽고 부드러운 대화형 음성
개발자는 GitHub 리포지토리를 통해 전체 코드와 사전 학습된 모델에 액세스할 수 있습니다.이 프로젝트는 다음을 제공합니다:
- 즉시 사용 가능한 Python API 인터페이스
- 경량 배포 옵션(최소 2GB 비디오 메모리 GPU 지원)
- 멀티 시나리오 구성 템플릿(라이브 스트리밍, 교육, 의료 등)
연구팀은 "Spark-TTS: 단일 스트림 분리형 음성 토큰을 사용한 효율적인 LLM 기반 텍스트 음성 변환 모델"이라는 논문에서 이 모델이 MOS(평균 의견 점수) 테스트에서 4.31점(5점 만점)을 달성했음을 확인했습니다. 를 달성하는 동시에 추론 지연을 120ms 이내로 유지했습니다. 이 획기적인 성과는 음성 합성 기술이 '고효율, 고충실도'의 새로운 시대로 진입했음을 의미합니다.
다운로드 권한
보기- ¥무료 다운로드새로 고침 후 댓글 달기 및 다운로드로그인 후 다운로드