AI 음성 합성 기술이 눈부신 진화를 거듭하며, 이제 15초 정도의 짧은 녹음 음성만으로 실제 화자의 목소리를 놀랍도록 유사하게 재현할 수 있는 시대이다. 국내 대표 콘텐츠 플랫폼인 짤스튜디오는 최근 1500시간 분량의 방대한 음성 데이터와 약 6억개의 파라미터를 활용한 차세대 음성 합성 모델 ‘AI스튜디오 TTS’를 공개했다고 밝혔다. 이 기술은 기존 음성 합성 방식의 한계를 극복하고, 한 번의 짧은 녹음만으로도 매끄럽고 자연스러운 음성 생성이 가능하다는 점에서 업계의 주목을 받고 있다.

단 15초 녹음만으로 스타일·억양·감정까지 복원

짤스튜디오 측은 최신 AI 기술인 확산(Diffusion) 모델과 자체 개발한 ‘음성 스타일 인코더’를 결합하여, 단 15초 분량의 음성 샘플만으로도 화자의 발화 리듬, 억양, 감정 등 세세한 스타일적 특징을 충실히 재현할 수 있다고 설명했다. 특히, 기존 기술 대비 언어와 화자를 아우르는 폭넓은 확장성을 지닌 단일 모델로 다국어·다화자 합성을 동시에 처리할 수 있는 점을 핵심 강점으로 꼽았다.

수억 원대 개발 비용을 500만원에… 5초 만에 음성 합성

일반적으로 음성 합성 시스템 구축에는 막대한 비용이 필요한 것으로 알려져 있지만, 짤스튜디오는 이번 AI스튜디오 TTS를 약 500만 원 수준의 내부 개발비로 완성했다고 밝혔다. 또한 고가의 장비나 서버 환경을 갖추지 않아도, 일반 PC에서 1~3분 분량의 텍스트 음성을 불과 5초 정도의 처리 시간으로 합성할 수 있다고 강조했다. 게다가 자체 기술을 통해 잡음이 많은 환경에서 녹음한 음성도 스튜디오급 품질로 향상시키는 노이즈 제거·음질 개선 기능을 탑재해, 별도의 고급 장비 없이도 최적의 음성 합성 결과물을 얻을 수 있다고 전했다.

베타 서비스 6시간 만에 1000여명 참여

생성 짤스튜디오에 따르면 베타 버전을 공개한 지 불과 6시간 만에 300개의 AI 캐릭터가 생성되었으며, 천 명 이상의 사용자들이 만들어 낸 합성 음성 문장 수가 2만 건을 돌파했다. 이는 단기간에 모인 폭발적인 피드백과 사용자 관심을 방증하는 결과로, 서비스가 정식 출시되면 더욱 많은 유저들의 관심을 받을 것으로 기대된다고 회사 측은 내다봤다.

숏폼부터 오디오북까지…다양한 산업 분야에서 활용

짤스튜디오의 AI 음성 합성 기술은 유튜브 숏츠나 인스타그램 릴스, 틱톡 등 숏폼 콘텐츠 시장에서 주목받고 있으며, 이미 마케팅·광고·콘텐츠 제작 분야 전반으로 영향력을 넓히고 있다. 아울러 이 기술은 교육 콘텐츠, 오디오북, 콜센터, 스마트홈 기기, 내비게이션 서비스, 가상 인플루언서 등 목소리를 활용하는 다양한 산업 분야에서도 폭넓은 적용 가능성을 보여주고 있다는 평가를 받고 있다.

짤스튜디오는 향후 더 많은 언어를 지원하는 모델 업그레이드와 감정 표현 조절 기능, 고음질 스튜디오급 합성 등의 기능을 단계적으로 선보일 예정이라고 덧붙였다. 크리에이블(짤스튜디오) 남동우 대표는 “우리가 구현한 음성 AI는 단순한 기술을 넘어, 목소리 하나만으로 전 세계와 자연스럽게 소통하는 시대를 여는 기반이 될 것”이라며 “아직은 베타 버전이지만, 지속적인 기술 고도화와 투자를 통해 누구나 쉽고 자유롭게 목소리를 활용하는 미래를 열겠다”고 전했다.