|
Google Gemini 3.1 Flash TTS 공식 출시 — ElevenLabs v3를 제치고 Speech Arena 2위 — @OfficialLoganK(4월 15일): Logan Kilpatrick이 "scene direction, speaker-level specificity, audio tags, 더 자연스럽고 표현력 있는 음성, 70개 언어 지원"을 강조. AI Studio 신규 오디오 플레이그라운드와 Gemini API로 즉시 사용 가능. 핵심은 대괄호 프롬프트 문법 — [sarcastically, one painfully slow word at a time] Brilliant. 같은 연기 지시를 텍스트에 심을 수 있다. Artificial Analysis 벤치마크에서는 Speech Arena 2위(Elo 1,211), ElevenLabs v3(1,179)를 32점 차로 눌렀고 1위 Inworld TTS 1.5 Max(1,215)와는 단 4점 차.
@OfficialLoganK↗
쉽게 말하면: 구글이 텍스트 안에 '[속삭이며]' 같은 지시문을 넣으면 그대로 연기해주는 TTS를 냈다. ElevenLabs를 벤치마크에서 앞질렀고 가격은 1/4.7 수준.
더빙 SaaS 관점: '대본 안에 연기 지시를 쓰면 AI가 해석해 연기한다'는 것은 더빙 디렉팅의 대본 자체를 바꾸는 변화. 70개 언어 지원은 ElevenLabs의 언어 커버리지를 정면으로 위협한다. 가격도 $36.6/1M vs ElevenLabs v3 $172/1M — 4.7배 저렴. 단 속도(27.4 chars/s)는 Inworld(138 chars/s)보다 느려서 실시간 에이전트엔 부적합, 영상 더빙 배치엔 충분.
Artificial Analysis 벤치마크 — Gemini 2위, ElevenLabs 제치고 Inworld와 4점차 — @ArtificialAnlys(4월 15일): 1,700+ Arena 대결 기준 Gemini 3.1 Flash TTS Elo 1,211로 2위. 1위 Inworld TTS 1.5 Max(1,215)와는 단 4 Elo. 가격은 Inworld보다 3.7배 비싸지만 ElevenLabs v3보다 4.7배 저렴($36.6/1M vs $172/1M). 속도는 27.4 chars/s로 Inworld(138)·ElevenLabs(38.8)보다 느림. '목소리 자연스러움'에서 특히 큰 개선.
@ArtificialAnlys↗
더빙 SaaS 관점: ElevenLabs의 '프리미엄 자연스러움' 내러티브가 깨졌다. Inworld(게임 NPC 음성 스타트업)가 1위를 차지한 것도 중요. Elo 32점 차는 승률 55% 정도 차이 — 동급이 아니라 명백한 품질 차이가 있다는 뜻. 더빙 서비스 원가 구조 전면 재검토 필요.
Microsoft MAI-Voice-1 공식 데모 — 번역·고객지원용 톤·페이싱 전환 음성 모델 — @MicrosoftAI(4월 16일): Microsoft AI가 MAI-Voice-1 라이브 데모를 공개. "톤, 페이싱, 전달 방식을 도메인 전환(번역 → 고객 지원)에서도 명료함과 의도를 유지하며 조정한다"며 실제 음성 샘플로 블라인드 비교 테스트. 자체 '번역 음성 AI'를 공식 포지셔닝한 첫 상용 데모. Microsoft 내부 Copilot 오디오 스택에도 이 모델이 들어갈 것으로 보임. 이전 주 오픈소스로 공개한 VibeVoice와는 별개의 상용 라인.
@MicrosoftAI↗
더빙 SaaS 관점: MAI-Voice-1이 '번역 모드'를 공식 선언한 것이 결정적. 단순 TTS가 아니라 '언어 전환 시 화자 일관성 유지'가 목적이다. 이건 더빙/로컬라이제이션을 정확히 타겟한 첫 하이퍼스케일 모델이며, Teams/Copilot/Office 통합이 예정된 만큼 엔터프라이즈 더빙 시장에서 ElevenLabs 엔터프라이즈 라인과 정면 충돌한다.
Inworld Lightning V3 — "TTS 평가 지표는 전부 거짓말이었다" — @kamath_sutra(4월 16일): Inworld가 Lightning V3를 공개하며 "TTS evals are dead"는 도발적 선언. 기존 MOS(Mean Opinion Score), LLM-as-a-judge, win-rate 모두 실제 고객 선호와 상관관계가 거의 없었다는 것. 해결책은 "극단적으로 구체적인 judge persona 정의"로, 이 변경만으로 평가-현실 일치도가 극적으로 개선됐다고 주장. 이 방법론 기반 inbound/outbound 콜센터용 대화형 TTS Lightning V3 출시.
@kamath_sutra↗
더빙 SaaS 관점: 콜센터/보이스봇용 TTS와 영상 더빙용 TTS는 다른 평가 기준이 필요하다는 것이 핵심. 더빙은 '감정·드라마틱', 콜센터는 '명료·신뢰'. 같은 모델 쓰지 마라는 얘기다. TTS 벤치마크 리포트로만 도입 결정을 내리는 기업이라면 재점검 필요.
Andrew Ng "음성은 시각 앱의 UI 레이어가 된다" — Vocal Bridge 공개 — @AndrewYNg(4월 14일): AI Fund 포트폴리오사 Vocal Bridge 공개. "음성이 기존 시각 애플리케이션의 UI 레이어가 되는 것에 흥분된다 — 말과 화면이 함께 업데이트되는 세계." 듀얼 에이전트 아키텍처로 기존 저지연 vs 지능성 트레이드오프 해결 — Foreground 에이전트(실시간 대화) + Background 에이전트(추론·가드레일·도구 호출). Ng은 딸용 수학 퀴즈 앱에 Vocal Bridge로 Claude Code 한 시간 만에 음성 UI 추가.
@AndrewYNg↗
더빙 SaaS 관점: 음성이 '더빙/콘텐츠'가 아닌 '제품 UI'로 확장되는 트렌드. 이는 TTS/ASR 수요가 미디어 업계에서 소프트웨어 업계로 급격히 번지는 전환점 — 더빙 전문 기업은 '화면 연동 음성 디렉팅' 같은 신영역을 고민해야 한다.
Argmax WhisperKit 오픈소스 확장 — SpeakerKit + TTSKit 추가 — @argmax(4월 15일): Argmax가 Pro SDK 일부를 Argmax OSS로 공개하며 WhisperKit을 speech-to-text 이상으로 확장. 구성: SpeakerKit(Pyannote 최적 구현, 스피커 분리), WhisperKit(월 600만 다운로드 ASR 프레임워크), TTSKit(Qwen3-TTS 실시간 재생 — 음성 에이전트·콘텐츠 리더용).
@argmax↗
더빙 SaaS 관점: SpeakerKit은 다중 화자 인터뷰·드라마 더빙 프리프로덕션의 핵심 도구. WhisperKit+SpeakerKit+TTSKit로 iOS/macOS 앱에서 더빙 파이프라인 전체를 오프라인 구동할 수 있게 됐다. 한국 지상파·OTT 자막 파이프라인 솔루션 제작사들에게 실질적 신호.
Voicebox 오픈소스 — ElevenLabs 무료 대안, GitHub 17K 스타 — @DeepTechTR(4월 14일): Voicebox(ElevenLabs 오픈소스 대안) GitHub 스타 17K 돌파. 3초 음성 샘플로 클로닝 가능, 23개 언어 지원, 5가지 TTS 엔진 내장, Mac/Windows/Linux 지원. Tauri + Rust로 고성능. "데이터가 클라우드로 나가지 않는다"는 프라이버시 중심 설계. Qwen3-TTS를 위한 첫 네이티브 로컬 데스크톱 앱.
@DeepTechTR↗
더빙 SaaS 관점: '유튜버용 1인 더빙 스튜디오' 시장을 정면 겨냥. 한국 1인 미디어·팟캐스트 창작자들에게 월 구독 부담 없는 대안이 생겼다. 단, 3초 클로닝의 오용(사기·딥페이크 피싱) 우려도 동시에 커지는 중.
ElevenLabs Devs 유튜브 채널 오픈 — TTS 벤치마크 열세 속 '개발자 생태계' 승부수 — @ElevenLabsDevs(4월 15일): ElevenLabs가 AI 엔지니어용 유튜브 채널 'ElevenLabs Devs' 공식 개설. TTS, STT, ElevenAgents, 광범위한 AI 시스템에 대한 deep dive·데모·핵심 개념 설명. "AI 엔지니어를 위한" 새 콘텐츠 타깃. 개설 타이밍은 Gemini 3.1 Flash TTS 출시 다음 날.
@ElevenLabsDevs↗
더빙 SaaS 관점: ElevenLabs가 Gemini TTS 3.1에 벤치마크로 밀린 직후, '가격 경쟁이 아닌 개발자 생태계'로 승부수. '기술 권위'를 콘텐츠로 쌓으려는 움직임. 단, 벤치마크 열위 상태에서 커뮤니티 락인은 한계가 있다 — 결국 품질이 선결 조건.
타입캐스트 모바일 앱 출시 + lucas_flatwhite의 Claude 컨텍스트 관리 가이드 — @hmartapp(4월 15일): 타입캐스트가 앱 출시 — 캡컷 등 영상 편집앱에서 TTS 연동 간편. 결제 없이 무료 사용 가능, Android/iOS에서 PC 없이 작업. lucas_flatwhite: Claude Code 컨텍스트 관리 가이드 공개 — 1M 컨텍스트 시대에도 세션/압축/리와인드 관리가 성능을 좌우한다는 Thariq(Claude Code 팀) 아티클을 한국어로 정제. Claude Desktop v1.2581.0+ 메이저 업데이트 상세 한국어 해설 공유.
@hmartapp↗
더빙 SaaS 관점: 타입캐스트는 한국 대표 TTS 서비스로, 모바일 확장은 B2C 개인 크리에이터 시장 본격 타깃. 한국 스타트업이 글로벌 Gemini 3.1 Flash TTS 공세 속에서 어떻게 포지셔닝할지 관찰 포인트. 한국어 전용 최적화·한국어 감정 표현이라는 니치로 방어.
|