Monday, April 6, 2026

Gemma 4 커뮤니티 폭발, Hume EVI2 감정 AI, MAI-Transcribe-1 벤치마크

AI Dub - 2026.04.06

AI Dub

2026.04.06 — NVIDIA가 음성 AI의 마찰을 없앤 날, 600개 언어 TTS, Gemma 4 출시 3일 후의 현실

기술 · 더빙 · 음성

NVIDIA PersonaPlex · 600개 언어 TTS · Lux TTS 음성 복제

NVIDIA PersonaPlex 7B 오픈소스 — 음성 AI의 가장 큰 마찰을 없앴다 — @HowToAI_(4월 4일, 2,319 좋아요, 167K 조회): "NVIDIA just removed the biggest friction point in Voice AI. They open-sourced PersonaPlex 7B, a real-time conversational model. It listens and speaks simultaneously to handle natural interruptions." 기존 음성 AI는 "말하기 → 듣기 → 말하기" 턴 방식이었다. PersonaPlex는 사람처럼 상대방 말을 들으면서 동시에 응답을 준비하는 풀-듀플렉스(full-duplex) 방식이다. 실시간 자연스러운 대화가 가능해진다. @HowToAI_↗

더빙 SaaS 관점: PersonaPlex의 "듣고 말하기 동시 처리"는 라이브 더빙/실시간 통역에 직접 적용된다. 기존 더빙은 원본 음성을 모두 전사한 후 번역 → TTS → 합성하는 순차 방식이었다. PersonaPlex 같은 풀-듀플렉스 모델이 성숙하면, 영상을 보면서 실시간으로 더빙 음성을 생성하는 "라이브 더빙"이 가능해진다.

600개 언어 TTS + 음성 복제 공개 — @tom_doerr(4월 4일, 42 좋아요): "TTS for 600 languages with voice cloning." 600개 언어에서 텍스트를 음성으로 변환하고, 레퍼런스 오디오로 음성 복제까지 가능한 모델이 공개됐다. 기존 주류 TTS(ElevenLabs, CosyVoice)가 10~40개 언어를 지원하는 것과 비교하면 커버리지가 15배 이상이다. @tom_doerr↗

쉽게 말하면: 지금까지 AI 더빙은 영어, 한국어, 일본어 등 주요 언어에서만 쓸 만했다. 이 모델은 600개 언어를 지원한다 — 스와힐리어, 타갈로그어, 방글라 같은 언어도 AI 음성으로 만들 수 있다. 넷플릭스·디즈니+가 동남아·아프리카 시장을 확대하는 시점에 딱 맞는 도구다.

Lux TTS — 무료 음성 복제, 실시간 대비 150배 빠름 — @JulianGoldieSEO(4월 5일): "This free AI can clone your voice in seconds. It's called Lux TTS and it creates a perfect AI version of your voice up to 150x faster than real time. Just install it from GitHub." 오픈소스로 공개된 초고속 음성 복제 모델. 설치 후 즉시 사용 가능. @JulianGoldieSEO↗

좁혀지는 격차

Gemma 4 후속 반응 · Qwen 3.6 Plus vs Opus · GLM-OCR 0.9B

Gemma 4 출시 3일 후 — 커뮤니티 벤치마크와 현실 — 금요일에 다뤘던 Gemma 4 Apache 2.0 이후, 주말 사이 반응이 폭발했다. @itsPaulAi(4,508 좋아요, 568K 조회): "Google has an official app to run Gemma 4 on your phone. 100% open source, fully offline and private." @stevibe(1,410 좋아요): "Qwen3.5 27B vs Gemma4 31B Canvas 창의성 테스트" 비교가 커뮤니티에서 활발하다. @arbos_born(87 좋아요): "Gemma 4 activates only 3.8B of its 26B parameters and scores 1441 on LMArena. Just 11 points behind their full 31B dense version." 효율성은 인상적이다. 한편 @ArtificialAnlys(645 좋아요): "31B model uses ~2.5x fewer output tokens than Qwen3.5 27B" — 비용 효율에서 Gemma 4가 앞서지만, 전체 성능에서는 Qwen3.5가 아직 우위. @itsPaulAi↗ @stevibe↗ @ArtificialAnlys↗

더빙 SaaS 관점: Gemma 4의 진짜 가치는 "폰에서 돌린다"는 것이다. 3.8B 활성 파라미터만으로 31B급 성능. Google이 공식 Android 앱까지 만들어줬다. 더빙 파이프라인에서 LLM 교정 단계를 온디바이스로 돌릴 수 있다면, 클라우드 비용이 극적으로 줄어든다. 단, 비영어권 품질은 Qwen이 여전히 우위.

Qwen 3.6 Plus가 Opus를 대체했다 — 9,000만 토큰의 증거 — @AdolfoUsier(4월 5일, 544 좋아요, 47K 조회): "Its official. 90M tokens later. Qwen 3.6 Plus took all Opus tasks like a king! Since then my Claude usage has been 0." 9,000만 토큰을 사용한 실전 검증 후 Opus(Claude)에서 Qwen으로 완전 전환했다는 보고. 오픈소스 모델이 최고급 상용 모델을 실무에서 대체하는 사례가 늘고 있다. @AdolfoUsier↗

GLM-OCR 0.9B — "땅콩만한" 모델이 Gemini를 문서 인식에서 꺾다 — @AlphaSignalAI(4월 5일, 535 좋아요, 31K 조회): "A peanut-sized Chinese model just dethroned Gemini at reading documents. GLM-OCR is a 0.9B parameter vision-language model. It scores 94.62 on OmniDocBench V1.5, ranking #1 overall." 10억 파라미터도 안 되는 초소형 모델이 문서 인식에서 전체 1위. "크기가 곧 성능"이라는 공식이 빠르게 깨지고 있다. @AlphaSignalAI↗

쉽게 말하면: 100배 큰 모델을 이긴 초소형 AI가 등장했다. 문서를 읽고 이해하는 능력에서 세계 1위. AI 세상에서 "작지만 강한" 모델이 점점 늘고 있다.

사람과 AI 사이

Karpathy LLM Wiki · Claw Code K-개발자 · Microsoft 독립 선언

Karpathy의 LLM Wiki — AI 에이전트를 위한 지식 설계의 새 기준 — @supernovajunn(4월 5일, 545 좋아요, 42K 조회): "카파시가 GitHub에 파일 하나를 올렸다. 마크다운 문서 하나. 이름은 llm-wiki.md. 올린 지 10시간 만에 별 1,757개." @Yuchenj_UW(1,413 좋아요): "Karpathy's 'LLM Wiki' pattern: stop using LLMs as search engines over your docs. Use them as tireless knowledge engineers." AI 에이전트가 RAG 없이도 파일 시스템을 직접 탐색하고 정보를 끌어올 수 있는 구조. @supernovajunn↗ @Yuchenj_UW↗

Claw Code 글로벌 GitHub 1위 — K-개발자의 순발력 — @Krongggggg(4월 5일, 237 좋아요, 27K 조회): "클로드 뜯어고친 'claw-code'가 글로벌 깃허브 1위 먹은 거 보면 결국 AI 코딩 시장이 전쟁터긴 함. 유출 사고를 역으로 이용해서 프로젝트화 시킨 박진형 님 순발력도 무섭고 이걸 싹쓸이하는 K-화력도 대단함." 수요일의 Claude Code 유출 사고가 금요일에 Rust 재구현 + GitHub 1위라는 결과로 이어졌다. @Krongggggg↗

Microsoft, OpenAI 그늘에서 벗어나려 한다 — MAI 독립 선언의 배경 — @MrMarket89(4월 4일, 30 좋아요, 한국어): "2025년 10월까지 마이크로소프트는 계약상 범용 프론티어 LLM을 독자 개발할 수 없었습니다. OpenAI와의 파트너십 조건이 이를 막고 있었기 때문입니다." 금요일에 다룬 MAI 3종(STT 세계 1위 + 60배속 TTS)의 배경. Microsoft가 드디어 자체 AI 모델을 만들 수 있게 된 것은 OpenAI가 SoftBank 등 외부 파트너를 늘리면서 계약이 재협상됐기 때문이다. @MrMarket89↗

TAKEAWAY

1. 음성 AI가 "차례대로 대화"에서 "동시에 대화"로 넘어가고 있다 — NVIDIA PersonaPlex의 풀-듀플렉스는 기술적으로 큰 전환점이다. 실시간 통역, 라이브 더빙, AI 비서가 모두 자연스러운 대화를 하려면 이 기술이 필요했다. 오픈소스로 풀린 건 덤이다.

2. "작은 모델이 큰 모델을 이기는" 사례가 매일 나온다 — GLM-OCR 0.9B가 Gemini를 이기고, Gemma 4는 3.8B 활성 파라미터로 31B급 성능을 내고, Qwen 3.6 Plus가 Opus를 대체하고 있다. GPU가 없는 더빙 스튜디오도 고품질 AI를 쓸 수 있는 시대가 빠르게 오고 있다.

3. 더빙의 언어 장벽이 동시에 무너지고 있다 — 600개 언어 TTS(이번 주) + 1,600개 언어 ASR(Meta Omnilingual, 지난달) + 113개 언어 멀티모달(Qwen3.5-Omni). "이 언어는 AI 더빙이 안 됩니다"라고 말할 수 있는 언어가 점점 줄어들고 있다.

▼ 상세 분석 보기 ▼

각 뉴스의 배경 · 맥락 · 의미 · 전망

Sources: @HowToAI_ · @tom_doerr · @JulianGoldieSEO · @itsPaulAi · @stevibe · @ArtificialAnlys · @AdolfoUsier · @AlphaSignalAI · @supernovajunn · @Yuchenj_UW · @Krongggggg · @MrMarket89

DEEP DIVE

각 사안의 배경 · 맥락 · 의미 · 전망

기술 · 더빙 · 음성

NVIDIA PersonaPlex — 풀-듀플렉스가 더빙을 바꾸는 이유

기존 음성 AI의 가장 큰 한계는 "턴 방식"이었다. 한 쪽이 말하면 다른 쪽은 듣고, 듣기가 끝나야 응답을 시작한다. 사람의 자연스러운 대화와 다르다. 사람은 상대방 말을 들으면서 동시에 응답을 준비하고, 끼어들기도 하고, 맞장구도 친다. PersonaPlex 7B는 이 "풀-듀플렉스"를 오픈소스로 구현한 첫 사례다. 더빙에서 이게 왜 중요할까? 첫째, 라이브 더빙/동시통역. 원본 화자가 말하는 동안 실시간으로 번역+TTS를 생성해야 한다. 턴 방식이면 원본 발화가 끝날 때까지 기다려야 하지만, 풀-듀플렉스면 동시에 처리할 수 있다. 둘째, 자연스러운 맞장구와 끼어들기. 인터뷰나 토크쇼 더빙에서 "네, 그렇죠", "아, 정말요?" 같은 짧은 반응을 자연스럽게 삽입할 수 있다. 7B 파라미터라 H100 한 장에서 충분히 돌릴 수 있고, 오픈소스라 파인튜닝이 자유롭다.

좁혀지는 격차

Gemma 4 출시 3일 — 숫자가 말하는 것과 말하지 않는 것

@ArtificialAnlys의 분석이 가장 핵심을 찌른다. Gemma 4 31B는 Intelligence Index 39점(Qwen3.5 27B는 42점). 수치로만 보면 Qwen이 앞선다. 하지만 Gemma 4는 출력 토큰을 Qwen 대비 2.5배 적게 쓴다. 같은 작업을 절반 이상 적은 비용으로 한다는 뜻이다. 26B-A4B(MoE) 모델은 3.8B만 활성화해서 1441 LMArena를 달성했고, @MLStreetTalk에 따르면 M4 Max에서 65-75 tok/s가 나온다. 세바스찬 라슈카(@rasbt)는 "Gemma 4의 아키텍처는 Gemma 3와 거의 같다. 이 큰 성능 향상은 학습 데이터와 레시피 때문일 가능성이 높다"고 분석했다. 요약하면: Gemma 4는 "가장 똑똑한 모델"은 아니지만, "가장 효율적인 모델" 중 하나다. 특히 온디바이스 시나리오에서 Qwen보다 실용적인 선택이 될 수 있다. Google이 공식 Android 앱까지 만들어서 배포하는 건, 이 "효율"을 무기로 삼겠다는 전략이다.

사람과 AI 사이

Claude 유출 → Claw Code → GitHub 1위 — K-AI의 실행 속도

수요일: Anthropic Claude Code 소스 51만 줄이 npm sourcemap에서 유출됐다. 목요일: 한국 개발자 박진형이 이를 Rust로 재구현한 Claw Code를 공개했다. 금요일: GitHub 전체 트렌딩 1위. 좋아요 16만 개. @Krongggggg의 표현대로 "남들이 정보 따질 때 바로 코드로 증명하는 게 진짜 실력이다." 이건 단순한 해프닝이 아니다. AI 코딩 도구 시장의 구조적 변화를 보여준다. Claude Code는 유료 구독($20/월+API 비용)이 필요했다. Claw Code는 무료이고, 로컬에서 돌아가고, 실험적 기능이 잠금 해제됐다. "유출이 오픈소스보다 빠를 수 있다"는 아이러니한 교훈이기도 하다. Anthropic 입장에서는 보안 사고이지만, 생태계 입장에서는 선택지가 하나 더 늘어난 셈이다.

Karpathy LLM Wiki — "AI가 읽는 문서"라는 새로운 카테고리

안드레이 카파시가 GitHub에 마크다운 파일 하나를 올렸다. 10시간 만에 별 1,757개. 핵심은 간단하다: 위키를 사람이 아니라 AI 에이전트가 읽도록 설계하라. 순수 마크다운 파일 + 디렉토리 인덱스 구조로 만들면, AI가 RAG(검색 증강 생성) 없이도 파일 시스템을 직접 탐색하고 필요한 정보를 끌어올 수 있다. @Yuchenj_UW의 해석: "LLM을 문서 검색 엔진으로 쓰는 걸 멈춰라. 지칠 줄 모르는 지식 엔지니어로 써라." 더빙 파이프라인에서도 시사점이 있다. 용어 사전, 화자 프로필, 번역 스타일 가이드 같은 프로젝트 지식을 이 형식으로 관리하면, AI 에이전트가 문맥을 이해하고 더 정확한 번역·교정을 할 수 있다.

AI Dub · 2026.04.06 · [email protected]

수신을 원하지 않으시면 여기를 클릭해 주세요

𝕏 Twitter LinkedIn Threads

← All newsletters