AI Dub
2026.04.04 — Google이 Apache 2.0을 선택한 날, Microsoft의 음성 AI 3종, 그리고 학습 데이터가 유출됐다
|
|
TOP STORIES
1. Google Gemma 4, Apache 2.0 완전 오픈소스로 전환 — 상용과 오픈소스의 경계가 또 한 겹 허물어졌다.
2. Microsoft, 자체 음성 AI 3종 동시 출시 — STT 세계 1위 + 60초 음성을 1초에 생성하는 TTS.
3. AI 학습 데이터 공급사 Mercor 해킹 — Meta·OpenAI의 학습 비밀이 유출됐을 가능성.
|
|
좁혀지는 격차
Gemma 4 오픈소스 · Microsoft 음성 AI 3종 · NVIDIA 인퍼런스 변곡점
|
|
Google Gemma 4 — Apache 2.0 완전 오픈소스로 전환 — @GoogleDeepMind(4월 3일, 352만 조회): "Gemma 4를 소개합니다: 자신의 하드웨어에서 실행할 수 있는 새 오픈 모델 패밀리. 고급 추론과 에이전트 워크플로우를 위해 설계했으며, Apache 2.0 라이선스로 공개합니다." 기존 Gemma의 커스텀 라이선스(상용 제한)에서 Apache 2.0으로 전환했다. 256K 컨텍스트, 에이전트 워크플로우 최적화. Google이 "오픈소스"를 말만 하는 게 아니라 라이선스로 증명한 것이다.
@GoogleDeepMind↗
쉽게 말하면: Google이 자사 AI 모델을 완전 무료로 풀었다. 이전에는 "오픈"이라고 하면서도 상업적 사용에 제한을 뒀는데, 이번에는 Apache 2.0 — 누구나 자유롭게 쓰고, 고치고, 팔 수 있다. 오픈소스와 상용의 격차가 또 한 겹 줄어든 것이다.
Microsoft, 자체 음성 AI 3종 동시 출시 — 10명 미만 팀이 세계 1위 — @mustafasuleyman(4월 2일): "세 개의 모델. 세 개의 최고 수준 결과. 전부 @MicrosoftAI 팀이 불과 몇 달 만에 출시. MAI-Transcribe-1 오늘 출시, 25개 언어에서 세계 최고 정확도의 전사 모델." MAI-Transcribe-1(STT, 25개 언어 세계 1위), MAI-Voice-1(TTS, 60초 음성을 1초에 생성), MAI-Image-2(이미지 생성)를 동시 출시. 각 모델을 10명 미만 팀이 만들었고, 경쟁사 대비 GPU 절반으로 구현. Microsoft Foundry API로 즉시 이용 가능.
@mustafasuleyman↗
더빙 SaaS 관점: 이틀 사이에 음성 AI 판도가 뒤집어지고 있다. 어제 Cohere Transcribe(ASR 1위) + Voxtral TTS, 오늘 Microsoft MAI-Transcribe-1(25개 언어 STT 1위) + MAI-Voice-1(60배속 TTS). 더빙 파이프라인의 ASR·TTS 선택지가 폭발적으로 늘고 있다. 특히 MAI-Voice-1의 60배속 생성은 대량 더빙 처리에 직결된다.
NVIDIA "인퍼런스 변곡점 도달" — 토큰당 비용 세계 최저 선언 — @nvidia(4월 3일): "'인퍼런스의 변곡점이 도래했다' — Jensen Huang. AI 광범위 채택이 학습에서 실행으로 전환되는 인퍼런스 시대의 새 마일스톤을 공식 달성했습니다." 하드웨어·소프트웨어 공동 설계로 토큰당 비용 세계 최저 달성. Adobe, Salesforce, SAP 등 17개 기업 참여하는 엔터프라이즈 AI 에이전트 플랫폼도 공개.
@nvidia↗
쉽게 말하면: AI를 만드는 데 드는 비용(학습)은 이미 많이 떨어졌다. 이제 AI를 실제로 쓰는 데 드는 비용(인퍼런스)도 급격히 떨어지고 있다. Jensen Huang이 "변곡점을 넘었다"고 선언한 건, AI가 실험실을 넘어 모든 기업의 일상 도구가 되는 시점이 왔다는 뜻이다.
|
|
|
사람과 AI 사이
OpenAI AGI 총괄 휴직 · Mercor 해킹 · YouTube AI TV
|
|
OpenAI AGI 총괄 Fidji Simo, 신경면역 질환으로 의료 휴가 — @verge(4월 4일, 10.4만 조회): "OpenAI AGI 책임자, 의료 휴가 돌입." AGI 배포 CEO Fidji Simo가 신경면역 질환 악화로 수 주간 의료 휴가에 들어갔다. 부재 기간 Greg Brockman이 제품 총괄을 맡는다. 같은 날 COO Brad Lightcap도 "특수 프로젝트" 역할로 전환, CMO Kate Rouch도 암 투병으로 사임 예정. OpenAI의 C레벨이 연속으로 변화하고 있다.
@verge↗
쉽게 말하면: 852조 원짜리 회사의 핵심 임원들이 연달아 자리를 비우고 있다. AGI 책임자 건강 문제, COO 역할 변경, CMO 사임 — IPO를 앞둔 시점에서 투자자들이 주시할 수밖에 없는 상황이다.
AI 학습 데이터 공급사 Mercor 해킹 — Meta·OpenAI 비밀 유출 위기 — @WIRED(4월 4일): "주요 AI 기업들이 선도적 데이터 공급사 Mercor에 영향을 미친 보안 사고를 조사 중. 이번 사고로 AI 모델 학습 방식에 관한 핵심 데이터가 노출됐을 가능성." Meta는 Mercor와의 협력을 일시 중단했고, OpenAI도 조사에 착수했다. AI 업계의 핵심 경쟁력인 "학습 데이터 레시피"가 유출됐을 수 있다.
@WIRED↗
쉽게 말하면: AI 회사들이 모델을 학습시키려면 대량의 데이터가 필요하다. 이 데이터를 준비해주는 전문 업체가 Mercor인데, 이 업체가 해킹당했다. 문제는 Mercor가 Meta, OpenAI 같은 대형 AI 회사의 "비밀 레시피" — 어떤 데이터로 어떻게 학습시키는지 — 를 알고 있다는 것이다.
YouTube, TV에서 AI에게 질문하는 시대 — @nealmohan(YouTube CEO, 4월 4일): "이번 주 @youtube 팀이 출시한 것들: TV에서 리모컨으로 시청 중인 영상에 대해 질문할 수 있는 AI 대화 도구(일시정지 없이)." TV 앱에서 리모컨 마이크로 AI에게 질문하면, 영상을 멈추지 않고도 답을 준다. Shorts에는 참조 사진 2장으로 리믹스하는 'Reimagine', 기존 영상에 객체를 삽입하는 'Add object' 기능도 추가.
@nealmohan↗
쉽게 말하면: TV에서 유튜브 보다가 "이 요리 레시피 뭐야?" 하고 리모컨에 대고 물어보면 AI가 답해준다. 영상을 멈출 필요도 없다. 어제 ChatGPT가 차에 탔고, 오늘은 TV에 들어왔다. AI가 모든 화면에 침투하고 있다.
|
|
|
기술 · 더빙 · 음성
xAI Grok Imagine · 이미지 생성 경쟁 가속
|
|
xAI, Grok Imagine에 'Quality 모드' 출시 — @xai(4월 4일, 157만 조회): "Grok Imagine에 Quality 모드를 소개합니다 — 가장 발전된 이미지 생성 모델 탑재. Quality 모드는 향상된 디테일, 더 강력한 텍스트 렌더링, 더 높은 수준의 창의적 제어를 제공합니다." 세부 묘사 강화, 이미지 안 텍스트 렌더링 개선, 복잡한 장면 처리 향상. 어제 Google Veo 3.1 Lite(영상 생성 비용 절반), 오늘 Grok Imagine Quality — 생성형 비주얼 AI의 품질 경쟁이 가속되고 있다.
@xai↗
|
|
|
TAKEAWAY
1. 오픈소스와 상용의 격차가 계속 줄고 있다 — Google이 Gemma 4를 Apache 2.0으로 풀었다. "오픈"이라 부르면서 제한을 두던 시대가 끝나고 있다. 어제 Cohere Transcribe(ASR 1위), Voxtral TTS, 오늘 Gemma 4 — 매일 하나씩 상용급 오픈소스가 나온다. 더빙 SaaS처럼 여러 AI를 조합하는 서비스는 구축 비용이 계속 떨어지고 있다.
2. 음성 AI 전쟁이 시작됐다 — Microsoft MAI-Transcribe-1(25개 언어 STT 1위)과 MAI-Voice-1(60배속 TTS)이 동시에 나왔다. 이틀 전 Cohere, 어제 Voxtral, 오늘 Microsoft — 음성 AI의 선택지가 이번 주에만 3배로 늘었다. 더빙 파이프라인의 핵심 구성 요소를 고르는 것이 이제 "뭐가 있나"가 아니라 "뭘 고르나"의 문제가 됐다.
3. AI의 비밀은 점점 유지하기 어려워지고 있다 — 화요일 Anthropic 소스코드 유출, 금요일 Mercor 학습 데이터 해킹. 한 주 사이에 AI 업계의 두 핵심 비밀 — 코드와 데이터 — 이 모두 외부에 노출됐다. "비밀"이 경쟁력이 되는 시대가 빠르게 끝나고 있다.
|
|
|
|
|
Sources: @GoogleDeepMind · @mustafasuleyman · @verge · @WIRED · @xai · @nealmohan · @nvidia
|
|
DEEP DIVE
각 사안의 배경 · 맥락 · 의미 · 전망
|
|
|
좁혀지는 격차
|
Gemma 4 Apache 2.0 — Google이 라이선스를 바꾼 진짜 이유
Google의 오픈소스 AI 전략이 한 단계 진화했다. 이전 Gemma 시리즈는 "오픈 모델"이라고 불렀지만, 실제로는 Google 커스텀 라이선스였다. 상업적 사용에 제한이 있었고, 재배포에도 조건이 붙었다. 이번 Gemma 4는 Apache 2.0이다. 차이가 크다. Apache 2.0은 수정·재배포·상용 사용에 제한이 없다. 기업이 Gemma 4를 가져다가 자사 서비스에 넣고 돈을 벌어도 Google에 로열티를 낼 필요가 없다. 왜 바꿨을까? Meta의 Llama가 오픈소스 생태계를 장악하고 있기 때문이다. Llama는 처음부터 커뮤니티 친화적 라이선스를 택했고, 결과적으로 수만 개의 파인튜닝 모델과 도구 생태계가 만들어졌다. Google은 Gemma가 같은 위치를 점하려면 라이선스 장벽을 없애야 한다고 판단한 것이다. 256K 컨텍스트와 에이전트 워크플로우 최적화는 실무 개발자에게 직접적인 가치다. "작은 모델로 에이전트를 만들고 싶다"는 수요에 정확히 맞춘 포지셔닝이다.
|
Microsoft MAI — 10명 미만 팀이 세계 1위를 찍은 구조
Mustafa Suleyman(전 Google DeepMind 공동창업자)이 Microsoft AI를 이끌면서 처음으로 자체 모델을 내놨다. 주목할 건 규모다. 각 모델을 10명 미만 팀이 만들었고, 경쟁사 대비 GPU를 절반만 써서 학습시켰다. 이건 "작은 팀으로 더 빠르게"라는 스타트업 방식을 대기업 안에서 실행한 것이다. MAI-Transcribe-1은 25개 언어에서 세계 최고 정확도 STT. 어제 다룬 Cohere Transcribe(14개 언어, WER 5.4%)와 정면 경쟁이다. MAI-Voice-1은 더 극적이다. 60초 분량의 음성을 1초 만에 생성한다. 60배속. 대량 더빙 처리에서 속도는 곧 비용이다. 1시간짜리 영상의 더빙 음성을 1분 만에 만들 수 있다는 뜻이다. 이번 주만 놓고 봐도 음성 AI의 선택지가 폭발했다. Cohere Transcribe, Voxtral TTS, Microsoft MAI 3종 — 더빙 파이프라인 설계자가 고민할 거리가 급격히 늘었다.
|
|
사람과 AI 사이
|
Mercor 해킹 — AI의 진짜 비밀은 코드가 아니라 데이터다
화요일에 Anthropic의 코드가 유출됐고, 금요일에 학습 데이터가 유출됐다. 한 주 사이에 AI 산업의 두 핵심 비밀이 모두 외부에 노출된 것이다. 그런데 둘 중 어느 쪽이 더 치명적일까? 코드는 재작성할 수 있다. 실제로 Claw Code가 하루 만에 증명했다. 하지만 데이터는 다르다. AI 모델의 성능을 결정하는 건 코드가 아니라 "어떤 데이터로, 어떤 순서로, 어떤 비율로 학습시켰는가"다. 이걸 업계에서는 "데이터 레시피"라고 부른다. Mercor는 이 레시피를 알고 있다. Meta가 협력을 일시 중단한 건, 단순 해킹 피해가 아니라 경쟁사에게 자사 학습 전략이 넘어갈 수 있다는 우려 때문이다. AI 경쟁의 무게 중심이 "더 좋은 코드"에서 "더 좋은 데이터"로 이동하고 있다는 걸 보여주는 사건이다.
|
OpenAI C레벨 연속 변화 — 852조 원 회사의 조직 안정성
Fidji Simo의 의료 휴가 자체는 개인 건강 문제다. 하지만 맥락이 문제다. 같은 날 COO Brad Lightcap이 "특수 프로젝트" 역할로 전환됐고, CMO Kate Rouch도 암 투병으로 사임을 준비하고 있다. 2023년 Sam Altman 해임 사태 이후, OpenAI는 C레벨 인사가 계속 바뀌고 있다. 이건 852조 원 밸류에이션의 IPO를 앞둔 회사에게는 부담이다. 투자자들은 경영진 안정성을 본다. Greg Brockman이 제품 총괄을 맡게 됐는데, Brockman은 2024년에 한 번 떠났다가 돌아온 인물이다. "돌아온 공동창업자가 임시로 맡는다"는 구도가 시장에 어떤 신호를 줄지 지켜볼 대목이다.
|
|
AI Dub · 2026.04.04 · editor@dubbing.news
수신을 원하지 않으시면 여기를 클릭해 주세요
|
|