Tech Signal2026-05-20

Gemini Omni — Google이 텍스트·이미지·오디오·영상을 하나로 합쳤다

Google I/O 2026에서 Gemini Omni가 공개됐다. 멀티모달 입력으로 영상을 생성하고, 대화형으로 편집하며, 물리 시뮬레이션까지 갖춘 통합 모델이다.

Google I/O 2026의 가장 큰 발표는 Gemini Omni다. 텍스트, 이미지, 오디오, 영상을 입력하면 영상을 출력하는 통합 멀티모달 모델이다. 기존에 따로 돌아가던 Gemini(추론), Veo(영상 생성), Genie(시뮬레이션), Nano Banana(DeepMind 내부 모델)를 하나로 합쳤다.

핵심 스펙 정리

항목 내용
입력 텍스트 + 이미지 + 오디오 + 영상 (동시 입력 가능)
출력 최대 10초 영상 (오디오 싱크 포함)
편집 방식 대화형 멀티턴 — "여기서 색감 바꿔줘" 식으로 수정
물리 엔진 중력, 운동, 충돌 시뮬레이션 내장
모델 라인업 Omni Flash (출시), Omni Pro (출시 예정, 날짜 미정)
구독 티어 AI Plus, Pro, Ultra 구독자 — Gemini 앱, Google Flow
API 개발자·엔터프라이즈 API는 수 주 내 공개
워터마크 모든 생성 영상에 SynthID 자동 삽입

기존 영상 AI와 무엇이 다른가

Sora 2나 Veo 3.1은 프롬프트 → 영상 단방향 파이프라인이다. 마음에 안 들면 처음부터 다시 프롬프트를 써야 한다. Omni는 다르다. 영상을 생성한 뒤 대화로 수정한다. 캐릭터, 물리 법칙, 이전 편집 내용이 턴 간에 유지된다.

데모에서 보여준 예시를 정리하면:

  • 구슬이 굴러가는 영상 — 바운스마다 물리 법칙이 유지되고, 충돌음이 자동 생성
  • 촬영한 실제 영상에서 오브젝트만 교체 (예: 배경의 건물을 다른 건물로)
  • 리얼리스틱 ↔ 애니메이션 스타일 전환

다만 순수 영상 퀄리티(시네마틱 리얼리즘)로는 Veo 3.1이나 Sora 2보다 한 단계 아래라는 평가다. Artificial Analysis Video Arena 리더보드에서도 Seedance 2.0이 텍스트-투-비디오·이미지-투-비디오 양쪽 1위를 차지하고 있다. Omni Flash의 강점은 영상 품질 자체가 아니라 워크플로우의 통합에 있다.

Google이 일부러 뺀 기능

Google은 기존 영상의 음성·대사 변환 기능을 의도적으로 보류했다. 데모에서는 사람을 동물로 변환하면서 원래 목소리를 유지하거나, 촬영된 영상의 대사를 바꾸는 장면이 있었지만, 이 기능은 출시에 포함되지 않았다. 딥페이크 악용 우려 때문이다.

이건 Google의 전략적 판단이다. 기술적으로는 가능하지만, 신뢰 리스크를 감수하지 않겠다는 것. SynthID 워터마크를 전 생성 영상에 삽입하는 것도 같은 맥락이다.

함께 발표된 것들

Google I/O 2026에서 Omni만 나온 건 아니다.

Gemini 3.5 Flash — 거의 모든 벤치마크에서 Gemini 3.1 Pro를 넘으면서, 속도는 4배 빠르다. 가격은 입력 $1.50 / 출력 $9.00 (1M 토큰당). 에이전트 워크플로우의 핵심 엔진으로 포지셔닝됐다.

Antigravity 2.0 — Google의 에이전트 개발 플랫폼이 독립 데스크톱 앱으로 진화했다. CLI(Go 기반), SDK, Managed Agents(격리된 Linux 환경에서 에이전트 실행)를 포함한다. Claude Code, Cursor 같은 에이전트 코딩 도구와 직접 경쟁하는 포지션이다.

anyAX 관점

Omni의 진짜 의미는 "영상 AI가 좋아졌다"가 아니다. 콘텐츠 제작의 인터페이스가 바뀌었다는 점이다.

지금까지 영상 AI는 "프롬프트를 잘 쓰는 기술"이 핵심이었다. Omni부터는 "대화로 영상을 만드는 시대"다. 이미지 한 장, 녹음 파일 하나, 텍스트 설명을 섞어서 던지면 영상이 나오고, 마음에 안 드는 부분만 말로 고친다. 이건 Premiere Pro를 배우는 것과는 완전히 다른 진입 장벽이다.

소규모 비즈니스와 1인 크리에이터에게 시사점은 명확하다. 숏폼 콘텐츠 — 유튜브 쇼츠, 릴스, 틱톡 — 의 제작 비용이 사실상 0에 수렴한다. YouTube Shorts에 Omni가 바로 통합된다는 건 Google이 이 시장을 정확히 노리고 있다는 뜻이다.

하지만 제작 비용이 0이 되면 모든 사람이 영상을 만든다. 차별화는 도구가 아니라 무엇을 말하느냐, 누구에게 말하느냐에서 나온다. AI가 영상 제작을 민주화할수록, 기획력과 고객 이해도의 가치는 올라간다. 도구는 바뀌어도 개념은 남는다 — Omni가 아무리 좋아져도, 10초 안에 시청자를 붙잡을 한 줄의 메시지는 사람이 만들어야 한다.

참고