Omni는 리렌더링을 건너뛴다 — 9가지 데모로 보는 차이점

Gemini Omni·3.5 Flash 데모 분석: I/O 2026 클립 9개, 장면 보존 vs 병렬 코딩, API 제공 현황.

May 31, 2026

공식 데모 9가지가 증명하려는 것

2026년 5월 29일, 구글은 Zahra Thompson이 작성한 큐레이션 영상 모음 "9 demos of Gemini Omni and Gemini 3.5 in action"을 공개했습니다. 이 모음집은 Google I/O 2026에서 선보인 가장 풍부한 기능 증명 데모들을 한데 모으고, 행사 이후 추가로 공개된 녹화본을 보완한 것입니다 . 이 포스트는 2026년 5월 19일 Google I/O에서 함께 발표된 두 개의 별개 모델 패밀리를 다루고 있으며 , 각각의 주장이 구조적으로 충분히 다르기 때문에 구분 없이 함께 살펴보면 실제로 무엇을 검증하는지 흐려집니다.

핵심 요약: 구글의 공식 데모 9가지(2026년 5월 29일 공개)는 두 가지 별개의 주장을 검증합니다. Gemini Omni는 전체 클립을 재생성하지 않고도 멀티턴 영상 편집 전반에서 장면 물리 법칙과 캐릭터 동일성을 유지하며, Gemini 3.5 Flash는 코딩 및 병렬 에이전트 작업에서 Gemini 3.1 Pro 대비 약 4배 빠른 출력 토큰 속도를 제공합니다. Flash는 현재 API로 호출 가능하지만, Omni는 아직 데모 전용입니다.

Gemini Omni는 영상 편집 모델입니다. 핵심 주장은 기존 영상 클립에 대해 여러 대화 턴에 걸쳐 자연어 편집 지시를 처리하되, 턴 사이에 전체 클립 재생성을 유발하지 않는다는 것입니다. 데모는 특정 표면 재질·물리 거동·카메라 앵글이 변경되는 동시에 조명 방향·그림자 기하학·캐릭터 동일성 등 다른 장면 속성은 그대로 유지되는 전후 영상을 통해 이를 실증하려 합니다.

Gemini 3.5 Flash(API 모델 ID: gemini-3.5-flash)는 코딩 및 에이전틱 모델로, 2026년 5월 19일 GA(정식 출시)되었습니다 . 이 모델의 주장은 처리량입니다. Gemini 3.1 Pro 대비 약 4배 빠른 출력 토큰 속도를 제공합니다 . Flash 데모는 AI Studio 내에서 여러 에이전트가 동시에 실행되는 병렬 하위 작업 실행과, 실시간으로 앱 간 작업을 완료하는 에이전틱 개인 비서를 통해 이를 보여줍니다.

두 주장은 서로 다른 검증 기준을 필요로 합니다. Omni의 주장은 영상 내 시각적 일관성에 달려 있어 시청자가 직접 관찰하고 판단할 수 있습니다. 반면 Flash 처리량 주장은 외부에서 측정해야 하는 벤치마크 점수와 API 성능 수치에 의존합니다. 아래 섹션에서는 두 가지를 모두 검토하되, 검증 기준을 각각 분리하고 각 데모 세트가 실증하는 것과 그렇지 않은 것을 명확히 합니다.

Omni가 클립을 재생성하지 않고 편집하는 방법

Omni skips the re-render — nine demos show the difference

Gemini Omni의 핵심 기술적 특성은 장면 지속 편집입니다. Veo 3.x를 포함한 기존 영상 생성 모델은 모든 변경마다 새 프롬프트로 전체 클립을 재생성해야 했습니다. 턴 간 장면 기억이 없어, 앵글을 수정하거나 재질을 바꾸려면 새 프롬프트로 모델이 새로 생성하는 결과를 그대로 받아들여야 했습니다. Omni는 네 가지 개별 구성요소를 단일 파이프라인으로 융합함으로써 이를 바꿉니다 .

Google DeepMind CEO Koray Kavukcuoglu는 2026년 5월 19일 블로그 포스트에서 아키텍처 구성을 이렇게 설명했습니다:

"Omni는 새로운 아키텍처 융합입니다. Gemini의 추론 엔진, Veo의 렌더링 레이어, DeepMind의 Genie 월드 시뮬레이션, Nano Banana 이미지 편집 레이어를 결합하여, 프롬프트로 새 클립을 재생성하는 방식이 아닌 자연어 멀티턴 대화를 통해 영상을 편집하는 모델입니다." — Koray Kavukcuoglu, CEO, Google DeepMind (source: Google DeepMind Blog, 2026년 5월)

각 구성요소는 데모 영상에서 확인할 수 있는 특정 보존 속성에 대응합니다:

Gemini 추론 엔진: 기존 장면의 맥락 속에서 자연어 지시를 해석해, 무엇을 변경하고 무엇을 유지할지 결정합니다. "음악가를 다른 장소로 이동"하라는 지시가 음악가의 동일성은 그대로 두고 환경만 바꿀 수 있는 이유가 바로 이것입니다.
Veo 렌더링 레이어: 수정된 클립의 시각적 합성을 담당하되, 새 프롬프트에서 자유롭게 생성하지 않고 장면 맥락에 의해 제약됩니다. 출력은 이전 상태에 고정됩니다.
DeepMind Genie 월드 시뮬레이션: 중력·빛 전파·표면 상호작용 등 물리 인식 장면 표현을 유지하며, 편집 전반에 걸쳐 올바르게 전파합니다. Liquid Mirror 데모에서 임의의 절차적 애니메이션이 아닌 물리적으로 정확한 파문 전파가 구현되는 것은 이 구성요소 덕분입니다.
Nano Banana 이미지 편집 레이어: 더 넓은 장면 상태를 건드리지 않고 세밀한 표면 및 재질 조작(재질 교체, 텍스처 적용, 중첩 시각 변환)을 처리합니다. Bubble Sculpture 데모에서 그림자 기하학을 유지하면서 돌이 비누거품으로 바뀌는 것이 가능한 이유입니다.

실제 워크플로우 관점에서 보면, Omni에게 바이올리니스트를 콘서트홀로 이동하라고 지시해도 모델은 바이올리니스트의 얼굴을 잊지 않습니다. 이어서 숄더 오버 카메라 앵글을 요청해도 콘서트홀이나 음악가의 위치가 초기화되지 않습니다. 장면 상태는 대화 턴 사이에 리셋되는 것이 아니라 누적됩니다. 이는 영상 편집을 개발자들이 텍스트·코드 작업에서 이미 사용하는 반복 패턴, 즉 새 시작점에서 재생성하는 것이 아닌 안정된 베이스 위에서 순차적으로 정제하는 방식에 가깝게 만들어 줍니다.

기존에 유사한 기능이 없던 아키텍처 특성 중 하나는 Reimagine Action 기능으로, 단일 지시 내에서 복잡한 중첩 변환을 가능하게 합니다. Checkerboard Sphere 데모는 대형 방 패턴을 유리 구체 내부에 재귀적으로 배치하고 독립적인 내부 조명을 적용합니다. 이는 공간 포함 관계·스케일 변환·이중 조명을 동시에 이해해야 하는 변환입니다 . 프롬프트 기반 재생성 모델은 계층적으로 추론할 지속적 장면 표현이 없기 때문에 이를 재현할 수 없습니다.

출시 시점에서 Omni는 10초 클립 시간 제한을 적용합니다 . 구글은 이를 기술적 한계가 아닌 배포 결정으로 규정했으며, 시간이 지나면서 확장될 것으로 예상하고 있습니다. 오디오 편집은 딥페이크 우려로 출시 시 보류되었습니다. 이 제약은 대화가 포함된 클립의 편집 완성도를 제한하지만, 조용히 생략하지 않고 투명하게 공개되었습니다.

Omni 데모 세트: 장면 일관성 주장 검토

Google의 Omni 데모 네 편은 각각 장면 보존의 다른 측면을 시험한다 — 재질 변환, 물리 시뮬레이션, 멀티 턴 정체성 안정성, 그리고 중첩된 공간 구성. 각 데모를 개별적으로 살펴보면 실제로 무엇을 주장하는지, 그리고 데모 기반 검증의 한계가 어디에 있는지 명확해진다 .

데모별 상세 분석

데모	편집 지시 (요약)	변경된 것	보존 주장 대상	가장 강력한 검증 신호
버블 조각상	"조각상을 거품으로 만들어줘"	돌 표면 → 무지갯빛 하이라이트가 있는 반투명 비눗방울 재질	구도, 조명 방향, 그림자 형태	그림자 투영 각도 유지 — 재질 교체 전후 동일한 방향성 광원
액체 거울	"거울이 액체처럼 물결치게 하고, 팔을 반사 거울 재질로 바꿔줘"	정지된 거울 → 바깥쪽으로 퍼지는 물결; 피부 → 크롬 표면	접촉 지점에서의 물리; 크롬 팔에 방의 정확한 반사	물결이 접촉 지점에서 올바른 방향으로 퍼짐; 크롬 표면이 일반 HDR 맵이 아닌 실제 방 형태를 반사
바이올리니스트 멀티 턴 (턴 1)	연주자를 새로운 환경으로 이동	무대 배경 → 새로운 장소	얼굴 특징, 자세, 악기 파지 방식	완전한 배경 교체에도 정체성 유지
바이올리니스트 멀티 턴 (턴 2)	어깨 너머 카메라 앵글	장면 초기화 없이 시점 이동	턴 1의 모든 정체성 및 환경 상태	새 클립 생성 없이 카메라 전환 — 두 프롬프트에 걸쳐 장면 상태 유지
체커보드 구체 (Reimagine 액션)	방의 체커보드 패턴을 유리 구체 안에 재귀적으로 배치	유리 구체 → 독립적인 내부 조명이 있는 축소된 방 표시	바깥 방의 형태, 손 위치, 구체 모양	구체 내부가 외부 장면과 독립적으로 조명됨 — 계층적 조명은 이중 장면 표현 필요

버블 조각상 데모는 보존 주장을 검토하기에 가장 직관적이다. 핵심 주장은 표면 재질이 바뀌는 동안 그림자 형태가 일정하게 유지된다는 것이다. 영상에서 방향성 그림자는 재질 교체 전후에 동일한 투영 각도를 유지한다. 만약 모델이 새 프롬프트로 클립을 재생성했다면 이 결과는 나올 수 없다 — "거품"으로 새로 생성된 클립이 원본 돌 조각상과 동일한 그림자 형태를 재현할 가능성은 낮다. 조명 설정이 텍스트 설명에 담겨 있지 않기 때문이다 .

액체 거울 데모는 두 가지 별개의 검증 신호를 겹쳐 보여준다. 물결 물리 주장 — 접촉 지점에서 바깥으로 퍼지는 전파 — 은 영상으로 검증 가능하다. 무작위 또는 절차적으로 생성된 물결이라면 접촉 지점에서 올바른 물리 법칙대로 시작될 필요가 없기 때문이다. 크롬 반사 주장은 렌더러가 장면 맥락을 이어받았음을 전제한다. 클립 중간에 합성된 크롬 표면이라면 아무것도 반사하지 않거나 일반 환경 맵을 반사했을 것이다 — 원본 영상에 보이는 특정 방 형태가 아니라. 두 속성 모두 관찰 가능하지만, 데모 영상만으로는 독립적인 감사가 불가능하다.

바이올리니스트 멀티 턴 시퀀스는 '멀티 턴'이 실제로 무엇을 의미하는지 가장 직접적으로 보여주는 데모다. 원본 무대, 장소 이동, 어깨 너머 앵글이라는 세 번의 순차 편집 프롬프트가 적용되는 동안 연주자의 얼굴 특징, 악기 파지 방식, 자세가 일관되게 유지된다. 단, 중요한 한계가 있다. 이 데모는 Google 팀이 직접 선별하고 편집한 것이다. 영상에는 턴별 처리 지연 시간, 실패 시도, 정체성 드리프트가 발생한 사례가 나타나지 않는다. 이러한 공백은 업계 전반의 데모 형식 역량 발표에서 표준적으로 나타나는 것으로, 주장 자체를 무효화하지는 않지만 영상만으로 확인할 수 있는 범위를 한정한다.

체커보드 구체(Reimagine 액션)는 세트 중 구성적으로 가장 복잡한 편집이다. 이 지시는 Omni에게 대형 방 패턴을 작은 유리 물체 안에 독립적인 내부 조명과 함께 재귀적으로 배치하도록 요구한다 — 단일 변환 안에서 공간적 포함 관계, 스케일 이동, 이중 조명 장치를 이해해야 한다 . 이 데모는 Nano Banana와 Genie 컴포넌트의 연동에 가장 크게 의존하며, 프롬프트 재생성으로 재현하기 가장 어려운 사례이기도 하다 — "구체 안의 방"으로 새로 생성된 클립은 원본 장면의 공간적·조명적 구체성을 담아낼 수 없기 때문이다.

3.5 Flash 병렬 코딩 데모: 실전 속도

Gemini 3.5 Flash의 다섯 가지 데모는 Omni 세트와 구성 방식이 다릅니다. 시각적 변환을 보여주는 대신 처리량을 실증합니다 — 구체적으로는, 병렬 하위 작업들이 느린 모델에 직렬로 처리되는 대신 빠른 모델을 통해 라우팅될 때 무슨 일이 일어나는지를 보여줍니다. 핵심 지표는 토큰당 품질이 아니라 반복 밀도입니다: 개발자나 에이전트가 고정된 시간 안에 얼마나 많은 의미 있는 변형을 생성할 수 있는가 .

데모	작업 유형	병렬화 패턴	주장된 출력	개발자 관련성
Antigravity 2.0 IDE — Asset Categorization	에이전트 방식: 비정형 디지털 자산 이름 변경 및 분류	동시 실행되는 협업 하위 에이전트	전체 자산 라이브러리를 자율적으로 정리, 사람 개입 불필요	병렬 하위 작업 디스패치로 광범위한 파일 작업의 실제 소요 시간 단축; Flash의 처리량이 핵심 요인
Pi Visualization	인터랙티브 웹 UI 생성	AI Studio 내 병렬 창의적 개념 하위 에이전트	동일한 수학적 개념에 대한 여러 UI 접근 방식을 하나의 세션에서 생성	다수의 후보 출력물이 하나의 완성된 결과물보다 유리한 시각적 디자인 문제에서 빠른 반복 가능
64 Fractal Variations	생성형 디자인 탐색	배치 병렬 생성	단일 세션에서 64가지 고유한 프랙탈 디자인 변형 생성	대량 배치 생성은 Flash의 처리량 우위가 대규모로 실현되는 영역 — 동일한 생성 수를 느린 모델로 처리하면 약 4배 더 오래 걸림
Checkout UX in 60 Seconds	반복적 UX 및 코드 생성	AI Studio 내 반복 코딩 루프	60초 이내에 여러 체크아웃 플로우 디자인 접근 방식 생성	짧은 피드백 루프; 사람이 선택에 개입하는 초기 단계 UI 프로토타이핑에 유용; 오늘날 AI Studio에서 바로 재현 가능
Gemini Spark — Personal Agent	앱 간 사전 예방적 오케스트레이션	단일 지속 에이전트, 다중 앱 통합	견과류 없는 간식 목록 생성 → Instacart로 푸시; Gmail/Docs/Slides 통합	3.5 Flash를 상시 작동 에이전트 워크플로우의 핵심으로 활용; 여기서는 최대 추론 깊이보다 추론 시점의 지연 시간이 더 중요

Antigravity 2.0 IDE 데모는 즉시 짚고 넘어갈 제품 구분을 드러냅니다. Antigravity 2.0은 에이전트 기반 코딩 환경으로, Gemini API 자체가 아닙니다. 데모에 등장하는 병렬 하위 에이전트들을 디스패치하고 조율하는 오케스트레이션 런타임입니다. Antigravity 2.0의 공개 출시일은 공식 I/O 자료에 나타나지 않습니다 . 기반 Flash 모델은 현재 API를 통해 호출 가능하지만, 데모에 표시된 오케스트레이션 레이어는 외부에서 사용할 수 없습니다.

64 Fractal Variations 데모는 처리량 논거를 가장 명확하게 제시합니다. 한 세션에서 64가지 고유한 창의적 변형을 생성하려면 품질 저하 없이 높은 출력 토큰 속도를 유지해야 합니다. 3.1 Pro 대비 약 4배의 초당 토큰 속도로, Flash는 이러한 배치 창의적 탐색을 합리적인 시간 안에 실현 가능하게 합니다 . 동일한 배치를 동등한 품질의 느린 모델로 처리하면 약 4배 더 오래 걸립니다 — 첫 번째 좋은 옵션까지의 시간이 중요한 반복적 디자인 워크플로우에서는 배가되는 차이입니다.

Checkout UX 데모는 현재 AI Studio에 접근 가능한 개발자가 가장 즉시 재현할 수 있는 데모입니다. AI Studio 내 반복 코드 생성은 Flash의 처리량으로 피드백 루프를 압축하면서 UI 컴포넌트를 연속적으로 개선하며, Antigravity 2.0이 필요하지 않습니다. 이것은 추가 제품 출시를 기다리지 않고 개발자의 기존 워크플로우에 가장 직접 적용 가능한 데모입니다.

Gemini Spark 데모는 다섯 가지 중 인프라 의존도가 가장 높습니다. 24/7 사전 예방적 에이전트 행동 — 명시적 지시 없이 견과류 없는 간식 목록을 생성하고 Instacart로 푸시하는 것 — 은 지속적인 세션 상태와 앱 간 인증이 필요합니다. Google은 2026년 5월 19일 I/O 발표 이후 약 1주일 내에 AI Ultra 구독자에게 더 넓은 베타 접근을 제공할 것을 밝혔습니다 . 개발자 API가 아닌 소비자 제품으로서, 그 아키텍처는 맞춤형 에이전트 구현에 직접 이식할 수 없습니다.

장면 보존 주장은 검증됐나?

Omni 데모에는 두 가지 층위의 근거가 존재한다. Google이 공식 큐레이션한 9개 영상 세트와 독립적으로 문서화된 확장 세트다. Omni 아키텍처 주장은 구체적이고 검증 가능한 구조를 갖추고 있지만, 2026년 5월 31일 기준으로 공인된 외부 출처의 벤치마크 데이터는 부재하며, 데모는 여러 운용상의 질문에 답하지 않은 채로 남아 있다.

nvinio.com은 I/O 기간 동안 총 11개의 데모 변형을 독립적으로 문서화했는데, 이는 Google의 공식 5월 29일 게시물보다 두 개 많은 수치다 . 추가된 변형에는 운동선수 스니커 협업 발표를 지속적으로 추적하는 검색 기반 정보 에이전트와 Gyroid 패턴용 생성형 UI 데모가 포함됐다. 더 넓은 커버리지는 데모 세트가 공식 큐레이션 게시물이 제시하는 것보다 훨씬 광범위함을 확인해 준다. 이는 Google이 유리한 엣지 케이스만 보여주는지, 아니면 다양한 태스크 유형에 걸쳐 테스트하는지를 평가할 때 유용한 신호다.

"버블 조각과 액체 거울 데모는 물리적으로 일관된 행동을 보인다. 동일한 그림자 기하학, 접촉 지점에서의 정확한 파문 전파가 그 예다. 이는 새로운 클립 생성과는 양립할 수 없는 특성으로, 순수한 시각적 유사성 주장만으로는 얻기 어려운 더 강력한 검증 신호를 제공한다." — AtlasCloud AI 분석, 2026년 5월

5월 19일 블로그에서 Kavukcuoglu가 레이어별로 설명한 아키텍처는 영상에서 관찰 가능한 내용과 구체적으로 대응된다 . Genie 월드 시뮬레이션 컴포넌트는 액체 거울 데모에서 물리 전파의 원천으로 주장되며, 터치 지점에서 바깥쪽으로 정확히 퍼지는 파문은 월드 물리 표현이 만들어낼 결과 그대로다. 이 컴포넌트 없이는 시각적으로 그럴듯하지만 물리적으로 임의적인 파문 패턴이 생성됐을 것이다. 재질 편집을 담당하는 Nano Banana 레이어는 버블 조각 변환에서 관찰 가능한 결과와 대응된다. 방향 조명 설정을 건드리지 않고 표면 재질만 교체되는 것이 그 예다. 명시된 아키텍처와 관찰된 데모 동작 사이의 이 대응은 의미 있는 신호이지만, 독립적인 감사에 해당하지는 않는다.

데모가 보여주지 않는 것, 즉 여전히 미지의 영역으로 남은 것들:

편집당 처리 지연 시간: 영상에 타이밍 데이터가 전혀 나타나지 않는다. 각 편집이 5초 걸리는지 120초 걸리는지 데모만으로는 알 수 없다.
턴 간 컨텍스트 윈도 한계: Omni가 장면 상태 저하 없이 얼마나 많은 순차적 편집을 지속할 수 있는지는 2026년 5월 31일 기준 데모 세트나 공개된 기술 문서 어디에서도 다루지 않는다.
실패 사례: 품질이 저하된 출력이나 실패한 변환은 전혀 보여주지 않는다. 이는 업계 전반 제품 데모의 표준 관행으로, 특정 비판이 아니다. 다만 현실적인 기대치 형성과 관련해 짚어둘 필요가 있다.
절대적 품질 위상: 독립 리뷰어들은 Omni를 원시 영화적 품질 면에서 탄탄한 중상위권으로 평가하면서도, 영화적 품질에서 Seedance 2.0 및 Kling 3.0에 뒤처진다고 평했다 . 장면 보존 능력은 차별화되지만, 절대적 출력 품질은 현재 시장 최정상에 있지 않다.

Flash의 4배 처리량 주장에 대해: 이 수치는 Google 자체 2026년 5월 19일 릴리스 문서에서 비롯된다 . 2026년 5월 31일 기준으로 공인된 리더보드에서 Flash 대 3.1 Pro 처리량 비교 데이터를 발표한 독립 벤치마크는 없다. 공개된 태스크 정확도 벤치마크인 Terminal-Bench 2.1, GDPval-AA, MCP Atlas는 모두 Google 자체 릴리스 자료에서 나온 것이다 . 4배 수치는 방향성 측면에서 신뢰할 만하지만, 독립적인 결과가 나오기 전까지는 외부 출처에 의해 검증되지 않은 수치로 다뤄야 한다.

Vertex AI 정식 출시 현황 vs. 아직 프리뷰 단계

2026년 5월 31일 기준, 두 모델 패밀리는 개발자 가용성 면에서 매우 다른 단계에 위치합니다. 이를 혼동하면 로드맵 계획을 섣불리 세우거나, 가까운 시일 내 기회를 놓치게 됩니다. 아래 표는 마케팅 포지셔닝이 아닌 확인된 상태를 반영합니다.

gemini-3.5-flash는 GA(정식 출시)되어 Vertex AI와 Google AI Studio에서 사용할 수 있으며, 모델 ID가 확정되어 지금 바로 호출 가능합니다 . 2026년 5월 19일부터 Gemini 소비자용 앱의 기본 모델로 채택되어, 대부분의 개발자가 통합하기 전에 이미 대규모 사용자에게 적용되고 있습니다. API 가격은 공개되어 있으며, 입력 토큰 100만 개당 $1.50, 출력 토큰 100만 개당 $9.00, 캐시된 입력 토큰 100만 개당 $0.15입니다 . 이는 Gemini 3.1 Pro의 $2.00/$12.00 요금보다 약 25% 저렴한 수준으로, Flash의 정확도가 목표 작업에 충분한 경우 대용량 에이전트 워크로드에서 의미 있는 비용 절감이 가능합니다.

Gemini Spark(3.5 Flash 기반)는 I/O 직후 AI Ultra 구독자 프리뷰에 진입했으며, 2026년 5월 19일 발표 후 약 1주일 이내에 더 폭넓게 출시될 예정이었습니다 . 5월 31일 기준으로 해당 기간이 경과했으므로, AI Ultra 구독자라면 현재 가용 여부를 직접 확인해 보시기 바랍니다. Gemini Spark는 소비자용 제품으로, 개발자 API 서비스가 아닙니다.

Gemini Omni는 2026년 5월 31일 현재 데모 전용입니다. 공개 API 엔드포인트도, 개발자 프리뷰 프로그램도, 공표된 일정도, 공개된 개발자 API 가격도 없습니다 . Google의 공식 입장은 "몇 주 안에 출시 예정"이라는 표현으로, 확정 날짜 없이 여러 공식 커뮤니케이션에 반복 등장하고 있습니다. 소비자 대상 접근은 좀 더 구체화되어 있습니다. YouTube Shorts와 YouTube Create 앱에서는 무료이며, 유료 티어는 AI Plus(월 $7.99), AI Pro(월 $19.99), AI Ultra(월 $99.99 또는 $199.99)입니다 . 이는 어디까지나 개발자 API가 아닙니다.

Antigravity 2.0 IDE는 공식 I/O 자료에 공개 출시 일정이 없으며, Google의 별도 발표가 있을 때까지 내부 도구로 취급해야 합니다. 이 IDE가 시연하는 병렬 서브 에이전트 디스패치 패턴은 현재 Gemini API와 수동 병렬 호출 오케스트레이션으로 근사할 수 있습니다. 기반 모델은 사용 가능하지만, 독점 오케스트레이션 환경은 아직 공개되지 않았습니다.

계획 수립 시 추가로 주목해야 할 두 가지 공백도 있습니다. Gemini 3.5 Pro는 Google 내부에서 이미 사용 중인 것으로 알려져 있으며, Sundar Pichai는 2026년 6월 더 폭넓은 출시를 목표로 하고 있으나 확정된 날짜는 없습니다 . 그리고 Omni의 오디오 편집 기능은 안전성 및 딥페이크 우려로 인해 무기한 연기된 상태로, 음성 대화나 사운드 디자인이 포함된 클립의 편집 완성도가 제한됩니다.

3.1 Pro에서 3.5 Flash로: 속도 향상과 호환성

현재 프로덕션에서 gemini-3.1-pro를 운영 중이고 업그레이드를 검토하고 있다면, gemini-3.5-flash로 모델 ID만 교체하면 됩니다 — Gemini 3.5 시리즈의 첫 번째 모델로, 2026년 5월 19일부터 GA로 출시되었습니다 . 이 교체가 실제로 의미 있는지는 전적으로 워크로드 특성에 달려 있습니다.

처리량 향상 — 3.1 Pro 대비 출력 토큰 초당 약 4배 — 은 고빈도 코딩 루프, 반복 생성 파이프라인, 병렬 서브태스크 패턴에서 실질적인 효과가 가장 큽니다 . 이는 I/O 데모가 보여주도록 설계된 바로 그 워크로드 유형입니다. 애플리케이션이 다수의 생성 호출을 동시에 디스패치하거나, 사용자 액션당 여러 모델 호출을 직렬화하거나, 반복 간 지연이 사용자에게 직접 체감되는 코딩 어시스턴트 루프를 실행한다면 처리량 차이는 빠르게 누적됩니다. 비용 절감 — 입력 토큰 백만 개당 $1.50 대 $2.00으로 3.1 Pro보다 약 25% 저렴 — 은 대용량 워크로드에서 더욱 설득력 있는 이유가 됩니다 .

Google의 2026년 5월 19일 출시 데이터 기준, Flash의 태스크 정확도 벤치마크 공개 우위:

Terminal-Bench 2.1: 76.2% (Flash) vs. 70.3% (3.1 Pro)
GDPval-AA: 1,656 Elo (Flash) vs. 1,314 Elo (3.1 Pro)
MCP Atlas: 83.6% (Flash) vs. 78.2% (3.1 Pro)
CharXiv Reasoning: 84.2% (Flash)

동일 출시 데이터 기준, 3.1 Pro가 여전히 Flash를 앞서는 영역:

Humanity's Last Exam: 44.4% (Pro) vs. 40.2% (Flash)
ARC-AGI-2: 77.1% (Pro) vs. 72.1% (Flash)
Long-context 128k 검색: 84.9% (Pro) vs. 77.3% (Flash)

3.1 Pro를 유지하는 것이 정당한 경우: 복잡한 문서에 대한 심층 추론에 의존하는 워크로드, 형식적 추론 난이도의 최전선에 근접한 태스크, 그리고 검색 정확도 7.6%포인트 차이가 운영상 유의미한 128k 토큰 장문 컨텍스트 검색. 이 경우 Flash의 처리량 우위는 성능 저하를 상쇄하지 못합니다. Flash의 컨텍스트 윈도우는 입력 토큰 1,048,576개에 64K 출력 용량, 지식 컷오프는 2026년 1월입니다 — 입력 윈도우 크기는 3.1 Pro와 동일하며, 차이는 윈도우 자체가 아니라 장문 컨텍스트에서의 검색 정확도에 있습니다.

위 벤치마크 수치 전반에 적용되는 중요한 주의 사항이 있습니다: 이 수치들은 공인 리더보드의 독립적인 제3자 평가가 아닌 Google의 자체 출시 문서에서 나온 것입니다. 방향성 시그널은 신뢰할 수 있지만, 전면 전환을 결정하기 전에 자신의 특정 워크로드와 태스크 분포로 직접 평가를 실행해야 합니다. TechCrunch의 2026년 5월 19일 Flash 분석에서는 Google이 챗봇이 아닌 에이전트를 설계 방향으로 명시적으로 베팅하고 있음을 지적했습니다 — 벤치마크 선택에는 이 관점이 반영되어 있으며, Flash의 처리량 프로필이 가장 유리한 에이전틱·코딩 태스크 유형에 비중이 쏠려 있습니다 .

자주 묻는 질문

Gemini Omni는 Veo 3과 어떻게 다른가요?

Veo 3은 편집 요청마다 새 프롬프트로 완전히 새로운 클립을 생성하며, 대화 간에 장면 기억이 유지되지 않습니다. Gemini Omni는 다중 턴 대화형 편집 전반에 걸쳐 장면 컨텍스트를 보존합니다. 물리 시뮬레이션(Genie 월드 시뮬레이션 레이어 경유), 조명 기하학, 캐릭터 정체성이 연속된 지시를 거쳐도 초기화 없이 유지됩니다. 아키텍처 측면에서 Omni는 Gemini의 추론 엔진, Veo의 렌더링 레이어, DeepMind의 Genie 월드 시뮬레이션, Nano Banana 이미지 편집 레이어를 하나로 통합합니다 . 이로써 편집 간에 장면 상태가 초기화되지 않고 누적되는 파이프라인이 구성되며, 프롬프트-재생성 방식 모델과 비교해 반복적 영상 편집의 작동 방식을 근본적으로 바꿉니다.

`gemini-3.5-flash`는 현재 API에서 사용할 수 있나요?

네. gemini-3.5-flash는 2026년 5월 19일 Vertex AI와 Google AI Studio 양쪽에서 정식 출시(GA)되었습니다 . Gemini 3.5 패밀리의 첫 번째 모델로, 기존 3.x API 통합의 드롭인 대체재 역할을 합니다. 공개된 API 가격은 입력 토큰 100만 개당 $1.50, 출력 토큰 100만 개당 $9.00, 캐시된 입력 토큰 100만 개당 $0.15이며, 코딩 및 에이전틱 작업에서 동급 품질 기준으로 Gemini 3.1 Pro보다 약 25% 저렴합니다 . 컨텍스트 윈도우는 입력 토큰 1,048,576개, 출력 용량 64K입니다.

Gemini Omni는 언제 개발자에게 공개되나요?

2026년 5월 31일 현재 개발자 API나 프리뷰 프로그램은 발표되지 않았습니다. Google의 공식 입장은 "곧 몇 주 안에 제공"이며, 개발자 API 티어에 대한 확정 일정이나 가격은 공개되지 않았습니다. 소비자용 접근 방식은 정해져 있습니다. Omni는 YouTube Shorts와 YouTube Create 앱에서 무료로 이용 가능하며, 유료 티어는 AI Plus($7.99/월), AI Pro($19.99/월), AI Ultra($99.99/월 또는 $199.99/월)입니다 . 오디오 편집 기능은 딥페이크 안전 문제로 여전히 보류 중입니다. 구체적인 날짜와 가격이 발표되기 전까지는 Omni API를 중심으로 한 개발자용 일정을 수립하지 마십시오.

Gemini 3.5 Flash는 3.1 Pro보다 얼마나 빠른가요?

Google의 2026년 5월 19일 출시 문서에 따르면 초당 출력 토큰 기준 약 4배 빠릅니다 . Flash는 코딩 및 에이전틱 벤치마크에서도 3.1 Pro를 앞섭니다: Terminal-Bench 2.1(76.2% 대 70.3%), GDPval-AA(1,656 Elo 대 1,314 Elo), MCP Atlas(83.6% 대 78.2%) . 2026년 5월 31일 현재 제3자 독립 처리량 벤치마크는 발표되지 않았습니다. 4배라는 수치는 Google의 자체 주장으로, 방향성은 신뢰할 만하지만 외부 검증은 아직 이루어지지 않았습니다.

Flash 데모에서 선보인 Antigravity 2.0 IDE는 무엇인가요?

Antigravity 2.0은 3.5 Flash I/O 데모에서 병렬 에셋 분류와 협업 서브태스크 실행에 사용된 에이전틱 코딩 환경입니다. Gemini API와 별개의 제품으로, 병렬 서브에이전트를 디스패치하는 오케스트레이션 런타임 역할을 합니다. 2026년 5월 31일 현재 공식 I/O 자료에는 퍼블릭 출시 일정이 나와 있지 않습니다 . Google이 외부 공개를 발표할 때까지 내부 도구로 취급하십시오. 이를 구동하는 기반 Flash 모델은 현재 API를 통해 호출 가능하지만, 데모에서 선보인 병렬 오케스트레이션 환경은 그렇지 않습니다.

지금 바로 구현할 것, 그리고 기다려야 할 것

Google I/O 2026에서 공개된 두 모델 패밀리는 준비 상태가 실질적으로 다르며, 가용성을 데모 발표와 분리하면 개발자의 실질적 판단은 명확해집니다. gemini-3.5-flash는 현재 이용 가능하고, 가격이 책정되어 있으며, 벤치마크 데이터가 공개되어 있습니다. 워크로드가 병렬 에이전틱 작업, 반복적 코드 생성, 또는 지연 시간이 누적되는 고빈도 사용자 대면 생성이라면 처리량 및 비용 프로파일을 즉시 평가할 가치가 있습니다. 3.1 Pro를 계속 사용할 가장 강력한 근거는 대규모 장문 컨텍스트 검색과 프런티어 추론 작업이며, 두 가지 모두 Flash의 공개 벤치마크에서 측정 가능한 성능 저하가 나타납니다. 완전히 전환하기 전에 특정 태스크 분포를 대상으로 A/B 평가를 진행하십시오. 벤치마크 프로파일은 Google 자체 출시 자료에서 가져온 것으로, 에이전틱 워크로드를 지향하는 설계 방향을 반영합니다.

Omni의 경우: 장면 보존 아키텍처는 이전 프롬프트-재생성 모델의 실질적 한계를 해결하며, 다중 턴 대화 패턴은 Veo 3.x 재생성 사이클보다 개발자의 반복 작업 방식에 더 자연스럽게 대응합니다. 하지만 현재 호출이 불가능하고, 공개된 API 가격도 없으며, "몇 주 안에"라는 말 외에 확정된 일정이 없습니다. 보존 주장에 대한 데모 증거는 일반적인 제품 마케팅보다 강력합니다. 그림자 기하학과 물리 전파 신호가 관찰 가능하며 재생성으로는 만들어내기 어렵습니다. 다만 프로덕션 활용에서 중요한 운영 질문들, 즉 턴당 지연 시간, 편집 전반의 컨텍스트 윈도우, 깊이에 따른 성능 저하는 여전히 답이 없습니다. API가 출시되면 이 수치들이 가장 먼저 벤치마킹해야 할 항목입니다.

Gemini 3.5 Pro(2026년 6월 목표, 확정 일정 없음)와 Flash의 외부 처리량 벤치마크, 이 두 가지 외부 신호가 향후 30~60일간 의사결정 프레임워크를 가장 명확히 해줄 것입니다. 해당 결과가 나오기 전까지 Flash 대 3.1 Pro 비교는 Google 자체 데이터에 의존하며, 방향성을 잡기에 충분히 상세하지만 독립 검증된 자료로 간주해서는 안 됩니다 .

최종 업데이트: 2026-05-31. 이 글은 2026년 5월 29일까지의 공식 Google 발표와 동일 날짜까지 독립적으로 문서화된 데모 내용을 반영합니다. 가용성 상태, 벤치마크 수치, 가격은 제3자 평가, Gemini API 출시, Gemini 3.5 Pro 가용성 확인에 따라 변경될 수 있습니다.