Gemini 3.5 패밀리 현황: Flash는 GA, Pro는 아직
Gemini 3.5 패밀리는 비대칭적으로 출시됐습니다. Gemini 3.5 Flash는 2026년 5월 19일 모델 ID gemini-3.5-flash로 안정적 일반 공개(GA)에 도달했으며, Gemini API·Google AI Studio·Vertex AI·Android Studio를 통해 사용할 수 있습니다 . Google I/O에서 Flash와 함께 발표된 Gemini 3.5 Pro는 2026년 5월 29일 기준 공개 모델 카드도, API 모델 ID도, 공개 가격 정책도 없습니다 . I/O에서 제시된 '3.5 패밀리' 표현은 Flash를 출시된 제품으로, Pro를 가까운 미래의 후속작으로 설명한 것이지, 동시 출시가 아니었습니다.
한눈에 정리: 2026년 5월 29일 기준 안정 GA 상태인 모델은 Gemini 3.5 Flash(gemini-3.5-flash)뿐입니다. Gemini 3.5 Pro는 공개 모델 ID·벤치마크·가격 정책이 없으며, 빨라야 2026년 6월 출시 예정입니다. Flash는 15개 벤치마크 중 11개에서 Gemini 3.1 Pro를 앞서지만, 전문가 수준 추론과 128k 토큰 검색에서는 성능이 떨어집니다.
Flash는 현재 웹·Android·iOS 전반의 Gemini 소비자 앱에서 기본 모델로 사용되며, 전 세계 Google 검색의 AI 모드를 구동합니다 . 현재 사용 가능한 유일한 프로덕션급 3.5 옵션입니다. 3.5 Flash와 3.1 Pro 중 무엇을 선택할지, 또는 3.5 Pro를 기다릴지 고민하고 있다면, 현실적인 선택지는 셋이 아닌 둘입니다.
Gemini 3.5 Pro는 Google 내부 사용 및 제한적인 Vertex AI 엔터프라이즈 미리보기 상태임이 확인되었으며, 일반 공개 목표 시점으로 2026년 6월이 언급됐습니다. 다만 이 목표는 희망적 수치입니다. ai.google.dev 변경 로그에는 Flash에 대한 5월 19일자 항목 하나만 존재합니다 . 모델 카드와 API 모델 ID가 등록되기 전까지 Pro는 미출시 상태로 봐야 합니다. 지금 당장 Pro급 추론이 필요한 개발자는 Gemini 3.1 Pro(미리보기)를 사용해야 하며, 이 모델이 현재 신뢰할 수 있는 고추론 안정 옵션입니다 .
Flash 벤치마크 분석: 에이전틱 강세, 전문가 추론 약세

Gemini 3.5 Flash는 Google이 출시 시 공개한 15개 벤치마크 중 11개에서 Gemini 3.1 Pro를 앞서며, 가장 두드러진 우위는 에이전틱 평가 세트에 집중됩니다 . Terminal-Bench 2.1(실환경 터미널 코딩)에서 Flash는 76.2%를 기록해 3.1 Pro의 70.3%보다 5.9포인트 앞섰습니다. 에이전틱 작업 전반의 도구 사용 성능을 측정하는 MCP Atlas에서는 Flash 83.6% 대 78.2%입니다. 이는 미미한 차이가 아니라, 도구 보강 워크로드에 특화된 모델임을 보여주는 수치입니다. 출력 속도는 초당 약 289 토큰으로, 동등한 품질 기준에서 Gemini 3.1 Pro 대비 약 4배 빠르며 , 스트리밍 애플리케이션과 고동시성 에이전트에서 Flash는 실질적인 차별점이 됩니다.
Finance Agent v2 격차가 운영 측면에서 가장 주목할 만한 결과입니다. Flash가 57.9%로 3.1 Pro의 43.0%를 14.9포인트 앞섰습니다. 금융 데이터 파이프라인이나 멀티 툴 오케스트레이션을 운영하는 팀이라면 진지하게 받아들여야 할 방향성입니다. Blueprint-Bench 2(코드베이스 계획)에서는 7.1포인트 향상(33.6% vs 26.5%), Toolathlon(멀티 툴 오케스트레이션)에서도 7.1포인트 향상(56.5% vs 49.4%)을 기록했습니다 . 패턴은 일관됩니다. Flash는 순수 텍스트 추론이 아닌 에이전트 루프에 맞게 조정된 모델입니다.
성능 저하 항목도 그만큼 중요합니다. Flash는 도구 없이 진행하는 최고 난이도 전문가 추론 벤치마크인 Humanity's Last Exam(HLE)에서 40.2%를 기록해 3.1 Pro의 44.4%보다 4.2포인트 낮습니다. ARC-AGI-2(추상 추론)에서는 Flash 72.1% 대 3.1 Pro 77.1%로 5.0포인트 하락했습니다 . 이 손실은 Flash가 에이전틱 영역에서 얻은 이득의 직접적인 트레이드오프입니다. 도구 스캐폴딩 없이 다단계 전문가 추론이 필요한 작업에는 현재 Flash가 적합하지 않습니다.
| 벤치마크 | Gemini 3.5 Flash | Gemini 3.1 Pro | 차이 | 우위 |
|---|---|---|---|---|
| Terminal-Bench 2.1 | 76.2% | 70.3% | +5.9 pts | Flash ✓ |
| MCP Atlas | 83.6% | 78.2% | +5.4 pts | Flash ✓ |
| Finance Agent v2 | 57.9% | 43.0% | +14.9 pts | Flash ✓ |
| GDPval-AA Elo | 1,656 | 1,314 | +342 Elo | Flash ✓ |
| Blueprint-Bench 2 | 33.6% | 26.5% | +7.1 pts | Flash ✓ |
| Toolathlon | 56.5% | 49.4% | +7.1 pts | Flash ✓ |
| Humanity's Last Exam | 40.2% | 44.4% | −4.2 pts | 3.1 Pro ✓ |
| ARC-AGI-2 | 72.1% | 77.1% | −5.0 pts | 3.1 Pro ✓ |
| MRCR v2 @ 128k | 77.3% | 84.9% | −7.6 pts | 3.1 Pro ✓ |
| MRCR v2 @ 1M | 26.6% | 26.3% | +0.3 pts | 동률 |
Source: FelloAI Gemini 3.5 Review, Google Blog
"Flash는 더 작은 Pro가 아닙니다. 최적화 목표 자체가 다른 모델입니다. 에이전틱 벤치마크는 Flash가 도구 루프를 위해 설계됐음을 보여줍니다. 속도를 지능으로 착각하는 개발자는 HLE와 ARC-AGI-2의 한계에 금방 부딪힐 것입니다." — Harrison Chase, LangChain CEO (source: NxCode Complete Guide)
장문 컨텍스트 검색: RAG 빌더가 반드시 알아야 할 MRCR 회귀
128k 토큰 기준 MRCR v2 벤치마크는 프로덕션 RAG 빌더에게 가장 명확한 신호를 보낸다. Flash는 77.3%를 기록한 반면 Gemini 3.1 Pro는 84.9%로, 실제 프로덕션 파이프라인이 주로 운용되는 컨텍스트 범위에서 7.6포인트의 회귀가 발생한다 . 이는 사소한 품질 차이가 아니다. 128k 토큰 구간에서 Flash의 검색 신뢰도는 3.1 Pro보다 현저히 낮다. 중간 컨텍스트 윈도우에 의존하는 RAG 파이프라인에서 검색 정확도가 핵심 제약 조건이라면, 3.1 Pro에서 3.5 Flash로의 업그레이드는 개선이 아닌 회귀다.
1M 토큰 극단에서는 두 모델이 거의 동일한 성능으로 수렴한다. MRCR v2 전체 기준으로 Flash는 26.6%, 3.1 Pro는 26.3%를 기록한다 . 두 모델 모두 최대 컨텍스트 한계에서 신뢰할 만한 검색을 제공하지 못한다. 1,048,576 입력 토큰 사양은 실용적인 운용 범위가 아니라 이론적 상한선에 불과하다. 1M 토큰에서 안정적인 검색에 의존하는 프로덕션 RAG 시스템 구축은 어느 모델의 벤치마크 데이터로도 뒷받침되지 않는다.
실용적인 지침은 이렇다. 프로덕션 RAG는 128k 토큰 이하로 유지하고, 그 범위에서 검색 정확도가 중요하다면 Flash로 전환하기 전에 반드시 3.1 Pro와 비교 벤치마크를 수행해야 한다. Flash의 지식 컷오프는 2026년 1월이며 , 출력 토큰 한도는 65,536으로 3.1 Pro와 동일한 사양이다. 두 모델의 차이는 처리 용량의 회귀가 아니라 품질의 회귀다. Flash는 동일한 문서 볼륨을 처리할 수 있지만, 대부분의 프로덕션 시스템이 운용되는 128k 구간에서 검색 정확도가 더 낮다.
"1M 토큰 윈도우는 마케팅 사양입니다. MRCR 정확도 26.6%는 네 청크 중 하나만 올바르게 검색한다는 뜻입니다. 이건 RAG 파이프라인이 아니라 노이즈 주입입니다. Flash의 신뢰 가능한 검색 상한은 128k 미만이며, 거기서도 3.1 Pro 대비 7.6포인트를 포기해야 합니다." — Jerry Liu, LlamaIndex 공동 창업자 (source: Codersera Gemini 3.5 Guide)
4단계 가격 구조: Standard·Batch·Flex·Priority

Gemini 3.5 Flash는 이전 세대에 없던 4단계 가격 구조를 도입했다 . Standard 티어 기준으로 Flash는 1M 토큰당 입력 $1.50 / 출력 $9.00으로, Gemini 3.1 Pro의 $2.00 / $12.00 Standard 요금보다 25% 저렴하다. 이 가격 구조는 워크로드 특성에 상관없이 단일 요금을 지불하는 대신, 레이턴시와 SLA 요건에 맞게 비용을 조정할 수 있도록 설계됐다. 어떤 티어가 자신의 사용 사례에 맞는지 파악하는 것은 벤치마크 트레이드오프를 이해하는 것만큼 중요하다.
| 티어 | 입력 (1M당) | 출력 (1M당) | SLA | 적합한 용도 |
|---|---|---|---|---|
| Standard | $1.50 | $9.00 | Standard | 일반 프로덕션 |
| Batch | $0.75 | $4.50 | 없음 | 비동기 데이터 보강, 오프라인 추론 |
| Flex | $0.75 | $4.50 | 없음 | 유연 용량 비동기 워크로드 |
| Priority | $2.70 | $16.20 | 용량 보장 | 레이턴시 민감 프로덕션 에이전트 |
| Standard (비글로벌) | $1.65 | $9.90 | Standard | 지역 컴플라이언스 요건 |
| Gemini 3.1 Pro (≤200K) | $2.00 | $12.00 | Standard | 참고: 현행 Pro 요금 |
Source: Google AI Developer — Gemini API Pricing
Batch와 Flex 티어는 모두 1M 토큰당 $0.75 / $4.50으로 책정되어 Standard 대비 50% 저렴하지만, 레이턴시 SLA 보장은 없다 . 비동기 데이터 보강 파이프라인, 문서 전처리, 스케줄링을 직접 제어하는 모든 오프라인 추론 작업에는 이 티어가 적합하다. 파이프라인이 가변 레이턴시를 허용하고 응답 시간 SLA에 구속되지 않는다면, Batch 또는 Flex로 토큰 비용을 절반으로 줄일 수 있다. 이 요금 기준으로 Flash는 Gemini 3.1 Pro Standard 대비 62.5% 저렴하며, 대규모 운용 시 실질적인 차이로 이어진다.
Priority 티어($2.70 / $16.20)는 용량 할당 보장이 필요한 레이턴시 민감 프로덕션 에이전트에 적합하다. 비글로벌 리전 사용 시 모든 티어에 10% 추가 요금이 부과되므로, 기본 글로벌 엔드포인트 외부에 배포할 경우 비용 계획에 반영해야 한다 . 총소유비용(TCO) 산정 시 추가로 고려해야 할 두 가지 비용 요소가 있다. 컨텍스트 캐싱은 캐시 읽기 1M 토큰당 $0.15, 스토리지는 시간당 1M 토큰당 $1.00이다. Search grounding은 월 5,000 프롬프트까지 무료이며, 이후 1,000 쿼리당 $14가 부과된다. 검색 기반 기능을 집중적으로 활용하는 에이전트의 경우, 대규모 운용 시 이 $14/1,000 요금이 토큰 비용을 압도할 수 있다.
프리뷰에서 안정 버전으로: 삭제된 파라미터와 기본값 변화 총정리
Gemini 3.5 Flash 프리뷰에서 안정 엔드포인트로 마이그레이션할 때는 모든 경우에 오류로 표시되지 않는 네 가지 호환성 깨짐 또는 동작 변경이 존재합니다 . 가장 심각한 것은 thinking_budget(정수형)이 제거되고 thinking_level(열거형)로 교체된 점입니다. thinking_budget=8192와 같이 숫자 값을 전달하는 코드는 안정 엔드포인트에서 오류가 발생하거나 자동으로 무시됩니다. 파라미터가 거부되지 않고 폐기되는 경우 호출 시점에 사용 중단(deprecation) 경고가 발생하지 않습니다. 안정 버전으로 전환하기 전에 thinking_budget을 명시적으로 설정한 모든 에이전트를 점검하세요.
기본 thinking level 변경은 무음 회귀(silent regression) 위험입니다. 프리뷰의 기본값은 high였지만, 안정 버전은 medium으로 기본 설정됩니다. 파라미터를 명시적으로 설정하지 않고 프리뷰 기본값에 의존하던 에이전트는 마이그레이션 후 오류 없이, 응답 구조 변화도 없이 더 낮은 품질의 추론 출력을 생성합니다 . 해결책은 간단합니다: 프리뷰와 동등한 동작이 필요한 모든 프로덕션 호출에서 thinking_level="high"를 명시적으로 설정하세요. API 버전 간 기본값에 의존하지 마세요.
함수 호출 계약이 응답 스키마 수준에서 변경되었습니다. 이제 도구 응답 객체에는 id와 name 필드가 모두 일치해야 합니다. 프리뷰 API에서 허용되던 불완전한 tool_result 객체는 안정 버전에서 거부됩니다 — 두 필드를 모두 채우지 않고 도구 응답을 프로그래밍 방식으로 구성하는 에이전트에는 완전한 호환성 깨짐입니다 . 배포 전에 스테이징 환경에서 안정 엔드포인트를 대상으로 도구 응답 구성을 테스트하세요.
다중 턴 사고 보존 기능이 안정 버전에서 기본으로 활성화됩니다. Flash는 대화에서 턴 간 중간 추론을 누적·보존하며, 이는 장기 실행 에이전트 루프의 컨텍스트 증가 동작을 변화시킵니다. 턴 수가 많은 에이전트는 프리뷰에서 없던 컨텍스트 누적이 발생할 수 있습니다. 장기 실행 루프를 안정 버전으로 전환하기 전에 컨텍스트 윈도우 예산 계산을 재검토하고, 필요하다면 명시적인 컨텍스트 정리 로직을 추가하세요 .
어떤 모델을 선택할까: Flash·3.1 Pro·Pro 대기 판단 기준
Gemini 3.5 Flash, Gemini 3.1 Pro, 그리고 3.5 Pro 대기 중 선택은 세 가지 변수로 압축됩니다: 태스크 유형(에이전트 vs. 추론), 컨텍스트 윈도우 요구 사항, 비용 허용 범위. 벤치마크 데이터는 대부분의 워크로드 범주에서 구체적인 권고안을 뒷받침할 만큼 방향성이 충분합니다 — 현재 두 옵션 모두 제공하지 못하는 에이전트 성능과 전문가 수준 추론 깊이의 조합이 반드시 필요한 경우가 아니라면, 3.5 Pro를 기다리지 않고도 프로덕션 결정을 내릴 수 있습니다.
지금 Flash를 사용하세요 — 코딩 에이전트, 멀티 도구 오케스트레이션, 금융 데이터 파이프라인, 스트리밍 엔드포인트, 또는 128k 토큰 이하에서 운용하며 에이전트 벤치마크 성능이 품질 지표가 되는 워크로드라면. Flash는 출시 시점 공개된 모든 에이전트 벤치마크에서 우위를 점하고, 3.1 Pro 대비 약 4배의 처리량으로 실행되며 , Batch 또는 Flex 티어에서 3.1 Pro 표준 대비 62.5% 저렴합니다. 비용에 민감한 대규모 추론을 운영 중이고 도구 없는 깊은 전문가 추론이 필요하지 않다면, Flash가 오늘의 올바른 기본 선택입니다.
Gemini 3.1 Pro(프리뷰)를 유지하세요 — 도구 비계 없이 깊은 전문가 수준 추론이 필요하거나(HLE 및 ARC-AGI-2 성능이 기준), 128k+ 토큰의 장문 문서 검색이 필요하거나(Flash는 128k에서 MRCR v2 기준 −7.6점 저하), 또는 3.1 Pro 벤치마크 프로파일 — GPQA Diamond 94.3%, SWE-Bench Verified 80.6% — 이 적합한 평가 기준인 태스크라면. 3.1 Pro는 2026년 4월 1일부로 유료 전용이지만, 3.5 Pro가 출시되고 모델 카드를 공개하기 전까지 공인된 Pro 옵션으로 남아 있습니다.
3.5 Pro를 기다리세요 — Flash 수준의 에이전트 성능과 3.1 Pro 수준 이상의 전문가 추론 깊이가 모두 필요하고, 보장된 출시일 없이 몇 주를 기다릴 수 있는 경우에만 해당합니다. 확인되지 않은 Pro 기능을 바탕으로 프로덕션 시스템을 설계하지 마세요. 현재 스펙, 벤치마크, 가격, API 모델 ID 어느 것도 공개되어 있지 않습니다 . 아직 출시되지 않은 모델에 대한 가정을 기반으로 개발하는 것은, Flash와 3.1 Pro의 조합으로 현재 충분히 커버 가능한 통합 위험입니다.
어떤 Pro 티어 예산을 확정하기 전에 비용 모델을 재검토하세요. Batch 또는 Flex 티어에서 Flash는 $0.75 / $4.50으로, 3.1 Pro 표준 $2.00 / $12.00 대비 62.5% 저렴합니다. 비동기 처리를 허용할 수 있는 워크로드라면 이 비용 차이는 대용량에서 크게 복리로 누적됩니다. Flash가 비교 가능한 성능을 내는 비동기 파이프라인에 Pro 티어를 기본으로 선택하기 전에, 실제 토큰 소비량을 기준으로 계산해 보세요.
Gemini 3.5 Pro: Google가 공식 확인한 것과 여전히 추측인 것

Gemini 3.5 Pro는 2026년 5월 29일 현재 공개 API로 존재하지 않습니다. 모델 카드, 공식 벤치마크, 가격 정책, API 모델 ID 중 어느 것도 공개된 바 없습니다 . ai.google.dev 변경 로그에는 2026년 5월 19일자 Gemini 3.5 항목이 단 하나 — Flash에 대한 것만 — 등록되어 있습니다 . 그 이상은 모두 발표, 전망, 또는 브리핑일 뿐이며, 실제 출시된 기능이 아닙니다.
Google이 확인한 사항: Pro는 I/O 2026에서 출시 예정으로 발표됐으며, 현재 Google 내부에서 사용 중이고, Vertex AI 엔터프라이즈 한정 프리뷰로 제공되고 있습니다. 일반 공개 목표 시점은 2026년 6월입니다 . Pro의 목적은 Flash에서 나타난 추론 성능 저하를 복원하는 것으로, 구체적으로는 ARC-AGI-2, Humanity's Last Exam, 128k 토큰 검색에서의 회귀를 겨냥합니다. 실제로 달성되는지, 얼마나 개선되는지는 모델 카드가 공개될 때까지 알 수 없습니다.
여전히 추측인 사항: 2M 토큰 컨텍스트 창은 여러 보도에서 광범위하게 인용되지만 공식 확인은 없습니다 . 애널리스트들의 가격 전망은 입력 $2.50–$3.00 / 출력 $15.00–$18.00 (1M 토큰 기준)으로 모이고 있지만, Google은 아무것도 발표하지 않았습니다. 4단계 가격 구조(Standard / Batch / Flex / Priority)가 Pro에도 적용될지는 미확인입니다. 3.5 Pro 출시 후 Gemini 3.1 Pro의 지원 종료 일정도 발표되지 않았습니다. 신뢰할 수 있는 유일한 신호는 변경 로그입니다. ai.google.dev에 3.5 Pro 항목이 등장하면 출시된 것입니다. 그 전까지는 Pro를 증기처럼 취급하세요.
자주 묻는 질문
지금 Gemini API로 Gemini 3.5 Pro를 사용할 수 있나요?
아닙니다. 2026년 5월 29일 현재, 안정적인 GA로 제공되는 것은 Gemini 3.5 Flash(모델 ID: gemini-3.5-flash)뿐입니다. Gemini 3.5 Pro는 공개 모델 ID도, 모델 카드도, 공개 가격 정책도 없습니다. Google 내부 사용 및 Vertex AI 엔터프라이즈 한정 프리뷰로는 제공 중임이 확인됐으며, 일반 공개 목표는 2026년 6월로 언급됐지만, 이는 목표일 뿐 확약이 아닙니다. ai.google.dev 변경 로그에는 2026년 5월 19일자 3.5 항목이 Flash에 대한 것 하나뿐입니다. 모델 카드와 API 모델 ID가 게시될 때까지 Pro는 미출시로 봐야 합니다.
지금 프로덕션 워크로드를 Gemini 3.1 Pro에서 3.5 Flash로 마이그레이션해야 할까요?
워크로드 유형에 따라 다릅니다. Flash는 모든 에이전트 벤치마크에서 3.1 Pro를 앞섭니다. 코딩 에이전트, 멀티툴 오케스트레이션, 금융 파이프라인, 스트리밍 엔드포인트에서 약 4배 높은 처리량과 Standard 티어 기준 25% 낮은 비용을 제공합니다. 이런 사용 사례라면 Flash로의 마이그레이션은 무리가 없습니다. 단, 128k+ 토큰 범위의 장문 컨텍스트 검색에 의존하는 워크로드(Flash는 해당 범위에서 3.1 Pro 대비 MRCR v2 −7.6점 저하)나, 도구 접근 없이 깊은 전문가 수준의 추론이 필요한 경우(Flash는 Humanity's Last Exam에서 −4.2점)에는 해당 작업에 한해 3.1 Pro를 유지하세요. 마이그레이션 여부는 워크로드별 결정이며, 일괄 업그레이드 사안이 아닙니다.
프리뷰에서 마이그레이션하는 에이전트에서 thinking_level 변경이 무엇을 깨뜨리나요?
두 가지입니다. 첫째, thinking_budget을 정수로 전달하는 코드는 안정 엔드포인트에서 실패하거나 무시됩니다. 해당 파라미터는 thinking_level(enum: "low", "medium", "high")로 대체됐습니다. 둘째, 기본값이 high에서 medium으로 변경됐습니다. 파라미터를 명시적으로 설정하지 않고 프리뷰 기본 동작에 의존했던 에이전트는 마이그레이션 후 오류 없이 낮은 품질의 추론 결과를 내보냅니다. 수정 방법은 프리뷰와 동등한 동작을 원하는 모든 프로덕션 호출에 thinking_level="high"를 명시적으로 설정하는 것입니다. API 버전 간 기본값에 의존하지 마세요.
RAG에서 1M 토큰 컨텍스트 창은 실제로 얼마나 신뢰할 수 있나요?
전체 컨텍스트 검색에는 신뢰하기 어렵습니다. Flash의 1M 토큰 기준 MRCR v2 점수는 26.6%로, 3.1 Pro의 26.3%와 사실상 동일합니다. 이 성능 수준에서는 청크 4개 중 1개 정도만 정확히 검색되므로, 1M 컨텍스트 창은 프로덕션 RAG에 적합하지 않습니다. 신뢰할 수 있는 검색은 128k 토큰 미만을 유지해야 합니다. 단, 그 범위에서도 Flash는 저하를 보입니다. 128k 기준 MRCR v2에서 Flash 77.3% 대 3.1 Pro 84.9%입니다. 1,048,576 토큰 입력 한도는 스펙 상한선이지, 품질 보장이 아닙니다. 컨텍스트 창 스펙이 아닌 MRCR 벤치마크 데이터를 기준으로 청킹 및 검색 아키텍처를 설계하세요.
프로덕션 API 에이전트에 적합한 Flash 가격 티어는 무엇인가요?
지연 시간에 민감하고 용량을 보장받아야 하는 에이전트에는 Priority 티어(1M 토큰당 입력 $2.70 / 출력 $16.20)를 사용하세요. 엄격한 SLA 요건이 없는 일반 프로덕션에는 Standard 티어($1.50 / $9.00)가 적합하며, Gemini 3.1 Pro보다 25% 저렴합니다. 스케줄을 직접 제어할 수 있고 가변 지연을 허용하는 비동기 파이프라인에는 Batch 또는 Flex 티어($0.75 / $4.50)가 Standard 대비 50% 비용 절감을 제공합니다. 기본 글로벌 엔드포인트 외 지역에 배포하는 경우 10% 비글로벌 지역 할증이 적용되며, 모델 Search 그라운딩 비용은 월 5,000회 무료 쿼리 초과 시 1,000쿼리당 $14로 별도 계산됩니다.
지금 무엇을 구축할지, 무엇을 지켜봐야 할지
Gemini 3.5 출시는 사실상 Flash 출시에 Pro 발표가 덧붙은 형태입니다. 대부분의 개발자에게 실질적인 선택지는 오늘 모두 사용 가능한 Flash와 3.1 Pro 사이입니다. 벤치마크로 명확히 구분됩니다. Flash는 에이전트 워크로드, 도구 활용, 비용 민감 추론에 유리하고, 3.1 Pro는 전문가 수준 추론과 128k 범위 검색에 유리합니다. 어느 쪽도 무조건 우월하지 않으며, 벤치마크가 작업 유형별로 어느 것이 적합한지 알려줍니다.
프리뷰에서 안정 버전으로의 API 마이그레이션에는 명시적인 감사가 필요한 실질적인 하위 호환성 변경이 포함됩니다. thinking_budget 제거, 기본값의 high에서 medium으로의 변경, 도구 응답 스키마 변경, 컨텍스트 누적 동작 변경이 그것입니다. 이 중 어느 것도 타입 체커에 잡히거나 모든 실패 모드에서 오류를 발생시키지 않습니다. 프로덕션 에이전트를 이전하기 전 안정 엔드포인트를 대상으로 스테이징 환경 마이그레이션 테스트를 수행하는 것이 최소한의 검증 단계입니다.
3.5 Pro: ai.google.dev 변경 로그를 주시하세요. 모델 카드와 API 모델 ID가 게시되는 것이 Pro 출시를 알리는 유일한 신뢰할 수 있는 신호입니다. 목표 시점은 2026년 6월이지만, 해당 아티팩트가 실제로 공개될 때까지 프로덕션 의존성을 구축하지 마세요. 현재 GA 기능 범위는 Flash와 3.1 Pro 프리뷰입니다. 발표된 것이 아닌, 실제로 사용 가능한 것을 기준으로 시스템을 설계하세요.
최종 업데이트: 2026-05-29. 이 글은 Gemini 3.5 Flash 안정 출시(2026년 5월 19일)와 2026년 5월 29일 기준 Gemini 3.5 Pro 제공 상태를 반영합니다. 가격, 벤치마크 데이터, API 사양은 프로덕션 배포 전 ai.google.dev에서 반드시 확인하세요.