Step 3.7 Flash는 드롭인 교체 가능 — 단 하나의 엔드포인트 세부사항 제외

StepFun Step 3.7 Flash: 네이티브 비전과 어드바이저 모드를 갖춘 198B MoE 모델로, OpenAI 호환 API를 즉시 사용 가능. 엔드포인트 주의사항 및 reasoning_effort 예제 포함.

Creeta

May 31, 2026

Step 3.7 Flash는 드롭인 교체 가능 — 단 하나의 엔드포인트 세부사항 제외

Step 3.7 Flash는 2026년 5월 29일 출시되었으며 3.5 Flash의 구조적 업그레이드입니다. OpenAI 호환 SDK는 그대로 유지되고, 비전 인코더·런타임 에스컬레이션·요청별로 설정 가능한 컴퓨팅 제어 플래그가 새롭게 추가되었습니다. 3.5에서의 마이그레이션은 환경 변수 두 개만 변경하면 됩니다. 그중 하나를 정확히 입력해야 합니다 — 그렇지 않으면 모든 호출이 조용한 401 오류를 반환합니다.

3.5에는 없던 3.7의 새로운 기능

Step 3.7 Flash는 3.5 Flash 대비 세 가지 순수 신규 기능을 추가합니다. 별도의 모델 호출 없이 이미지 표현을 언어 백본에 직접 주입하는 네이티브 18억 파라미터 ViT 인코더 , 실패 가능성이 높은 하위 작업을 런타임에 더 큰 모델로 라우팅하는 자동 Advisor Mode, 그리고 프롬프트 엔지니어링 관례가 아닌 1등급 API 플래그로 제공되는 reasoning_effort 파라미터(low / medium / high)입니다. 프로덕션 관점에서 주목할 수치는 분산입니다. 3.5 Flash의 점수는 벤치마크 환경에 따라 43%에서 73%까지 분포했으나 , 3.7은 이를 64.5–71.5%로 좁혔습니다 . 이는 원점수 향상보다 프로덕션 스케줄링에 더 큰 의미가 있습니다.

한눈에 보기: Step 3.7 Flash는 OpenAI SDK 호환 모델입니다. 모델 문자열 step-3.7-flash, 베이스 URL은 https://api.stepfun.ai/v1(글로벌) 또는 https://api.stepfun.com/v1(중국 리전). 3.5 대비 새로운 기능: 네이티브 비전 입력, 자동 Advisor Mode 에스컬레이션, reasoning_effort 플래그. 3.5에서의 유일한 브레이킹 체인지: 베이스 URL이 계정 리전과 정확히 일치해야 하며, 그렇지 않으면 오류 본문 없이 401이 반환됩니다.

아키텍처는 1,980억 파라미터의 희소 MoE 모델 로, 포워드 패스당 약 110억 파라미터가 활성화됩니다 . 훨씬 큰 용량에서 dense-10B 수준의 연산 비용을 실현합니다. SWE-Bench Pro는 51.3%에서 56.3%로 향상되었고 , Terminal-Bench 2.1은 53.4%에서 59.5%로 향상되었으며 , 코딩 에이전트에 중요한 계획 및 셸 작업 성능 향상이 벤치마크 전반에 걸쳐 일관되게 나타납니다.

Advisor Mode는 StepFun 내부 테스트 환경에서 도출된 핵심 비용 주장을 담고 있습니다. 작업당 $0.19 대 $1.76로, Claude Opus 4.6 코딩 성능의 97%를 달성한다는 것입니다 . 이는 자사 SWE-Bench Verified 실행 기반의 벤더 수치이므로, 독립적인 검증이 나올 때까지는 방향성 참고 지표로 활용하십시오.

기능	Step 3.5 Flash	Step 3.7 Flash
비전 입력	외부 모델 호출	네이티브 18억 파라미터 ViT 인코더
SWE-Bench Pro	51.3%	56.3%
벤치마크 분포	43–73%	64.5–71.5%
`reasoning_effort` 플래그	미지원	low / medium / high
Advisor Mode	미지원	자동 (런타임)
컨텍스트 윈도우	—	256k 토큰

요청 전에 확인할 사항

Step 3.7 Flash is a drop-in — except for one endpoint detail

환경 변수 두 개와 올바른 지역 URL만 있으면 됩니다. URL은 오류가 조용히 넘어가는 부분이므로, 코드를 작성하기 전에 반드시 확인하세요.

계정 지역과 기본 URL. StepFun은 인증 상태를 공유하지 않는 두 개의 별도 API 도메인을 운영합니다:

글로벌 계정 — platform.stepfun.ai에서 등록; STEP_BASE_URL=https://api.stepfun.ai/v1 설정
중국 리전 계정 — platform.stepfun.com에서 등록; STEP_BASE_URL=https://api.stepfun.com/v1 설정

코드 실행 전에 두 변수를 모두 export하세요:

export STEP_API_KEY="sk-..."
export STEP_BASE_URL="https://api.stepfun.ai/v1"   # global account
# China-region: export STEP_BASE_URL="https://api.stepfun.com/v1"

OpenRouter 대안. StepFun 계정 없이 이용하거나 모든 모델 라우팅을 단일 프록시로 통합하고 싶다면, OpenRouter에서 Step 3.7 Flash를 확인할 수 있습니다. 모델 ID는 stepfun/step-3.7-flash이며, base URL을 https://openrouter.ai/api/v1로 설정하고 기존 OpenRouter 키를 사용하면 됩니다. StepFun 등록이 필요 없습니다.

NVIDIA NIM. 엔터프라이즈 GPU 추론 환경에서는 NVIDIA의 NIM 컨테이너 엔드포인트를 통해 Hopper급 GPU에서 Step 3.7 Flash를 초당 최대 600토큰 속도로 실행할 수 있습니다 . 동일한 OpenAI 호환 인터페이스를 http://0.0.0.0:8000/v1에서 제공하며 NeMo 기반 파인튜닝도 지원합니다. NVIDIA 엔터프라이즈 라이선스가 필요합니다.

Python 의존성: pip install openai. StepFun 전용 SDK나 플러그인은 필요하지 않습니다.

채팅·이미지·추론 수준 — 실행 가능한 예제

아래 네 단계는 모두 표준 openai Python 클라이언트를 수정 없이 사용합니다. 표준 OpenAI 호출과의 차이는 생성자의 api_key와 base_url뿐입니다.

Step 1 — 기본 호출. SDK 호출 구조는 OpenAI 호환 Flash 엔드포인트라면 동일합니다. 아래 코드는 구조적 패턴을 설명하기 위한 예시(이 컨텍스트에서 실행되지 않음)이며, StepFun 자격 증명으로 대체하면 Step 3.7 Flash에 그대로 적용됩니다:

import os
from openai import OpenAI

# Flash is otherwise OpenAI-compatible; the endpoint needs Google's /openai/ path.
client = OpenAI(
    api_key=os.environ["GEMINI_API_KEY"],
    base_url="https://generativelanguage.googleapis.com/v1beta/openai/",
)

response = client.chat.completions.create(
    model="gemini-2.5-flash",
    messages=[{"role": "user", "content": "Say hello in five words."}],
)

print(response.choices[0].message.content)

Step 3.7 Flash의 경우, 생성자에 StepFun 자격 증명을 넣고 모델 문자열을 step-3.7-flash로 바꾸면 됩니다:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["STEP_API_KEY"],
    base_url=os.environ["STEP_BASE_URL"],   # https://api.stepfun.ai/v1
)

completion = client.chat.completions.create(
    model="step-3.7-flash",
    messages=[{"role": "user", "content": "Explain the actor model of concurrency."}],
)
print(completion.choices[0].message.content)

Step 2 — reasoning_effort. create()에 파라미터를 직접 전달합니다 . 복잡한 코드 리뷰나 다단계 계획에는 high를, 지연 시간이 중요한 추출·요약·재작성에는 low를 사용하세요. 범용 작업에서는 파라미터를 생략하면 기본값 medium이 적용됩니다. 이후 베이스 모델을 교체할 경우 파라미터를 명시적으로 테스트하세요 — 오류 없이 수락되더라도 지원하지 않는 모델에서는 조용히 무시될 수 있습니다:

completion = client.chat.completions.create(
    model="step-3.7-flash",
    reasoning_effort="high",   # low | medium | high
    messages=[{"role": "user", "content": "Review this code for race conditions: ..."}],
)

Step 3 — 이미지 입력. 문자열 콘텐츠를 콘텐츠 배열로 교체합니다. text dict와 image_url dict를 추가하면 되며, GPT-4o 비전 호출과 형태가 동일합니다. 네이티브 1.8B ViT 인코더가 외부 비전 모델로 라우팅하지 않고 언어 백본에서 직접 이미지를 처리합니다 :

completion = client.chat.completions.create(
    model="step-3.7-flash",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "List the interactive elements in this UI screenshot."},
            {"type": "image_url", "image_url": {"url": "https://example.com/screenshot.png"}}
        ]
    }]
)

Step 4 — 어드바이저 모드. 별도 파라미터가 필요 없습니다. 모델이 서브태스크에서 높은 실패 확률을 감지하면 — 반복 오류, 복잡한 아키텍처 추론 등 — 호출자 개입 없이 런타임에 해당 서브태스크를 더 큰 모델로 자동 라우팅합니다 . 특정 턴에서 에스컬레이션이 발생했는지 확인하려면 응답의 usage 또는 metadata 필드를 확인하세요. 베이스 모델 기준 대비 스텝당 토큰 수가 비정상적으로 높다면 신뢰할 수 있는 지표입니다. 현재 공개 API에서 에스컬레이션을 강제하거나 억제하는 플래그는 없습니다.

오류 발생 지점과 원인

Step 3.7 Flash 오류의 대부분은 예측 가능한 네 가지 원인 중 하나에서 비롯됩니다. 어떤 경우도 오류 본문에 설명이 없어, 무엇을 확인해야 하는지 미리 알고 있어야 합니다.

잘못된 도메인으로 인한 401. 가장 흔한 연동 오류입니다. STEP_BASE_URL은 계정 등록 도메인과 정확히 일치해야 합니다. 글로벌 키는 api.stepfun.ai/v1에서만, 중국 리전 키는 api.stepfun.com/v1에서만 사용할 수 있습니다. 401 응답 본문은 비어 있어 실제 원인에 대한 단서가 없습니다. 다른 것을 확인하기 전에 환경 변수를 먼저 점검하세요.
reasoning_effort가 무시되는 경우. 모델 문자열에 오타가 있거나 문서화되지 않은 별칭을 사용하면, 파라미터가 HTTP 200으로 수락되더라도 실제로는 아무 효과가 없을 수 있습니다. 공식 API 레퍼런스에 현재 문서화된 유일한 모델 문자열은 정확히 step-3.7-flash입니다 . effort 파라미터 동작을 디버깅하기 전에 문자열을 먼저 확인하세요.
단일 벤치마크 실행 결과는 노이즈입니다. 7퍼센트 포인트 편차(64.5–71.5%) 는 평가 한 번의 결과가 실제 기준선보다 7점 높거나 낮게 나올 수 있음을 의미합니다. 벤치마크 수치를 기반으로 프로덕션 결정을 내리기 전에 태스크 분포에서 최소 5회 이상 실행하세요.
Advisor Mode 비용 수치는 자체 측정치입니다. Claude Opus 4.6 대비 태스크당 $0.19 vs. $1.76 비교 는 StepFun 자체 SWE-Bench Verified 하네스에서 나온 수치입니다. 2026년 5월 29일 현재 독립적인 재현 결과는 발표되지 않았습니다. 서드파티 결과가 나오기 전까지는 이 수치를 인프라 비용 추정의 기준으로 삼지 마세요.

작동 확인 후 탐색할 실험들

기본 호출이 정상 작동하면, 다음 네 가지 실험을 통해 Step 3.7 Flash가 StepFun의 하네스가 아닌 실제 워크로드에 맞는지 데이터를 직접 확인할 수 있습니다.

자체 태스크 분포에서 reasoning_effort 트레이드오프 측정하기. low, medium, high 각각으로 대표 샘플을 실행하고 티어별 지연 시간, 비용, 품질 점수를 기록하세요. 최적 설정은 워크로드에 따라 다르며, 벤더 벤치마크는 내 데이터에 대한 답을 주지 않습니다.
레이아웃 민감 태스크에서 네이티브 ViT 그라운딩 테스트하기. UI 스크린샷이나 차트를 구조화된 추출 프롬프트와 함께 전송해보세요. 네이티브 1.8B ViT 인코더 는 공간 레이아웃이 중요한 태스크(폼 파싱, 다이어그램 주석, UI 비교)에서 툴 체인 방식의 비전 호출보다 성능이 우수해야 합니다. 실제 데이터로 직접 측정하세요. 이는 검증 가능하고 반증 가능한 주장입니다.
10단계 이상의 에이전트 루프에서 Advisor Mode 계측하기. 전체 실행에서 단계별 비용을 로깅하고 reasoning_effort=high의 단일 모델 기준과 총 비용을 비교하세요. 자동 에스컬레이션 비용 차이는 단일 호출에서는 보이지 않지만, 루프 수준에서는 유의미해집니다.
자체 평가 세트에서 DeepSeek V4 Flash와 직접 비교하기. ClawEval-1.1에서 툴 호출 견고성은 9점 차이(Step 3.7 67.1% vs. DeepSeek V4 Flash 57.8%)를 보입니다 . 도메인별 결과는 상당히 다를 수 있으므로, 프로덕션 툴 호출 워크로드에 어느 모델을 선택하기 전에 자체 태스크 세트로 비교 실험을 진행하세요.

자주 묻는 질문

Step 3.7 Flash 요청에서 401 오류가 반환되는 이유는 무엇인가요?

엔드포인트 리전 불일치 문제입니다. platform.stepfun.ai(글로벌)에서 발급된 키는 api.stepfun.ai/v1에서만 인증됩니다. 중국 리전 플랫폼의 키는 api.stepfun.com/v1에서만 작동합니다. 401 응답 본문은 비어 있어 오류 자체에서 원인을 파악할 수 없습니다. 해결 방법: 요청 체인의 다른 부분을 조사하기 전에 STEP_BASE_URL이 계정 등록 도메인과 정확히 일치하는지 먼저 확인하세요.

Step 3.7 Flash는 OpenAI API와 완전한 드롭인 호환이 가능한가요?

구조적으로는 그렇습니다. 동일한 openai Python 클라이언트, messages 배열 형식, image_url 콘텐츠 포맷을 수정 없이 그대로 사용할 수 있습니다. 일반 OpenAI 호출과 다른 점은 세 가지입니다. 모델 문자열(GPT 변형 대신 step-3.7-flash), 베이스 URL(리전별 StepFun 엔드포인트), 그리고 reasoning_effort 의미론입니다. OpenAI의 o 시리즈는 이를 추론 체인 깊이 힌트로 사용하는 반면, Step 3.7 Flash는 추론 비용과 속도를 제어하는 직접적인 컴퓨팅 할당 티어로 사용합니다.

Advisor Mode는 직접 설정해야 하나요, 자동으로 작동하나요?

자동으로 작동합니다. 이를 활성화·비활성화하거나 트리거하는 API 파라미터는 없습니다. 모델이 실패할 것으로 예측되는 서브태스크(반복 오류 복구, 심층 아키텍처 계획 단계 등)를 자동으로 식별하고, 호출 측 설정 없이 런타임에 더 큰 모델로 라우팅합니다. StepFun 자체 SWE-Bench Verified 하네스에 따르면, 이 혼합 방식은 Claude Opus 4.6 코딩 성능의 97%를 태스크당 $0.19(vs. $1.76)로 달성한다고 보고합니다 . 이 수치의 독립적 재현 결과는 본고 작성 시점까지 발표되지 않았습니다.

Step 3.7 Flash를 이미지뿐 아니라 영상에도 사용할 수 있나요?

ViT 아키텍처는 StepFun 자료에서 영상 처리 가능으로 설명되어 있지만, 퍼블릭 API를 통한 영상 입력은 개발에 활용하기 전에 현재 플랫폼 API 문서를 반드시 확인하세요. messages 콘텐츠 배열의 정적 image_url 객체는 현재 네이티브 인코더를 통해 정상 작동이 확인됐습니다. 아키텍처 설명만으로 영상 동등 지원을 가정하지 말고, 현재 API 레퍼런스를 먼저 확인하세요.

Step 3.7 Flash의 가격은 유사 모델과 비교해 어떤가요?

2026년 5월 기준 입력 토큰은 $0.20/M 토큰(캐시 미스), $0.04/M 토큰(캐시 히트)이며, 출력은 $1.15/M 토큰입니다 . 에이전트 워크플로우에서는 태스크당 비용이 더 의미 있는 단위입니다. StepFun은 Advisor Mode 활성화 시 태스크당 $0.19(vs. Claude Opus 4.6 단독 $1.76)를 주장합니다 . DeepSeek V4 Flash 등 유사한 희소 MoE 모델과는 토큰 단위가 아닌 태스크 단위로 비교하세요. 태스크당 실제 토큰 소비량은 프롬프트 길이, 컨텍스트 재사용, 워크플로우 구조에 따라 크게 달라집니다.

드롭인이 안 되는 엔드포인트 세부 사항 하나

Step 3.5 Flash에서의 마이그레이션은 단순합니다: 모델 문자열 하나, 환경 변수 하나만 바꾸면 다른 코드 변경 없이 비전 입력, Advisor Mode, reasoning_effort를 바로 사용할 수 있습니다. SDK, 메시지 형식, 이미지 포맷 모두 기존에 사용하던 것과 동일합니다.

드롭인이 아닌 유일한 세부 사항은 리전별 기본 URL입니다. 이 부분은 조용한 401을 발생시키며, 설명이 담긴 오류 메시지도 없어서 첫 통합 시 대부분의 개발자가 걸려 넘어집니다. 등록한 도메인과 일치하도록 STEP_BASE_URL을 설정하고, 모델 문자열이 정확히 step-3.7-flash인지 확인하면 나머지 호출은 작성한 대로 동작합니다. 독립적인 벤치마크 결과는 Benchable에서, API 파라미터 추가 사항은 API가 안정화됨에 따라 공식 GitHub 저장소에서 확인하세요.

마지막 업데이트: 2026-06-01. 2026년 5월 29일 출시된 Step 3.7 Flash를 기준으로 합니다 . 벤치마크 수치는 달리 명시되지 않는 한 벤더 보고 기준이며, Advisor Mode 비용 수치는 StepFun 내부 하네스 기반으로 이 날짜 기준 독립적으로 검증되지 않았습니다.