NVIDIA, Qwen3.6-35B을 3배 압축했지만 정확도는 거의 그대로

HuggingFace의 NVIDIA NVFP4 Qwen3.6-35B 체크포인트: 메모리 3.06배 절감, 정확도 손실 1% 미만, Blackwell 네이티브 지원, vLLM 플래그 포함.

May 31, 2026

NVIDIA, Qwen3.6-35B을 3배 압축했지만 정확도는 거의 그대로

Qwen3.6-35B-A3B-NVFP4 한눈에

nvidia/Qwen3.6-35B-A3B-NVFP4는 알리바바의 Qwen3.6-35B-A3B를 훈련 후 양자화(post-training quantization)한 변형 모델로, NVIDIA가 2026년 5월 28일 Hugging Face에 공개했습니다 . 알리바바가 아닌 NVIDIA가 자체 NVFP4 4비트 부동소수점 양자화를 적용했기 때문에, 사전 보정된 상태로 다운로드해 로컬 양자화 파이프라인 없이 바로 배포할 수 있습니다. 결과물은 BF16 원본 대비 디스크 및 GPU 메모리 사용량이 3.06배 줄어든 체크포인트로, 전체 파라미터 수 35B를 유지하면서도 ~19B BF16 모델에 준하는 저장 공간만 차지합니다 .

요약 답변: NVIDIA의 Qwen3.6-35B-A3B-NVFP4는 NVFP4 4비트 부동소수점 양자화를 사용해 알리바바의 35B 스파스 MoE 모델을 ~19B에 상당하는 디스크 용량(BF16 대비 3.06배 감소)으로 압축합니다. NVIDIA 모델 카드 기준 MMLU Pro, GPQA Diamond, AIME 2025 전반의 정확도 손실은 1% 미만입니다. 네이티브 실행에는 Blackwell GPU(B200, B300, GB200, GB300)가 필요하며, Apache 2.0 라이선스로 제공됩니다.

기반 모델인 알리바바의 Qwen3.6-35B-A3B는 2026년 4월 16일 Apache 2.0 라이선스로 공개된 스파스 Mixture-of-Experts(MoE) 아키텍처입니다. "35B"는 전체 전문가(expert)에 걸친 총 파라미터 수를 의미하며, 순전파 1회당 활성화되는 파라미터는 약 3B에 불과합니다. 따라서 토큰당 연산량은 35B 밀집 모델보다 3B 밀집 모델에 가깝습니다. 아키텍처는 하이브리드 어텐션과 네이티브 262K 토큰 컨텍스트 윈도우를 포함하며, 텍스트·이미지·영상 멀티모달 입력을 지원합니다 .

이 양자화가 적용되는 기반 성능은 실제로 충분히 경쟁력 있습니다. SWE-bench Verified에서 기반 모델은 73.4점을 기록해 Gemma4-31B의 52.0점을 크게 앞서며 , 이 격차는 양자화 후에도 유지됩니다. Terminal-Bench 2.0에서는 기반 모델이 51.5점으로 Gemma4-31B의 42.9점을 상회합니다 . NVIDIA의 양자화는 성능을 새로 만드는 것이 아니라, 성능을 보존하면서 배포 비용을 줄입니다. Apache 2.0 라이선스는 NVFP4 체크포인트에도 그대로 적용되며, 로열티 의무 없이 상업적 사용이 자유롭습니다 .

NVFP4 내부 구조: E2M1 포맷과 INT4를 앞서는 이유

NVIDIA cut Qwen3.6-35B 3×. Accuracy barely moved.

NVFP4는 비트 레이아웃이 E2M1인 4비트 부동소수점 포맷으로, 부호 비트 1개, 지수 비트 2개, 가수 비트 1개로 구성됩니다. 고정소수점 정수로 값을 표현하면서 범위에 맞추기 위해 분포 꼬리를 잘라내는 INT4와 달리, NVFP4는 부동소수점 동적 범위를 보존합니다. 이는 트랜스포머 추론에서 핵심적인 특성입니다. 특히 MoE 아키텍처는 개별 전문가 레이어에서 활성화 스파이크가 발생할 수 있는데, INT4는 이러한 이상값을 잘라내 양자화 오차가 누적됩니다. NVFP4는 MoE 전문가 라우팅에서 전형적으로 나타나는 불균일 가중치 분포를 별도 처리 없이 자연스럽게 다룹니다 .

이 포맷은 MXFP4를 개선한 이중 스케일 설계를 사용합니다. 16개 값으로 구성된 각 그룹은 세밀한 E4M3 FP8 스케일링 팩터(마이크로 블록 스케일러)를 공유하고, 텐서 전체에는 텐서별 FP32 스케일러가 추가로 적용됩니다. 이는 32개 값 블록마다 E8M0 2의 거듭제곱 스케일러를 사용하는 MXFP4와 대조됩니다. 더 거친 세분화 단위는 불균일 가중치 분포를 가진 텐서에서 더 많은 양자화 오차를 유발하는데, 이는 전문가 라우팅 레이어에서 정확히 나타나는 현상입니다. NVFP4의 16값 마이크로 블록은 MXFP4의 32값 블록이 놓치는 국소적 분포 변동을 포착합니다 .

메모리 계층 구조에서 NVFP4는 FP16 대비 약 3.5배, FP8 대비 1.8배 작습니다 . Qwen3.6-35B 기준으로 이 압축은 중급 Blackwell 카드에서 멀티 GPU 구성이냐 단일 GPU 배포냐를 가르는 차이입니다. NVIDIA 기술 블로그에 따르면 하드웨어 지원은 Blackwell 네이티브(B200, B300, GB200, GB300)이며, Hopper는 소프트웨어 경로를 통해서만 지원되는 런타임으로 명시되어 있습니다 .

INT4와의 실제 비교: INT4가 이상값 활성화에 적용하는 클리핑 왜곡은 MoE 레이어에서 특히 큰 손실을 초래합니다. 전문가의 활성화가 급증하면 INT4는 고정된 정수 상한에서 포화 상태가 되고, 이후 행렬 곱셈을 거치며 오차가 누적됩니다. NVFP4의 부동소수점 동적 범위는 포화 없이 마이크로 블록 스케일러로 조정됩니다. 16값 단위 FP8 스케일 팩터가 국소적 분포 변화를 흡수하기 때문입니다. 비균일 활성화 프로파일을 가진 모델에서 NVFP4가 동일 비트 폭의 INT4를 꾸준히 앞서는 이유가 바로 여기에 있습니다.

FP8 vs NVFP4 선택 가이드: FP8은 Hopper와 Blackwell 모두에서 네이티브로 실행되며 8비트에서 더 넓은 표현 여유를 갖습니다. NVFP4는 비트 폭을 절반으로 더 줄이지만 네이티브 실행에 Blackwell이 필요합니다. Blackwell 하드웨어에서 메모리가 핵심 제약이라면 NVFP4가 적합한 선택입니다. 업그레이드 계획 없이 Hopper를 사용 중이라면, FP8을 선택해 해당 아키텍처에서 NVFP4가 초래하는 소프트웨어 에뮬레이션 오버헤드를 피하는 것이 좋습니다.

NVIDIA의 Qwen3.6 체크포인트 캘리브레이션 방식

이 체크포인트에 적용된 NVIDIA의 양자화 파이프라인은 nvidia-modelopt v0.44.0을 통해 실행되었으며, MoE 트랜스포머 블록 내 선형 연산자의 가중치 와 활성화값을 동시에 대상으로 삼았습니다 . 이는 가중치+활성화 공동 양자화 방식으로, 활성화값을 전체 정밀도로 유지하는 가중치 전용 양자화보다 훨씬 엄격한 방식입니다. 공동 양자화는 선형 연산자 전체를 저정밀도 수치 체계로 강제 편입시킵니다. 덕분에 런타임 일관성이 향상되지만(가중치와 활성화 경로 간 혼합 정밀도 분산 없음), 정확도 손실 없이 캘리브레이션하기는 더 어렵습니다.

캘리브레이션 데이터셋으로는 CNN DailyMail과 NVIDIA 내부 데이터셋인 Nemotron-Post-Training-Dataset-v2가 사용되었습니다 . 이 조합은 의도적인 선택입니다.

CNN DailyMail (뉴스 요약) — 긴 문맥 단락 처리를 다루며, 확장된 입력 창 전반에 걸쳐 압축이나 리콜이 필요한 작업의 정확도를 보존합니다.
Nemotron-Post-Training-Dataset-v2 (멀티턴 대화) — 명령 수행 패턴을 다루며, 채팅·구조화된 출력·에이전틱 프롬프트에서의 응답 품질을 보존합니다.

각 데이터셋은 공격적인 양자화에서 발생하기 쉬운 특정 실패 유형을 겨냥합니다. 요약 작업은 장거리 어텐션 리콜을 압박하는데, 이는 활성화값이 클리핑될 때 취약해지는 패턴입니다. 멀티턴 대화는 명령 수행 정밀도와 형식 준수를 압박합니다. 두 데이터셋을 함께 사용하면 하나에 최적화하다 다른 하나를 희생시키는 대신, 두 가지 순전파 체계 전반에 걸쳐 오류를 최소화할 수 있습니다.

"이 체크포인트는 BF16 대비 디스크 및 GPU 메모리를 약 3.06배 줄이며, 35B 전체 파라미터를 유지하면서도 실효 GPU 메모리 사용량은 약 19B BF16 모델 수준에 해당합니다." — NVIDIA 모델 카드, nvidia/Qwen3.6-35B-A3B-NVFP4

결과물은 NVFP4 1.0으로 명명되었습니다. 이 버전 표기는 최초 프로덕션 체크포인트임을 나타냅니다. NVIDIA는 캘리브레이션 이후 분석에서 회귀가 발견된 다른 모델에 대해 업데이트된 체크포인트(예: NVFP4 1.1 개정판)를 공개한 바 있습니다. Qwen3.6의 경우 모델 카드(섹션 4)에 게재된 정확도 변화량에서 뚜렷한 회귀는 나타나지 않지만, 장기 프로덕션 배포를 확정하기 전에 Hugging Face의 모델 카드 수정 이력을 추적하는 것이 바람직합니다.

커스텀 캘리브레이션 데이터로 이 양자화를 재현하거나 확장하려는 개발자에게: nvidia-modelopt는 pip install nvidia-modelopt로 설치할 수 있습니다. 양자화 API는 표준 modelopt PTQ(훈련 후 양자화) 인터페이스를 통해 커스텀 캘리브레이션 데이터셋을 지원합니다. NVIDIA는 이 체크포인트에 사용된 정확한 캘리브레이션 스크립트를 공개하지 않았지만, modelopt 문서에서 양자화 API를 다루고 있습니다.

BF16 대비 정확도: MMLU, GPQA, 장문맥 리콜

핵심 주장은 NVFP4 양자화가 보고된 모든 평가에서 정확도 손실을 1% 미만으로 유지한다는 것입니다. 공식 모델 카드의 벤치마크 수치가 이를 뒷받침합니다. 가장 큰 하락은 MMLU Pro에서 0.6%포인트, 가장 작은 하락은 GPQA Diamond에서 0.1포인트입니다 . IFBench 명령 수행 점수는 오히려 0.5포인트 상승했는데, 이는 노이즈 범위 내입니다. 특히 주목할 점은 262K 토큰 전체 문맥에서의 AA-LCR 장문맥 리콜이 측정 가능한 성능 저하를 전혀 보이지 않았다는 것입니다 .

벤치마크	NVFP4	BF16	변화	비고
MMLU Pro	85.0	85.6	−0.6	광범위한 지식, 57개 범주 객관식
GPQA Diamond	84.8	84.9	−0.1	박사급 과학 Q&A
AIME 2025	88.8	89.2	−0.4	수학 경시대회
IFBench	62.8	62.3	+0.5	노이즈 범위 내; 명령 수행 형식 준수
AA-LCR (262K 문맥)	62.0	62.0	0.0	장문맥 리트리벌; 측정 가능한 성능 저하 없음

(source: NVIDIA 모델 카드, 벤더 자체 보고. 2026년 5월 기준 독립적인 제3자 재현 없음 .)

이 패턴은 다른 모델 패밀리에서 NVIDIA가 공개한 NVFP4 결과와 일치합니다. DeepSeek-R1, Llama-3.3-70B, Gemma-4 모두 동일한 캘리브레이션 방법론을 사용해 유사한 1% 미만 성능 저하 프로파일을 보였습니다 . 이는 예외적인 결과가 아닙니다. 마이크로 블록 FP8과 텐서 단위 FP32를 결합한 이중 스케일 캘리브레이션 설계는 대형 모델에 대한 초기 INT4 양자화 시도에서 나타났던 정확도 붕괴를 방지하는 데 일관되게 효과적인 것으로 보입니다.

검증 주의사항: 위 다섯 행의 수치는 모두 NVIDIA 자체 모델 카드에서 비롯된 것입니다. 2026년 5월 31일 기준, 독립적인 제3자 평가에서 이 수치들이 재현된 바 없습니다. Open LLM 리더보드 또는 이에 준하는 외부 검증이 나오기 전까지는 벤더 자체 보고 수치로 간주하십시오. 실질적인 의미: MMLU Pro나 GPQA 정확도가 특정 다운스트림 작업에서 배포의 필수 조건이라면, 출시 전 자체 평가 스위트를 실행하십시오. 이 형식에 대한 NVIDIA의 실적을 감안하면 수치의 방향성은 신뢰할 수 있지만, 정확한 수치는 독립적으로 확인될 때까지 ±1–2%의 불확실성이 있습니다.

장문맥 결과는 별도로 주목할 필요가 있습니다. 262K 토큰 시퀀스에서의 어텐션 집중 연산은 일반적으로 양자화 손상이 가장 먼저 나타나는 영역입니다. QKV 프로젝션에서 누적되는 작은 오류들이 긴 의존성 체인을 따라 복합적으로 증폭되기 때문입니다. AA-LCR에서 성능 저하가 전혀 없다는 것은 NVIDIA의 CNN DailyMail 캘리브레이션이 이 실패 유형을 구체적으로 해결했음을 시사하며, 이는 섹션 3에서 설명한 데이터셋 설계 의도와 부합합니다.

vLLM로 Qwen3.6 NVFP4 서빙하기: 필수 플래그

이 체크포인트에 권장되는 서빙 스택은 vLLM이며, 두 가지 플래그는 생략할 수 없습니다. Blackwell 하드웨어용 표준 명령어는 간단하지만, 둘 중 하나라도 빠지면 모델이 잘못 로드되거나 아예 실패합니다:

vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 \
  --quantization modelopt \
  --kv-cache-dtype fp8

--quantization modelopt는 vLLM 내장 GPTQ/AWQ 경로 대신 NVIDIA의 modelopt 추론 백엔드를 통해 모델을 처리합니다. --kv-cache-dtype fp8는 KV 캐시를 BF16이 아닌 FP8로 유지해, 양자화된 가중치와 풀 프리시전 캐시 간의 메모리 불일치를 방지합니다. 두 플래그 모두 vLLM Python 환경에 nvidia-modelopt가 설치되어 있어야 하며, 없으면 serve 명령이 모델 로드 단계에서 실패합니다. nightly Docker 이미지 vllm/vllm-openai:nightly에는 modelopt가 포함되어 있습니다 .

DGX Spark (GB10, SM121 아키텍처): GB10에서는 표준 modelopt 경로가 최적 선택이 아닙니다. RedHatAI 커뮤니티 체크포인트는 compressed-tensors 양자화 백엔드와 flashinfer_cutlass MoE 라우팅 커널을 함께 사용하며, 이는 SM121 아키텍처에 더 잘 최적화되어 있습니다 . DGX Spark를 타깃으로 한다면 RedHatAI 체크포인트를 사용하고, --quantization compressed-tensors와 flashinfer_cutlass 라우터를 함께 전달하세요. 6절의 처리량 수치는 이 경로에서 측정된 것입니다.

MTP(Multi-Token Prediction) 추측 디코딩: 이 체크포인트에는 MTP 추측 디코딩 헤드가 포함되어 있습니다. MTP는 기본 모델이 스텝마다 드래프트 토큰을 제안하고, 경량 드래프트 헤드가 이를 커밋 전에 검증하는 추측 디코딩 방식입니다. vLLM에서는 draft head 추측 디코딩 파라미터로 활성화할 수 있습니다. 이 체크포인트의 수용률은 85.4%입니다 — 인스트럭션 튜닝 모델의 단일 스텝 추측에서 일반적인 65~70% 범위를 크게 웃도는 수치입니다. 이 수용률에서는 대부분의 생성 워크로드에서 실측 처리량이 의미 있게 향상될 것입니다.

Hopper 주의사항: H100/H200도 지원 런타임으로 명시되어 있지만, 실행은 소프트웨어 에뮬레이션 방식이며 네이티브 FP4 텐서 코어를 사용하지 않습니다. NVIDIA의 벤치마크는 Blackwell에서 검증되었으며, 모델 카드에는 Hopper 처리량 수치가 없습니다. Hopper에서 반드시 실행해야 한다면, NVFP4가 해당 아키텍처에서 FP8보다 빠르다고 가정하기 전에 실제 워크로드로 지연 시간을 벤치마킹하세요. 대부분의 경우 Hopper에서는 FP8 체크포인트가 더 빠를 것입니다.

Blackwell 배포 체크리스트:

modelopt 설치: pip install nvidia-modelopt (또는 vllm/vllm-openai:nightly Docker 이미지 사용)
vLLM ≥ 0.8.x 사용 (modelopt 추론 통합은 0.8 시리즈에서 추가됨)
모든 vllm serve 실행 시 --quantization modelopt --kv-cache-dtype fp8 전달
DGX Spark의 경우: compressed-tensors 백엔드와 flashinfer_cutlass MoE 라우팅을 적용한 RedHatAI 커뮤니티 체크포인트로 전환
선택 사항: 85.4% 수용률에서 처리량 향상을 위해 MTP draft head 추측 디코딩 활성화

DGX Spark on GB10: 지연 시간·추측 디코딩·부하 성능

이 체크포인트에 대한 가장 완전한 커뮤니티 성능 데이터는 DGX Spark(GB10, SM121 지원)에서 측정된 것으로, RedHatAI 커뮤니티 체크포인트와 compressed-tensors 백엔드 및 flashinfer_cutlass MoE 라우팅을 사용했습니다. 단일 사용자 처리량은 약 55.9 토큰/초입니다 . 동시 사용자 32명 기준 총 처리량은 약 433 토큰/초에 달하며, 이는 해당 동시성 수준에서 사용자당 약 13.5 토큰/초에 해당합니다 .

부하	총 처리량	사용자당 처리 속도	하드웨어	백엔드
사용자 1명	~55.9 tok/s	55.9 tok/s	DGX Spark (GB10, SM121)	compressed-tensors + flashinfer_cutlass
사용자 32명	~433 tok/s	~13.5 tok/s	DGX Spark (GB10, SM121)	compressed-tensors + flashinfer_cutlass
B200 SXM	— (미공개)	—	B200 SXM	—
GB200 NVL72	— (미공개)	—	GB200 NVL72	—

Source: Steve Scargall, vLLM Recipe: Qwen3.6-35B-A3B-NVFP4 on DGX Spark . B200/GB200 수치는 2026년 5월 현재 미공개입니다.

동시 사용자 32명 기준 사용자당 13.5 토큰/초는 대화형 채팅에 충분한 수준입니다. 일반적인 읽기 속도가 분당 200~250단어(약 4~5 토큰/초)임을 감안하면, 13.5 tok/s는 그 기준을 크게 웃돕니다. 다만 수백 줄에 달하는 코드 생성이나 긴 추론 체인처럼 구조화된 출력을 스트리밍할 때는 다소 빠듯할 수 있습니다. 개발자 도구를 사용하는 사용자라면 끊김 없는 경험을 위해 20~30 tok/s를 기대하기 때문입니다. 문서 파이프라인, 오프라인 RAG 인덱싱, 평가(eval)와 같은 배치 처리 워크로드에서는 총 처리량 433 tok/s를 기준으로 용량을 계획해야 합니다.

"이 체크포인트의 MTP 추측 디코딩은 DGX Spark에서 85.4%의 수락률을 달성했습니다. 이는 이 규모의 인스트럭션 튜닝 모델에서 단일 스텝 추측 시 일반적으로 나타나는 65~70% 범위보다 크게 높은 수치입니다." — Steve Scargall, vLLM Recipe: Qwen3.6-35B-A3B-NVFP4 on DGX Spark

MTP 수락률 85.4%가 어떤 의미인지 맥락을 짚어볼 필요가 있습니다. 단일 스텝 MTP 추측에서는 모델이 자기회귀 패스보다 한 토큰 앞선 초안을 생성하고, 검증기가 이를 수락하거나 거부합니다. 85.4%의 수락률은 7개의 추측 토큰 중 약 6개가 통과한다는 뜻으로, 실제 처리 속도(wall-clock) 향상에 의미 있는 기여를 합니다. MoE 아키텍처가 여기서 유리하게 작용할 가능성이 높습니다. 포워드 패스당 활성화되는 파라미터가 약 30억 개에 불과하므로, 드래프트 헤드가 낮은 연산 오버헤드로 고품질 제안을 생성할 수 있기 때문입니다. 동일한 총 파라미터 수를 가진 더 조밀한 아키텍처였다면 수락률은 낮아졌을 것입니다.

데이터센터 배포 시 주목할 차이점: 이 특정 체크포인트에 대한 B200 SXM 및 GB200 NVL72의 처리량 수치는 2026년 5월 현재 공개되지 않았습니다. 데이터센터 규모 배포를 검토하는 개발자라면 해당 플랫폼에서 처리량이 크게 높아질 것으로 예상할 수 있습니다. B200은 GB10 대비 메모리 대역폭과 FP4 텐서 코어 처리량이 훨씬 높기 때문입니다. 다만 구체적인 수치는 아직 인용할 수 없습니다. NVIDIA 공식 배포 레시피와 vLLM 릴리스 노트를 통해 해당 수치를 확인하시기 바랍니다.

NVFP4 전체 카탈로그와 Qwen3.6의 실제 위치

이 체크포인트를 "HuggingFace 최초의 NVFP4 양자화 오픈웨이트 모델"로 소개한 보도가 일부 있었습니다. 그러나 이는 사실과 다릅니다. NVIDIA는 2025년 2월 DeepSeek-R1을 시작으로 NVFP4 체크포인트를 공개하기 시작했으며, 이후 Llama-3.3-70B, Llama-3.1-405B, Gemma-4 등으로 확장했습니다 . 보다 정확하고 좁은 의미의 주장은 다음과 같습니다. 이것은 Qwen3.6 모델 패밀리 최초의 NVFP4 체크포인트이며, 활성 파라미터 30억 개/총 파라미터 350억 개 규모에서 최초의 NVFP4 오픈웨이트 멀티모달 희소 MoE 체크포인트일 가능성이 높습니다.

2026년 5월 Qwen3.6과 함께 공개된 NVFP4 배치에는 다음 모델도 포함됩니다:

Kimi-K2.6-NVFP4 — Moonshot AI의 MoE 모델
Qwen3.5-397B-A17B-NVFP4 — Alibaba의 대형 희소 MoE
DeepSeek-V4-Pro-NVFP4 — 최신 DeepSeek 아키텍처

이는 체계적인 프로그램의 일환입니다. NVIDIA는 주요 오픈웨이트 체크포인트들을 modelopt를 통해 순차적으로 처리하며, 모든 주요 모델 패밀리에 걸쳐 Blackwell 배포를 목표로 하고 있습니다. Blackwell 고객 입장에서 실질적인 효과는 로컬 양자화 인프라 없이도 바로 배포할 수 있는 사전 양자화·검증된 체크포인트 카탈로그가 지속적으로 늘어난다는 점입니다.

메모리 계획 시 유의해야 할 아키텍처상의 구분이 있습니다. NVFP4는 350억 개 정적 가중치의 메모리 공간을 3.06배 줄이지만, 포워드 패스당 활성화되는 파라미터 수는 약 30억 개로 유지됩니다. 프로덕션 환경에서의 지연 시간 프로파일은 350억 파라미터 모델이 아닌, 양자화된 30억 파라미터 밀집 모델과 유사합니다. 토큰당 연산량이 낮기 때문에 토큰 생성이 빠릅니다. 네이티브 30억 파라미터 모델 대비 지불하는 비용은 라우터가 350억 개의 전문가 파라미터를 활용할 수 있다는 성능 여유분입니다. 포워드 패스당 실제 활성화되는 파라미터는 약 30억 개에 불과하지만 말입니다. 워크로드가 순수하게 지연 시간에 민감하고 전문가 풀의 다양성이 필요하지 않다면, 네이티브 30억 파라미터 밀집 모델이 순수 토큰/초 기준으로 더 나은 성능을 보일 수 있습니다. 반면 35억 파라미터 규모의 폭넓은 지식과 코딩 능력이 필요한 워크로드라면, Qwen3.6 NVFP4는 Blackwell에서 30억 파라미터급 서빙 비용으로 그 역량을 제공합니다.

자주 묻는 질문

Qwen3.6-35B-A3B-NVFP4를 네이티브로 실행하려면 어떤 GPU가 필요한가요?

NVFP4 네이티브 실행에는 Blackwell 아키텍처 GPU(B200, B300, GB200, GB300)가 필요합니다. FP4 텐서 코어를 지원하는 하드웨어는 이것뿐입니다 . Hopper(H100, H200)는 모델 카드에 지원 런타임으로 명시되어 있지만, 실행 시 FP4 하드웨어 가속 없이 소프트웨어 에뮬레이션 경로로 폴백됩니다 — Hopper에서의 실제 지연 시간은 동일 하드웨어에서 표준 FP8 체크포인트를 실행할 때보다 오히려 나쁠 수 있습니다. Hopper 이전 세대 GPU(Ampere 및 그 이전)는 NVFP4 런타임에서 지원되지 않습니다.

Qwen3.6-35B에서 NVFP4 양자화로 인한 정확도 손실은 얼마나 되나요?

NVIDIA 모델 카드에 따르면, 모든 벤치마크 성능 저하는 1% 미만입니다: GPQA Diamond 0.1점 하락(84.9 → 84.8), AIME 2025 0.4점 하락(89.2 → 88.8), MMLU Pro 0.6점 하락(85.6 → 85.0). 전체 262K 토큰 컨텍스트에서 AA-LCR 장문 컨텍스트 재현율은 측정 가능한 변화 없음(두 버전 모두 62.0) . 이는 벤더 발표 수치이며, 2026년 5월 기준 독립적인 제3자 재현 결과는 아직 없습니다. 프로덕션 SLA 결정에는 이 수치에만 의존하지 말고 직접 태스크별 평가를 진행하세요.

NVFP4, FP8, INT4 양자화의 차이는 무엇인가요?

NVFP4는 4비트 부동소수점 형식(E2M1: 부호 1비트, 지수 2비트, 가수 1비트)으로 부동소수점 동적 범위를 유지합니다. INT4는 고정소수점 4비트 정수를 사용하며 분포 꼬리를 클리핑하므로, 활성화 이상값이 있는 모델(MoE 전문가 레이어에서 흔한 문제)에서 정확도 저하가 발생합니다. FP8은 8비트 부동소수점 형식으로 NVFP4보다 표현 여유가 크지만 압축률은 훨씬 낮습니다. 메모리 관점에서 NVFP4는 FP16 대비 약 3.5배, FP8 대비 1.8배 작습니다 . NVFP4의 이중 스케일 설계 — 16값당 FP8 마이크로블록 스칼라 + 텐서당 FP32 스칼라 — 는 MXFP4의 더 거친 32값당 2의 거듭제곱 스케일링 대비 양자화 오류를 줄입니다. NVFP4 네이티브 실행에는 Blackwell 하드웨어가 필요하며, FP8은 Hopper와 Blackwell 모두에서 네이티브로 실행됩니다.

이 체크포인트를 서빙하려면 어떤 vLLM 플래그가 필요한가요?

표준 Blackwell 하드웨어(B200, GB200, GB300)의 경우: vllm serve에 --quantization modelopt와 --kv-cache-dtype fp8을 전달합니다. vLLM Python 환경에 nvidia-modelopt가 설치되어 있어야 합니다 — vllm/vllm-openai:nightly Docker 이미지에는 포함되어 있습니다. DGX Spark(GB10, SM121 capability)의 경우, RedHatAI 커뮤니티 체크포인트 변형을 사용하며 토큰당 지연 시간 최적화를 위해 --quantization compressed-tensors와 flashinfer_cutlass MoE 라우팅 커널을 활용하세요 . MTP 추론 디코딩 헤드는 체크포인트에 포함되어 있으므로, vLLM의 draft head 파라미터로 활성화하면 85.4% 수락률의 처리량 향상을 얻을 수 있습니다.

이 모델이 HuggingFace 최초의 NVFP4 오픈웨이트 모델인가요?

아닙니다. NVIDIA는 2025년 2월부터 DeepSeek-R1, Llama-3.3-70B, Llama-3.1-405B, Gemma-4 등 여러 모델에 대한 NVFP4 체크포인트를 공개했습니다 . 이 체크포인트의 정확한 구별점은 다음과 같습니다: Qwen3.6 모델 패밀리 최초의 NVFP4 양자화이며, 이 파라미터 규모(활성 3B / 전체 35B)에서 최초의 NVFP4 멀티모달 희소 MoE일 가능성이 있습니다. 2026년 5월 기준 NVIDIA의 NVFP4 카탈로그에는 Kimi-K2.6-NVFP4, Qwen3.5-397B-A17B-NVFP4, DeepSeek-V4-Pro-NVFP4도 포함됩니다 .

Blackwell 배포에 주는 시사점

실질적인 시사점은 좁고 구체적입니다. Blackwell 하드웨어에 배포하면서 Qwen3.6-35B를 기반 모델로 평가 중이라면, NVFP4 체크포인트를 사용하면 양자화 파이프라인 자체가 필요 없어집니다. 사전 보정·검증된 체크포인트를 다운로드하고, vLLM 플래그 두 개를 추가한 뒤 배포하면 됩니다. 3.06배 메모리 절감은 모델 카드에서 확인된 수치이며 NVIDIA의 NVFP4 프로그램 전반과도 일치합니다. 1% 미만의 정확도 저하는 벤더 발표 수치로 방법론적으로는 타당하지만, 독립적인 검증은 아직 완료되지 않았습니다 — 규제 환경이나 고위험 프로덕션에는 이 점을 평가 전략에 반영하세요.

MoE와 NVFP4 조합에 한해, 메모리 풋프린트가 비슷한 밀집 모델 대비 지연 시간 특성이 독특합니다. 35B 파라미터 수준의 성능 프로파일을 가진 모델을 약 3B 활성 파라미터의 토큰당 연산 비용으로 서빙하는 구조입니다. DGX Spark에서는 단일 사용자 기준 약 55.9 tok/s로, 대부분의 인터랙티브 사용 사례에 충분합니다. 85.4% 수락률의 MTP 추론 디코딩 헤드가 기본 포함되어 있어, 같은 규모의 FP8 체크포인트 대부분이 기본 제공하지 않는 효율성 레이어를 추가합니다. 이러한 특성들을 종합하면, 모델 성능과 토큰당 지연 시간이 모두 중요한 에이전틱 코딩 태스크, 장문 컨텍스트 RAG 파이프라인, 구조화 출력 생성에 특히 적합한 체크포인트입니다.

Blackwell 생태계가 성숙해가면서 주목해야 할 두 가지 공백이 있습니다: 2026년 5월 기준 이 체크포인트의 B200 SXM 및 GB200 NVL72 처리량 수치는 아직 공개되지 않았고, Open LLM Leaderboard 등 독립 정확도 벤치마크도 아직 없습니다. 배포 기반이 넓어지면 두 가지 모두 채워질 것입니다. 독립적인 평가 결과가 나오면 NVIDIA의 보정 주장이 확인되거나, CNN DailyMail + Nemotron 데이터셋 조합이 다루지 못한 엣지 케이스가 드러날 것입니다 — 어느 쪽 결과든 프로덕션 계획에 유용한 신호가 됩니다.

마지막 업데이트: 2026-05-31. 2026년 5월 28일 공개된 NVIDIA 모델 카드 , NVIDIA 기술 블로그 문서, DGX Spark 하드웨어의 커뮤니티 벤치마크 데이터 기반. 작성 시점 기준 독립적인 정확도 검증은 아직 없음.