vLLM v0.22.0: DeepSeek V4, Rust 프론트엔드, 동시 출시 rc0 완전 해설

커밋 459개, 전용 DeepSeek V4 패키지, Rust 프론트엔드, CI 수정 하나짜리 rc0. 핵심과 비핵심을 명확히 구분했다.

May 30, 2026

vLLM v0.22.0: DeepSeek V4, Rust 프론트엔드, 동시 출시 rc0 완전 해설

2026년 5월 29일 , vLLM 프로젝트는 같은 날 v0.22.0 안정 버전과 v0.22.1rc0를 동시에 태그했습니다 — 이 이중 태그 패턴이 나타난 두 번째 연속 릴리스입니다. 안정 릴리스에는 230명의 기여자가 제출한 459개의 커밋이 포함되며 , DeepSeek V4 서빙, Cutlass FP8 커널, 계층형 KV 캐시 오프로딩, 그리고 실험적 Rust 프론트엔드에 대한 실질적인 작업이 담겨 있습니다. rc0 태그는 사용자에게 아무런 영향을 미치지 않는 단순 CI 수정 하나에 불과합니다. 실제로 무엇이 바뀌었는지, 그리고 업그레이드 전에 무엇을 준비해야 하는지 정리합니다.

GA와 rc0 동시 출시: vLLM의 새로운 이중 태그 릴리스 주기

vLLM은 이제 GA 당일 두 개의 버전 태그를 함께 출시합니다 — 안정 릴리스와 패치 브랜치 오픈 신호. v0.22.0과 v0.22.1rc0는 모두 2026년 5월 29일에 등록됐습니다 . 같은 이중 태그가 2026년 5월 15일 v0.21.0과 v0.21.1rc0에서도 나타난 바 있어 , 이것이 우발적 사고가 아닌 의도된 릴리스 브랜치 정책임을 확인할 수 있습니다.

한눈에 요약: v0.22.0은 배포 가능한 안정 릴리스입니다 (커밋 459개, 기여자 230명, 첫 기여자 63명). v0.22.1rc0는 사용자에게 아무런 변화도 없는 단순 CI 테스트 하네스 수정입니다. 지금 바로 v0.22.0을 배포하세요 — rc0는 운영자가 신경 쓸 내용이 없습니다.

v0.22.0 릴리스에는 230명의 기여자가 제출한 459개의 커밋이 포함되며, 그 중 63명은 첫 기여자입니다 — 프로젝트 역사상 커밋 수 기준으로 가장 규모 있는 포인트 릴리스 중 하나입니다. 이중 태그 뒤에 있는 브랜치 정책은 RELEASE.md에 문서화되어 있습니다: GA 태그 이후 release/vX.Y 브랜치가 열리며, 회귀 버그 수정·치명적 버그 수정·문서 업데이트만 체리픽으로 반영됩니다.

"마이너 릴리스가 태그된 후 릴리스 브랜치가 열립니다. 회귀 수정, 치명적 버그 수정, 문서 업데이트만 릴리스 브랜치에 체리픽됩니다." — vLLM RELEASE.md

운영자에게: 지금 바로 v0.22.0을 배포하세요. 운영 환경에서 DeepSeek V4나 Cutlass FP8 경로를 사용 중이라면 GitHub의 v0.22.1rcN 태그 흐름을 모니터링하세요 — 회귀 체리픽이 반영될 가능성이 가장 높은 활성 영역입니다. 참고할 만한 선례도 있습니다: v0.21.1rc0 (2026년 5월 15일)는 끝내 GA 안정 태그에 도달하지 못했습니다 . 치명적 버그가 충분히 쌓이지 않는 한, vLLM의 격주 마이너 릴리스 주기상 v0.22.1이 안정 버전으로 승격되기 전에 v0.23.0이 먼저 출시될 수도 있습니다.

DeepSeek V4, 전용 패키지로 분리: NVFP4 MoE · CUDA 그래프 · MTP 디코딩

vLLM v0.22.0: DeepSeek V4, Rust Frontend, Concurrent rc0 Explained

v0.22.0에서 DeepSeek V4 모델 코드가 기존의 범용 MoE 경로에서 전용 vllm/models/deepseek_v4/ 패키지로 재편됐습니다 . 임포트 경로도 함께 변경됩니다 — 업그레이드 전에 코드베이스에서 기존 MoE 경로의 직접 모듈 임포트를 grep으로 확인하세요. 새 패키지와 함께 네 가지 기능이 추가됩니다:

NVFP4 퓨즈드 MoE: Hopper 계열 하드웨어(H100/H200)에서 FP4 양자화 MoE 전문가 가중치를 단일 GPU 커널로 퓨즈합니다. FP8 또는 FP16 MoE 대비 메모리 대역폭이 낮지만, FP4는 추가적인 양자화 오차를 수반합니다. FP8에서 전환하기 전에 대상 태스크에서 정확도를 벤치마크하세요.
전체 및 구간별 CUDA 그래프 실행: DeepSeek V4 포워드 패스의 더 많은 부분을 정적 그래프로 캡처해 스텝당 오버헤드를 줄입니다. 구간별(piecewise) 방식은 전체 그래프 모드에서 처리하기 어려운 동적 셰이프를 지원합니다.
MTP(Multi-Token Prediction) 투기적 디코딩: 보조 헤드가 메인 디코딩 헤드와 병렬로 드래프트 토큰을 생성합니다. 장문 생성 워크로드에서 지연 시간 개선 가능성이 있으니 활성화 전에 시퀀스 길이 분포를 기준으로 측정해 보세요.
커널 정확도 수정: 체인지로그는 이 중 일부를 성능 개선이 아닌 정확성과 관련된 수정으로 명시하고 있습니다 . 새 기능 도입 여부와 무관하게 검토하세요 — 기존 DeepSeek V4 운영 배포에 모두 영향을 미칩니다.

커널 정확도 수정은 기존 DeepSeek V4 배포 환경에서 가장 우선순위가 높은 항목입니다. NVFP4·CUDA 그래프·MTP는 도입 전 워크로드별 검증이 필요한 옵트인 기능입니다.

28.9% 지연 감소, KV 캐시 오프로딩, 그리고 실험적 Rust 프론트엔드

SM80(Ampere)에서 컴파일 모드로 실행한 Cutlass FP8 커널은 v0.22.0 릴리스 노트에 따르면 엔드투엔드 지연 시간을 측정치 기준 28.9% 개선했습니다 . 이 수치는 프로젝트 자체 벤치마크에서 나온 것으로, 배치 크기·시퀀스 길이·모델 아키텍처가 다른 환경에 보편적으로 적용된다고 단정하기 전에 독립적인 재현이 필요합니다.

기능	대상 하드웨어	상태	개발자 조치
Cutlass FP8 kernels (compile mode)	SM80 Ampere	안정	28.9%를 가정하기 전에 실제 워크로드로 벤치마크 수행
NVFP4 fused MoE (DeepSeek V4)	Hopper+ H100/H200	안정	전환 전 FP8/FP16 대비 정확도 검증
계층형 KV 캐시 오프로딩	GPU HBM / CPU DRAM / Disk	안정	블록 접근 패턴 프로파일링 필요; 계층마다 지연 시간 추가
MR V2 (Qwen3 oracle, sleep-reload, update_config)	전체	안정 (MRv1 자동 폴백)	비호환 KV 커넥터 사용 시 외 조치 불필요
Rust frontend + DP Supervisor	전체	실험적 — 불안정 API	프로덕션 사용 금지; 인프라 기반 작업으로 취급
Blackwell/SM12x, ROCm, RISC-V RVV kernels	해당 하드웨어	안정 (추가 기능)	조치 불필요

계층형 KV 캐시 오프로딩 프레임워크는 세 가지 스토리지 계층을 사용합니다: 핫 블록은 GPU HBM에 유지되고, 웜 블록은 CPU DRAM으로 스필되며, 콜드 블록은 Python 파일시스템 계층이나 Mooncake 디스크 백엔드로 이동합니다. 핵심 가치는 GPU 메모리를 초과하는 유효 컨텍스트 용량 확장입니다. 트레이드오프는 계층별 접근 지연 시간으로, 활성화 전에 블록 접근 패턴을 프로파일링하고 워크로드에서 확장된 컨텍스트가 추가 지연을 감수할 만한지 판단해야 합니다.

Model Runner V2의 추가 기능에는 Qwen3 덴스 모델 오라클 선택(자동 변형 라우팅), 슬립 모드 가중치 재로드, update_config API, 트랜스포머 블록 간 KV 캐시 레이어 공유가 포함됩니다. MR V2는 비호환 KV 커넥터가 감지되면 MRv1으로 자동 폴백하여 대부분의 배포 환경에서 마이그레이션 경로가 호환성을 유지합니다.

실험적 Rust 프론트엔드와 데이터 병렬 수퍼바이저는 트리에 포함되어 있지만 v0.22.0에서는 프로덕션 사용이 명시적으로 준비되지 않은 상태입니다 . 목표는 더 높은 처리량에서 GIL 없는 요청 오케스트레이션이며, API는 불안정하고 외부 사용을 위한 문서화된 인터페이스가 없습니다. 현재 배포 가능한 기능이 아닌 향후 릴리스를 위한 인프라 기반 작업입니다.

v0.22.1rc0: CI 수정 하나, 사용자 영향 없음

v0.22.1rc0 릴리스에는 정확히 하나의 변경 사항이 포함됩니다: 2026년 5월 29일 메인테이너 njhill이 병합한 PR #43971입니다 . PR 제목이 곧 전체 릴리스 설명이기도 합니다: "[CI] Make Model Executor test hangs fail fast with a traceback."

근본 원인은 다음과 같습니다: test_model_loader_download_files가 야간 빌드 중 인터럽트 불가능한 CUDA 영역에서 약 10시간 동안 중단되었습니다 . Buildkite의 35분 단계별 타임아웃 은 POSIX 시그널이 차단된 CUDA 스레드에 도달하지 못하기 때문에 프로세스를 종료하지 못했습니다.

이 수정은 .buildkite/test_areas/model_executor.yaml에 두 항목을 추가합니다:

PYTHONFAULTHANDLER=1 — 시그널 발생 시 Python 스레드 트레이스백을 덤프하여 사후 진단을 가능하게 합니다
pytest --timeout=900 --timeout-method=thread — 스레드 기반 인터럽트를 사용하는 테스트당 15분 와치독 으로, 시그널 기반 방법으로는 탈출할 수 없는 C/CUDA 중단에서 빠져나올 수 있습니다

새 패키지 의존성 없음: pytest-timeout==2.3.1은 이미 requirements/test/cuda.txt에 선언되어 있었습니다 . vLLM v0.22.0으로 추론 서비스를 운영 중이라면 rc0에서 얻을 것이 없습니다. vLLM CI에 기여한다면 장시간 실행 CUDA 작업에 블록되는 테스트 스위트를 위한 실용적인 편의 수정입니다.

업그레이드 체크리스트: 제거된 임포트, 삭제된 인수, 환경 변수 플래그 이름 변경

v0.22.0은 이전에 deprecated된 인터페이스 세 가지 범주를 제거합니다 . 추가적 변경 사항(새 모델, 새 하드웨어 커널)은 조치가 필요하지 않습니다. 브레이킹 변경 사항은 시작 실패를 방지하기 위해 업그레이드 전에 코드베이스 점검이 필요합니다.

변경 유형	변경 내용	업그레이드 전 조치
임포트 제거	`get_tokenizer` 구 임포트 경로 제거	`grep -r "get_tokenizer" .` 실행 후 릴리스 노트에 따라 표준 경로로 업데이트
임포트 제거	`resolve_hf_chat_template` 구 임포트 경로 제거	`grep -r "resolve_hf_chat_template" .` 실행 후 표준 경로로 업데이트
인수 제거	deprecated된 MLA 프리필 인수 제거	서빙 스크립트 및 하네스에서 명시적 MLA 프리필 인수 제거
설정 마이그레이션	일부 환경 변수가 백엔드 플래그로 마이그레이션됨	전체 매핑은 v0.22.0 릴리스 노트 참조; 스테이징에서 먼저 검증
새 모델 (추가)	MiniCPM-V 4.6, InternS2 Preview, OpenVLA 추가	불필요
하드웨어 커널 (추가)	Blackwell/SM12x, ROCm parity, RISC-V RVV	불필요

실제로 가장 많이 발생하는 문제: deprecated된 모듈 경로에서 임포트하는 내부 툴링이나 서빙 하네스는 시작 시 ImportError를 발생시킵니다. 업그레이드를 진행하기 전에 위의 grep 명령을 실행하세요. 환경 변수의 플래그 이름 변경도 조용한 설정 드리프트의 또 다른 일반적인 원인으로, 프로덕션에 배포하기 전에 스테이징 환경에서 v0.22.0 릴리스 노트를 기준으로 시작 설정을 검증하세요.

자주 묻는 질문

v0.22.0 대신 vLLM v0.22.1rc0으로 업그레이드해야 할까요?

아닙니다. v0.22.1rc0에는 단 하나의 CI 테스트 인프라 수정 사항인 PR #43971만 포함되어 있으며, 추론 서빙이나 모델 동작에는 아무런 영향을 미치지 않습니다. 프로덕션 배포에는 v0.22.0을 사용하세요. 해당 패치 시리즈를 채택하기 전에 v0.22.1 GA 태그가 나올 때까지 기다리십시오. rc0은 내부 CI 품질 개선용이며 사용자를 위한 수정 사항이 아닙니다. v0.21.1과 마찬가지로 v0.22.1이 GA에 도달하지 못할 경우, v0.22.0이 지원되는 안정 릴리스로 유지됩니다.

DeepSeek V4를 위해 추가된 NVFP4 fused MoE 커널이란 무엇인가요?

NVFP4는 FP4 양자화된 MoE 전문가 가중치를 단일 GPU 커널로 융합하며, Hopper 계열 하드웨어(H100, H200)를 대상으로 합니다. FP8 또는 FP16 MoE 대비 메모리 대역폭 부담이 줄어 메모리 병목이 있는 MoE 추론에서 처리량을 높일 수 있습니다. 단, FP4 정밀도로 인한 추가적인 양자화 오차가 발생한다는 단점이 있습니다. 전환 전에 실제 작업의 출력 품질을 반드시 벤치마킹하세요. 올바른 선택은 단순한 처리량 수치가 아니라 모델이 저정밀 연산에 얼마나 민감한지에 달려 있습니다.

vLLM v0.22.0에서 제거된 임포트 경로는 무엇인가요?

get_tokenizer와 resolve_hf_chat_template의 기존 임포트 위치가 v0.22.0에서 제거되었습니다. 업그레이드 전에 경로를 수정하지 않으면 시작 시 ImportError가 발생합니다. v0.22.0 릴리스 노트에 새로운 공식 경로가 명시되어 있습니다. 환경을 업그레이드하기 전에 grep -r "get_tokenizer\|resolve_hf_chat_template" your_project/를 실행해 영향을 받는 모든 임포트 위치를 찾아 현재 모듈 경로로 업데이트하세요.

v0.22.0의 계층형 KV 캐시 오프로딩은 어떻게 작동하나요?

프레임워크는 KV 캐시 블록을 세 계층으로 나누어 관리합니다. 핫 블록은 지연 시간을 최소화하기 위해 GPU HBM에 유지되고, 웜 블록은 CPU DRAM으로 넘어가며, 콜드 블록은 Python으로 구현된 파일 시스템 계층 또는 Mooncake 디스크 백엔드에 기록됩니다. 이를 통해 GPU 메모리만으로는 확보할 수 없는 수준으로 배포의 실효 컨텍스트 용량을 확장할 수 있습니다. 각 계층 전환마다 지연 시간이 추가됩니다. CPU DRAM의 블록 접근은 GPU HBM보다 현저히 느리며, 디스크 계층은 더욱 느립니다. 오프로딩을 활성화하기 전에 실제 블록 접근 패턴을 프로파일링하고, 확장된 컨텍스트 용량이 워크로드의 지연 시간 트레이드오프를 감수할 만큼 가치 있는지 측정해 보세요.

vLLM v0.22.0의 Rust 프런트엔드를 사용할 준비가 되어 있나요?

아닙니다. Rust 프런트엔드와 Data-Parallel Supervisor는 v0.22.0에서 명시적으로 실험적 기능입니다. API가 불안정하고 외부 사용을 위한 문서화된 인터페이스가 없으며, 이 태그의 프로덕션 워크로드에는 적합하지 않습니다. 이는 향후 릴리스에서 GIL 없는 요청 오케스트레이션을 위한 인프라 기반 작업을 나타내며, 프로젝트가 나아가는 방향을 보여주는 유용한 신호이지만 현재 배포에 사용할 수 있는 기능은 아닙니다.

v0.22.1 패치 사이클에서 주목할 사항

2026년 5월 30일 기준, v0.22.1 브랜치에는 추가 패치 없이 단 하나의 체리픽만 포함되어 있습니다. 회귀 수정이 발생할 가능성이 높은 영역은 DeepSeek V4(최근 코드베이스 재구성, 새로운 커널 경로), Cutlass FP8(컴파일 모드의 새로운 실행 경로), MR V2 KV 커넥터 호환성 레이어입니다. rc1+ 태그가 등록되는지 vLLM 릴리스 페이지를 주시하세요. v0.23.0 이전에 아무것도 나타나지 않는다면, v0.21.1의 선례처럼 이번 패치 사이클이 다음 마이너 릴리스로 대체될 수도 있습니다.

현재 두 영역은 독립적인 벤치마크 데이터가 없습니다. Mooncake 디스크 오프로드 백엔드와 28.9% Cutlass FP8 지연 시간 수치입니다. 커뮤니티의 재현 수치가 나오면 다시 검토할 가치가 있습니다. 실험적인 Rust 프런트엔드에는 안정화 일정이 명시되어 있지 않습니다. 공식 안정화 목표가 발표되는지 vLLM 로드맵을 추적하세요.

최종 업데이트: 2026-05-30. 이 글은 2026년 5월 29일 태그된 vLLM v0.22.0 및 v0.22.1rc0 릴리스를 기준으로 작성되었습니다.