Composer 2.5, 비용은 60분의 1로 최상위권 근접

Composer 2.5: Artificial Analysis Coding Index 3위, 작업당 $0.07 — 최근접 경쟁사 $4.10 대비 압도적 비용 우위. 요금제 선택, 효과적인 프롬프트 전략, 독립 평가 점수의 실제 의미를 분석한다.

Creeta

Jun 02, 2026

Cursor의 Composer 2.5가 2026년 5월 18일 출시됐습니다. 주목할 부분은 새 모델이 아닙니다 — 팀이 기존 모델에 가한 변화입니다. 성능 향상은 새 체크포인트가 아닌 포스트 트레이닝에서 거의 전부 비롯됩니다.

Cursor가 2.5에 담은 것: Kimi K2.5 기반 RL 집중 포스트 트레이닝

Composer 2.5는 Composer 2와 동일한 오픈 웨이트 베이스를 사용합니다: Moonshot AI의 Kimi K2.5 — 활성 파라미터 32B, 총 1.04T 파라미터의 혼합 전문가(MoE) 모델입니다 . 아키텍처 교체는 없습니다. Cursor의 출시 그래픽에 따르면 Composer 2.5의 전체 컴퓨팅 중 약 85%가 새 체크포인트가 아닌 추가 Composer 트레이닝과 RL에 투입됐습니다 — 모든 성능 향상은 출발점이 된 가중치가 아닌 파인튜닝 스택에 있습니다.

그 스택이 추가한 내용은 구체적입니다:

Composer 2 대비 합성 작업 25배 증가, 실제 코드베이스 기반의 기능 삭제 연습 포함 .
더 복잡한 RL 환경, 그리고 각 오류 발생 지점에 정확히 주입되는 텍스트 피드백 — 툴 호출 실패, 스타일 이탈, 지시 드리프트 — on-policy distillation KL 손실로 구현됨 .

대형 모델 트레이닝을 추적하는 분들에게 주목할 만한 인프라 세부사항이 있습니다: Cursor는 분산 직교화와 듀얼 메시 HSDP를 갖춘 샤딩된 Muon을 활용해 1T 파라미터 모델에서 옵티마이저 스텝 0.2초를 달성했다고 밝혔습니다 . Composer 2 대비 +14점을 기록한 독립적인 Artificial Analysis Coding Agent Index와 비교하면, 개선의 대부분은 더 크거나 다른 베이스가 아닌 강화된 포스트 트레이닝에서 비롯됐다는 결론이 나옵니다 .

Composer 2.5 사용 전 준비 사항

Composer 2.5 hits near-frontier at 60× lower spend

Composer 2.5를 선택하려면 최신 Cursor 빌드와 요금 청구 방식에 대한 명확한 이해가 필요합니다. 이 모델은 Cursor 3.4 이상이 필요합니다 — 2026년 5월 20일 기준 버전 3.5가 최신입니다 — 모델 이름이 선택 목록에 나타나기 전에 Cursor → Check for Updates를 실행하고 재시작하세요 .

Composer 2.5는 동일한 모델 가중치로 구동되는 두 가지 티어로 제공됩니다 — 티어는 토큰당 비용과 지연 시간만 다를 뿐, 출력 품질은 동일합니다 . Fast가 출시 기본값으로 더 빠르고 비싼 하드웨어에서 구동되므로, 비용을 고려하는 사용자는 Standard로 전환하는 것이 좋습니다.

티어	입력 ($/M)	출력 ($/M)	캐시 읽기 ($/M)
Standard	$0.50	$2.50	$0.20
Fast (기본값)	$3.00	$15.00	$0.20

두 티어 모두 개인 플랜의 Auto + Composer 사용량 풀을 공유하며, 어느 쪽이든 캐시 읽기 요금은 $0.20/M입니다 . 출시 첫 주 더블 사용량 프로모션은 2026년 5월 18일에 시작됐으며, 2026년 6월 2일 기준으로는 종료된 것으로 간주하고 Cursor 대시보드의 Usage 탭에서 직접 확인하세요 .

Composer 2.5 선택·프롬프트·검증 방법

Composer 2.5 선택은 최신 Cursor 빌드 내에서 세 번의 클릭으로 끝나지만, 진짜 효과는 프롬프트 방식에서 나옵니다: 작업에 검증 가능한 성공 조건을 명시하면 모델이 테스트 검증을 목표로 RL 훈련됐기 때문에 스스로 그 목표를 향해 수정해 나갑니다 [1][4]. 아래 워크플로는 에디터 업데이트부터 규칙 인코딩, 안정적인 롤백 경로 유지까지 단계별로 안내합니다.

Cursor 업데이트. Composer 2.5는 최신 빌드가 필요합니다 — Cursor 3.4 이상, 2026년 5월 20일 기준 3.5가 최신입니다. Cursor → Check for Updates를 실행하고 안내에 따라 재시작하세요.
모델 선택. Cmd/Ctrl+I로 Agent를 열거나(또는 채팅 세션 시작), 프롬프트 입력창의 모델 이름을 클릭한 뒤 composer-2.5를 선택하세요. 동일한 드롭다운이 Cmd/Ctrl+K 인라인 편집 에디터에도 나타납니다 [1][4].
작업에 맞게 청구 티어 설정. 티어 선택기를 클릭해 백그라운드·클라우드·장시간 에이전트 루프에는 Standard로 전환하고, 짧은 인라인 편집에서 낮은 지연이 필요할 때만 Fast를 사용하세요. 두 티어는 동일한 가중치로 구동되며 하나의 사용량 풀을 공유하므로, 선택에 따라 달라지는 것은 토큰당 비용과 첫 토큰 지연이지 출력 품질이 아닙니다 [1][4].
모든 실질적인 프롬프트에 성공 조건을 포함하세요. 에이전트에게 명확한 최종 상태를 제시하세요 — 예: "기존 테스트가 모두 통과되고 엔드포인트가 잘못된 입력에 422를 반환해야 합니다." 모델은 테스트 검증을 목표로 훈련됐기 때문에 초안에서 멈추지 않고 그 목표를 향해 반복합니다.
파일 수정 전 계획을 요청하세요. 안전한 첫 단계로 다음과 같이 프롬프트하세요: "관련 파일을 파악하고 최소한의 테스트 기반 패치를 제안하세요 — 아직 코드를 작성하지 마세요." 편집이 적용되기 전에 계획을 검토하면 오독을 조기에 발견할 수 있습니다.
규칙에 컨벤션을 인코딩하세요. 프로젝트 표준을 .cursor/rules(.mdc 파일) 또는 AGENTS.md에 저장하세요. Cursor는 Project·User·Team Rules를 지원합니다; 각 규칙은 실행 가능하고 범위가 명확하며 500줄 이하로 유지하고, 프로젝트별 규칙은 git에 커밋하세요.
롤백 경로를 확보하세요. 에이전트는 체크포인트를 생성합니다 — 롤백 가능한 로컬 스냅샷 — 그리고 agent resume으로 중단된 세션을 복구할 수 있습니다. 이것들은 편의 레이어로 활용하되, Git이 여전히 견고한 버전 관리 수단이므로 장시간 자율 실행 전에는 반드시 커밋하세요 [3][4].

Cursor 팀의 한 가지 팁은 처음부터 세세하게 명시하는 대신 에이전트의 확인 질문을 적극 활용하라는 것입니다(영상: Cursor) — 목표와 검증 조건을 설명하고, 읽어야 할 파일은 에이전트가 스스로 찾도록 맡기세요.

믿고 쓰기 전에: 과금 현실과 독립 검증 결과

Composer 2.5에 긴 세션을 맡기기 전에 과금 선택기를 확인하세요. Fast가 출시 기본값이며, Standard와 동일한 모델 가중치를 더 높은 토큰당 요금으로 실행합니다 . Fast는 입력 $3.00/M·출력 $15.00/M인 반면, Standard는 $0.50/M·$2.50/M — 품질 향상 없이 첫 토큰만 빠르고 요금은 약 6배입니다 . 레이턴시에 민감한 인라인 편집을 제외하면 Standard로 전환하세요.

성능 주장은 실제일까요? 독립 측정값은 정확히 일치하지는 않지만 Cursor의 주장을 대체로 뒷받침합니다. Artificial Analysis의 Coding Agent Index에서 Composer 2.5는 62점으로 전체 3위 — Claude Code with Opus 4.7(66)과 Codex with GPT-5.5(65)에 이어 — 를 기록했습니다 . Composer 2의 48점 대비 +14점 상승이며, SWE-Bench-Pro-Hard-AA가 12%에서 47%로 +35점 오른 것이 주된 동력입니다 . 반면 Cursor가 63.2%를 보고하는 CursorBench v3.1은 중립적인 공개 리더보드가 아니라 실제 Cursor 세션으로 구축된 내부 벤치마크입니다 .

이를 기반으로 워크플로를 구성하기 전에 두 가지 주의 사항을 짚어야 합니다. 첫째, 공급망: 기본 가중치는 Moonshot AI의 Kimi K2.5(서드파티 오픈 체크포인트)이며, Cursor가 SpaceXAI와 Colossus 2에서 처음부터 훈련 중인 모델(컴퓨팅 약 10배 목표)은 아직 출시되지 않았고 2.5에 포함되지도 않습니다 . 둘째, 실제 프로덕션 리포지토리에서 Fast와 Standard의 품질이 동일하다는 독립적 확인은 없습니다 — Cursor가 동일 가중치라고 주장할 뿐, 그것이 유일한 근거입니다 . 비용 절감은 사실로 받아들이되, 동등성은 직접 diff로 검증하기 전까지 벤더 주장으로만 취급하세요.

어디에 활용할까: 워크트리·규칙 파일·멀티 모델 조합

가장 강력한 설정은 Composer 2.5 단독이 아니라, 멀티 모델 로테이션에서 저렴한 기본값으로 Composer 2.5를 활용하는 것입니다. 일반적인 라우팅 패턴: 리팩터링과 중간 규모 에이전트 루프는 Composer 2.5 Standard로 보내고, 아키텍처 추론은 Opus 4.7 같은 프론티어 모델로, 터미널 집약적이거나 멀티 셸 작업은 GPT-5.5에 맡기세요 . Git 워크트리를 사용하면 각 태스크가 독립된 브랜치를 가지므로 세 모델이 하나의 리포지토리에서 서로 충돌 없이 병렬로 작업할 수 있습니다 .

세 가지 CLI 플래그가 이 워크플로를 실용적으로 만듭니다: --mode=plan은 파일을 건드리기 전에 검사하고 제안하며, --worktree는 각 태스크를 자체 브랜치에 격리하고, --print는 스크립팅과 CI를 위해 비대화형으로 실행합니다 .

비용 주장을 그냥 믿지 말고 직접 데이터로 검증하세요. Standard에서 실제 리팩터링을 하나 실행해 토큰 소비를 기록한 다음, 동일한 작업을 프론티어 대안으로 실행해 품질과 비용을 나란히 비교하세요. 실험의 동기가 되는 계산은 간단합니다(이 스니펫은 실행됨, exit 0):

frontier = {"name": "Frontier", "score": 100.0, "spend": 60.0}
composer = {"name": "Composer 2.5", "score": 97.0, "spend": 1.0}

score_gap = frontier["score"] - composer["score"]
spend_ratio = frontier["spend"] / composer["spend"]

print(f'{composer["name"]}: {composer["score"]:.0f}% of frontier quality')
print(f"Gap to frontier: {score_gap:.0f} points")
print(f"Spend reduction: {spend_ratio:.0f}x lower spend")

핵심: Standard 기준 태스크당 약 $0.07 대 Opus 4.7의 $4.10로 , 다소의 품질 차이가 있더라도 하루치 에이전트 루프만으로 충분히 본전을 뽑습니다. Composer 2.5 Standard를 기본값으로 삼고, 필요할 때만 의도적으로 에스컬레이션하며, 나머지는 직접 diff가 판단하게 하세요.

자주 묻는 질문

Composer 2.5는 Composer 2와 같은 모델인가요?

맞기도 하고 아니기도 합니다. Composer 2.5는 Composer 2와 동일한 오픈 웨이트 기본 체크포인트 위에서 실행됩니다 — Moonshot AI의 Kimi K2.5로, 활성 파라미터 32B를 갖는 1.04조 파라미터 규모의 mixture-of-experts 모델입니다 . 차이는 아키텍처가 아닌 사후 훈련에 있습니다. Cursor에 따르면 Composer 2.5의 전체 컴퓨팅 중 약 85%가 추가적인 Composer 훈련과 강화학습에 사용되었으며, 여기에는 Composer 2 대비 약 25배 많은 합성 태스크가 포함됩니다 . 즉, 성능 향상은 새로운 기본 모델이 아닌 동일 체크포인트에서의 파인튜닝에서 비롯된 것입니다.

Composer 2.5 Standard와 Fast의 실제 차이는 무엇인가요?

두 모드는 동일한 모델 가중치를 사용하므로, Cursor에 따르면 품질 차이는 없으며 오직 지연 시간과 비용만 다릅니다 . Fast는 더 빠른 첫 토큰 응답을 위해 고성능·고비용 하드웨어에서 실행되며, 입력 $3.00/M·출력 $15.00/M으로 책정됩니다. Standard는 입력 $0.50/M·출력 $2.50/M으로, 토큰당 약 6배 저렴합니다 . Fast가 출시 기본값이었으므로, 긴 에이전트 세션에서는 저지연 인라인 편집이 반드시 필요한 경우가 아니라면 Standard로 전환하는 것을 권장합니다.

Cursor의 Composer 2.5 벤치마크 주장은 얼마나 정확한가요?

독립적인 테스트 결과도 대체로 이를 뒷받침합니다. Artificial Analysis는 Coding Agent Index에서 Composer 2.5에 62점을 부여했는데, 이는 Claude Code의 Claude Opus 4.7(66점)과 Codex의 GPT-5.5(65점)에 이어 전체 3위에 해당하며, Composer 2의 48점 대비 14점 상승한 수치입니다 . 다만 Cursor의 CursorBench 수치는 보다 신중하게 받아들여야 합니다. 이는 중립적인 공개 리더보드가 아니라 실제 Cursor 엔지니어링 세션을 기반으로 구축된 내부 벤치마크입니다 .

Composer 2.5는 Cursor CLI에서 작동하나요?

네. Composer 2.5는 에이전트 UI와 터미널 CLI 모두에서 사용할 수 있습니다 . 에이전트 CLI는 편집 전 검토를 위한 --mode=plan, 별도 브랜치에서 변경 사항을 격리하는 --worktree, 비대화형 스크립팅을 위한 --print를 지원하며, Ask 모드·슬래시 명령어·@ 컨텍스트 선택·agent resume도 함께 제공됩니다 .

출시 당시 2배 사용량 프로모션이 아직 진행 중인가요?

거의 확실히 종료되었습니다. 출시 첫 주 2배 사용량 프로모션은 2026년 5월 18일에 시작되었습니다 . 2026년 6월 2일 현재, Cursor 대시보드에서 별도로 확인되지 않는 한 이미 만료된 것으로 간주해야 합니다 — 계획을 세우기 전에 사용량 탭에서 현재 적용 요율을 먼저 확인하세요.