Command A+: Cohere의 전략적 오픈 웨이트 전환
Command A+는 Cohere 최초의 완전 오픈 웨이트 프런티어 모델이자, Cohere가 처음으로 Apache 2.0 전체 라이선스 하에 출시한 모델입니다 . 2026년 5월 20일에 공개되어 CohereLabs/command-a-plus-05-2026 네임스페이스로 Hugging Face에서 호스팅되며 , 이는 명확한 전략적 전환점을 의미합니다. Cohere는 역사적으로 모든 프런티어 가중치를 독점으로 유지하고 API 구독 및 기업 계약을 통해 수익을 창출해왔습니다. 이제 그 방식이 바뀌고 있습니다.
핵심 요약: Command A+는 Cohere 최초의 Apache 2.0 라이선스 오픈 웨이트 모델로, 토큰당 활성 파라미터 250억 개에 전체 2,180억 개 규모의 sparse MoE 아키텍처를 갖추고 있습니다. 2026년 5월 20일 Hugging Face에 출시되었으며, W4A4 양자화 기준 NVIDIA H100 80GB GPU 단 2장으로 구동 가능합니다. 일반 소비자 추론이 아닌 규제 산업 기업 및 주권 배포를 목표로 합니다.
경쟁 구도는 명확합니다. Apache 2.0 하에 출시함으로써 Cohere는 Mistral, Meta(Llama), DeepSeek가 2년 이상 구축해온 시장에 진입합니다. 포지셔닝의 차이는 이렇습니다. Command A+는 로컬 실험을 원하는 개발자가 아니라, 온프레미스 또는 에어갭 배포가 필요한 기업 IT 및 정부 구매자를 겨냥합니다. 이 분야에서는 OpenAI와 Anthropic의 클라우드 API 대안이 어떤 보안 인증으로도 해소할 수 없는 규제 마찰을 유발하기 때문입니다. 핵심 가치 제안은 종합 벤치마크 순위가 아닌 효율성과 데이터 주권입니다.
Hugging Face에는 세 가지 양자화 티어가 공개되어 있습니다. 전체 정밀도인 -bf16, 중간 옵션인 -fp8, 그리고 Cohere가 프로덕션 배포에 권장하는 -w4a4입니다 . 추론은 cohere_melody 파서를 사용하는 Hugging Face Transformers 및 vLLM을 통해 지원됩니다. 자체 스택 운영을 원하지 않는 팀을 위해 Cohere의 Model Vault 서비스를 통한 관리형 추론도 제공됩니다.
Cohere 공동 창업자 Nick Frosst는 이번 출시를 소비자 AI가 아닌 주권 인프라를 중심으로 명시적으로 설명합니다.
"Command A+는 이를 가능하게 하려는 우리의 노력의 일환입니다. 우리는 중요 인프라를 위해 설계된 주권형 오픈소스 모델을 제공하고 있으며, 이를 통해 개인, 기업, 정부가 실제 시스템을 규모에 맞게 운영하는 데 필요한 신뢰성, 성능, 효율성을 갖출 수 있습니다." — Nick Frosst, Cohere 공동 창업자
Cohere의 주요 투자자로는 NVIDIA, AMD Ventures, Salesforce Ventures, Oracle, Cisco가 있습니다 — 소비자 제품이 아닌 기업 인프라 지향성을 반영하는 투자자 구성입니다. 이 맥락은 모델 설계 선택을 평가할 때 중요합니다. Command A+의 모든 아키텍처 결정은 주권 배포 사용 사례로 거슬러 올라갑니다.
Sparse MoE 내부 구조: 전체 2,180억 파라미터, 토큰당 250억 활성화

Command A+는 전체 파라미터 2,180억 개를 갖춘 sparse Mixture-of-Experts 모델로, 추론 토큰당 250억 개만 활성화됩니다 . 밀집 모델에서는 모든 파라미터가 모든 순전파에 참여합니다. Sparse MoE에서는 학습된 라우팅 레이어가 토큰별로 '전문가' 서브레이어의 소규모 집합을 선택하고 나머지는 비활성 상태로 남깁니다. 실질적인 결과는 토큰당 연산 비용이 2,180억이라는 헤드라인 수치가 아닌 250억 활성 파라미터 기준으로 산정된다는 것으로, 전체 파라미터 수가 시사하는 것 대비 추론 FLOPs이 크게 줄어듭니다.
이 아키텍처 자체는 새로운 것이 아닙니다. Mixtral과 DeepSeek V3도 같은 패턴을 사용합니다. 그러나 Command A+는 활성-전체 비율이 약 1:9로, 대부분의 오픈 웨이트 동시대 모델보다 더 공격적인 규모에서 이를 적용합니다. 이 모델을 평가하는 개발자는 밀집 모델과의 단순 파라미터 비교에 주의해야 합니다. 700억 밀집 모델과 활성 파라미터 250억의 2,180억 MoE 모델은 연산 비용 면에서 동등하지 않습니다. MoE는 전체 파라미터 수가 시사하는 것보다 밀집 모델에 훨씬 가깝습니다.
-w4a4 변형은 훈련 후 양자화가 아닌 양자화 인식 증류(quantization-aware distillation)를 사용합니다. 표준 훈련 후 양자화에서는 전체 정밀도 가중치가 훈련 완료 후 압축되며, 품질 저하는 불가피한 비용으로 수용됩니다. 양자화 인식 증류에서는 목표 양자화를 루프에 포함해 모델을 훈련 또는 증류하므로, 정밀도 손실에 강인한 표현을 학습할 수 있습니다. Cohere는 그 결과를 '무손실에 가깝다'고 설명하지만 , 이 주장은 출시 시점에 독립적으로 검증되지 않았습니다. 엄격한 품질 기준이 있는 팀은 프로덕션에서 더 공격적인 양자화 티어를 채택하기 전에 자신의 특정 태스크 분포에서 W4A4와 FP8을 비교 벤치마킹해야 합니다.
-fp8 티어는 정밀도-효율성 곡선에서 BF16과 W4A4 사이에 위치합니다. W4A4로 이전하기 전 양자화 영향을 검증해야 하는 팀, 특히 출력 일관성이 감사 가능해야 하는 규제 워크로드에서는 FP8이 유용한 전환점을 제공합니다. 전체 BF16 대비 GPU를 크게 절약하면서도 공격적인 int4 가중치 압축의 불확실성을 피할 수 있습니다.
Cohere는 또한 MoE 토폴로지에 맞게 추측적 디코딩(speculative decoding)을 튜닝하여 W4A4 기준 수치 대비 처리량을 1.5~1.6배 추가로 향상시켰습니다 . 추측적 디코딩은 더 작은 초안 모델을 실행해 다음 토큰을 예측하고 대형 모델이 배치 형태로 이를 검증하는 방식으로 작동합니다. MoE 토폴로지는 여기서 특정 이점을 만듭니다. 가까운 미래 토큰의 전문가 라우팅이 전체 다음 토큰 분포보다 높은 신뢰도로 예측될 수 있어 추측 수용률이 높아집니다. 결과적으로 효과가 중첩됩니다. W4A4는 토큰당 연산을 줄이고, 추측적 디코딩은 단위 시간당 순차 생성 단계를 줄입니다.
생성 중 인용 네이티브 지원: <co> 태그 시스템 작동 방식
Command A+의 인용 시스템은 모델이 순방향 패스(forward pass) 중에 사실적 주장을 감싸는 <co>·</co> 태그를 직접 출력하도록 설계되어 있습니다 . 태그로 묶인 각 구간에는 입력 컨텍스트에 제공된 소스 문서 인덱스 참조가 포함됩니다. 출처 표시는 모델이 텍스트 생성을 마친 뒤 덧붙이는 후처리 레이어가 아니라, 생성 과정에 훈련으로 내재된 동작입니다.
이 방식이 표준 RAG 파이프라인과 다른 점은 운영 측면에서 중요합니다. 일반적인 접근 방식은 관련 문서를 가져오는 검색 단계를 실행하고, 응답을 생성한 뒤, 생성된 주장을 소스 단락에 매핑하기 위해 하이라이트 추출 또는 검색 스코어링 모델이라는 2차 패스를 추가로 실행합니다. 이 2차 패스는 지연 시간을 증가시키고, 생성 내용과 출처 귀속 레이어가 연결하는 내용 사이의 불일치 가능성을 만들며, 운영 환경에서 추가적인 장애 포인트를 낳습니다. Command A+는 이 단계들을 하나로 통합합니다. 인용 매핑은 단일 추론 호출 내에서, 생성 중에 한 번만 생성됩니다 .
의료 문서, 법률 리서치, 금융 컴플라이언스 등 규제 산업의 RAG 배포에서 이 차이는 실질적인 준법 감시 무게를 가집니다. 전문가가 의존하는 출력물에 출처가 없는 AI 생성 주장이 포함되면 책임 리스크가 발생합니다. 모든 사실적 주장에 소스 문서 인덱스 태그를 붙이는 모델은 두 번째 모델이나 별도의 출처 귀속 파이프라인 없이, 첫 번째 추론 호출부터 감사 가능한 증거 추적을 컴플라이언스 팀에 제공합니다. Command A+ 아키텍처 기술 분석에 따르면, 인라인 인용 시스템은 일반적인 편의 기능이 아니라 규제 기업 파이프라인을 위해 특별히 설계된 것입니다.
인용 동작은 더 넓은 구조화 출력 시스템의 일부입니다. Command A+는 추론(<|START_THINKING|>), 툴 호출(<|START_ACTION|>), 툴 결과 수신(<|START_TOOL_RESULT|>)을 위한 태그도 출력합니다 . 이 태그 기반 인터페이스는 결정론적 다단계 에이전트 워크플로를 가능하게 합니다. 다운스트림 애플리케이션 코드는 프롬프트 엔지니어링 편법이나 자유형 텍스트에 대한 취약한 정규식 없이 구조화된 출력을 안정적으로 파싱할 수 있습니다. 출처 귀속과 툴 사용 모두 통합 경계에서 테스트 가능합니다.
VentureBeat의 릴리스 보도는 네이티브 인용을 W4A4 양자화와 함께 Command A+를 다른 오픈 웨이트 모델들과 차별화하는 두 가지 핵심 기능으로 조명합니다. 이 모델은 제한된 하드웨어 환경에서의 배포 가능성과, 출처 표시가 편의가 아닌 필수 요건인 규제 사용 사례 적합성을 동시에 갖추고 있습니다 . 해당 분야에서 RAG 파이프라인을 구축하는 팀에게 인용 시스템은 컴플라이언스를 충족하는 배포의 엔지니어링 범위를 직접적으로 줄여줍니다.
벤치마크 성적표: 과제별 성능 향상과 종합 점수 격차

Command A+는 전작인 Command A Reasoning 대비 과제별 벤치마크에서 상당한 향상을 보입니다 — 특히 실제 기업 워크로드를 반영하는 에이전틱·추론 벤치마크에서 두드러집니다. Artificial Analysis Intelligence Index 종합 지수에서는 주요 폐쇄형 프론티어 모델 전체보다 낮은 점수를 기록합니다. 두 사실 모두 정확하며, 어느 한쪽만 보면 잘못된 배포 결정으로 이어집니다. 올바른 관점은 이렇습니다: Command A+는 범용 프론티어 경쟁 모델이 아니라, 특정 고부가가치 작업에서 강력한 성능을 발휘하는 효율적인 소버린 배포 가능 모델입니다.
| 벤치마크 | Command A Reasoning | Command A+ | 변화 | 비고 |
|---|---|---|---|---|
| τ²-Bench Telecom (에이전틱) | 37% | 85% | +48 pp | 다단계 에이전틱 작업 완료 |
| Terminal-Bench Hard (코딩) | 3% | 25% | +22 pp | 고난도 에이전틱 코딩 |
| AIME 25 (수학 추론) | 57% | 90% | +33 pp | 경시대회 수학 |
| MMMU (멀티모달) | — | 75.1% | 신규 기능 | 최초의 멀티모달 Command 모델 |
| MMMU Pro | — | 63.0% | 신규 기능 | |
| MathVista | — | 80.6% | 신규 기능 | 시각적 수학 추론 |
| GPQA Diamond | — | 76.0% | 신규 기능 | 대학원 수준 과학 문제 |
출처: Cohere 블로그 및 mer.vin 분석 . 모든 벤치마크 수치는 Cohere가 자체 발표한 값이며, 출시 시점에 독립적인 제3자 검증은 공개되지 않았습니다.
τ²-Bench Telecom에서 37%에서 85%로의 향상 은 가장 눈에 띄는 수치입니다 — 도메인 특화 맥락에서 다단계 에이전틱 작업 완료를 측정하는 벤치마크에서 거의 두 배에 달하는 성과입니다. Terminal-Bench Hard에서 3%에서 25%로의 도약 은 명시적으로 고난도로 설계된 에이전틱 코딩 벤치마크에서의 큰 절대 수치 향상이지만, 절대 점수 25%는 복잡한 소프트웨어 엔지니어링 작업에서 폐쇄형 프론티어 모델 대비 여전히 상당한 여지를 남깁니다.
Artificial Analysis Intelligence Index 종합 지수에서 Command A+는 37점을 기록합니다 . 출시 시점의 오픈웨이트 및 폐쇄형 모델 전반의 경쟁 현황은 다음과 같습니다:
| 모델 | 인텔리전스 지수 | 접근 방식 | 라이선스 |
|---|---|---|---|
| GPT-5.5 | 60 | 폐쇄형 API | 독점 |
| Claude Opus 4.7 | 57 | 폐쇄형 API | 독점 |
| Gemini 3.1 Pro | 57 | 폐쇄형 API | 독점 |
| Mistral Medium 3.5 | 39 | 오픈웨이트 / API | Mistral Research |
| Command A+ | 37 | 오픈웨이트 / API | Apache 2.0 |
Source: ChatForest 독립 리뷰
종합 점수 격차는 실재하며, 벤치마크 특성에 따른 왜곡으로 치부해서는 안 됩니다. GPT-5.5의 60점, Claude Opus 4.7의 57점에 맞선 37점이라는 수치 는 아키텍처에 내재된 트레이드오프를 반영합니다: W4A4 양자화로 두 개의 GPU에서 활성화되는 250억 파라미터로는, 훨씬 더 많은 활성 파라미터를 전체 정밀도로 구동하는 폐쇄형 프론티어 모델의 추론 깊이를 따라잡을 수 없습니다. 범용 추론 품질의 극대화가 핵심 요건인 팀은 폐쇄형 프론티어 API 모델을 사용해야 합니다. 데이터 레지던시, 온프레미스 제어, 특정 에이전틱 작업에서의 강력한 성능이 핵심 요건이며, 모델을 자유롭게 자체 호스팅하고 수정할 수 있는 자유를 원하는 팀에게는 기술적으로 타당한 선택지가 됩니다.
하드웨어 요구사항과 추론 처리량
Command A+는 소비자용 GPU 배포 경로가 없는 데이터센터 모델입니다. 권장 운영 등급인 W4A4 기준 최소 하드웨어 요구사항은 NVIDIA H100 80GB GPU 2개 또는 NVIDIA B200 1개입니다 . 완전한 BF16 정밀도를 위해서는 H100 8개 또는 B200 4개가 필요합니다. 워크스테이션, A100 단일 GPU, 또는 일반 클라우드 GPU 인스턴스에서 실행할 수 있는 모델이 아닙니다.
| 양자화 등급 | 최소 GPU 구성 | 출력 토큰/초 (낮은 동시성) | TTFT (ms) |
|---|---|---|---|
| W4A4 (권장) | 2× H100 80GB 또는 1× B200 | ~375 | 113 |
| FP8 | W4A4와 BF16 사이의 중간 등급 | 출시 시 미공개 | 출시 시 미공개 |
| BF16 | 8× H100 80GB 또는 4× B200 | 출시 시 미공개 | 출시 시 미공개 |
처리량 수치는 낮은 동시성 환경에서 Cohere의 특정 실험실 조건 하에 자체 보고한 수치입니다 . W4A4 기준 초당 약 375개의 출력 토큰과 113ms의 첫 번째 토큰 생성 시간은 동일한 하드웨어 및 동시성 설정에서 Command A Reasoning 대비 약 63% 높은 처리량을 나타냅니다 . 이 수치는 높은 동시성 환경, 구형 GPU 세대, 또는 프롬프트 대 생성 비율이 크게 다른 조건에서는 유효하지 않습니다. 초기 규모 산정의 방향성 기준으로만 활용하고, 용량 계획 전 자체 동시성 프로파일로 검증하시기 바랍니다.
H100 2개의 W4A4 진입점은 엔터프라이즈 관점에서 중요한 의미를 가집니다. 2GPU 온프레미스 노드는 대형 엔터프라이즈 IT 부서에서 일상적으로 조달하는 구성이며, 하이퍼스케일러 전용 특수 구성이 아닙니다. 비교하자면, 8×H100의 BF16 등급은 전용 NVLink 인터커넥트 구성(DGX H100 또는 동급)이 필요하며, 이는 자본 및 운영 비용 측면에서 훨씬 더 높은 부담을 의미합니다. MoE 라우팅과 W4A4 압축이 2GPU 최소 요구사항을 가능하게 하는 핵심입니다. 4비트 가중치 정밀도의 250억 개 활성 파라미터가 추론 시 인터커넥트 오버플로 없이 두 개의 80GB HBM3 장치에 수용됩니다.
추측적 디코딩(speculative decoding)으로 인한 추가 1.5~1.6배 처리량 향상이 W4A4와 결합되어 Cohere의 주요 처리량 수치를 만들어냅니다. 두 최적화가 동시에 활성화되어야 복합적인 성능 향상을 실현할 수 있으며, 기본 설정으로 vLLM을 사용하는 팀은 MoE 토폴로지에서 추측적 디코딩을 활성화하기 위한 명시적 구성이 필요할 수 있습니다.
관리형 API의 비용을 평가하는 팀을 위해: Cohere는 Command A+를 입력 토큰 100만 개당 $2.50, 출력 토큰 100만 개당 $10.00으로 책정했습니다 . 이는 Mistral Medium 3.5의 $1.50/$7.50보다 높고, DeepSeek V4의 $0.27/$1.10보다 상당히 높은 수준입니다 . Apache 2.0 라이선스를 통해 팀은 Cohere의 API를 완전히 우회하고 자체 호스팅할 수 있습니다. 관리형 가격 정책은 자체 추론 인프라 운영을 원하지 않는 팀에게만 해당됩니다.
소버린 AI 및 규제 산업 배포
Apache 2.0 라이선스는 Command A+의 소버린 배포 전략의 법적 기반입니다. 특정 사용자 수 및 매출 임계값 초과 시 제한을 부과하는 Meta의 Llama 커뮤니티 라이선스와 달리, Apache 2.0은 로열티 의무 없이 상업적 배포, 수정, 파인튜닝, 재배포를 제한 없이 허용합니다 . 조직은 가중치를 다운로드하고, 자체 데이터로 모델을 수정하고, 제품으로 패키징하여 상업적으로 배포할 수 있으며, 이 모든 과정에 Cohere의 개입이 필요하지 않습니다.
주요 배포 대상은 데이터가 통제된 경계를 벗어날 수 없는 조직입니다: 국방 기관, HIPAA 또는 이에 준하는 규정 하에 운영되는 의료 시스템, 데이터 레지던시 요건을 가진 금융 기관, 기밀 또는 민감한 인프라를 보유한 정부 기관 등이 해당됩니다. 이러한 조직 모두에서 클라우드 호스팅 API 모델은 벤더의 보안 인증과 관계없이 컴플라이언스 팀이 승인하지 않을 데이터 유출 경로를 생성합니다. 에어갭 또는 프라이빗 클라우드 인프라에 자체 호스팅하면 해당 제약이 구조적으로 해소됩니다.
W4A4 H100 2개 진입점은 온프레미스 대규모 도입을 가능하게 하는 핵심 요소입니다. 대형 엔터프라이즈 IT 부서와 정부 기관은 이미 ML 워크로드를 위한 GPU 인프라를 운영하고 있어, 기존 2GPU 노드에 Command A+ 배포를 추가하는 데 하이퍼스케일러 데이터센터 구성이 필요하지 않습니다. Cohere의 공식 릴리스 문서에 따르면, 이 모델은 해당 배포 프로파일을 중심으로 명시적으로 설계되었습니다. 아키텍처 선택(MoE, W4A4, 추측적 디코딩)은 최소한의 합리적인 온프레미스 하드웨어 풋프린트에서 유능한 모델을 실행하기 위한 목적으로 이루어졌습니다.
Cohere는 출시 당시 Nick Frosst의 발표에서, Command A+를 데이터 통제를 보장하면서 '실제 시스템을 규모 있게 운영'해야 하는 '개인, 기업, 정부'를 대상으로 한 소버린 AI 전략의 일환으로 제시했습니다 . 소버린 AI, 핵심 인프라라는 이러한 표현은 Cohere가 API 기능 경쟁을 하는 개발자 도구 회사가 아닌 엔터프라이즈 인프라 기업으로 포지셔닝하고 있음을 시사합니다.
출시 시점에 주목할 한 가지 공백: Cohere는 Command A+의 구체적인 엔터프라이즈 또는 정부 고객 배포 사례를 발표하지 않았습니다. 소버린 배포 포지셔닝은 제품 및 영업 서사로는 명확하지만, 향후 2~4분기 내에 목표 산업군에서 검증된 운영 도입으로 이어질지는 아직 증명되지 않았습니다. 규제 산업 파이프라인에서 이 모델을 평가하는 개발자들은 가장 민감한 배포 환경에서 운영 실적이 검증되지 않은, 기술적으로는 유력한 후보로 취급해야 합니다.
다국어 지원: 48개 언어와 토크나이저 효율성

Command A+는 48개 언어를 지원합니다 . 이는 Command A의 23개 언어에서 두 배 이상 늘어난 수치입니다 . 이 모델이 겨냥하는 주권형 엔터프라이즈 배포 환경에서, 이 확장은 실질적으로 배포 가능한 지역을 크게 넓혀줍니다. 아랍어, 일본어, 한국어, 그리고 다양한 유럽어 및 남아시아 언어를 처리할 수 있는 모델은 로케일별 전용 모델이나 베이스 모델 위에 언어별 파인튜닝 파이프라인을 별도로 구축하지 않아도 지역 정부 기관과 다국적 기업에 서비스를 제공할 수 있습니다.
토크나이저 개선은 언어 수 확장만큼이나 상업적으로 중요합니다. Cohere에 따르면 Command A 대비 아랍어 토큰 수가 20%, 일본어가 18%, 한국어가 16% 감소했습니다 . 대규모 환경에서 — 긴 문서 입력에 대해 수백만 건의 요청이 처리될 때 — 아랍어 토큰 수 20% 감소는 입력 비용과 요청당 컴퓨팅 비용의 20% 절감으로 직결됩니다. 관리형 추론이나 자체 호스팅 인프라에서 대용량 비영어 RAG 파이프라인을 운영하는 팀에게 이는 사소한 편의 개선이 아닙니다. 배포의 단위 경제성 자체에 영향을 미칩니다.
최대 64K 생성 출력을 지원하는 128K 입력 토큰 컨텍스트 창 은 규제 산업 RAG 파이프라인에서 가장 흔히 다루는 문서 길이 — 여러 페이지 계약서, 규제 신고서, 기술 매뉴얼, 입법 문서 — 를 충분히 커버합니다. 이 컨텍스트 길이 덕분에 검색 복잡성을 높이는 청킹 전략 없이도 단일 호출로 상당한 분량의 문서를 처리할 수 있습니다.
다국어 개선 사항은 네이티브 인용 시스템과 결합될 때 컴플라이언스 사용 사례에서 특히 주목할 만한 효과를 냅니다. 원문 언어에서의 출처 정확성이 컴플라이언스 요건인 비영어 RAG 파이프라인 — 일본어 금융 공시 분석기, 아랍어 법률 문서 요약기 — 에서는, 포워드 패스 중에 생성되는 네이티브 인용이 주로 영어로 학습된 이차 어트리뷰션 레이어보다 더 신뢰할 수 있습니다. 다국어 표현이 강화될수록 <co> 태그 어트리뷰션은 영어 외 언어에서도 품질을 유지하며, 영어를 벗어났을 때 급격히 저하되지 않습니다.
자주 묻는 질문
Command A+는 기존 Command A와 무엇이 다른가요?
Command A+는 다섯 가지 구체적인 측면에서 Command A와 다릅니다. 첫째, 가중치가 Apache 2.0 라이선스로 완전 공개됩니다 — Command A는 공개 가중치 접근 없이 API 전용이었습니다. 둘째, Command A+는 이미지 입력을 텍스트와 함께 받아들이는 최초의 Command 모델로, 차트·PDF·슬라이드 분석이 가능합니다. 셋째, 언어 지원이 23개에서 48개로 확장되고 , 아랍어·일본어·한국어의 토크나이저 효율성이 향상되었습니다. 넷째, Command A+는 <co> 태그를 통한 생성 중 네이티브 인용을 도입합니다 — 어트리뷰션이 이차 후처리 모델이 아닌 포워드 패스 중에 생성됩니다. 다섯째, 커스텀 프롬프트 엔지니어링 없이도 결정론적 다단계 에이전트 워크플로를 구현할 수 있는 구조화된 추론 및 도구 사용 태그(<|START_THINKING|>, <|START_ACTION|>, <|START_TOOL_RESULT|>)가 추가됩니다.
Command A+를 일반 소비자용 GPU 한 장으로 실행할 수 있나요?
아닙니다. 가장 효율적인 양자화 티어인 W4A4 기준으로 Command A+의 최소 하드웨어 요구사항은 NVIDIA H100 80GB GPU 두 장 또는 NVIDIA B200 한 장입니다 . 완전한 BF16 정밀도를 사용하려면 H100 여덟 장 또는 B200 네 장이 필요합니다. 소비자용 GPU는 가장 압축된 변형도 로드할 VRAM이 부족합니다. 이 모델은 로컬 추론용 Llama 3.1 8B나 Mistral 7B와 비교 대상이 아닙니다 — 소비자 GPU 경로가 없는, 엔터프라이즈 온프레미스 또는 프라이빗 클라우드 배포용 데이터센터 모델입니다.
네이티브 인용은 표준 RAG 인용과 무엇이 다른가요?
표준 RAG 파이프라인은 한 단계에서 텍스트를 생성한 뒤, 별도의 검색 점수 산정 또는 하이라이트 추출 모델로 생성된 주장을 소스 문서에 매핑합니다 — 두 번의 순차적 추론 호출, 두 개의 잠재적 실패 지점, 그리고 추가 지연이 발생합니다. Command A+는 포워드 패스 자체에서 사실적 주장을 감싸는 <co>와 </co> 태그를 출력합니다 . 어트리뷰션은 추가된 레이어가 아닌 학습된 모델 동작입니다. 이를 통해 이차 추론 단계가 제거되고, 단일 생성 호출에서 감사 가능한 인용 경로가 생성되며, 어트리뷰션 품질이 별도 시스템의 성능이 아닌 기본 모델의 학습에 연결됩니다.
Command A+는 왜 종합 벤치마크에서 GPT-5.5와 Claude Opus보다 낮은 점수를 받나요?
GPT-5.5가 60점, Claude Opus 4.7이 57점인 데 비해 Artificial Analysis Intelligence Index 종합 점수 37점 은 아키텍처에 내재된 트레이드오프를 반영합니다. W4A4 양자화에서 25B 활성 파라미터를 두 개의 GPU로 실행하면 효율적이고 주권형으로 배포 가능한 추론이 가능합니다. 그러나 훨씬 높은 활성 파라미터 수와 독자적인 사후 학습 파이프라인으로 완전 정밀도에서 실행되는 폐쇄형 프런티어 모델의 추론 깊이에는 미치지 못합니다. Command A+는 전작 대비 특정 에이전트 벤치마크에서 의미 있는 성능 향상을 보이지만, 종합 점수는 효율 우선 설계에 내재된 일반 추론 격차를 반영합니다.
Apache 2.0은 제한 없는 상업적 사용을 허용하나요?
네. Apache 2.0은 로열티나 라이선스 비용 없이 상업적 배포, 수정, 파인튜닝, 재배포를 허용합니다 . Meta의 Llama 커뮤니티 라이선스와 달리, 대규모에서 추가 조건이 발동되는 사용자 수 기준이나 매출 제한이 없습니다. 조직은 가중치를 다운로드하고, 독자적인 데이터로 모델을 수정하고, 모든 상업적 제품에 배포하고, 배포할 수 있습니다 — Cohere의 허가나 Cohere와의 지속적인 계약 관계 없이도 가능합니다.
지금 평가해야 할 배포 결정 사항
Command A+는 명확히 정의된 특정 문제를 위한 일관된 기술 패키지입니다. 오픈 웨이트, 고효율, 다국어 지원, 규제 환경의 RAG 파이프라인을 위한 네이티브 출처 표기를 갖춘 자체 배포 가능한 추론 모델입니다. 아키텍처 선택 — 25B 활성 파라미터의 희소 MoE, W4A4 양자화 인식 증류, 투기적 디코딩, 생성 중 인용 태그 삽입 — 은 개별적으로도 충분한 근거가 있으며, 전체적으로 소버린 엔터프라이즈 포지셔닝과 일관성을 유지합니다. 이 모델은 모든 영역에서 동시에 경쟁하려는 것이 아닙니다. 클로즈드 API 모델이 운용될 수 없는 배포 환경에 특화하여 최적화되었습니다.
실질적인 평가에서 중요한 미해결 질문들이 있습니다. 첫째, W4A4 '무손실에 가까운' 성능 주장이 Cohere의 벤치마크 스위트와 다른 도메인 특화 작업 분포에서도 유지되는지 여부입니다 — 양자화 인식 증류는 훈련 후 양자화보다 강력한 접근 방식이지만, 전문 코퍼스(법률, 의료, 코드)에서의 성능 저하는 프로덕션 도입 전에 독립적으로 측정해야 합니다. 둘째, Intelligence Index 종합 점수에서 나타나는 클로즈드 프론티어 모델 대비 격차가 실제 파이프라인에서 요구하는 특정 에이전틱 작업에서도 드러나는지 여부입니다 — τ²-Bench와 AIME에서의 성과 향상은 크지만, 대부분의 엔터프라이즈 프로젝트는 에이전틱 통신 벤치마크를 실행하지 않습니다. 실제 워크로드를 대상으로 직접 평가를 수행하세요. 셋째, 출시 시점에 명시된 프로덕션 배포 사례가 없다는 점이 빠르게 해소될지 여부입니다 — 소버린 배포 스토리는 기술적으로 신뢰할 수 있지만, 가장 민감한 규제 환경에서의 현장 검증은 아직 이루어지지 않았습니다.
평가를 시작할 준비가 된 개발자라면: 현재 Hugging Face에서 가중치를 다운로드할 수 있고, cohere_melody 파서를 활용한 vLLM 추론 지원이 활성화되어 있으며, Apache 2.0 라이선스로 테스트에 따른 법적 부담이 없습니다. 리스크가 가장 낮은 경로는 H100 두 대로 테스트 배포를 구성하고, 실제 작업 분포를 기준으로 성능을 측정한 뒤, 현재 사용 중이거나 검토 중인 클로즈드 모델과 비교하는 것입니다. 종합 벤치마크 격차는 실재합니다 — 그러나 그 격차가 여러분의 특정 워크로드에서도 나타날지는 실증적 질문이며, 종합 점수가 대신 답해주지는 않습니다.
최종 업데이트: 2026-05-29. Cohere 공식 출시 자료, Artificial Analysis의 서드파티 벤치마크 데이터, 출시 시점에 공개된 독립적 기술 분석을 바탕으로 작성되었습니다. Command A+는 2026년 5월 20일 출시되었습니다 ; 벤치마크 데이터, 가격, 하드웨어 가용성은 외부 평가가 발표됨에 따라 업데이트될 수 있습니다.