하네스 수정이 GPU 커널을 10배 느리게 했다. 가중치가 해결했다.

SIA는 스캐폴드를 수정하고 LoRA로 가중치를 파인튜닝한다 — LawBench 70.1%, GPU 커널 12.4% 속도 향상, MIT 라이선스.

하네스 수정이 GPU 커널을 10배 느리게 했다. 가중치가 해결했다.
Share

SIA가 하는 일, 그리고 인간 승인 단계를 없애는 것이 중요한 이유

SIA(Self-Improving AI)는 Hexo Labs가 2026년 5월 26일 공개한 클로즈드-루프 에이전트 프레임워크로 , 반복 실행 사이에 인간의 승인 단계 없이 자체 실행 스캐폴드를 수정하고 모델 가중치를 파인튜닝합니다. 함께 공개된 프리프린트(arXiv:2605.27276)는 핵심 문제를 명확히 짚습니다. 기존의 모든 AI 개선 사이클에서는 사람 전문가가 다음에 무엇을 바꿀지 결정해 왔습니다. SIA는 그 단계를 학습된 Feedback-Agent로 대체해, 수정 사항을 스스로 선택하고 적용하며 평가합니다.

한눈에 보기: SIA는 Hexo Labs의 자기-개선 에이전트 프레임워크(arXiv:2605.27276, 2026년 5월)로, LoRA rank-32 파인튜닝을 통해 실행 스캐폴드와 모델 가중치를 모두 자율적으로 수정합니다. LawBench에서 기존 SOTA 45.0% 대비 70.1%의 정확도를 달성했으며, GPU 커널 최적화에서는 스캐폴드 단독 편집 시 10.7× 성능 저하가 발생했지만, 가중치 파인튜닝으로 이를 회복하고 기존 SOTA보다 12.4% 향상된 성능을 기록했습니다.

이 시스템은 두 가지 모드로 작동합니다. SIA-H는 가중치를 동결한 채로 시스템 프롬프트, 도구 디스패치 로직, 재시도 정책, 답변 추출 코드 등 하네스를 수정합니다. SIA-W+H는 여기에 LoRA rank-32 파인튜닝을 추가로 적용하며, 1,200억 파라미터 인스트럭션 튜닝 모델인 gpt-oss-120b에 적용됩니다 . 두 모드 모두 세 가지 도메인에서 평가됩니다: 191개 클래스 법률 분류(LawBench), GPU 커널 런타임 최소화(AlphaEvolve TriMul), 단일세포 RNA 시퀀싱 노이즈 제거(MAGIC scRNA-seq). 세 도메인 모두에서 SIA-W+H는 기존 최고 성능을 초과했습니다 .

SIA가 기존 자기-개선 에이전트 연구와 구조적으로 구별되는 점은, 스캐폴드 편집과 가중치 학습 중 무엇을 선택할지 자체가 동적으로 결정된다는 것입니다. Feedback-Agent는 고정된 정책이 아니라 현재의 보상 지형에 따라 여섯 가지 강화학습 알고리즘 중 하나를 선택합니다. Hexo Labs의 Kunal Bhatia와 Prannay Hebbar가 이끄는 저자들은, 두 가지 자기-개선 패러다임을 하나의 적응형 루프 아래 통합한 최초의 시스템이라고 주장합니다 . 독립적인 재현을 통해 이 주장이 검증될 수 있는지는 아래에서 다룹니다.

태스크 명세에서 학습된 가중치까지: 루프의 작동 방식

SIA의 실행 루프는 책임 범위가 명확히 정의된 세 가지 에이전트 역할로 구성됩니다. Meta-Agent(ℳ)는 시스템을 부트스트랩합니다. 태스크 명세와 참조 구현을 받아 초기 하네스 — 시스템 프롬프트, 도구 디스패치 로직, 재시도 정책, 답변 추출 코드 — 를 생성합니다. ℳ은 도메인 초기화 시 한 번만 실행되며 이후 반복에는 관여하지 않습니다 .

Task-Specific Agent(Aₘ)는 평가 데이터셋 𝒟에 대해 실행됩니다. 모든 호출, 도구 실행, 중간 출력, 최종 답변은 전체 실행 궤적 τ로 기록됩니다. Aₘ은 gpt-oss-120b 위에 구축되며, 수정 가능한 네 가지 하위 구성 요소를 갖습니다: LLM 가중치 θ, 시스템 프롬프트, 도구 디스패치 로직, 답변 추출 코드. 궤적 τ는 Feedback-Agent가 무엇이 왜 잘못됐는지 진단하는 데 사용하는 원재료입니다 .

Feedback-Agent(ℱ)는 시스템의 의사결정 핵심입니다. τ를 입력받아 반복당 정확히 하나의 결정을 내립니다: 하네스를 편집하거나, LoRA 가중치 학습을 트리거하거나. 하네스 편집이 선택되면 ℱ는 하나 이상의 하네스 구성 요소를 재작성하고 업데이트된 스캐폴드로 Aₘ을 즉시 재실행합니다. 가중치 학습이 트리거되면 ℱ는 적절한 RL 알고리즘을 선택하고 τ에서 학습 배치를 구성한 뒤 LoRA rank 32로 gpt-oss-120b를 파인튜닝하고, 업데이트된 가중치를 다음 Aₘ 실행에 공급합니다 . 두 경로 모두 반복 N과 N+1 사이에 인간 개입 단계는 존재하지 않습니다.

이 구조는 시스템의 실패 양상을 이해하는 데 중요합니다. 기존의 자기-개선 에이전트 시스템들은 스캐폴드 편집(DSPy 스타일 옵티마이저) 또는 파인튜닝 파이프라인 중 하나만 자동화했을 뿐, 학습된 선택 정책을 갖춘 통합 루프 안에서 둘 다 처리하지는 못했습니다. 궤적 기반 피드백 덕분에 ℱ의 모든 결정은 고수준 정확도 요약이 아닌 실제 실행 기록에 근거합니다. 저자들은 이것이 집계 점수 기반 접근법보다 더 정밀한 개입을 가능하게 한다고 주장합니다 . 논문에서 명확히 밝히지 않은 한 가지는 ℱ 자체의 컴퓨팅 비용입니다 — ℱ가 프롬프트된 베이스 모델인지 사전 학습된 모델인지에 따라 재현 가능성이 달라지는데, 이는 이식성 섹션에서 다룹니다.

하네스와 가중치 업데이트, 어떻게 다른가: 자기 수정의 두 층위

Harness edits slowed the GPU kernel 10×. Weights fixed it.

하네스를 수정하느냐, 모델 가중치를 수정하느냐의 구분은 단순히 실행 속도의 차이가 아니라 각 방식이 수정할 수 있는 오류의 종류를 결정합니다. 하네스 구성 요소(시스템 프롬프트, 도구 디스패치 로직, 재시도 정책, 답변 추출 코드)는 소프트웨어 산출물입니다. 이를 수정하는 작업은 빠르고 GPU 비용이 전혀 들지 않으며, 에이전트의 실패 원인이 라우팅 오류, 잘못된 형식의 출력, 또는 최적화되지 않은 도구 선택일 때 성능을 의미 있게 개선할 수 있습니다. 단, 하네스 수정으로는 가중치 수준에서 기반 모델이 알고 있는 것을 바꿀 수 없습니다 .

LoRA rank 32를 통한 가중치 훈련은 다른 문제 클래스를 겨냥합니다: 프롬프트 재작성으로는 획득할 수 없는, 모델이 애초에 갖지 못한 지식입니다. H100 특화 GPU 커널 수치 패턴, 191개 클래스에 걸친 세밀한 법률 범주 경계 , 단일 세포 RNA 데이터의 도메인 특화 통계 분포 — 이런 것들은 가중치 수준의 내재화가 필요합니다. 논문이 이를 가장 명확하게 보여주는 증거가 GPU 커널 결과입니다: 하네스 수정만으로는 성능이 1,161 μs에서 12,483 μs로 오히려 악화되었지만, 가중치 훈련을 통해 1,017 μs로 회복 및 개선되었습니다 .

항목 SIA-H (하네스 전용) SIA-W+H (하네스 + 가중치)
수정 비용 GPU 비용 거의 없음; 빠른 반복 H100에서 LoRA rank-32 파인튜닝; 사이클당 비용 높음
반복 속도 사이클당 1분 이내 파인튜닝 실행당 수 분~수 시간 (GPU 의존)
성능 상한선 모델의 기존 지식에 의해 제한됨; 새로운 도메인 패턴 인코딩 불가 가중치 업데이트를 통해 도메인 특화 패턴 내재화; 사이클마다 상한선 이동
LawBench vs. 이전 SOTA (45.0%) 50.0% (+5.0 pp) 70.1% (+25.1 pp)
AlphaEvolve TriMul vs. 이전 SOTA (1,161 μs) 12,483 μs (−10.7× 회귀) 1,017 μs (+12.4% 개선)
MAGIC scRNA-seq vs. 이전 SOTA (0.240) 0.241 (+0.4%) 0.289 (+20.4%)
최적 적용 대상 실패 원인이 라우팅, 포맷, 또는 도구 선택 오류인 작업 도메인 지식 내재화 또는 서브심볼릭 패턴 인코딩이 필요한 작업

피드백 에이전트는 반복 전반에 걸친 보상 신호 추이를 기반으로 어떤 모드를 실행할지 결정합니다. 하네스 수정이 수확 체감을 보일 때 — 보상 개선이 정체되거나 역전될 때 — ℱ는 가중치 훈련으로 전환합니다. 이 동적 선택이 SIA-H의 상한선이 시스템 전체의 상한선이 되는 것을 막는 메커니즘입니다. 실무적 시사점: SIA-H는 SIA-W+H를 대체하는 비용 절감 수단이 아니라, 특정(그리고 한정된) 문제 클래스에 적합한 도구입니다 .

동적으로 선택되는 6가지 RL 알고리즘: 피드백 모듈의 선택 원리

ℱ가 가중치 훈련이 필요하다고 판단하면, 고정된 알고리즘을 기본값으로 사용하지 않습니다. 현재 보상 환경의 네 가지 특성에 따라 여섯 가지 강화 학습 방법 중 하나를 선택합니다: 보상 밀도(에이전트가 비제로 신호를 받는 빈도), 롤아웃 비용(궤적 샘플당 연산량), 통과율 분포(성공이 집중되는지 균일하게 분산되는지), 그리고 회귀 위험(이전 성과를 덮어쓸 가능성) .

여섯 가지 알고리즘과 적용 조건:

  • PPO with GAE: 중간 행동에 크레딧이 부여되는 밀집 다단계 보상 신호에 사용됩니다. 고빈도 피드백 환경의 표준 방식입니다.
  • GRPO: 에피소드 종료 시 검증을 수행하는 저비용 롤아웃 환경을 대상으로 합니다 — 보상은 궤적 끝에서만 부여됩니다. 정답 여부가 단일 검증 신호인 법률 분류에 적합합니다.
  • Entropic Advantage Weighting: 보상 분포가 오른쪽으로 치우친 경우에 적용됩니다 — 대부분의 실행이 실패하고 소수만 성공합니다. 낮은 보상 샘플을 폐기하는 대신, EAW는 엔트로피 가중 어드밴티지를 통해 준성공에서 신호를 추출합니다.
  • REINFORCE+KL: 회귀 위험이 높은 밀집 보상 환경에서 사용됩니다. KL 패널티는 업데이트된 정책이 기본 모델에서 크게 벗어나는 것을 방지해 이전 반복의 성과를 보호합니다.
  • Best-of-N Behavioral Cloning: RL 기울기 추정이 너무 노이즈가 많은 희소 보상 환경을 위한 콜드 스타트 메커니즘입니다. 상위 N개 궤적에 대한 지도 학습 BC가 안정적인 초기 신호를 제공합니다.
  • DPO (Direct Preference Optimization): 출력에 순위는 매길 수 있지만 기수적으로 점수화할 수 없을 때 사용됩니다 — 시스템이 두 출력 어느 쪽에도 수치 보상을 부여하지 않고도 선호도를 표현할 수 있습니다.

이 분류 체계의 근거는 191개 클래스 법률 분류 작업의 보상 환경이 GPU 커널 런타임 최소화 작업과 구조적으로 다르다는 점입니다. 법률 정확도는 연속 지연 지표와 노이즈 형태, 수렴 속도, 실패 모드 분포가 다릅니다. 정적 RL 파이프라인은 설정 시점에 하나의 알고리즘을 고정하는데, 작업이 고정되어 있다면 이는 적절합니다. SIA의 동적 선택은 고정된 RL 레시피가 도메인을 아우르는 범용 자기 개선 프레임워크에는 불충분하다는 논문의 주장입니다 .

실무자가 주목할 한 가지 공백: 논문은 알고리즘 선택을 위한 ℱ의 정확한 결정 함수를 공개하지 않습니다 . 알고리즘 분류 체계는 문서화되어 있지만, 보상 환경 특성에서 알고리즘 선택으로의 매핑은 ℱ를 독립적으로 재현할 만큼 충분히 상세하게 명시되어 있지 않습니다. 시간이 지남에 따라 작업 유형이 변화하는 도메인 특화 에이전트를 구축하는 팀 — 예를 들어 문서 생성과 런타임 최적화를 모두 처리하는 코딩 어시스턴트 — 에게는, 선택 논리 자체를 재현하려면 코드베이스가 필요하더라도 알고리즘 분류 체계만으로도 유용한 설계 체크리스트가 됩니다.

GPU 커널 회귀: 스캐폴드 수정만으로 성능이 10배 악화된 이유

AlphaEvolve TriMul 벤치마크는 GPU 커널 실행 시간을 마이크로초 단위로 측정합니다 — 낮을수록 좋습니다. 이전 최고 성능(SOTA)은 1,161 μs였습니다 . 하네스 수정만 적용한 SIA-H는 12,483 μs를 기록했습니다 — 10.7배 성능 저하입니다 . 이는 논문에서 가장 진단적 가치가 높은 결과로, 헤드라인을 장식한 LawBench 수치보다 더 주목받아야 마땅합니다.

H100 하드웨어용 GPU 커널 최적화는 하위 기호적(sub-symbolic) 수치 패턴의 인코딩을 요구합니다: 메모리 접근 병합 전략, 워프 수준 동기화 타이밍, 텐서 코어 활용 스케줄. 이런 패턴은 시스템 프롬프트의 자연어 추론으로 표현할 수 없으며, 도구 디스패치 방식이나 응답 추출 방식을 바꾼다고 학습되는 것도 아닙니다. SIA-H의 Feedback-Agent가 낮은 커널 성능에 대응해 하네스를 재작성할 때, 프롬프트 수준의 최적화 추론을 주입했고 모델은 이를 기반으로 커널 구조를 오히려 훼손하는 방식으로 동작했습니다. 하네스 수정은 오류를 바로잡기는커녕 오히려 악화시켰습니다 .

SIA-W+H는 1,017 μs를 달성했습니다 — 이전 SOTA보다 12.4% 빠르고, 성능이 저하된 SIA-H 결과보다 약 12.3배 향상된 수치입니다 . LoRA 파인튜닝 과정은 기본 gpt-oss-120b 체크포인트가 보유하지 않았고 어떤 프롬프트로도 전달할 수 없는 H100 특화 커널 생성 패턴을 내재화했습니다. 이것이 논문이 제시하는 핵심 실증적 경계입니다: 저수준 시스템 최적화에서 가중치 훈련 없는 스캐폴드 편집은 엄격한 상한선을 가지며, 일부 구성에서는 하한선이 마이너스로 떨어집니다.

"오늘날의 AI 시스템은 강력하지만 근본적인 한계를 공유합니다: 의미 있는 모든 도약은 여전히 다음에 무엇을 시도할지 결정하는 인간 전문가의 개입에 의존합니다." — Kunal Bhatia, Hexo Labs CEO 겸 공동 창업자

실질적인 함의는 명확합니다. SIA-H만으로 사용 사례에 충분한지 평가 중이라면, GPU 커널 결과가 기준점으로 삼아야 할 경계 조건입니다. 하위 기호적 패턴 인코딩을 수반하는 작업 — 수치 최적화, 저수준 코드 생성, 하드웨어 특화 추론 — 은 하네스만의 접근 방식이 한계를 드러내는 영역입니다. 라우팅, 포맷팅, 또는 고수준 추론이 주를 이루는 작업에서는 SIA-H의 저비용 반복 주기가 의미를 가집니다. 성능 저하는 구현상의 버그가 아닙니다. 부적합한 작업 유형에 특정 접근 방식을 적용할 때 그 한계를 시스템이 정확하게 드러낸 것입니다.

LawBench 70.1%와 scRNA-seq: 법률·생물학 결과가 말해주는 것

Harness edits slowed the GPU kernel 10×. Weights fixed it.

두 비시스템 벤치마크 전반에 걸쳐 SIA-W+H는 이전 SOTA와 자체 하네스 전용 기준선 모두에서 일관되고 큰 성과 향상을 보였습니다. LawBench는 191개 범주의 중국 법률 분류 작업으로 이전 SOTA는 45.0%였습니다. SIA-H는 이를 50.0%로 끌어올렸으며(+5.0 pp) — 실질적이지만 소폭입니다. SIA-W+H는 70.1%에 도달해 이전 SOTA 대비 +25.1 pp, SIA-H 단독 대비 +20.1 pp 향상을 기록했습니다. 191개 범주 수준의 법률 카테고리 경계는 프롬프트로 명시하기 어렵습니다. 도메인 예시에 대한 LoRA 파인튜닝은 명령어 변경으로는 불가능한 방식으로 그 구분을 가중치 수준에 인코딩할 수 있습니다.

MAGIC scRNA-seq는 약간 다른 양상을 보입니다. mse_norm 기준 이전 SOTA는 0.240이었으며 , SIA-H는 0.241(+0.4%), SIA-W+H는 0.289 (이전 SOTA 대비 +20.4%)를 달성했습니다. 하네스 전용 성과 향상은 제로는 아니지만 무시할 수 있는 수준입니다. GPU 커널 작업과 달리 SIA-H는 성능을 저하시키지 않았습니다 — 하한선은 제로 이상 — 하지만 성장 여력은 거의 전부 가중치 수준에 존재합니다. 생물학 도메인은 이 스펙트럼에서 법률 결과(큰 하네스 성과, 막대한 가중치 성과)와 GPU 결과(부정적 하네스 영향, 큰 가중치 성과) 사이에 위치합니다.

벤치마크 지표 이전 SOTA SIA-H SIA-W+H 이전 SOTA 대비 Δ Δ SIA-H → SIA-W+H
LawBench (191개 범주 법률 분류) 정확도 ↑ 45.0% 50.0% 70.1% +25.1 pp +20.1 pp
AlphaEvolve TriMul (GPU 커널) 실행 시간 μs ↓ 1,161 μs 12,483 μs 1,017 μs −12.4% (개선) −11,466 μs (완전 회복 + 추가 성과)
MAGIC scRNA-seq 노이즈 제거 mse_norm ↑ 0.240 0.241 0.289 +20.4% +19.9%

도메인을 가로지르는 패턴은 일관됩니다: SIA-W+H는 테스트된 모든 환경에서 SIA-H를 실질적으로 앞서며, 격차의 크기는 작업이 하위 기호적 지식 인코딩에 얼마나 의존하는지와 비례합니다. 위 표는 헤드라인 독해에서 놓치기 쉬운 결과 하나를 명확히 드러냅니다: LawBench에서 SIA-H의 +5.0 pp는 실질적이지만, SIA-W+H는 그보다 20.1 pp 더 앞서 있습니다. 가중치 훈련 인프라에 접근할 수 있다면 하네스 전용은 합리적인 종착점이 아닙니다 — 그렇게 취급하면 SIA가 가진 대부분의 성장 여지를 실현하지 못한 채 두는 셈입니다 .

SIA 팩트체크: MIT 라이선스, 누락된 GitHub URL, 350X 주장

SIA의 결과물을 기반으로 작업하기 전에, 세 가지 주장은 독립적인 검증이 필요합니다. 첫째, 라이선스: 논문은 CC BY-SA 4.0 라이선스를 따르며 코드베이스는 MIT 라이선스로 보고됩니다 . 2026년 5월 31일 현재, arXiv:2605.27276 초록 페이지, 논문 PDF, 또는 이 글을 위해 검토된 어떠한 보도에서도 확인된 공개 GitHub 저장소 URL이 발견되지 않았습니다. 코드가 곧 공개될 수도 있고, 아직 공개적으로 접근 가능하지 않을 수도 있습니다. arXiv 초록 페이지와 Hexo Labs의 GitHub 조직 페이지를 직접 확인하세요.

둘째, '350X 가속' 주장입니다. Hexo Labs의 PR 자료는 OpenAI가 설계한 것으로 알려진 독점 벤치마크에서 350X 성능 향상을 언급합니다 . 이 수치는 논문에 등장하지 않습니다. 독립적인 재현도, 공개 리더보드 항목도, 검증을 가능하게 할 방법론도 기술되어 있지 않습니다. 재현 가능한 평가가 발표될 때까지 이 수치는 보류하세요.

셋째, 학술 파트너십입니다. Hexo Labs는 PR 자료에서 스탠퍼드 대학교, 옥스퍼드 대학교, UC 샌타바버라를 명시합니다 . 이들을 개인 저자 연결이 아닌 공식 연구 협력으로 인용하기 전에 arXiv 저자 ID와 기관 교수 페이지를 통해 저자 소속을 직접 확인하세요. 벤치마크 자체 — LawBench, AlphaEvolve TriMul, MAGIC scRNA-seq — 는 독립적으로 확립된 평가 세트로, 파트너십 주장이 독립 확인을 필요로 하더라도 최소한 성능 수치를 검증 가능한 작업에 근거하게 합니다.

이식성과 한계: gpt-oss-120b 없이 SIA를 재현할 수 있을까?

Harness edits slowed the GPU kernel 10×. Weights fixed it.

SIA의 하네스 편집 부분은 모델 비의존적입니다. 툴 디스패치 인터페이스를 갖춘 모든 모델 — Claude Sonnet, GPT-4o, Mistral 기반 배포 — 은 스캐폴드 편집 루프에서 Aₘ의 대체로 사용할 수 있습니다. ℱ의 하네스 재작성은 특정 기반 모델 체크포인트에 의존하지 않습니다. 덕분에 SIA-H는 파인튜닝 인프라 없이 자동화된 프롬프트 및 툴 라우팅 최적화를 원하는 실무자에게 즉시 이식 가능합니다 . GPU 커널 결과는 여전히 경고로 남습니다: 서브심볼릭 지식 요구 사항이 있는 작업에서 하네스 전용 SIA는 단순히 제한적인 것이 아니라 성능이 실제로 퇴보했습니다. SIA-H의 이식성은 실재하지만, SIA-H 성능 상한선의 이식성 역시 실재합니다.

가중치 학습 경로는 재현하기가 훨씬 어렵습니다. gpt-oss-120b는 1,200억 파라미터의 인스트럭션 튜닝 모델이지만, 논문은 접근 경로, 공개 체크포인트 여부, 또는 Hexo Labs 내부 아티팩트 여부를 명시하지 않습니다. LoRA rank-32 파인튜닝은 Hugging Face PEFT 라이브러리와 같은 도구를 통해 주요 모델 패밀리 전반에서 지원되는 잘 확립된 기법으로, 기반 모델 문제가 해결되면 방법론 자체는 이식 가능합니다 (영상: Angel Poon). 120B 모델의 경우 멀티 GPU가 필요하며, 7B–70B 범위 모델의 rank-32 LoRA는 단일 H100에서 처리 가능하지만 더 큰 규모에는 그에 상응하는 인프라가 요구됩니다. 접근 가능한 120B급 인스트럭션 튜닝 오픈 웨이트 모델로 대체하면 저장소가 공개 확인되는 즉시 가중치 업데이트 방법론을 재현할 수 있을 것입니다 .

현재 완전한 재현을 막는 주요 미지수:

  • gpt-oss-120b 접근 및 라이선스: 논문에 명시되지 않음. 내부 체크포인트일 수도, 이름을 바꾼 공개 모델일 수도 있음. 이것이 해결되기 전까지는 SIA-W+H 재현이 불가능.
  • ℱ 사전 학습 요구 사항: 피드백 에이전트가 도메인별 사전 학습을 필요로 하는지, 아니면 프롬프트된 기반 모델에서 동작할 수 있는지 논문이 명시하지 않음. 이는 새 배포에 얼마나 많은 부트스트래핑이 필요한지를 결정함.
  • 자기 개선 사이클당 컴퓨팅 비용: 반복당 파인튜닝 비용이 보고되지 않음. SIA를 프로덕션에 배포하는 비용-편익 분석에 필수적인 정보.
  • Goodhart 공진화 위험: 저자들이 명시적으로 지적한 문제 — 두 최적화 레버가 동일한 고정 검증기를 대상으로 하여, 훈련 분포에서는 높은 점수를 받지만 교란에 취약한 고정점으로 향하는 경로를 만듦 . 제안된 완화책(선택 정책에 대한 메타-RL, 훈련-하네스 교대 전환)은 향후 연구 과제로 남겨둠.

자주 묻는 질문

SIA란 무엇이며 누가 만들었나요?

SIA(Self-Improving AI)는 2026년 5월 26일 Hexo Labs가 공개한 오픈소스 에이전트 프레임워크입니다 (arXiv:2605.27276) . 시스템 프롬프트, 툴 디스패치, 재시도 로직, 답변 추출 등 자체 실행 스캐폴드를 자율적으로 수정하고, LoRA를 통해 모델 가중치를 파인튜닝하여 자기 개선 루프에서 인간을 완전히 배제합니다. 논문 저자로는 Prannay Hebbar, Yogendra Manawat, Samuel Verboomen, Alesia Ivanova, Selvam Palanimalai, Kunal Bhatia, Vignesh Baskaran이 참여했으며, Hexo Labs는 스스로를 초지능을 목표로 하는 연구 기관으로 소개합니다.

SIA-H와 SIA-W+H, 무엇이 다른가요?

SIA-H는 시스템 프롬프트, 툴 디스패치, 재시도 로직, 답변 추출 등 하네스만 수정하며 gpt-oss-120b 가중치는 동결 상태로 유지합니다. SIA-W+H는 여기에 더해 120B 파라미터 기반 모델에 LoRA rank-32 파인튜닝을 추가로 적용합니다. 결합 모드는 평가된 세 가지 벤치마크 전반에서 하네스 단독 모드보다 높은 성능을 보입니다. AlphaEvolve TriMul(GPU 커널)에서는 그 격차가 극단적입니다. SIA-H는 1,161 μs에서 12,483 μs로 퇴행한 반면, SIA-W+H는 1,017 μs로 개선되어 하네스 편집이 아닌 가중치 학습이 10.7배 유리함을 보여줍니다.

SIA-H는 왜 GPU 커널 성능을 오히려 떨어뜨렸나요?

H100 전용 GPU 커널 최적화는 자연어 프롬프트로 표현할 수 없는 서브심볼릭 수치 패턴 — 메모리 통합 전략, 워프 동기화, 텐서 코어 스케줄링 — 의 인코딩을 필요로 합니다. SIA-H의 Feedback-Agent가 낮은 커널 성능을 개선하기 위해 하네스를 재작성했을 때, 오히려 모델의 코드 생성을 적극적으로 오도하는 프롬프트 수준의 추론이 삽입되었습니다. SIA-H는 AlphaEvolve TriMul 성능을 1,161 μs에서 12,483 μs로 퇴행시켰습니다 . SIA-W+H는 LoRA 파인튜닝을 통해 해당 패턴을 내재화하여 1,017 μs로 회복하고 이전 SOTA 대비 12.4% 향상을 달성했습니다. 이 퇴행은 저수준 시스템 작업에서 스캐폴드 단독 최적화의 명확한 상한선과 실질적인 성능 저하 위험을 동시에 입증합니다.

SIA 소스 코드, GitHub에 공개되어 있나요?

논문은 CC BY-SA 4.0 라이선스를 채택하고 있으며 코드베이스는 MIT 라이선스로 보고되었지만, 2026년 5월 31일 현재 arXiv:2605.27276 초록 페이지, 논문 PDF, 또는 이 글을 위해 검토한 보도 자료 어디에도 확인된 공개 GitHub 저장소 URL이 등장하지 않습니다. 복제 작업을 계획하기 전에 arXiv 초록 페이지와 Hexo Labs의 GitHub 조직에서 확인된 코드 링크를 주시하세요. 저장소에 접근 가능하기 전까지는 라이선스 주장을 독립적으로 검증할 수 없습니다.

gpt-oss-120b 외 다른 모델에도 SIA를 적용할 수 있나요?

하네스 편집 접근 방식은 모델에 구애받지 않습니다 — Claude, GPT-4o, 또는 툴 디스패치 인터페이스를 갖춘 모든 모델이 SIA-H의 Task-Specific Agent로 대체될 수 있습니다. LoRA rank-32 파인튜닝은 대부분의 모델 패밀리에 이식 가능한 표준적이고 충분히 검증된 기법입니다. SIA-W+H 복제의 주요 장애물은 gpt-oss-120b의 불명확한 접근 경로입니다. 저장소가 공개로 확인되고 기반 모델의 라이선스가 명확해지면, 비슷한 수준의 오픈 웨이트 120B급 인스트럭션 튜닝 모델로 대체하여 전체 복제가 가능해질 것입니다 — 다만 120B 규모의 컴퓨팅 요구 사항은 더 작은 대안과 다를 수 있습니다.

판단 기준과 앞으로 주목할 것들

세 가지 도메인에 걸친 SIA의 실증 기록은 실무자들에게 각 모드의 적용 시점에 대한 타당한 휴리스틱을 제공합니다. 작업이 고수준 추론, 출력 형식 지정, 또는 툴 선택에 관한 것이고 모델이 이미 관련 도메인 지식을 보유하고 있다면, SIA-H의 저비용·고속 반복 사이클은 신뢰할 수 있는 출발점입니다. 작업이 저수준 시스템 최적화, 세밀한 다중 클래스 분류, 또는 표준 사전 학습에 없는 통계적 패턴을 다룬다면 SIA-H만으로는 충분하지 않으며 성능이 저하될 수 있습니다. SIA-W+H는 테스트된 모든 환경에서 일관되게 우수한 성능을 보입니다. 트레이드오프는 논문에서 아직 수치화하지 않은 사이클당 더 높은 컴퓨팅 비용입니다.

동적 RL 알고리즘 선택은 이미 파인튜닝 파이프라인을 운영 중인 팀에게 가장 높은 전이 가치를 지닌 구성 요소입니다. 6가지 알고리즘 분류 체계 — PPO with GAE, GRPO, Entropic Advantage Weighting, REINFORCE+KL, Best-of-N BC, DPO — 는 LLM 파인튜닝 실무에서 등장하는 대부분의 학습 시나리오를 포괄합니다. 보상 경관 특성을 알고리즘 선택에 매핑하는 개념적 프레임워크는 전체 SIA 코드베이스 없이도 파이프라인 설계에 즉시 적용할 수 있습니다. 이것이 전체 시스템을 배포할 준비가 되지 않은 실무자에게 이 논문이 제공하는 가장 실질적인 기여입니다.

SIA를 프로덕션에 도입하기 전에 주목해야 할 세 가지 구체적인 사항이 있습니다. 첫째, arXiv:2605.27276의 GitHub 저장소 링크 — 링크가 등장하면 코드 접근 가능 여부와 MIT 라이선스 주장의 검증 가능성이 확인됩니다. 둘째, gpt-oss-120b의 접근 경로 명확화 — 전체 SIA-W+H 파이프라인의 직접 복제 여부 또는 모델 대체 필요 여부를 결정합니다. 셋째, LawBench 70.1% 결과의 독립적 복제 — 벤치마크가 학습 세트 중복으로 오염되지 않았음을 확인해 줄 것입니다. 홍보 자료의 350X 주장은 공개 평가 방법론과 재현 가능한 벤치마크가 제공될 때까지 보류 상태로 두어야 합니다.

최종 업데이트: 2026-05-31. arXiv:2605.27276 v2(2026년 5월 28일) 및 발행일 기준으로 이용 가능한 보도 자료에 기반합니다. 저장소 접근, 모델 라이선스 세부 사항, 벤치마크 복제 결과는 Hexo Labs의 릴리스 업데이트에 따라 변경될 수 있습니다.

참고 자료 / 출처