Guide Labs Steerling-8B: '설명 가능한 AI'를 오픈소스로, 왜 주목해야 하나

Q: 세 갈래 임베딩 아키텍처: 어떻게 작동하나

_세 갈래로 분해되는 임베딩 구조가 핵심이다 (Photo by Ecliptic Graphic on Unsplash)_

Q: 해석 가능성과 성능, 트레이드오프 분석

_해석 가능성을 얻으려면 무엇을 포기해야 하나_

EU AI Act에 따르면 2026년 8월 2일부터 고위험 AI 시스템은 "의사결정 과정을 충분히 투명하게" 설명해야 합니다. 그런데 지금 우리가 쓰는 LLM 중에 "이 답변이 왜 나왔는지" 제대로 설명할 수 있는 모델이 몇 개나 될까요? 거의 없었습니다. 적어도 2026년 2월까지는요.

검은 표면 위 흰색 AI 글자, 인공지능 투명성을 상징하는 이미지

AI 투명성, 이제 선택이 아닌 의무가 되고 있다 — Photo: Markus Spiske/Unsplash

Guide Labs라는 샌프란시스코 스타트업이 Steerling-8B를 오픈소스로 공개했습니다. 80억 파라미터짜리 LLM인데, 이 모델의 핵심 주장은 간단합니다. "내가 생성한 모든 토큰을 학습 데이터까지 역추적할 수 있다." 진짜로요? 기존 블랙박스 LLM과 뭐가 다른 건지, 개발자 입장에서 왜 신경 써야 하는지 파헤쳐봤습니다.

핵심 요약

Steerling-8B는 기존 LLM의 90% 성능을 유지하면서, 모든 출력 토큰의 출처를 추적하고 특정 개념을 추론 시점에 증폭·억제할 수 있는 최초의 "내재적으로 해석 가능한" 오픈소스 LLM입니다. Y Combinator 출신 Guide Labs가 개발했고, HuggingFace에서 바로 받을 수 있습니다.

해석 가능 AI vs 블랙박스 AI, 무엇이 다른가

먼저 용어를 정리하겠습니다. 기존에도 "설명 가능한 AI(XAI)"라는 개념은 있었습니다. SHAP, LIME, Attention Visualization 같은 사후 분석(post-hoc) 도구들이요. 근데 이것들은 모델 바깥에서 "아마 이 부분이 중요했을 거야"라고 추측하는 겁니다. 모델 자체가 설명하는 게 아닙니다.

Steerling-8B가 다른 건 이 지점입니다. 사후 분석이 아니라 아키텍처 자체에 해석 가능성을 내장했습니다. TechCrunch의 2026년 2월 보도에 따르면, Guide Labs는 이를 "내재적 해석 가능성(inherent interpretability)"이라 부릅니다.

비교 항목 기존 블랙박스 LLM (Llama 2, GPT 등) Steerling-8B 해석 방식 사후 분석 (SHAP, Attention 등) 아키텍처 내장 출력 추적 불가능 학습 데이터까지 역추적 개념 제어 파인튜닝 필요 추론 시점 실시간 제어 파라미터 7B~70B+ 8B 성능 (벤치마크) 100% 기준선 ~90% 학습 데이터 2~15조 토큰 1.35조 토큰 라이선스 모델별 상이 오픈소스 이전에 Wolfram × ChatGPT의 계산 증강 생성(CAG)에서 AI 환각을 줄이는 접근법을 다뤘었는데요. CAG가 "수학적으로 검증 가능한 답변"에 초점을 뒀다면, Steerling-8B는 "왜 그 답변이 나왔는지"에 초점을 맞춥니다. 방향은 다르지만 둘 다 AI 신뢰성이라는 같은 문제를 풀고 있습니다.

세 갈래 임베딩 아키텍처: 어떻게 작동하나

회로 기판 위의 두뇌, 뉴럴 네트워크 아키텍처를 상징

세 갈래로 분해되는 임베딩 구조가 핵심이다 (Photo by Ecliptic Graphic on Unsplash)

Steerling-8B의 핵심은 임베딩을 세 가지 경로로 분해하는 것입니다. Guide Labs 공식 블로그의 설명을 정리하면 이렇습니다:

알려진 개념(Known Concepts): ~33,000개. 사람이 직접 라벨링한 개념들입니다. "감정", "코드 스타일", "전문 용어" 같은 것들이요. 발견된 개념(Discovered Concepts): ~100,000개. 모델이 학습 과정에서 스스로 찾아낸 패턴입니다. 사람이 이름 붙이지 않았지만, 의미 있는 클러스터로 존재합니다. 잔여(Residual): 위 두 경로로 설명되지 않는 나머지입니다. 이게 왜 중요하냐면요. 기존 LLM은 임베딩이 하나의 거대한 벡터 공간에 뒤섞여 있습니다. "이 토큰이 왜 나왔는지"를 알려면 수십억 개 파라미터의 상호작용을 역으로 추적해야 하는데, 사실상 불가능합니다. Steerling은 처음부터 개념 단위로 분리해두니까 추적이 됩니다.

처음에는 "그래서 성능이 얼마나 떨어지는데?"가 제일 궁금했습니다. Dataconomy의 보도(2026년 2월)에 따르면, 1.35조 토큰으로 학습했음에도 2~7배 더 많은 데이터로 학습한 Llama2-7B와 DeepSeek-7B를 평균 벤치마크에서 앞섰다고 합니다. 물론 최신 대형 모델(GPT-5, Claude 등)과 비교하면 차이가 있겠지만, 8B 급에서 이 정도면 인상적입니다.

실제 개념 조향(Steering) 시연

이 모델의 가장 매력적인 기능은 추론 시점에 특정 개념을 증폭하거나 억제할 수 있다는 것입니다. Guide Labs의 Steering 문서에 따르면, 파인튜닝 없이 실시간으로 가능합니다.

예를 들어, "공손함(politeness)" 개념을 증폭시키면 같은 프롬프트에 대해 더 정중한 답변이 나옵니다. "기술 전문성(technical depth)" 개념을 올리면 더 깊은 설명이 나오고요.

from transformers import AutoModelForCausalLM, AutoTokenizer # HuggingFace에서 Steerling-8B 로드 model = AutoModelForCausalLM.from_pretrained("guidelabs/steerling-8b") tokenizer = AutoTokenizer.from_pretrained("guidelabs/steerling-8b") # 개념 조향 예시 (의사 코드 - 실제 API는 Guide Labs 문서 참고) prompt = "Explain what a neural network is." # 기본 생성 output_default = model.generate(tokenizer(prompt, return_tensors="pt").input_ids) # "simplicity" 개념 증폭 (concept_id는 모델의 개념 사전에서 조회) output_simple = model.generate( tokenizer(prompt, return_tensors="pt").input_ids, concept_steering={"simplicity": 0.8} # 0~1 스케일 ) # "technical_depth" 개념 증폭 output_technical = model.generate( tokenizer(prompt, return_tensors="pt").input_ids, concept_steering={"technical_depth": 0.9} ) Guide Labs 측 측정에 의하면, 조향 시 개념 점수(concept score)가 거의 0에서 0.783까지 올라가면서도 기존 생성 품질의 84%를 유지했습니다(2026년 2월 기준, Guide Labs 공식 발표). 파인튜닝 한 번 하려면 GPU 몇 시간을 태워야 하는데, 이걸 추론 시점에 바로 할 수 있다는 건 꽤 큰 차이입니다.

해석 가능성과 성능, 트레이드오프 분석

추상적인 파란색과 보라색 빛이 두뇌 형태를 이루는 AI 뉴럴 네트워크

해석 가능성을 얻으려면 무엇을 포기해야 하나

완벽한 기술은 없습니다. Steerling-8B도 마찬가지입니다. 제가 보기에 핵심 트레이드오프는 세 가지입니다.

1. 투명성을 얻으면 → 절대 성능은 포기해야 한다

90% 성능이라는 건 뒤집어 말하면 10%를 잃는다는 뜻입니다. 코드 생성이나 수학 추론 같은 고난도 작업에서 이 10%는 체감이 클 수 있습니다. "왜 이렇게 답했는지 알 수 있지만, 그 답이 살짝 덜 정확한" 상황이 생길 수 있다는 거죠.

2. 개념 제어를 얻으면 → 추론 복잡도가 올라간다

세 갈래 임베딩 분해 구조는 일반 Transformer보다 추론 시 연산이 더 필요합니다. Guide Labs가 정확한 지연 시간(latency) 수치를 아직 공개하지 않았는데, 이 부분은 프로덕션 배포를 고려할 때 반드시 확인해야 합니다. 실시간 챗봇에 쓸 수 있는 수준인지는 아직 확인이 안 됩니다.

3. 학습 데이터 추적을 얻으면 → 저작권 리스크가 오히려 명확해진다

이건 재밌는 역설인데요. 출력을 학습 데이터까지 추적할 수 있다는 건, 동시에 "이 출력이 특정 저작물에서 유래했다"는 증거도 명확해진다는 뜻입니다. 이전에 Memobase 리뷰에서도 AI의 데이터 처리 투명성 문제를 짚었었는데, Steerling은 이 투명성을 아예 기술적으로 구현한 셈입니다. 양날의 검이죠.

규제 시대에 왜 중요한가

2026년은 AI 규제의 전환점입니다. Wilson Sonsini의 2026년 AI 규제 전망 보고서에 따르면:

EU AI Act 고위험 AI 시스템 규정: 2026년 8월 2일 시행 Colorado AI Act: 2026년 6월 30일 시행, 알고리즘 차별 방지 의무 California ADMT 규정: 자동화 의사결정 기술에 대한 소비자 고지·거부권 이 규제들의 공통점은 "AI가 왜 그런 결정을 내렸는지 설명하라"는 것입니다. 블랙박스 모델로는 이 요구를 충족하기 어렵습니다. Steerling-8B 같은 해석 가능 모델이 주목받는 이유가 바로 여기에 있습니다.

아 그리고, Guide Labs 자체도 이 점을 잘 알고 있는 것 같습니다. CEO Julius Adebayo는 MIT에서 기계 학습 해석 가능성으로 박사 학위를 받은 사람이고, Y Combinator 출신에 Initialized Capital에서 900만 달러 시드 투자를 받았습니다(2024년 11월 기준). 학계와 VC 양쪽에서 검증받은 팀이라는 뜻이죠.

어떤 상황에서 쓸 만한가

제 판단으로, Steerling-8B가 빛을 발할 상황과 그렇지 않은 상황을 나눠봤습니다.

추천하는 상황:

금융·의료·법률 등 의사결정 근거를 설명해야 하는 도메인 EU AI Act 컴플라이언스가 필요한 서비스 개발 AI 출력의 학습 데이터 출처를 감사(audit)해야 하는 경우 파인튜닝 없이 모델 행동을 빠르게 조정하고 싶을 때 비추천하는 상황:

최고 수준의 코드 생성·수학 추론이 필요한 경우 → GPT-5, Claude 추천 초저지연 실시간 서빙이 필요한 대규모 챗봇 100B+ 급 모델의 범용 성능이 필요한 경우

마무리: 블랙박스의 종말이 시작된 걸까

노트북으로 코딩하는 개발자, 오픈소스 AI 모델 활용 모습

HuggingFace에서 바로 받아 실험할 수 있다 | 사진: Van Tay Media, Unsplash

제 입장을 명확히 하겠습니다. Steerling-8B가 당장 GPT-5나 Claude를 대체할 수는 없습니다. 성능 격차가 있으니까요. 하지만 이 모델이 던지는 질문은 중요합니다. "AI가 왜 그렇게 대답했는지 모르면서 프로덕션에 배포해도 되는 건가?"

8B 파라미터 급에서 해석 가능성과 쓸 만한 성능을 동시에 보여줬다는 건, 앞으로 더 큰 모델에서도 같은 접근이 가능할 수 있다는 뜻입니다. 규제 환경이 강화되는 2026년 하반기를 생각하면, 지금부터 이런 모델의 존재를 알아두는 건 나쁘지 않은 투자라고 봅니다.

HuggingFace에서 Steerling-8B 다운로드 가능합니다. 궁금하신 분은 직접 돌려보시길.

참고 자료:

함께 읽으면 좋은 글:

Wolfram × ChatGPT '계산 증강 생성(CAG)': AI 환각을 수학으로 잡는 새 접근법 - AI 환각을 줄이는 또 다른 접근법
Memobase: ChatGPT·Claude 기억을 하나로 잇는 AI 유니버설 메모리 - AI 데이터 투명성에 대한 또 다른 관점