🐝매일 한입
Dev Life & Opinion📖 13분 읽기

DeepSeek은 정말 OpenAI를 베꼈을까? — AI 모델 디스틸레이션 논란 총정리

OpenAI가 미 의회에 DeepSeek의 모델 디스틸레이션 의혹을 공식 제기했습니다. AI 디스틸레이션이 뭔지, 왜 논란인지, 개발자가 알아야 할 것을 정리합니다. OpenAI가 미 의회에 "공식 항의서"를 보냈다 어제(2월 12일) 꽤 충격적인 뉴스가 하나 터졌습니다....

A꿀벌I📖 13분 읽기
#AI 디스틸레이션#AI 윤리#deepseek#Knowledge distillation#llm

OpenAI가 미 의회에 DeepSeek의 모델 디스틸레이션 의혹을 공식 제기했습니다. AI 디스틸레이션이 뭔지, 왜 논란인지, 개발자가 알아야 할 것을 정리합니다.

OpenAI가 미 의회에 "공식 항의서"를 보냈다

어제(2월 12일) 꽤 충격적인 뉴스가 하나 터졌습니다.

OpenAI가 미국 하원 중국특별위원회에 메모를 보내서, 중국 AI 기업 DeepSeek이 자사 모델을 "디스틸레이션(distillation)" 기법으로 무단 복제했다고 공식 항의한 겁니다. 그냥 트위터에서 불만을 토로한 수준이 아니라, 미국 의회에 공식 문서를 제출한 것이니까요. 이건 기술 논쟁이 아니라 외교 문제에 가까워졌습니다.

솔직히 저는 이 뉴스를 보고 두 가지 생각이 동시에 들었습니다. "이거 진짜 심각한 건가?"와 "근데 OpenAI가 좀 과장하는 거 아닌가?" 오늘은 이 두 생각 사이에서 팩트를 기반으로 정리해 보겠습니다.

잠깐, "디스틸레이션"이 정확히 뭔데?

디스틸레이션(knowledge distillation)이라는 개념부터 짚고 가야 합니다. 이건 제프리 힌튼(Geoffrey Hinton)이 2015년에 제안한 기법으로, 큰 모델(teacher)의 지식을 작은 모델(student)에게 전달하는 기술입니다.

비유하자면 이렇습니다. 서울대 수학과 교수(대형 모델)가 있고, 고등학생(소형 모델)이 있다고 합시다. 교수에게 직접 배우면 정답뿐 아니라 "왜 이 풀이가 더 우아한지", "이 접근법은 왜 막히는지"까지 알 수 있습니다. 디스틸레이션은 그런 과정입니다. 단순히 정답(label)만 베끼는 게 아니라, 대형 모델이 각 선택지에 부여하는 확률 분포(soft label)를 학습 데이터로 삼는 것이죠.

디스틸레이션의 핵심 개념 (의사 코드) # Teacher 모델의 출력을 Student 모델의 학습 데이터로 활용 import torch import torch.nn.functional as F def distillation_loss(student_logits, teacher_logits, true_labels, temperature=3.0, alpha=0.7): """ temperature: 높을수록 teacher의 확률 분포가 부드러워짐 alpha: soft label과 hard label의 비율 조절 """ # Soft target: teacher의 확률 분포를 부드럽게 만들어서 학습 soft_loss = F.kl_div( F.log_softmax(student_logits / temperature, dim=1), F.softmax(teacher_logits / temperature, dim=1), reduction='batchmean' ) * (temperature ** 2) # Hard target: 실제 정답으로도 학습 hard_loss = F.cross_entropy(student_logits, true_labels) return alpha * soft_loss + (1 - alpha) * hard_loss 여기서 중요한 건, 디스틸레이션 자체는 불법이 아닙니다. 학계에서 널리 사용되는 정당한 기법이에요. Meta의 Llama처럼 오픈소스로 공개된 모델을 디스틸하는 건 라이선스만 허용하면 전혀 문제가 없습니다.

문제는 OpenAI의 모델은 오픈소스가 아니라는 점입니다.

OpenAI의 구체적 주장: "우회 접속까지 했다"

OpenAI의 메모 내용을 구체적으로 보면, 단순한 의심 수준이 아닙니다.

첫째, 접근 제한 우회. OpenAI는 "DeepSeek 직원들과 연관된 계정들이 접근 제한을 우회하는 방법을 개발하고, 난독화된 서드파티 라우터 등을 통해 모델에 접근했다"고 주장합니다.

둘째, 프로그래밍 방식의 대량 추출. DeepSeek 직원들이 "미국 AI 모델에 접근하여 프로그래밍 방식으로 디스틸레이션용 출력을 대량 추출하는 코드를 개발했다"는 겁니다.

셋째, 다른 미국 기업도 피해. OpenAI뿐 아니라 "다른 미국 프론티어 연구소의 모델에도 서드파티 라우터를 통해 접근했다"고 밝혔습니다.

이게 사실이라면, API 이용약관 위반을 넘어서 조직적인 기술 탈취에 해당합니다. OpenAI의 이용약관은 모델 출력을 경쟁 모델 개발에 사용하는 것을 명시적으로 금지하고 있거든요.

근데, 반대편 이야기도 들어봐야 합니다

여기서 저는 좀 불편한 질문을 던져보고 싶습니다.

"디스틸레이션"의 범위가 어디까지인가? 만약 개발자 한 명이 ChatGPT에게 "이 알고리즘을 최적화해줘"라고 물어보고 그 답변을 참고해서 코드를 작성한다면, 이것도 디스틸레이션일까요? 극단적으로 말하면, ChatGPT로 공부해서 더 나은 AI를 만든 것과 ChatGPT의 출력을 학습 데이터로 써서 AI를 만든 것의 경계는 어디일까요?

OpenAI의 이중 잣대 문제도 있습니다. OpenAI 자체가 인터넷의 수많은 데이터를 학습에 사용했고, 그 과정에서 저작권 논란이 끊이지 않았습니다. 뉴욕타임스 소송이 대표적이죠. "남의 데이터로 학습하는 건 우리는 괜찮고 남이 하면 안 된다"는 논리가 성립하는 걸까요?

타이밍도 수상합니다. Bloomberg에 따르면, OpenAI가 이 메모를 보낸 시점은 DeepSeek이 설 연휴 기간에 새 모델을 발표할 것으로 예상되는 직전입니다. 작년에도 DeepSeek R1이 설 연휴에 깜짝 공개돼서 시장을 뒤흔들었죠. 선제적 견제라는 해석이 가능합니다.

그렇다고 OpenAI의 주장을 무시할 수도 없습니다. 접근 제한을 우회하고 프로그래밍 방식으로 대량 추출했다는 건, 만약 사실이라면 분명한 이용약관 위반이고 법적 문제입니다. "참고했다" 수준이 아니라 "조직적으로 긁어갔다"는 주장이니까요.

개발자로서 이 논란에서 배울 점

저는 이 논란이 단순한 두 회사의 싸움이 아니라고 봅니다. AI 시대의 지식재산권이 어디까지인지를 정의하는 첫 번째 큰 전투에 가깝습니다.

개발자로서 생각해 볼 지점 세 가지를 정리해 봤습니다.

1. 우리가 쓰는 AI API에도 이용약관이 있다

솔직히 저도 API 이용약관을 꼼꼼히 읽어본 적이 별로 없었습니다. 하지만 대부분의 AI API 이용약관에는 "경쟁 모델 학습에 출력물 사용 금지" 조항이 있습니다. 개인 프로젝트에서 GPT API 응답을 파인튜닝 데이터로 쓰는 것도 엄밀히 말하면 위반일 수 있어요.

OpenAI 이용약관 핵심 조항 (요약) - 출력물을 경쟁 AI 모델 개발/학습에 사용 금지 - 자동화된 방식으로 대량의 출력물을 수집하는 행위 금지 - 접근 제한을 우회하는 행위 금지

2. 오픈소스 vs 클로즈드소스의 경계가 핵심이다

이번 논란의 본질은 결국 **"AI 모델의 출력물은 누구의 것인가"**라는 질문입니다. Meta의 Llama 4처럼 오픈소스로 풀린 모델이라면 디스틸레이션이 허용됩니다(라이선스 조건 하에). 하지만 OpenAI처럼 클로즈드 모델의 API 출력을 긁어다 쓰는 건 다른 문제죠.

개발자가 오픈소스 LLM을 선택하는 이유 중 하나가 바로 이런 법적 안전성이기도 합니다. 내 서비스에 Llama 4 기반 모델을 쓰면 출력물 활용에 대한 법적 리스크가 크게 줄어드니까요.

3. AI 기술 경쟁은 이제 지정학이다

이건 더 이상 기술 이야기가 아닙니다. 미국 의회에 메모를 보내고, 미중 관계 맥락에서 논의되고, 수출 규제와 맞물려 있습니다. 실제로 미국은 NVIDIA 고성능 칩의 대중국 수출을 제한하고 있고, 이런 상황에서 "소프트웨어적 방법으로 기술 격차를 좁히는 것"에 대한 미국의 경계감은 더 커질 수밖에 없습니다.

저는 트럼프 행정부가 시진핑과의 4월 정상회담을 앞두고 기술 관련 대중국 제재를 일시 유보했다는 오늘자 뉴스도 같이 읽었는데요. AI 기술 경쟁이 외교 카드로 쓰이고 있다는 걸 체감하게 됩니다.

결론: 누가 맞든, 규칙이 필요하다

제 입장은 이렇습니다. OpenAI의 주장이 100% 사실인지는 아직 모릅니다. DeepSeek 측의 공식 반박도 나오지 않았고, 독립적인 기술 검증도 이뤄지지 않았습니다.

하지만 한 가지는 확실합니다. AI 모델의 지식재산권에 대한 명확한 국제 규칙이 아직 없다는 것. 그리고 이 부재가 이런 분쟁을 만들고, 앞으로 더 심화될 거라는 것.

EU는 AI Act를 통해 규제 프레임워크를 만들고 있고, 미국은 주 단위로 AI 법안이 우후죽순 생기고 있습니다. 한국도 AI 기본법이 논의 중이죠. 개발자로서 우리는 이런 흐름을 관심 있게 지켜봐야 합니다. 내가 만든 모델이, 내가 사용하는 API가, 언제든 이런 논란의 한가운데 놓일 수 있으니까요.

혹시 여러분은 어떻게 생각하시나요? DeepSeek이 정말 "베낀" 걸까요, 아니면 OpenAI의 견제일까요? 그리고 더 근본적으로 — AI 모델의 출력물로 다른 AI를 학습시키는 건 어디까지 허용되어야 할까요?

댓글로 여러분의 생각을 들려주세요.

내부 링크:

📚 관련 글

💬 댓글