OpenAI 고블린의 출처
source https://openai.com/index/where-the-goblins-came-from/
어제 Codex 고블린 밈? 요 글 올렸었는데, OpenAI 가 관련 글을 작성했네요
GPT-5.1부터 모델이 비유에
goblin,gremlin, 다른 크리처를 자꾸 끼워 넣기 시작.초반엔 답변 하나에
little goblin한 번 나오는 정도라 사소해 보였지만, 세대를 거치며 빈도는 뚜렷하게 증가.초기 Codex 테스트에서도 GPT-5.5가 goblin 비유를 유독 좋아하는 모습이 보임.

모델 행동은 여러 작은 인센티브의 합으로 형성되고, 이번 건은 personality customization 기능 학습, 특히 Nerdy 성격 보상에서 시작.
크리처가 들어간 비유에 의도치 않게 높은 보상을 줬고, 그 뒤 goblin 확산.
처음엔 웃겼지만 사내 보고가 계속 쌓이면서 무시하기 어려운 문제로 바뀜.

크리처가 처음 보인 신호
패턴을 분명히 확인한 첫 시점은 GPT-5.1 출시 뒤인 11월. 더 일찍 시작됐을 수도 있음.
사용자는 모델이 대화에서 이상하게 과하게 친근하다고 불평했고, 그 과정에서 특정 말버릇 조사 시작.
한 안전 연구원이
goblins,gremlins를 몇 번 겪어서 체크 항목에 넣자고 요청.
조사 결과 GPT-5.1 출시 후 ChatGPT에서
goblin사용은 175%,gremlin은 52% 증가.

당시엔 심각해 보이지 않았지만, 몇 달 뒤 훨씬 더 구체적이고 재현 가능한 형태로 다시 문제화.
goblin 미스터리 풀기
GPT-5.4에서는 OpenAI 내부와 사용자들 모두 이런 크리처 언급이 더 크게 늘어난 것을 확인.
이 분석으로 처음 근본 원인과 연결됐고, 크리처 표현이
Nerdy성격을 고른 사용자 프로덕션 트래픽에서 특히 많았다는 점이 드러남.Nerdy는 이런 시스템 프롬프트를 사용."당신은 인간에게 주어지는, 변명 없이 nerdy하고 장난기 있으며 현명한 AI 멘토다. 진실, 지식, 철학, 과학적 방법, 비판적 사고를 열정적으로 장려한다. [...] 언어를 장난스럽게 써서 허세를 눌러야 한다. 세계는 복잡하고 이상하며, 그 이상함은 인정하고 분석하고 즐겨야 한다. 무거운 주제를 다루되 지나치게 심각해지는 함정엔 빠지지 마라. [...]"
이게 단순한 인터넷 전반 유행이었다면 더 고르게 퍼졌어야 하는데, 실제로는 장난스럽고 nerdy한 스타일로 명시적으로 최적화한 구간에 집중.
Nerdy는 ChatGPT 전체 응답의 2.5%뿐이었지만, ChatGPT 응답 내goblin언급의 66.7% 차지.

goblin 빈도가 모델 릴리스가 갈수록 올라가는 걸 보고, 성격 지시 따르기 RL 학습 어딘가가 이걸 증폭한다고 의심.
Codex로 RL 학습 중 생성된 출력 가운데
goblin/gremlin이 들어간 것과, 같은 작업의 비포함 출력을 비교했더니 한 보상 신호가 바로 튀어나옴.원래
Nerdy성격을 장려하려 만든 보상 신호가 크리처 단어가 든 출력에 일관되게 더 유리.검토한 모든 데이터셋 기준으로, 같은 문제에서
goblin/gremlin이 있는 답을 없는 답보다 더 높게 채점하는 경향이 뚜렷했고, 76.2%의 데이터셋에서 양의 uplift 확인.
이걸로
Nerdy프롬프트에서 왜 강화됐는지는 설명됐지만, 그 프롬프트 없이도 왜 나타나는지는 여전히 남음.스타일 전이가 있는지 보려고
Nerdy프롬프트가 있는 경우와 없는 경우를 모두 추적.
Nerdy에서 goblin/gremlin 언급이 늘어날 때, 그 프롬프트가 없는 샘플에서도 거의 같은 상대 비율로 함께 증가.더 넓은 범위의 이 행동은
Nerdy성격 학습에서 전이된 결과로 보임.
보상은
Nerdy조건에만 걸었지만, 강화학습은 학습된 행동이 그 조건 안에만 깔끔하게 갇혀 있으리라고 보장하지 않음.한 스타일 말버릇이 보상을 받기 시작하면, 이후 학습이 그걸 다른 곳으로 퍼뜨리거나 더 강화함.
특히 그런 출력이 supervised fine-tuning(SFT)이나 preference data에 다시 쓰이면 이런 경향이 더 강해짐.
이 과정은 피드백 루프를 만듦.
장난스러운 스타일에 보상.
보상받은 예시 일부에 눈에 띄는 어휘 말버릇 포함.
그 말버릇이 rollout에 더 자주 등장.
모델 생성 rollout이 SFT에 다시 투입.
모델이 그 말버릇을 더 자연스럽게 계속 생성.
GPT-5.5의 SFT 데이터를 검색해 보니
goblin,gremlin이 들어간 데이터포인트가 다수 확인.

추가 조사에서는 다른 이상한 크리처 계열도 확인.
raccoons,trolls,ogres,pigeons는 다른 tic 단어로 식별.frog는 대부분 정상적인 용례.
프로덕션 1주 평균 기준으로 goblin/gremlin 빈도를 보면, GPT-5.4 Thinking에서의 하락은 3월 중순
Nerdy성격을 퇴역시킨 영향.GPT-5.5는 애초에
Nerdy성격과 함께 출시되지 않았는데도 GPT-5.4보다 다시 증가.
goblin의 끝
GPT-5.4 출시 후 3월에
Nerdy성격 폐기.학습에서는 goblin 친화적 보상 신호를 제거했고, 크리처 단어가 들어간 학습 데이터를 필터링.
그래서 goblin이 과하게 자주 나오거나 부적절한 맥락에 튀어나올 가능성 감소.
다만 GPT-5.5는 goblin 근본 원인을 찾기 전에 이미 학습이 시작된 뒤였음.
GPT-5.5를 Codex에서 테스트하기 시작하자, OpenAI 직원들이 곧바로 goblin 집착을 눈치챘고 이를 완화하려고 developer-prompt 지시를 추가.
Codex는 원래 꽤 nerdy하기도 함.
Codex에서 크리처 표현을 다시 허용하고 싶다면, goblin 억제 지시를 뺀 상태로 아래 명령으로 실행.
일반 텍스트
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \2
jq -r '.models[] | select(.slug=="gpt-5.5") |.base_instructions' \3
~/.codex/models_cache.json | \4
grep -vi 'goblins' > "$instructions" && \5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""왜 중요한가
누구에게는 goblin이 유쾌하고, 누구에게는 거슬리는 말버릇이지만, 더 중요한 건 보상 신호가 예상 밖 방식으로 모델 행동을 어떻게 바꾸는지 보여주는 사례.
모델은 특정 상황에서 받은 보상을 무관한 상황까지 일반화해 학습하기도 함.
OpenAI: 모델이 이상하게 행동할 때 왜 그런지 끝까지 파고들고, 그런 패턴을 빠르게 조사할 수단을 갖추는 일은 연구팀의 중요한 역량.
이번 조사로 연구팀은 모델 행동을 점검하고, 행동 문제를 근본 원인에서 고치는 새 도구들을 만들었음.
댓글을 남기려면 로그인이 필요합니다.
로그인 후 이 페이지로 돌아와 바로 댓글을 남길 수 있습니다.
