AI OpenFree

Posted on Jul 1

AGI의 마지막 퍼즐은 지식이 아니라 메타인지다

AI는 이제 어려운 시험을 풉니다.
논문을 읽고, 코드를 짜고, 의학·법률·금융 질문에도 답합니다.

그런데 아직 AI에게 없는 능력이 하나 있습니다.

“내가 지금 틀렸을 수도 있다”는 감각.

사람으로 치면 이런 겁니다.

아는 건 정말 많습니다.
말도 논리적으로 합니다.
전문 용어도 정확하게 씁니다.

그런데 정작 자기가 틀렸을 때는 전혀 모릅니다.

오히려 더 또렷한 문장으로, 더 자신 있게, 더 그럴듯하게 틀립니다.

이게 지금 AI 신뢰성의 가장 큰 문제입니다.

AI는 왜 그렇게 당당하게 틀릴까?
ChatGPT 같은 AI를 쓰다 보면 이상한 경험을 하게 됩니다.

문장은 완벽합니다.
논리도 있어 보입니다.
표현도 전문가 같습니다.

그런데 내용은 틀렸습니다.

이걸 우리는 보통 환각, hallucination이라고 부릅니다.

하지만 더 정확히 말하면, 문제는 단순한 환각이 아닙니다.

AI는 애초에 진실을 검증하는 기계로 만들어진 것이 아닙니다.
AI는 기본적으로 다음에 올 가능성이 높은 단어를 예측하는 기계입니다.

그래서 AI에게는
“그럴듯한 말”과 “사실인 말”이 자주 같은 얼굴을 하고 나타납니다.

말이 자연스러우면 출력합니다.
문장이 이어지면 확신합니다.
틀렸더라도 멈추지 않습니다.

그래서 진짜 중요한 질문은 이겁니다.

AI는 정답을 맞힐 수 있는가?

이 질문은 이미 많이 했습니다.

이제는 다른 질문을 해야 합니다.

AI는 자기가 틀렸을 때, 그 사실을 알아차릴 수 있는가?

정답률보다 더 중요한 능력: 메타인지
사람에게도 이런 능력이 있습니다.

시험을 풀다가
“이건 좀 헷갈리는데?”
“내가 방금 뭔가 잘못 본 것 같은데?”
“이 답은 다시 확인해야겠는데?”

하고 멈추는 능력입니다.

심리학에서는 이를 메타인지라고 부릅니다.
자기 생각을 다시 바라보는 능력.
내가 알고 있는지, 모르는지, 틀렸을 가능성이 있는지를 감시하는 능력입니다.

AI에게도 이 능력이 필요합니다.

특히 의료, 법률, 금융, 보안, 과학처럼
틀린 답 하나가 큰 비용으로 이어지는 분야에서는
단순히 많이 아는 AI보다
틀릴 것 같을 때 멈추는 AI가 훨씬 중요합니다.

그래서 우리는 AI의 메타인지를 측정했습니다.

우리는 AI에게 함정 문제 400개를 던졌다
실험은 단순했습니다.

AI가 그럴듯하게 속기 쉬운 함정 문제 400개를 만들었습니다.

겉으로 보면 A가 답처럼 보입니다.
하지만 실제 정답은 B입니다.

똑똑한 사람도 방심하면 틀릴 수 있는 문제들입니다.

우리는 이 문제를 24개 AI 모델에게 풀렸습니다.

그리고 두 가지를 따로 측정했습니다.

첫째, 정답을 맞히는 능력
즉, 함정에 얼마나 덜 빠지는가.

둘째, 자기 답이 틀렸는지 알아차리는 능력
즉, 스스로 오류 가능성을 감지하는가.

이 둘은 비슷해 보이지만 전혀 다른 능력입니다.

시험을 잘 보는 것과
자기 실수를 알아차리는 것은 다릅니다.

그리고 결과는 꽤 충격적이었습니다.

객관식 1위는 JGOS-31B-Citizen
먼저 객관식 성능입니다.

우리가 개발한 한국어 AI JGOS-31B-Citizen이
24개 모델 중 1위를 기록했습니다.

400문제 중 틀린 문제는 단 2개.
함정 회피율 99.5%.

거의 걸려들지 않았습니다.

더 의미 있는 점은 그 뒤였습니다.

2위는 Darwin-31B였습니다.
상위권에는 Darwin-35B, Darwin-28B 등
우리가 자체 개발한 Darwin 계열 모델들이 촘촘히 자리했습니다.

거대한 해외 모델들과 비교해도 밀리지 않았고,
오히려 앞서는 결과를 보였습니다.

이 결과가 보여주는 것은 분명합니다.

모델의 크기만이 답은 아닙니다.
어떻게 훈련했는가, 어떤 사고 구조를 갖게 만들었는가가 중요합니다.

여기까지는 좋은 소식입니다.

하지만 진짜 중요한 결과는 그다음이었습니다.

시험은 거의 만점. 그런데 자기 오답은 못 봤다
우리는 AI에게 객관식만 풀린 것이 아닙니다.

이번에는 직접 서술형 답변을 쓰게 했습니다.
그리고 다시 물었습니다.

“방금 네가 쓴 답, 맞는 것 같아? 틀린 것 같아?”

결과는 냉정했습니다.

1위 모델인 JGOS조차 자기 답이 맞는지 틀린지 제대로 구분하지 못했습니다.

거의 동전 던지기 수준이었습니다.

정답을 맞히는 능력은 매우 높았습니다.
하지만 자기 답의 오류 가능성을 감지하는 능력은 별개의 문제였습니다.

이게 핵심입니다.

AI는 문제를 잘 풀 수 있습니다.
하지만 자기가 방금 틀렸는지는 모를 수 있습니다.

즉, 지금의 AI는
시험은 만점에 가까운데
자기 실수는 못 보는 학생과 같습니다.

그리고 이런 AI를 의료, 법률, 금융, 보안, 연구 현장에 그대로 투입하면
가장 위험한 순간은 정답을 모를 때가 아닙니다.

틀렸는데도 자신 있게 말할 때입니다.

그래서 우리는 AI 옆에 ‘자기 의심’을 붙였다
여기서부터가 이번 프로젝트의 진짜 목적입니다.

우리는 AI 본체를 다시 만들지 않았습니다.
모델 전체를 새로 훈련하지도 않았습니다.

대신 AI 옆에 붙는 작은 보조 장치,
메타인지 어댑터를 만들었습니다.

원리는 이렇습니다.

AI가 답변을 생성할 때, 내부에는 수많은 신호가 흐릅니다.
어댑터는 그 내부 신호를 읽고
“이 답이 틀렸을 가능성”을 계산합니다.

본체를 바꾸지 않습니다.
원래 모델의 성능을 망가뜨리지 않습니다.
답변 스타일을 강제로 바꾸지도 않습니다.

그저 옆에서 조용히 말합니다.

“잠깐, 이 답은 위험할 수 있습니다.”
“이 부분은 다시 확인해야 합니다.”
“모델이 확신하지만, 내부 신호는 불안정합니다.”

이것이 우리가 말하는 AI의 보정된 자기 의심입니다.

11개 모델용 메타인지 어댑터 공개
우리는 효과가 확인된 11개 모델별 어댑터를 만들고 공개했습니다.

JGOS는 객관식에서 압도적인 성능을 보였지만,
스스로 자기 오류를 구분하는 데는 한계가 있었습니다.

하지만 어댑터를 붙이자
오류 가능성에 대한 위험 신호를 잡아내기 시작했습니다.

Darwin-28B-Opus 등 Darwin 시리즈에서도 뚜렷한 효과가 확인됐습니다.

해외 대형 모델에서도 마찬가지였습니다.
특히 일부 모델은 자기 오류 감지 능력이 낮았던 만큼
어댑터를 붙였을 때 개선 폭이 더 크게 나타났습니다.

중요한 것은 이것입니다.

AI를 더 크게 만들지 않아도 됩니다.
AI 본체를 다시 훈련하지 않아도 됩니다.
옆에 메타인지 장치를 붙이는 것만으로도, 답변의 위험 신호를 볼 수 있습니다.

이제 AI 신뢰성의 기준은 단순 정답률에서 끝나면 안 됩니다.

다음 질문은 이것이어야 합니다.

이 AI는 자신이 틀릴 때를 아는가?

똑똑한 AI보다 필요한 것
우리는 오랫동안 AI에게 더 많은 지식을 넣어왔습니다.

더 큰 모델.
더 많은 데이터.
더 긴 컨텍스트.
더 높은 벤치마크 점수.

물론 중요합니다.

하지만 인간 사회에서 정말 믿을 수 있는 사람은
아는 것이 많은 사람만은 아닙니다.

정말 믿을 수 있는 사람은
자기가 모를 때 모른다고 말할 수 있는 사람입니다.

자기 판단을 의심할 수 있는 사람.
실수를 감지할 수 있는 사람.
확신을 잠시 멈추고 다시 확인할 수 있는 사람.

AI도 마찬가지입니다.

앞으로의 AI는 단순히 더 똑똑해지는 것만으로는 부족합니다.

자기가 틀릴 수 있다는 사실을 아는 AI.
위험한 답변 앞에서 스스로 경고등을 켜는 AI.
정답률뿐 아니라 자기 오류 감지 능력을 갖춘 AI.

그런 AI가 진짜 신뢰할 수 있는 AI입니다.

정답률의 시대에서 메타인지의 시대로
이번 실험은 단순한 모델 순위 경쟁이 아닙니다.

우리가 확인하고 싶었던 것은 하나였습니다.

AI가 스스로를 의심할 수 있는가.

결과는 명확했습니다.

현재의 AI는 문제를 잘 풀 수 있습니다.
하지만 자기 오답을 스스로 감지하는 능력은 아직 부족합니다.

그래서 우리는 벤치마크를 만들었고,
24개 모델을 평가했고,
11개 모델별 메타인지 어댑터를 공개했습니다.

AI가 더 많이 말하는 시대는 이미 왔습니다.

이제 필요한 것은
더 빠른 답변이 아닙니다.
더 긴 답변도 아닙니다.
더 그럴듯한 답변도 아닙니다.

이제 필요한 것은
틀릴 때 멈출 수 있는 AI입니다.

실험 문제, 데이터, 24개 AI의 점수,
그리고 11개 모델별 메타인지 어댑터를 모두 공개했습니다.

직접 확인하고, 원하는 AI 모델을 올려 평가할 수 있습니다.

🏆 메타인지 리더보드
24개 AI 순위 및 직접 제출
https://huggingface.co/spaces/ginigen-ai/Metacognition-Leaderboard-Space

📊 메타인지 벤치마크
함정 문제 300+100 데이터 공개
https://huggingface.co/datasets/ginigen-ai/Metacognition-Bench

🧩 모델별 메타인지 어댑터 11종
내려받아 바로 사용
https://huggingface.co/collections/FINAL-Bench/metacognition-adapters-6a42c032e6beb803dd032961

DEV Community

AGI의 마지막 퍼즐은 지식이 아니라 메타인지다

Top comments (0)