[논문리뷰] Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models
AI는 덧셈을 정말 이해할까? LLM의 수학 능력, 패턴 암기 vs 규칙 학습
🔗 https://arxiv.org/pdf/2504.05262.pdf
최근 AI, 특히 Large Language Models (LLM)는 놀라운 발전을 보여주며, 복잡한 문제 해결 능력에서 인간 전문가 수준에 도달했다는 평가를 받습니다. 하지만, 겉으로 보기에 뛰어난 LLM이 기본적인 수학 연산조차 제대로 이해하지 못한다는 연구 결과가 발표되어 충격을 주고 있습니다. 본 논문은 LLM이 덧셈이라는 가장 기초적인 연산을 어떻게 처리하는지 심층적으로 분석하여, LLM의 수학적 능력이 진정한 이해에 기반한 것인지, 아니면 단순히 방대한 데이터 속에서 패턴을 암기한 결과인지에 대한 중요한 질문을 던집니다. 이는 AI의 실제 능력과 한계를 명확히 파악하고, 앞으로 나아가야 할 방향을 설정하는 데 매우 중요한 연구입니다.
서론
- LLM은 복잡한 추론 과제에서 뛰어난 성능을 보이지만, 입력 형태가 조금만 바뀌어도 쉽게 실패하는 등 취약점을 드러냅니다.
- 이는 LLM이 진짜 수학적 원리를 이해하고 문제를 해결하는 것인지, 아니면 단순히 데이터 패턴을 암기하는 것인지에 대한 의문을 제기합니다.
- 기존의 복잡한 수학 문제 benchmark는 오히려 LLM의 기본적인 수학적 이해 능력을 제대로 평가하기 어렵다는 한계가 있습니다.
- 따라서 본 논문은 가장 기본적인 연산인 덧셈을 통해 LLM의 수학적 능력을 정밀하게 분석하고자 합니다.
핵심 포인트: LLM의 놀라운 능력 뒤에 숨겨진 기본적인 이해 부족 가능성을 지적하며, 덧셈을 통해 핵심 질문을 탐구합니다.
기존 연구
- 기존 연구들은 LLM이 복잡한 수학 benchmark에서 높은 점수를 얻지만, symbolic representation이나 약간의 입력 변화에 취약함을 보여줍니다.
- 이는 LLM이 수학 문제를 풀 때 진정한 이해보다는 패턴 매칭에 의존할 수 있다는 가능성을 시사합니다.
- 특히, LLM은 덧셈 과정에서의 carry-over 연산이나 곱셈과 같은 기본적인 연산에서도 어려움을 겪는다는 연구들이 있습니다.
- 하지만, 기존 연구들은 주로 복잡한 문제 해결 능력을 평가하는 데 집중하여 기초적인 연산 능력에 대한 심층적인 분석은 부족했습니다.
핵심 포인트: 기존 연구들은 LLM의 수학 능력의 한계를 지적했지만, 기본 연산 능력에 대한 심층 분석은 부족했습니다. 본 논문은 기존 연구의 한계를 극복하고 더 근본적인 질문에 답하고자 합니다.
방법론
- 본 논문은 LLM의 덧셈 능력 평가를 위해 두 가지 핵심 속성에 집중합니다: 교환 법칙 (A+B = B+A) 과 symbolic mapping을 통한 compositional generalization.
- Symbolic mapping이란 숫자를 임의의 기호(예: 7 → Y)로 바꾸어 표현했을 때도 덧셈 규칙을 일관되게 적용할 수 있는지 평가하는 방법입니다. (마치 "1+2=3"을 "one + two = three" 로 바꿔도 이해해야 하는 것과 같습니다.)
- LLM에게 0부터 2^64 범위의 두 정수 덧셈 문제를 제시하고, 숫자 형태와 symbolic 형태 두 가지 방식으로 테스트했습니다.
- 또한, 덧셈 규칙을 명시적으로 제공했을 때와 self-explanation을 사용했을 때의 성능 변화를 비교하여 LLM의 연산 방식을 분석했습니다.
핵심 포인트: 교환 법칙과 symbolic mapping이라는 핵심 속성을 통해 LLM의 덧셈 능력을 체계적으로 평가하는 새로운 방법론을 제시합니다. 이는 LLM이 단순히 패턴을 암기하는지, 아니면 진정한 규칙을 학습하는지 판별하는 데 중요한 역할 합니다.
실험 및 결과
- LLM들은 숫자 덧셈에서는 **높은 정확도 (73.8-99.8%)**를 보였지만, symbolic 덧셈에서는 정확도가 급격히 떨어져 (≤ 7.5%), 규칙 generalization에 실패했습니다. (마치 숫자로 된 덧셈은 잘하지만, 문자로 된 덧셈은 전혀 못하는 모습과 같습니다.)
- Digit count가 증가함에 따라 성능이 monotonic하게 감소하지 않고 오히려 오르락내리락하는 non-monotonic 패턴을 보였습니다.
- 교환 법칙 위반 사례 (A+B ≠ B+A)가 1700건 이상 발견되어, 기본적인 수학적 속성을 제대로 이해하지 못하는 것으로 나타났습니다.
- 덧셈 규칙을 명시적으로 제공했을 때 오히려 성능이 평균 81.2% 감소했으며, self-explanation은 baseline 수준의 정확도를 유지했습니다.
핵심 포인트: LLM은 숫자 덧셈은 잘하지만, symbolic 덧셈에서 심각한 실패를 보이며, 규칙 generalization 능력 부족과 패턴 암기에 의존함을 명확히 보여줍니다. 덧셈 규칙을 알려주는 것이 오히려 성능을 떨어뜨리는 예상 밖의 결과는 LLM의 작동 방식에 대한 중요한 시사점을 던져줍니다.
결론 및 한계
- LLM은 수학적 원리 학습보다는 패턴 암기에 의존하며, 이는 LLM 아키텍처의 근본적인 한계를 드러냅니다.
- 현재 LLM은 진정한 수학적 추론을 하기 어렵고, 새로운 접근 방식이 필요함을 시사합니다.
- 본 연구는 새로운 평가 방법론을 제시하고, LLM의 연산 방식과 인간의 수학적 인지 방식 간의 차이를 명확히 했습니다.
- 한계점으로는 덧셈이라는 단일 연산에 집중했다는 점, 그리고 symbolic mapping이 실제 수학적 context를 완벽하게 반영하지 못할 수 있다는 점 등이 있습니다.
핵심 포인트: LLM은 패턴 암기에 기반하며 진정한 수학적 이해가 부족하고, 새로운 평가 방법론과 향후 연구 방향을 제시합니다. LLM 아키텍처의 한계를 지적하며, 진정한 수학적 추론을 위한 새로운 접근 방식의 필요성을 강조합니다.
한 줄 요약
LLM은 덧셈 문제를 풀 때, 마치 정답이 적힌 문제집을 통째로 암기하는 것처럼 작동하며, 진짜 덧셈 원리를 이해하는 것은 아니다 라는 충격적인 사실을 밝혀낸 논문.