이슈

국내 AI, 수능 수학 앞에서 무릎 꿇다: 챗GPT와 압도적인 격차

essay50119 2025. 12. 15. 13:06
반응형

AI, 수능 수학에 도전하다: 현실은?

국내 인공지능(AI) 모델들이 수능 수학 및 논술 문제 풀이에서 해외 모델에 비해 현저히 낮은 성능을 보인다는 분석 결과가 나왔습니다. 김종락 서강대 수학과 교수 연구팀은 국내 주요 LLM 모델들과 챗GPT 등 해외 모델을 대상으로 수능 수학 및 논술 문제 풀이 능력을 평가했습니다.

 

 

 

 

수능 수학, AI에게 너무 어려운 숙제?

연구팀은 수능 수학 20문제와 논술 30문제를 포함, 총 50문제를 10개의 모델에 풀게 했습니다. 수능 문제는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항들을 선정했으며, 논술 문제는 국내 대학 기출 문제와 해외 입시 문제를 포함했습니다.

 

 

 

 

국내 AI 모델, 처참한 성적표

테스트 결과는 충격적이었습니다. 해외 모델들은 76~92점의 높은 점수를 기록한 반면, 국내 모델들은 20점대에 머무르거나, 심지어 2점이라는 낮은 점수를 기록했습니다. 솔라 프로-2만이 58점을 기록하며 체면을 유지했을 뿐, 나머지 모델들은 기대에 미치지 못했습니다.

 

 

 

 

해외 모델과의 격차: 왜 벌어지는가?

연구팀은 국내 모델들이 단순 추론만으로는 문제를 풀지 못해 파이썬 툴을 사용하도록 설계했음에도 불구하고 낮은 점수를 기록했다고 설명했습니다. 이는 국내 AI 모델의 기술적 한계를 보여주는 결과입니다.

 

 

 

 

심화 테스트: 엔트로피매스, 또다시 드러난 격차

대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트인 '엔트로피매스' 100문제 중 10문제를 활용한 테스트에서도 해외 모델은 82.8~90점을 기록한 반면, 국내 모델은 7.1~53.3점으로 낮은 점수를 받았습니다. 이러한 결과는 국내 AI 기술이 아직 갈 길이 멀다는 것을 시사합니다.

 

 

 

 

수학 리더보드 구축: AI 기술 발전을 위한 노력

김 교수는 엔트로피매스 데이터세트를 기반으로 수학 리더보드를 개설하여 국제적인 수준으로 키울 것이라고 밝혔습니다. 또한 자체 개발 문제 생성 알고리즘과 파이프라인을 개선하여 수학뿐 아니라 과학, 제조, 문화 도메인 데이터세트를 생성하고, 도메인 특화 모델 성능 개선에 기여할 계획입니다.

 

 

 

 

AI, 수능 수학 앞에서 좌절: 기술 격차 현실화

이번 연구는 국내 AI 모델이 챗GPT 등 해외 모델에 비해 수학 능력에서 현저한 격차를 보이고 있음을 보여줍니다. 하지만, 연구팀의 지속적인 노력과 데이터세트 구축을 통해 AI 기술 발전을 위한 노력이 이어질 것입니다.

 

 

 

 

자주 묻는 질문

Q.왜 국내 AI 모델의 수능 수학 능력이 낮은가요?

A.국내 AI 모델은 아직 해외 모델에 비해 기술적인 측면에서 부족한 부분이 많기 때문입니다. 단순 추론 능력 부족, 파이썬 툴 사용 의존성 등이 주요 원인으로 분석됩니다.

 

Q.연구팀의 향후 계획은 무엇인가요?

A.연구팀은 엔트로피매스 데이터세트를 활용한 수학 리더보드를 구축하고, 자체 개발 문제 생성 알고리즘을 개선하여 다양한 도메인의 데이터세트를 생성하여 도메인 특화 모델 성능 개선에 기여할 계획입니다.

 

Q.이번 연구가 갖는 의미는 무엇인가요?

A.이번 연구는 국내 AI 기술의 현주소를 객관적으로 보여주는 지표입니다. 기술 격차를 인지하고, 이를 개선하기 위한 노력을 통해 국내 AI 기술 발전에 기여할 수 있다는 점에서 의미가 있습니다.

 

 

 

 

 

 

반응형