Frontier AI의 지도학습: 루미네움의 예

루미네움(Lumineum)이 최근 KNS 어학원에서 내부적으로 발표한 인공지능 영어교육 웹서비스 성능의 많은 부분은 매우 정교하게 디자인한 GPT의 전이지도학습에 의한 것이라고 할 수 있습니다.

1. 루미네움의 교육용 웹 애플리케이션

먼저 언급할 것은, 1년 전쯤의 기술로 만들어진 저희 회사의 LevelUp English라는 시제품인데, 이것은 영어 지문을 주었을 때 그 지문의 변형이 없이 여러 종류의 문제를 만드는 웹 서비스입니다.
드디어 이런 유형의 서비스들이 나오기 시작했습니다. 며칠 전에도 누군가 외국의 비슷한 서비스를 보여 주었습니다. 그런데 이런 정도의 일은 약간의 편리성을 더하는 것 외에는 ChatGPT로 가능한 정도의 일이겠습니다.

그러나 영어교육을 위한 문제출제에서 조금 상위 수준으로 가면 중요한 것은 지문을 변형하는 것입니다. 동그라미 번호를 매기고 밑줄을 긋고, 빈칸이나 여러 종류의 괄호를 만들고, 여러 형식의 패시지를 만들고, 문장의 순서를 바꾸고, 단어나 내용을 바꾸고, 장르를 바꾸고, 틀린 내용을 집어 넣는 등입니다.
그리고 이런 일들을 안정적으로 하는 것은 GPT-4 베이스의 ChatGPT로도 가능하지 않습니다. GPT-4 API로도 그렇습니다.

(사람이 문제를 만들고, 그렇게 만들어진 많은 문제들을 문제은행으로 만들어서 추천시스템 인공지능을 적용시키는 것은 논외로 하겠습니다. 이것은 영어를 이해하는 인공지능이 아니기 때문입니다.)

이번에 새로 발표한 것은 위와 같은 지문 변형을 가능하게 하고, 그에 바탕해서 문제를 출제할 수 있는 웹 서비스입니다. 그리하여 패시지 하나 혹은 여럿을 가지고 전체 수능 영어 시험문제를 출제할 수 있는 것입니다.

2. 개발 과정

중요한 부분은 Frontier AI의 지도학습입니다.

물론 사람처럼 읽어 주고, 번역을 하고, 내부적으로 영어 문장을 분석하는 일 등에서는 기존의 인공지능 방법들을 사용했습니다.

그런데 문제 출제에서 가장 어려운 부분이 지문의 복잡한 변형입니다. 이것을 잘 해내기 위해 지금 나와 있는 거의 모든 종류의 인공지능 모델들을 시험했습니다. 결론적으로 복잡한 논리의 이해, 지시이행능력에서 오픈소스 모델들보다 OpenAI, Google, Anthropic의 모델들이 월등했습니다.

또한 ‘좋은 문제’ 이전에 ‘수능영어 형식을 맞춘 문제’를 만드는 것이 중요했는데, 이것은 직접 문제형식을 만드는 일뿐 아니라 passage를 넣어 instruction, question, adapted_passage, options, correct_answer, explanation 등의 아웃풋을 안정적으로 만들어 내는 데에도 중요했습니다.

형식을 만들고, 그 형식에 바른 의미를 부여하는 것을 위해 GPT-3 이상의 성능을 가진 모델이 필요했으며, 추가적인 기계학습이 필요했습니다.

매우 정교하게 짜여진 지도학습을 GPT-3 모델에(현재는 GPT-3.5-Turbo 모델에) 시키게 되었습니다. 결론적으로 GPT-3.5-Turbo나 GPT-4의 API로도 불가능한 출제를 할 수 있게 되었습니다.

3. 도메인의 특수성과 지도학습

전문 영역에서의 학습에서는 데이터의 품질이 매우 중요할 텐데, 최근에도 입증되고 있는 내용은 LLM 영역의 파운데이션 모델 성능을 높이는 데 있어서 부정확한 많은 데이터보다 정교한 적은 데이터가 훨씬 효과적이라는 것입니다.

지도학습은 답을 주고 학습시키는 학습이라고도 할 수 있겠는데, 이때 정교하게 디자인된 문제와 정교한 답 세트는 과적합 방지 면에서도 유리하고, 지도학습과 강화학습을 함께 적용시켜 LLM의 경우엔 특별히 효과적입니다.

이런 정교한 설계의 지도학습은 전문 영역에서 매우 중요합니다.

영어학습 영역에서 루미네움에 시드투자를 한 KNS 어학원의 도움을 받았습니다. 이곳 선생님들은 대치동 학원가에서 많은 경험을 가진 분들이고 ChatGPT 활용도 잘 합니다. 그래서 ChatGPT가 나왔을 때 부지런히 사용하고 검증도 했는데, 결론적으로는 ChatGPT로 원하는 품질의 문제를 만들거나 하는 일을 할 수는 없었답니다. 일단 복잡한 형식의 문제를 만들어내는 면에서 불가능했던 것입니다.
루미네움의 연구개발 과정에서 이 선생님들의 피드백을 받았습니다. 그리고 영어교육에 뛰어난 부원장 선생님은 제품의 기계학습 성능이 피드백을 통해 발전해 나가는 것을 보고 영어 수능문제 세트가 만들어질 만하다는 결론을 내렸었답니다.

KNS 어학원의 선생님들과 연구개발 부서가 모든 영어학습 서비스들(AI를 사용한다고 하는 서비스들 포함)을 분석해 주었습니다. 결론적으로 루미네움의 영어문제 출제기능이 압도적이라고 확인해 주었습니다.

이렇게 영어학습과 같은 학습 영역에서, 특히 문제출제 영역에서 지도학습의 중요성과 효과는 특수한 LLM에서 특히 더 많이 드러나는 것 같습니다.

즉, 훨씬 뛰어난 모델의 프롬프트 엔지니어링으로 해 내는 일들보다 낮은(그러나 지나치게 낮지 않은, 오픈소스 이상의) 모델의 전이지도학습을 통해 만들어 낸 결과가 더 뛰어났습니다.
예컨대 GPT-4 미만의 API로는 한국어와 영어를 필요에 따라 혼합하는 일조차도 모델이 버거워했습니다. 심지어 GPT-4도 가끔 실패했고, 특히 GPT-4도 반말과 높임말을 구분해서 안정적으로 출력하는 데 자주 실패했습니다. 그러나 정교하게 디자인된 전이지도학습으로 만든 모델로는 성공적이었습니다.

이것은 미세조정(fine tuning) 정도에 불과한데 어떻게 이런 효과를 발생시켰을까 생각해 보면, 전이학습 치고는 영역이 거의 일치한다는 사실 때문이기도 하고 모델 자체가 강화학습과 각종 기술이 적용된 엄청난 파운데이션 모델이기 때문이기도 한 것 같습니다.

회사 자체 리소스(GPU 포함)를 써서 하는 기계학습은 워낙 느리고 가능한 모델의 한계도 있기 때문에 꼭 필요한 연구에만 하고, 회사 여건상 주로 클라우드상에 있는 GPT-3(지금은 GPT-3.5-Turbo)를 통한 기계학습을 많이 했습니다.
그러나 이것만으로도 몇천만원씩 들 수 있습니다.
계속되는 지출을 생각한다면 많은 고성능 GPU를 확보해야겠지요. (정부가 이 일을 대신 해서 스타트업 기업들도 API를 통해 마치 구글 Colab 이용하듯 쉬운 방법으로 GPU 자원을 쓸 수 있게 하면 아주 좋을 것 같습니다.)
그러나 그 방법은 스타트업 기업에서는 불가능합니다. 그래서 가장 뛰어난 모델들을 빌려서 효과적인 전이학습을 시키는 이 방법이 거의 유일하다고 생각됩니다. 다만 다양한 실험과 미래적인 연구개발을 위해 자체 GPU 리소스도 충분한 양이 필요합니다.
그러나 몇천만원도 시리즈 A 투자 이전의 초기 스타트업에서 어렵습니다.
그러므로 절약을 위해 극도로 정교하게 디자인된 지도학습세트를 이용하는 방법을 채택해서 몇백만원대로 필요한 기계학습을 시키게 된 것입니다. 다행히 효과가 훌륭했습니다.

모델이 과적합되면서 성능이 늘지 않거나 처음 모델의 성능을 오히려 잃거나 하면 뒤로 돌아가서 다시 해야 하기 때문에 이런 일이 반복되면 몇천만원보다 훨씬 큰 비용이 들 수도 있습니다.
그러나 여러 방법을 통해 그야말로 정교하게 디자인된 학습을 시킴으로써 엄청난 비용절감은 물론 큰 성능 향상도 이룰 수 있었습니다.

4. Frontier AI의 위력

초기 AGI에 해당하는 이런 파운데이션 모델들에서 가능성을 발견하는 것은, 완전히 불가능했던 일을 터무니없을 정도로 적은 비용으로 해 내게 되는 것이 바로 이 모델들의 잠재력에 의한 것이라는 사실입니다.

기대하기로는 이런 방법론들을 그대로 오픈소스 모델들에 적용시키면 될 날이 올 것입니다. 메타이든 네이버클로바이든 언젠가 초기 AGI로서의 역할을 할 수 있는, 높은 논리성능과 뛰어난 지시이행능력을 LLM에 추가한 모델을 오픈소스로 발표한다면 대단한 사건의 하나가 될 것 같습니다.

우리나라 정부와 대기업들은 이렇게, 스타트업은 할 수 없는, 프론티어 모델의 개발에도 힘써 주면 좋겠습니다.

5. 도메인 특화 모델, 가치를 가진 모델

이상의 일들은 마치 사람을 특정 영역의 전문가로 만들거나, 훌륭한 가치와 인품을 가진 사람으로 만드는 것과 유사합니다.
인간을 닮은 인공지능의 시대에 사람과 AI가 협력해서 모든 사람에게 이로움을 끼치게 만드는 것이 루미네움의 목표입니다.

인공지능은 훌륭하고 유능한 도구이기 때문에 어떤 목적과 방법으로 쓰느냐에 따라 크게 이로울 수도, 크게 해로울 수도 있습니다.

큰 도움이 되는 도메인 특화 모델을 만들기 위해서는 그 도메인의 전문성이 요구되기 때문에 앞으로의 컴퓨터 소프트웨어 개발은 단지 컴퓨터를 잘 아는 것에 그치는 것이 아니라 프로그래머가 얼마나 특정 영역에 전문적인가 하는 데서 결정될 것입니다.
즉 매우 넓은 컴퓨터 적용 영역이 생겨난 것이고, 새로운 필요와 일자리가 생긴 것입니다.

가치를 가진 모델을 특별한 기계학습을 통해 만들 수 있는 시대가 되었기 때문에 사람의 경우처럼 무엇을 어떻게 학습했느냐에 의해 가치가 더해지는 모델들이 나오게 되었습니다. 휼륭한 모델들은 인간의 보편적 가치를 지지하고 심지어 사람들의 학습을 이끌 수 있게 됩니다.
훌륭한 모델들은 합리와 이성과 지혜에 힘을 실어 주고, 비인간적이고 비이성적인 오류 투성이의 논리들을 제어하는 데 도움을 주게 됩니다.

6. 컴퓨터를 교육하는 일

프론티어 AI의 지도학습은 마치 사람을 성장기부터 교육하는 일에 비유될 수 있습니다. 바른 생각을 가진 사람들이 주도하게 되기를 바랍니다. 이 시점에서 어쩌면 컴퓨터를 교육하는 일은 사람을 교육하는 일보다 단기적으로 더 중요할 지 모릅니다.
루미네움도 장기적으로 이에 기여하는 목표를 가지고 있습니다.