아크로팬

산업 경제 테크 게임
사회 생활 자동차 미디어

업스테이지, 한국어 AI모델 공정한 평가 체계 구축... 기술 발전 토대 마련

  • 2021-05-17 09:46
  • ACROFAN=Newswire
  • newswire@acrofan.com
기업의 AI(인공지능) 트랜스포메이션을 돕는 스타트업 업스테이지가 KAIST, NYU, 네이버, 구글 등 국내 10개 기관과 함께 한국어 기반 AI모델의 공정한 평가를 위한 ‘KLUE(한국어 자연어 이해 평가 데이터셋)’를 구축해 공개한다.

KLUE는 한국어 언어모델의 공정한 평가를 위한 목적으로 8개 종류(▲뉴스 헤드라인 분류 ▲문장 유사도 비교 ▲자연어 추론 ▲개체명 인식 ▲관계 추출 ▲형태소 및 의존 구문 분석 ▲기계 독해 이해 ▲대화 상태 추적)의 한국어 자연어 이해 문제가 포함된 데이터 집합체이다.

자연어 처리 및 이해에 대한 연구는 전 세계적으로 그동안 지속적으로 활발하게 진행되어 왔다. 하지만 연구의 기반이 되는 공개 데이터셋은 대부분 영어로 이루어져 한국어 고유의 특성을 고려한 연구 진행이 어려웠다. 업스테이지는 이러한 문제를 해결하고자 KLUE 구축에 나선 것.

KLUE는 영한 번역문이 아닌 일상생활에서 실사용되는 한국어 원문으로만 제작돼 한국어의 정확한 이해와 추론 능력을 평가할 수 있다. 특히 다양한 한국어 언어모델이 동일한 평가선상에서 정확하게 비교될 수 있는 평가기준과 토대가 된다는 점에서 앞으로 한국어 자연어처리 분야의 발전을 앞당길 것으로 기대된다.

또한 KLUE는 누구나 데이터에 접근, 활용할 수 있는 라이선스를 부착한 국내 최초 오픈 데이터셋이라는 점에서 중요한 의의가 있다. KLUE 이전에도 자연어이해(NLU)와 관련된 데이터셋은 있었지만, 다양한 작업을 집대성 해 산업계와 학계 모두 사용할 수 있는 CC-BY-SA 라이선스(크리에이티브 커먼즈 라이선스:특정 조건에 따라 저작물 배포를 허용하는 저작권 라이선스)로 공개한 것은 이번 KLUE가 최초다. 접근제한 없는 라이선스로 개방된 한국어 자연어 이해 평가 데이터가 없어 고전했던 산업계 및 학계의 고민을 해결한 것이다.

KLUE 프로젝트는 업스테이지가 호스트를 맡고, 네이버 클로바, NYU, KAIST와 공동 주최로 진행되었다. 오픈 데이터셋과 한국어 언어 모델 제작을 위해 구글, 네이버 클로바, 업스테이지 (플래티넘) / 카카오 엔터프라이즈 (골드) / 스캐터랩, 셀렉트스타 (실버) / 뤼이드, 딥네추럴, KAIST (브론즈) 등 11개 기관으로부터 후원을 받았고, 라이센스 문제를 해결한 뉴스 기사를 한국경제신문과 아크로팬을 통해 제공받아 진행됐다. 또한 NYU, KAIST, 서울대, 연세대, 경희대, 서강대, 한밭대 등의 학계와 업스테이지, 네이버 클로바, 카카오 엔터프라이즈, 스캐터랩, 뤼이드 등의 공동연구기관 및 개인 연구자 자격으로 참여한 31명의 자연어 처리 전문가들이 약 7개월에 걸쳐 긴밀하게 협업하며 구축했다.

 
네이버 AI Lab 하정우 소장은 “공동 1저자 및 교신저자 참여 그리고 대량의 클라우드 GPU 인프라 제공 등을 통해 KLUE 프로젝트에 기여함으로써 한국어 AI 연구에 있어 문제점이었던 양질의 벤치마크 데이터 부족 문제를 해결 할 수 있어 매우 기쁘게 생각한다.” 고 전했다.

업스테이지 김성훈 대표는 “KLUE는 업스테이지의 비전인 ‘Making AI Beneficial(AI 기술로 세상을 이롭게 한다)’에 따라 한국어 AI 경쟁력을 높이고 생태계를 활성화하고자 시작한 첫번째 기술 기여 프로젝트”라면서 “뜻을 함께한 회사들의 적극적인 협조와 연구자들의 뛰어난 실력 덕분에 수준 높은 결과물을 공개할 수 있게 되었다. 앞으로도 CV(컴퓨터비전), NLP(자연어처리), RecSys(추천시스템) 등 에 대한 연구 결과물을 지속적으로 공개해 국내 AI 기술 고도화에 기여할 것”이라고 밝혔다.

아크로팬 류재용 대표는 “AI 기술의 공공선 및 공익적 가치를 제시하는 업스테이지와 KLUE의 비전에 공감하며, 프로젝트에 기사 데이터를 제공하게 되어 영광이다. 금번 기여를 통해, AI를 위한 요소들을 알고 아크로팬 플랫폼 레벨에서 수용할 수 있게 되었다”며, “아크로팬의 기자들은 주요 언어들과의 인공지능 연구 격차를 좁혀가는 첨병으로서 자신이 집필한 기사들이 종사했다는 점을 명심하고, 앞으로 독자는 물론 AI 산업 차원에서도 신뢰 받을 수 있는 콘텐츠를 공개하는데 성심성의를 다하겠다”고 말했다.

완성된 데이터셋과 논문 및 자세한 내용은 KLUE 홈페이지에서 확인 가능하고, 공식 리더보드에 모델을 제출할 수 있는 기능은 오는 24일 이후 적용할 예정이다.

[업스테이지 소개]

2020년 10월 설립한 업스테이지는 기업의 문제들 중 AI 기술을 통해 혁신이 가능한 부분을 파악하고 이에 필요한 기본 AI 모델 및 시스템 구축을 포함한 컨설팅을 제공한다. 또한 고객 기업의 내부의 AI 인재 양성을 지원하여 자체적인 AI 경쟁력 향상을 통한 기업의 성공적인 AI 트랜스포메이션을 돕는다. 더 나아가 AI 비즈니스 경험을 녹여낸 실습 위주의 교육과 탄탄한 AI 기초 교육을 통해 AI 비즈니스에 즉각 투입될 수 있는 차별화된 전문 인재를 육성해 기업의 AI 팀 설립도 적극적으로 나설 예정이다. 김성훈 대표는 홍콩과기대 교수로 재직하면서 소프트웨어공학과 머신러닝을 융합한 버그의 예측, 소스코드 자동생성 등의 연구로 최고의 논문상인 ACM Sigsoft Distinguished paper 논문상을 4번 수상하고, International Conference on SOFTWARE MAINTENANCE 에서 10년 동안 가장 영향력 있는 논문상을 수상하는 등 세계적인 소프트웨어 공학과 AI 석학이다. 또한 총 700만뷰 이상을 기록한 모두를 위한 딥러닝 강사로도 널리 알려져 있다. 업스테이지의 공동창업자로는 네이버 Visual AI / OCR 을 리드하며 세계적인 성과를 냈던 이활석 CTO 와 세계 최고의 번역기 파파고의 모델팀을 리드했던 박은정 CSO 가 참여하고 있다.