자연어처리 태스크에 활용되는 주요 벤치마크 데이터셋을 소개합니다.
여러 언어권에서 데이터가 구축되고 있는데, 그 중에서도 영어와 한국어를 대상으로 알아봅니다.
##참고
아래는 구문분석 프레임워크인 UD인데, 여러 언어권에서 데이터셋을 구축하고 있습니다. 그만큼 NLP에 대한 중요도가 높아지는 것을 볼 수 있습니다. Cross-Linguistic, 기계번역에 대한 관심이 있으신 분은 여러 언어 데이터셋에 관심을 가져봐도 좋을 것 같습니다:)
여기서 알아야할 키워드는 벤치마크입니다.
벤치마크는 여러 실험 또는 모델의 성능을 비교할 수 있는 표준을 말합니다.
즉, 벤치마크 데이터셋으로 여러 연구자들에게 사용되려면, 데이터의 질과 신뢰성이 바탕이 되어야 한다는 것입니다.
데이터의 질과 신뢰성을 보장받기 위해서는 데이터 소스, 전처리, 구축 파이프라인, 전문가 기여도 등이 공개되어야 합니다.
그만큼 아래에 소개되는 데이터들은 대규모 자원과 비용이 들었고 학계, 산업계에서 인정받은 데이터들입니다.
GLUE Benchmark
의의
The General Language Understanding Evaluation(GLUE)는 NLU의 대표적인 벤치마크입니다. 현재 자연어처리의 대부분의 연구가 사용한다고 할 정도로 유명한 벤치마크입니다.
GLUE에는 여러 NLU 태스크에 활용될 수 있는 학습셋과 테스트셋이 있습니다. 학습셋에는 보편적인 언어 지식들이 담겨 있고 테스트셋은 장르가 한정적이나 공정하게 사용될 수 있습니다.
언어 데이터는 모집단인 자연어의 표본이기에 절대적으로 자연어에 대한 대표성을 가질 수 없습니다. 하지만, 정교하게 이러한 표본을 만들어내느냐에 따라 모집단인 언어를 대표할 수 있을지도 모릅니다.
즉, 공인된 벤치마크는 자연어를 최대한 반영해야 하고 모델은 벤치마크로 성능을 평가 받아 자연어 이해 능력을 신뢰받을 수 있습니다.
데이터를 사용하기 전에, 데이터의 출처와 주석 형태를 확인해야 한다.
각 데이터는 register(사용역)에 따라 언어 형태와 쓰이는 어휘가 다르기 때문이다.
예를 들어, dialouge system에 뉴스 기사를 사용한다면 문어의 한계로 구어가 반영되지 않는다.
주석 형태는 레이블셋과 가이드라인을 파악함으로써 자신이 만들 모델의 방향성을 잡을 수 있을 것이다.
1.Single-sentence task
: 한 문장 단위의 분류 태스크
-CoLA(The Corpus of Linguistic Acceptability)
원시데이터 출처: 책, 기사
annotation: 영어 문장의 문법이 적절한지 주석 (-1, 1, 0)
-SST-2(The Stanford Sentiment Treebank)
원시데이터 출처: 영화 리뷰
annotation: 사람의 감성 주석 (긍정/ 부정)
2. Simialrity and Paraphrase Task
: 문서쌍 단위의 유사도, 환언 태스크
-MRPC(The Microsoft Resarch Paraphrase Corpus)
원시데이터 출처: 온라인 뉴스
annotation: 문서쌍이 의미적으로 유사한지 주석
-QQP(The Quora Question Pairs)
원시데이터 출처: Quora 질의 응답 웹사이트 커뮤니티
annotatiobn: 질문 쌍이 의미적으로 동일한지 주석
-STS-B The Sematic Texxtual Similarity -Benchmark
원시데이터 출처: 뉴스 헤드라인, 비디오와 이미지 캡션, NLI 데이터
annotatiobn: 유사도 1-5스코어 주석
3. Inference Task
: 문장의 내포한 의미를 추론하는 태스크
-MNLI(The Multi-Genre Natural Language Inference Corpus)
원시데이터 출처: 10가지 (예시, 연설 스크립트, 소설, 기관 보고서 등)
annotation: 전제 문장과 가설 문장 쌍
전제 문장를 기준으로 가설 문장이 entailment, conrtradiction, neutral에 해당하는지 주석
-QNLI(Question-answering NLI)
원시데이터: SQAD(The Stanford Question Ansering Dataset) 위키피디아 질문-문단 쌍
annotation: 질문의 정답이 포함되는 문장을 하나의 쌍으로 분류
-RTE(The Recognizing Textual Entailment)
원시데이터:뉴스, 위키피디아
annotation: entailment, not entailment(neutral, contradiction 포함)
-WNLI(Winograd NLI)
원시데이터: 소설
annotation: 상호참조(대명사의 선행어 연결)
KLUE Benchmark
홈페이지
github
github.com/KLUE-benchmark/KLUE
그럼 한국어 K데이터는...?
한국어 버전의 GLUE! KLUE가 드디어 5월 17일 공개되었습니다.
Upstage AI 회사의 주도하에 국내 여러 연구자들이 힘을 합쳐 구축했습니다.
네이버, 구글, 카카오엔터프라이즈, 셀렉스타, 스캐터랩, 딥네츄럴, 카이스트 등의 후원을 받아 진행됐다고 합니다.
한국어 벤치마크로 큰 역할을 할 것으로 기대됩니다.
구체적으로 아래 9가지 태스크 데이터로 구성되어 있습니다.
- Named Entity Recognition (NER)
- (Part-Of-Speech) + Dependency Parsing (DP)
- Topic Classification (TC)
- Relation Extraction (RE)
- Natural Language Inference (NLI)
- Sentence Textual Similarity (STS)
- Machine Reading Comprehension (MRC)
- Task-Oriented Dialogue understanding (TOD)
앞으로 baseline 스코어가 공개되고 리더보드도 활성화될 것으로 예상됩니다.
페이퍼가 공개되면 세부적으로 다뤄보겠습니다.
지금까지 영어, 한국어 데이터에 대해 간략하게 알아봤습니다.
자신의 연구 방향을 결정하고 실험하기 전에 연구에 맞는 데이터를 고르는 것 또한 중요한 부분이라고 생각합니다.
데이터의 소스와 구성을 참고하여 연구에 도움이 되시길 바랍니다!
'자연어처리' 카테고리의 다른 글
Transformer - 당신이 필요로 할 장독대 (0) | 2021.06.10 |
---|---|
MRC - 언어능력평가 (0) | 2021.06.09 |
Seq2Seq - 입력과 출력 (0) | 2021.05.22 |
RNN & LSTM - 시퀀셜 데이터 학습 (1) | 2021.05.22 |
Word2Vec - 단어를 숫자로 (0) | 2021.05.19 |