MRC(Machine Reading Comprehension) - 기계독해
컴퓨터가 질의 응답(Question Answering) 태스크를 위해 질문을 이해하고 텍스트 지문을 독해를 해야 합니다.
마치 사람처럼 말하기, 듣기, 읽기, 쓰기가 포함된 언어능력평가인 것입니다.
한국어에는 대표적으로 한국어능력시험, 수능의 언어 영역으로 볼 수 있는 것입니다.
이러한 기계독해 모델링 학습을 위한 데이터셋들이 있습니다.
영어권과 한국어의 기계독해 데이터셋을 소개합니다.
1. English 기계독해 데이터셋
대부분의 MRC 데이터셋의 구성은 [질문(question)-텍스트(passage)-답변(answer)]로 구성되어 있습니다.
passage는 보통 한 단락으로 구성되어 있습니다.
1)CNN/Daily Mail Dataset
텍스트 passage는 CNN과 Daily Mail의 뉴스 기사입니다.
유명한 데이터셋으로 기계독해 이외에도 요약(summarization) 태스크(추출요약, 추상요약)에도 많이 사용됩니다.
https://paperswithcode.com/dataset/cnn-daily-mail-1
CNN 데이터셋은 90k 문서와 380k 질문들로 구성되어 있습니다.
Daily mail 데이터셋은 197k 문서와 879k 질문으로 구성되어 잇습니다.
데이터셋은 Hermann et al(2015)에서 공개되어 벤치마크가 되는 데이터셋입니다.
오리지널 버전과 엔티티를 익명 처리한 버전이 있습니다.
anonymised version은 실제 지식이나 상호 참조 등이 기계독해를 어렵기 하기 때문에 이를 학습하기 위해 일부러 처리했습니다.
아래에서 데이터셋을 다운로드할 수 있습니다.
https://github.com/JafferWilson/Process-Data-of-CNN-DailyMail
2) SQuAD(Stanford Question Answering Dataset)
스탠포드에서 공개한 데이터셋으로 대료적인 기계독해, QA 벤치마크로 유명한 데이터 셋입니다.
밑에서 설명하겠지만, 한국어 QA데이터셋 KorQuAD는 SQuAD를 벤치마킹한 데이터셋입니다.
1.0에서 현재는 2.0 버전이 최신 공개된 버전입니다.
passage 출처는 위키피디아고 질문들은 크라우드소싱으로 모은 것입니다.
답변은 위키피디이아 텍스트 내에서 span으로 결정됩니다.
규모는 100k 질문과 답변 쌍으로 이루어져있습니다.
질문과 답변의 관련 문서는 536개입니다.
데이터셋이 실제 어떤 언어 현상을 담았는지 랜덤샘플로 분석해보니,
변이형(동의어, 지식), 문장 구조 변이형, 다중 문장 이해, 중의성을 담고 있음을 위의 통계로 보여줬습니다.
이처럼 자신들의 데이터의 다양한 언어현상이 담겨져있기 때문에 신뢰를 가진다는 증명이 됩니다.
관련 페이퍼
SQuAD: 100,000+ Questions for Machine Comprehension of Text
데이터는 아래에서 다운받을 수 있습니다.
https://rajpurkar.github.io/SQuAD-explorer/
2. 한국어 기계독해 데이터셋
지난 포스팅에서 영어 GLUE 벤치마크를 한국어로 공개한 KLUE를 소개해드렸습니다.
비슷하게 영어 기계독해 데이터셋을 한국어 구축한 데이터셋을 소개해드리겠습니다.
1) KorQuAD
KorQuAD는 LG CNS에서 공개한 데이터로 최초 공개된 1.0 버전을 거쳐서 현재는 2.0 버전이 공개되었습니다.
질의 응답 구성된 100,000+쌍으로 구성된 기계 독해 셋입니다.
1.0과 다른 점은 규모가 추가되기도 햇지만, 답변을 지문의 1~2문단이 아니라 전체 문서에서 찾아야 한다는 점에서 챌린지를 가집니다.
2018년 데이터셋 1.0이 처음 공개되었을때 치열하게 모델들이 업데이트가 되었고 human performance를 넘어 센세이션으로 기사가 나왔었습니다.
현재는 2.0을 공개되고 리더보드의 경쟁은 소강상태로 보입니다.
2) ETRI 엑소브레인 데이터셋
2016년 장학퀴즈에서 실제 학생들과 대결에서 이긴 ETRI(한국전자통신연구원)의 AI 엑소브레인입니다.
엑소브레인에 활용한 데이터셋을 공개하였는데, 이중에서 MRC와 SQuAD 데이터 셋이 있습니다.
10,000개 질의 응답 데이터셋으로 구성되어 있습니다.
아래에서 다운 받을 수 있습니다.
기계독해 데이터셋 이외에도 BERT, 언어분석 각 태스크별 데이터셋 등이 있어 신청하여 다운받을 수 있습니다.
ETRI는 이러한 데이터셋의 표준화를 위해 가이드라인과 데이터셋을 공개했고 현재 중요시 여기는 데이터 생태계를 만들기 위해 이끌었다고 볼 수 있습니다.
https://aiopen.etri.re.kr/service_dataset.php
정리
얼마 전, 앤드류 응의 데이터 관련한 발표가 있었습니다.
데이터의 퀄리티 확보가 모델의 성능을 높인다는 내용입니다.
보통 데이터에 대한 끈기있는 분석을 하기 어렵습니다.
샘플링 분석을 하지만 표본집단이 모집단을 대표하지 않기 때문에 데이터에 대한 꾸준한 분석이 필요합니다.
데이터에 대한 딥다이브가 제대로 이루어진다면 인사이트를 발견해 모델 아키텍쳐와 개선에 도움될 것입니다.
References
Hermann et al.2015, Teaching Machines to Read and Comprehend
Rajpurkar et al.2016, SQuAD: 100,000+ Questions for Machine Comprehension of Text
'자연어처리' 카테고리의 다른 글
Pre-trained Language model - 만능 양념장 (0) | 2021.06.11 |
---|---|
Transformer - 당신이 필요로 할 장독대 (0) | 2021.06.10 |
Seq2Seq - 입력과 출력 (0) | 2021.05.22 |
RNN & LSTM - 시퀀셜 데이터 학습 (1) | 2021.05.22 |
Word2Vec - 단어를 숫자로 (0) | 2021.05.19 |