본문 바로가기

자연어처리

(7)
Pre-trained Language model - 만능 양념장 Pre-trained Language Model 백종원 만능 양념장이 어떤 요리에도 잘 어울리고 맛을 내는 것처럼, 만능 양념장처럼 사전학습 언어모델이 자연어처리의 모든 태스크에 뛰어난 성능을 보여주고 있습니다. 이전 포스팅에 소개한 트랜스포머라는 항아리에 담근 만능 양념장은 모든 기록을 갈아치웁니다. 트랜스포머 아키텍처는 인코더 6개, 디코더 6개로 이루어졌는데 이를 활용한 트랜스포머 기반 GPT를 알아보겠습니다. 다음으로 현재 공개된 한국어 특화 GPT와 BERT 현황을 알아보겠습니다. GPT(Geneartive Pre-trained Transformer) Open AI에서 발표한 GPT는 GPT-1부터 Few-shot Learning의 GPT-3까지 공개했습니다. 전반적인 디코더 방식의 학습 구조는..
Transformer - 당신이 필요로 할 장독대 Transformer 자연어처리에서 트랜스포머가 Vaswani et al.2017, 'Attention is all you need' 페이퍼로 발표되고 이후 영향력이 상당합니다. pretrained-language model이 트랜스포머를 사용하기 때문입니다. 그래서 트랜스포머를 장인이 만든 장독대라고 비유하고 사전학습 언어 모델을 양념장으로 비유해보고 싶습니다. 그동안의 주요 모델의 역사가 RNN-> RNN+LSTM->LSTM+Attention -> Transformer으로 흘렀고 여러 연구진들의 경험을 거쳐 나타난 모델이이기 때문입니다. Transfomer의 아키텍쳐는 attetnion만 이용해서 인코딩과 디코딩을 구성한다는 것이 특징입니다. 이전 seq2seq 포스팅에 이어서 Attention을 먼..
MRC - 언어능력평가 MRC(Machine Reading Comprehension) - 기계독해 컴퓨터가 질의 응답(Question Answering) 태스크를 위해 질문을 이해하고 텍스트 지문을 독해를 해야 합니다. 마치 사람처럼 말하기, 듣기, 읽기, 쓰기가 포함된 언어능력평가인 것입니다. 한국어에는 대표적으로 한국어능력시험, 수능의 언어 영역으로 볼 수 있는 것입니다. 이러한 기계독해 모델링 학습을 위한 데이터셋들이 있습니다. 영어권과 한국어의 기계독해 데이터셋을 소개합니다. 1. English 기계독해 데이터셋 대부분의 MRC 데이터셋의 구성은 [질문(question)-텍스트(passage)-답변(answer)]로 구성되어 있습니다. passage는 보통 한 단락으로 구성되어 있습니다. 1)CNN/Daily Mail ..
Seq2Seq - 입력과 출력 Seq2Seq(Sequence to Sequence) seq2seq 모델은 입력으로 받은 시퀀스를 출력으로 다른 시퀀스를 보여줍니다. 특히, 입력 시퀀스와 출력 시퀀스가 1:1이 아니더라도 가능합니다. RNN 계열을 활용하여 설계된 아키텍처입니다. 그래서 아래 기계번역 예시처럼 불어 3어절이 영어 4어절로 번역되는 것을 볼 수 있습니다. 기계번역 태스크 뿐만 아니라 챗봇, 요약, 음성인식 등 여러 자연어 처리 태스크에서 좋은 성능을 보여줬습니다. jalammar_blog 인코더와 디코더 seq2seq는 크게 인코더와 디코더로 구성됩니다. 아래 예시에서 인코더는 영어 문장의 표상을 불어 문장의 디코더로 나타나는 것을 볼 수 있습니다. 인코더는 문장의 각 토큰들을 순서대로 입력으로 받고 이를 총 합쳐서 co..
RNN & LSTM - 시퀀셜 데이터 학습 RNN(Recurrent Neural Net) 순환 신경망 1. 시퀀셜 데이터란? 영화에서 시퀀스, 자동차의 시퀀셜 라이트 모두 순차적으로 진행됩니다. 순차적으로 진행된다는 것은 결국 시간을 가지고 이는 순서 정보를 가집니다. 영화 장면과 라이트는 동적인 순서 정보가 있는데 텍스트는 정적으로 있어 순서 정보가 있다고 하면 의아할 수 있습니다. 하지만, 텍스트의 어휘, 문장을 순차적으로 읽는다면 이또한 순서 정보가 될 수 있습니다. 이러한 순서 정보를 초점화하여 input을 학습하는 것을 sequential modeling이라고 합니다. 시퀀셜 모델링은 신경망 중에서도 순환 신경망(RNN)이 적합합니다. 2. 시퀀셜 태스크 그럼 시퀀셜 데이터를 어떻게 처리할 수 있고 그와 관련된 태스크들은 무엇이 있을까요..
Word2Vec - 단어를 숫자로 Word Embedding 방법론 중에 하나인 Word2Vec을 알아보겠습니다. 1.임베딩(Embedding)이란? 사람이 쓰는 자연어를 기계가 이해라 수 있는 숫자의 나열인 벡터(Vector)로 바꾼 결과 혹은 그 과정 전체를 의미합니다. 단어나 문장 각각을 벡터로 변환해 벡터 공간(Vector Space)로 '끼워 넣는다(embedded)'는 의미에서 임베딩이라는 이름을 붙였다고 합니다. 1) 임베딩 특징 (1) 단어/문장 간 관련도 계산 단어 벡터를 사이의 유사도를 계산 ex)코사인 유사도 (2) 의미/문법 정보 함축 단어 벡터 간 덧셈/뺄셈을 통해 단어 사이의 의미적, 문법적 관계 도출 (3) 전이 학습 임베딩을 다른 딥러닝 모델의 입력값으로 쓰는 기법 대규모 말뭉치를 활용해 임베딩을 미리 만들어..
NLP 벤치마크 데이터셋 - 영어와 한국어 자연어처리 태스크에 활용되는 주요 벤치마크 데이터셋을 소개합니다. 여러 언어권에서 데이터가 구축되고 있는데, 그 중에서도 영어와 한국어를 대상으로 알아봅니다. ##참고 아래는 구문분석 프레임워크인 UD인데, 여러 언어권에서 데이터셋을 구축하고 있습니다. 그만큼 NLP에 대한 중요도가 높아지는 것을 볼 수 있습니다. Cross-Linguistic, 기계번역에 대한 관심이 있으신 분은 여러 언어 데이터셋에 관심을 가져봐도 좋을 것 같습니다:) universaldependencies.org/ Universal Dependencies It appears that you have Javascript disabled. Please consider enabling Javascript for this page to s..