-
[자연어처리론] 자연어처리 개요전공&대외활동 이야기/자연어처리론(Stanford CS224N&HYU class)) 2024. 10. 30. 10:37
본 자료는 한양대학교 자연어처리론 김태욱 교수님의 자료 및 Standofrd NLP CS224N과 추가적인 자료들을 바탕으로 작성하였습니다
What is NLP?
Natural Language Processing (NLP) is a field of artificial intelligence that focuses on the interaction between computers and humans through natural language. The ultimate goal of NLP is to enable computers to understand, interpret, and generate human language in a way that is both meaningful and useful.
즉, 인간의 언어를 컴퓨터가 이해할 수 있게 하고 또 인간의 언어로 말을 할 수 있게(생성할 수 있게) 하는 것을 목적으로 한다.
이때 전자를 Natural Language Understanding (NLU)라고 하고, 후자를 Natural Language Generation (NLG)라고 한다.
The Four Eras in NLP
간단히 NLP의 변화를 크게 아래의 4 시대로 나눌 수 있다.
- The first era: 1950 – 1969
Machine translation을 기반으로 많은 연구가 이루어졌고, rule-based mechanisim 기반의 연구가 이루어졌다.
- The second era: 1970 – 1992
model과 human lanuguage에 관한 이해를 기반으로 학습이 이루어졌다. Linguistic과 knowldege-based artificial intelligene가 빠르게 발전했다.
- The third era: 1993 – 2012digital text의 증가로 많은 학습이 이루어졌고, 다양한 분야의 ML 모델과 함께 발전되었다.
- The fourth era: 2013 – PresentDeep larning과 ANN을 기반으로 연구가 이루어지고 있었고, 와중 2018년 Transfomer와 self supervised neural network learning으로 많은 혁신이 이루어졌다. 또한 대형모델을 기반으로 fine-guning과 prompting기반 연구들도 대량으로 이루어지고 있다.
Standard Pipeline of NLP
사람의 언어를 바로 기계가 학습할 수는 없다. 그렇기에 Text를 vector화시켜 모델이 알아들을 수 있는 숫자형태로 이를 변환해야한다.
이 과정이 흔히들어본 embedding과정이며 여기서 Word2vec 등이 사용된다.
이후 token화 된 vector를 가지고 Languae 모델을 학습시는 것이 일련의 과정이다.
우선 이 과정에 맞추어 다음 글에서는 어떻게 text를 벡터화시키는지부터 확인해보자.
'전공&대외활동 이야기 > 자연어처리론(Stanford CS224N&HYU class))' 카테고리의 다른 글
[자연어처리론] Word vectors & Word2Vec (3) 2024.10.30