분류 전체보기
-
Beam Search in NLPML&DL 이야기/ML 2024. 2. 16. 16:46
Text 생성을 위한 Decoder에서 우리는 단어들을 연속적으로 생성하는 task를 수행해야한다(sequence data). 모델의 출력은 확률적으로 가장 가능성이 높은 확률을 띄는 조합의 단어 조합으로 결정된다. 즉, 언어 모델은 단어 시퀀스에 확률을 할당하는 모델이며, Decoder의 경우 다음에 나올 확률이 최대인 단어를 선택한다. 이를 수식으로 표현하면 아래와 같다. 무수히 많이 생성되는 후보들 중 어떤 sequence를 선택하라 지 정하는 방법 중 하나가 바로 Beam Search이다. Greedy Search(Decoding) Seq2Seq에서 가장 대표적으로 사용하는 방법으로, 해당 t시점에서 가장 확률이 높은, 가능성이 높은 단어를 고르는 방법이다. Complexity 관점이나 구현 관점..
-
[Attention] Neural Machine Translation by Jointly Learning to Align and Translate(ICLR 2015)Paper Review(논문이야기) 2024. 2. 16. 15:58
https://arxiv.org/abs/1409.0473 Neural Machine Translation by Jointly Learning to Align and Translate Neural machine translation is a recently proposed approach to machine translation. Unlike the traditional statistical machine translation, the neural machine translation aims at building a single neural network that can be jointly tuned to maximize the tra arxiv.org Attention이라는 개념이 처음 소개된 paper..
-
[Seq2Seq] Sequence to Sequence Learning with Neural Networks (NIPS 2014)Paper Review(논문이야기) 2024. 2. 15. 22:52
Seq2Seq 논문의 의미는 기존의 통계적 기계번역(SMT) 모델보다 딥러닝 기법의 기계번역 모델의 성능이 더 높게 나옴을 보여줌으로서, 그 흐름의 기점이 되었다는데에 중점을 두면 좋은 것 같다. https://arxiv.org/abs/1409.3215 Sequence to Sequence Learning with Neural Networks Deep Neural Networks (DNNs) are powerful models that have achieved excellent performance on difficult learning tasks. Although DNNs work well whenever large labeled training sets are available, they cannot..
-
[NLP] RNN, LSTM과 NLP 개론ML&DL 이야기/ML 2024. 2. 13. 20:46
허민석님의 자연어처리 유튜브 재생목록(https://youtu.be/meEchvkdB1U?si=KHEXvalYlF_RlkE9)과 LgAimers의 주재걸 교수님의 seq2seq with Attention 강의, 나동빈님의 seq2seq 영상을 바탕으로 작성하였습니다. Natural Lenguage = Sequence Data 우리는 자연어, 즉, 문장을 말할때, 문장은 단어의 연속된 집합으로 들어온다. 즉, 순차적인 단어의 구성이 바로 문장이다. 즉, 문장은 가장 최신의 과거 데이터(단어)를 바탕으로 업데이트 되는 시계열적인 특성을 지닌다. 이 점에서 sequence data라고 할 수 있을 것이다. 전통적인 NN의 경우 이러한 지속성을 지니는 데이터를 처리하기에 어려움이 있었는데, 이는 입력값들을 서로..
-
[LG AiMERS] Part 2-3 Principal Component Analysis(PCA)카테고리 없음 2024. 2. 13. 13:55
본 강의는 LgAimers 신진우 교수님의 강의 내용을 바탕으로 작성된 것임을 밝힙니다 Principle component analysis, 주성분 분석은 차원축소를 위한 방법 중 가장 널리 알려진 방법이다. 해당 방법에 관해 matrix decomposition과 eigien value, vector 등에 내용을 기반으로 알아보자. Problem: Curse of Dimension High dimensional data은 Curse of Dimension이라는 용어도 있듯이, Machine Learning모델이 잘 작동하지 않는 문제가 있기에 차원 축소에 관한 문제는 매우 주요한 문제 중 하나이다. 특히 여러 종류의 데이터와 feature를 이용할 수록 주요한 factor들을 뽑아 더 작은 차원에서 학..
-
[LG AiMERS] Part 2-2 Matrix Decomposition(SVD, Eigen Decompostion)전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 2. 12. 18:20
본 내용은 LG Aimers 강좌 중, KAIST 신진우 교수님의 강좌 내용을 바탕으로 작성되었습니다 선형대수 관련 내용들을 정리하려고 했었는데, 관련 내용들을 정리하기 전에 간략하게 훑어보는 느낌으로 정리해보려고 한다. 간략한 각 개념들의 정의와 그 흐름만 정리해보았다. 특히 행렬분해에 관련된 내용들을 위주로 작성하였다. 특히 Decomposition에 관해 알아보자. Decomposition, Factorization(분해) 분해는 하나의 행렬을 두개, 혹은 3개 이상의 행렬 곱으로 행렬을 표현한 것을 의미한다. A = BC 분해에 관해 알아야하는 이유는 무엇일까? 그 이유는 각 분해를 통해 행렬의 계산의 복잡성을 줄일 수 있기 때문이다. 예를 들어 LU분해의 경우, 일반적으로 L,U모두 가우스 소거..
-
[Word2Vec] Efficient Estimation of Word Representations in Vector Space(Mikolov, Skip-gram & CBOW) 2013Paper Review(논문이야기) 2024. 2. 2. 15:02
https://arxiv.org/abs/1301.3781 Efficient Estimation of Word Representations in Vector Space We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best per arxiv.org NLP 쪽 논문을 한번 큰 틀에서 리뷰해보려고 한다. RNN 계열 모..
-
[LgAimers] Casual Inference for Special Cases(다양한 경우에 대한 Causal Inference 적용방법)전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 1. 27. 18:29
지금가지 배운 인과추론에 관한 개념들, 특히 Do calculus와 베이지안 정리를 기본으로하여 아래의 다양한 상황에 대해서 예시들을 통해 대응해보자. Genralized Identifiability(여러 Case에서 do Calculus 적용) Example1: Cholestrol level & Heart Attack 위의 상황의 DAG가 주어져있다고 해보자. 우리가 궁금한 것은 Q, 즉, 콜레스트롤 level이 심장에 주는 영향을 확인해보려고 한다. What we want to Know: Q = P(y|do(x)) 하지만 기존 문제와 다르게 교란변수 Z(diet)와의 bi directed edge가 있어서 backdoor 방법을 사용할 없다. 하지만 우리는 Z, diet에 대한 실험으로 X,Y의 변화..