전체 글
-
[Boosting] AdaBoost, AdaCost, AUC-Based Boosting전공&대외활동 이야기 2025. 3. 16. 19:32
Boosting Boosting알고리즘은 Classification에서 널리 쓰이던 방법이나 다른 예측 모형에도 사용 가능하다. Boosting은 "weak classifer"의 결과를 결합시켜 하나의 powerful commitee를 만드는 방법이다. 순차적 알고리즘이라고 생각하면 된다. Adaptive Boosting(AdaBoost) 위의 그림 예시처럼 Adaboost는 기존의 weak learner가 잘 구분하지 못했던 부분을 하나씩 매꾸면서 더 잘 구분해가는 모습을 볼 수 있다. Pseudo Code를 보면서 더 알아보자. 우선 첫줄에서 볼 수 있듯이 각 데이터 샘플에 동일한 가중치를 부여한다. 이후 t=1 부터 T까지 가중치 분포를 고려하여 weak classifer를 학습시킨다. 이때, 해..
-
[TIL][Imbalanced Data] Stratified Random Sampling, SMOTE전공&대외활동 이야기 2025. 3. 16. 12:54
불균형 데이터, Imbalanced Dataset에서는 다수의 클래스에 치우져서 모델이 학습할 가능성이 높고, 이에 따라 모델의 불안정한 성능이 유도될 수 있다. 위와 같은 문제를 해결하기 위해1. sampling에서 소수의 클래스의 숫자를 증가시키는 오버샘플링(Over Sampling)과 다수의 클래스 숫자를 줄이는 언더샘플링(Under Sampling)이 있다. 2. Cost-sensitive learning approaches (algorithm-level): 알고리즘 단에서 cost를 중요 데이터에 더 많이 할당 본 글에서는 우선 기본적으로 Stratified Random Sampling에 관해 보고, 대표적인 Over sampling 방법인 SMOTE에 관해 알아본다. Stratified ..
-
[TIL] Confustion Matrix, ROC, AUCPaper Review(논문이야기)/관련 개념 정리 2025. 3. 15. 20:28
Confusion Matrix란 claassfication 문제에 있어서 여러 지표를 알려주는 가장 근간이 되는 지표이다. 본 글에서는 binary classiifiication에 집중하여 내용을 작성한다. 본 자료는 KAIST 이종석 교수님의 제조인공지능 강의노트를 기반으로 작성되었고, 이미지 및 자료의 출처는 이를 따릅니다. 우선 다음을 가정하자. 우리는 기본적으로 postve class, 양성 샘플에 더 집중할 것이다. 이는 다음과 같다. – Minority class (or positive(+) class): with fewer instances– Majority class (or negative(−) class): with more instances 예를 들면 베터리 제조 공정에서 불량품을 ..
-
[Kernel][미완] Reproducing Kernel Hilbert Space (RKHS)Paper Review(논문이야기)/관련 개념 정리 2025. 3. 14. 15:40
[아직 미완... 한번 더 내용을 정리해서 올릴 예정임] Kernel에 관하여 우선 간단히 정리하고 이후에 RKHS 커널에 관해서 자세히 알아보자. 커널은 우선 SVM과 같은 알고리즘에서 중요한 역할을 하는 함수로, 데이터를 고차원 Feature map으로 맵핑시켜서 선형분할 가능하게 만들어준다.추가 참고자료: http://www.gatsby.ucl.ac.uk/~gretton/coursefiles/lecture4_introToRKHS.pdf대부분의 Lemma의 참고자료 Kernel저차원 입력 데이터를 고차원 특징 공간으로 매핑하여, 저차원에서는 보지 못했던, 학습하지 못했던 패턴을 파악하도록하는 함수이다. 다시 말해 비선형 데이터를 고차원에 맵핑시켜 선형적으로도 학습 가능하게 한 것이다. 이는 Co..
-
[Stat][검정] 순열 검정(Permutation test)Paper Review(논문이야기)/관련 개념 정리 2025. 3. 13. 20:12
비모수 검정 관련 방법들을 보다가 Below Permutation null ~, 이라는 말이 너무 많이 나와서 한번 정리해본다. 본 내용은 https://angeloyeo.github.io/2021/10/28/permutation_test.html 공돌이의 수학노트의 내용을 기반으로 작성되었습니다. 대부분의 그림자료 또한 해당 블로그의 자료임을 밝힙니다. 우선 Permutation test에 관해 알아보자. Permutaion test순열검정법(permuation test)은 두 개 이상의 표본을 함께 결합하여 관측값들을 무작위로 재표본으로 추출하고 이를 이용하여 가설 검정을 진행하는 방법을 말한다. 이때 재표본 추출(resampling)은 비복원 방식으로 진행한다....? 조금 더 알아보자. 두 ..
-
[Two sample test][Graph] Collaborative non-parametric two-sample testing(by Alejandro de la Concha, Nicolas Vayatis, Argyris Kalogeratos)Paper Review(논문이야기) 2025. 3. 10. 15:54
https://arxiv.org/abs/2402.05715 Collaborative non-parametric two-sample testingThis paper addresses the multiple two-sample test problem in a graph-structured setting, which is a common scenario in fields such as Spatial Statistics and Neuroscience. Each node v in fixed graph deals with a two-sample testing problem between two nodearxiv.orgAbstract Graph 구조에서의 multiple two sample test에 관해서 다룬..
-
[CPD][AUC] Model-free Change-point Detection Using ModernClassifiers(by Rohit Kanrar, Feiyu Jiang, and Zhanrui Cai)Paper Review(논문이야기) 2025. 3. 7. 18:07
https://arxiv.org/abs/2404.06995 Model-free Change-point Detection Using Modern ClassifiersIn contemporary data analysis, it is increasingly common to work with non-stationary complex datasets. These datasets typically extend beyond the classical low-dimensional Euclidean space, making it challenging to detect shifts in their distribution withouarxiv.orgKeypointAUC(Area Under the Curve) 를 변화점 탐지..
-
[Out of Distribution Detection(CPD)][Parameter] Neural Mean Discrepancy for Efficient Out-of-Distribution Detection (CVPR 2022)Paper Review(논문이야기) 2025. 3. 6. 13:14
https://arxiv.org/abs/2104.11408 Neural Mean Discrepancy for Efficient Out-of-Distribution DetectionVarious approaches have been proposed for out-of-distribution (OOD) detection by augmenting models, input examples, training sets, and optimization objectives. Deviating from existing work, we have a simple hypothesis that standard off-the-shelf models mayarxiv.orgKeypointNMD가 Integral probability..