분류 전체보기
-
[Python] Overflow와 type casting개발 이야기/TIL 2025. 5. 1. 13:01
term1 = t*(t-1)*(n-t)*(n-t-1) / (n*(n-1)*(n-2)*(n-3)) ~~~~~~~~~~~~~^^~~~~FloatingPointError: overflow encountered in scalar multipl Python으로 수식 계산 중 다음 부분에서 FlaotingPointError와 다른 항들에서도 Overflow발생. 원인: typet랑 n은 정수형이었음. 즉 다음 수식 계산시 곱셈부분의 범위가 커졌고(n=1000 t도 1000정도 되는 상황)따라서 연산에서 wrap-aorund가 발생한것 같음. 따라서 계산량이 많을 때 + 위 상황은 float 결과를 반환하는 상황임으로 Float으로 type casti..
-
[R][Tutorial] 데이터프레임 추가정리개발 이야기/R 2025. 4. 24. 12:58
데이터프레임에 관해 다루는 경우가 많아서 추가적으로 정리한다. Dataframe 데이터프레임은 matrix와 달리 여러 자료형을 담을수 있는 데이터 구조이다. 생성은 다음과 같다. data.frame(df, stringsAsFactors = TRUE)이때 stringAsFactors는 문자열을 factor로 자동으로 변환하는것을 의미한다. factor는 앞서 살핀것처럼 범주형을 처리하기 위한 변수이다. # Create a, b, c, d variablesa 위와 같이 데이터프레임을 생성한다면(벡터를 합하면), 각 벡터들은 열벡터로 행렬에서 구성된다. 즉 ## a b c d## 1 1 book TRUE 2.5## 2 2 pen TRUE 8.0##..
-
[R][Tutorial] R 초보자를 위한 튜토리얼 데이터 타입 및 구조개발 이야기/R 2025. 4. 18. 16:34
R을 너무 오랜만에 쓰는 관계로 간단하게 아래의 튜토리얼을 따라해보려고한다. https://misdb.github.io/R/R-Tutorial/ index초보자를 위한 R 튜토리얼 요약 R은 데이터 과학자나 구글, 에어비엔비, 페이스북 등과 같은 주요 기업들이 데이터 분석을 위해 널리 이용하고 있는 프로그램 언어이다. 이 사이트는 초보자를 위misdb.github.io R 프로그램R은 통계계열에서 많이 사용하는 언어로 1993년에 Ross Ihaka와 Robert Gentleman이 개발하였다. R은 광범위한 통계와 그래픽 메소드(method)를 보유하고 있다. 기계학습 알고리즘, 선형 회귀분석, 시계열 분석, 통계적 추론 등과 같은 몇 가지 예를 들 수 있다. R 데이터 타입데이터 타입은 복잡하게 생각..
-
[R] R 설치 및 VS코드에서 사용하는 법개발 이야기/R 2025. 4. 18. 15:15
https://code.visualstudio.com/docs/languages/r R in Visual Studio CodeLearn about working with the R programming language in Visual Studio Code.code.visualstudio.com R의 경우 대부분 Rstudio에서 사용하는 것을 기본으로 하지만, 최근에는 다양한 언어들을 사용하는 사람들이 늘고 VS코드에서 작업하는 것이 대부분 익숙한 시대이기에 VS코드에서 사용하기로 마음을 먹고 설치하였다. R install VScode라고 하면 위에 링크가 처음 뜨는데 해당 가이드라인을 참고하면된다. 우선 R을 설치하자. https://cloud.r-project.org/ The Comprehen..
-
[Boosting] AdaBoost, AdaCost, AUC-Based Boosting전공&대외활동 이야기 2025. 3. 16. 19:32
Boosting Boosting알고리즘은 Classification에서 널리 쓰이던 방법이나 다른 예측 모형에도 사용 가능하다. Boosting은 "weak classifer"의 결과를 결합시켜 하나의 powerful commitee를 만드는 방법이다. 순차적 알고리즘이라고 생각하면 된다. Adaptive Boosting(AdaBoost) 위의 그림 예시처럼 Adaboost는 기존의 weak learner가 잘 구분하지 못했던 부분을 하나씩 매꾸면서 더 잘 구분해가는 모습을 볼 수 있다. Pseudo Code를 보면서 더 알아보자. 우선 첫줄에서 볼 수 있듯이 각 데이터 샘플에 동일한 가중치를 부여한다. 이후 t=1 부터 T까지 가중치 분포를 고려하여 weak classifer를 학습시킨다. 이때, 해..
-
[TIL][Imbalanced Data] Stratified Random Sampling, SMOTE전공&대외활동 이야기 2025. 3. 16. 12:54
불균형 데이터, Imbalanced Dataset에서는 다수의 클래스에 치우져서 모델이 학습할 가능성이 높고, 이에 따라 모델의 불안정한 성능이 유도될 수 있다. 위와 같은 문제를 해결하기 위해1. sampling에서 소수의 클래스의 숫자를 증가시키는 오버샘플링(Over Sampling)과 다수의 클래스 숫자를 줄이는 언더샘플링(Under Sampling)이 있다. 2. Cost-sensitive learning approaches (algorithm-level): 알고리즘 단에서 cost를 중요 데이터에 더 많이 할당 본 글에서는 우선 기본적으로 Stratified Random Sampling에 관해 보고, 대표적인 Over sampling 방법인 SMOTE에 관해 알아본다. Stratified ..
-
[TIL] Confustion Matrix, ROC, AUCPaper Review(논문이야기)/관련 개념 정리 2025. 3. 15. 20:28
Confusion Matrix란 claassfication 문제에 있어서 여러 지표를 알려주는 가장 근간이 되는 지표이다. 본 글에서는 binary classiifiication에 집중하여 내용을 작성한다. 본 자료는 KAIST 이종석 교수님의 제조인공지능 강의노트를 기반으로 작성되었고, 이미지 및 자료의 출처는 이를 따릅니다. 우선 다음을 가정하자. 우리는 기본적으로 postve class, 양성 샘플에 더 집중할 것이다. 이는 다음과 같다. – Minority class (or positive(+) class): with fewer instances– Majority class (or negative(−) class): with more instances 예를 들면 베터리 제조 공정에서 불량품을 ..
-
[Kernel][미완] Reproducing Kernel Hilbert Space (RKHS)Paper Review(논문이야기)/관련 개념 정리 2025. 3. 14. 15:40
[아직 미완... 한번 더 내용을 정리해서 올릴 예정임] Kernel에 관하여 우선 간단히 정리하고 이후에 RKHS 커널에 관해서 자세히 알아보자. 커널은 우선 SVM과 같은 알고리즘에서 중요한 역할을 하는 함수로, 데이터를 고차원 Feature map으로 맵핑시켜서 선형분할 가능하게 만들어준다.추가 참고자료: http://www.gatsby.ucl.ac.uk/~gretton/coursefiles/lecture4_introToRKHS.pdf대부분의 Lemma의 참고자료 Kernel저차원 입력 데이터를 고차원 특징 공간으로 매핑하여, 저차원에서는 보지 못했던, 학습하지 못했던 패턴을 파악하도록하는 함수이다. 다시 말해 비선형 데이터를 고차원에 맵핑시켜 선형적으로도 학습 가능하게 한 것이다. 이는 Co..