전공&대외활동 이야기
-
[Boosting] AdaBoost, AdaCost, AUC-Based Boosting전공&대외활동 이야기 2025. 3. 16. 19:32
Boosting Boosting알고리즘은 Classification에서 널리 쓰이던 방법이나 다른 예측 모형에도 사용 가능하다. Boosting은 "weak classifer"의 결과를 결합시켜 하나의 powerful commitee를 만드는 방법이다. 순차적 알고리즘이라고 생각하면 된다. Adaptive Boosting(AdaBoost) 위의 그림 예시처럼 Adaboost는 기존의 weak learner가 잘 구분하지 못했던 부분을 하나씩 매꾸면서 더 잘 구분해가는 모습을 볼 수 있다. Pseudo Code를 보면서 더 알아보자. 우선 첫줄에서 볼 수 있듯이 각 데이터 샘플에 동일한 가중치를 부여한다. 이후 t=1 부터 T까지 가중치 분포를 고려하여 weak classifer를 학습시킨다. 이때, 해..
-
[TIL][Imbalanced Data] Stratified Random Sampling, SMOTE전공&대외활동 이야기 2025. 3. 16. 12:54
불균형 데이터, Imbalanced Dataset에서는 다수의 클래스에 치우져서 모델이 학습할 가능성이 높고, 이에 따라 모델의 불안정한 성능이 유도될 수 있다. 위와 같은 문제를 해결하기 위해1. sampling에서 소수의 클래스의 숫자를 증가시키는 오버샘플링(Over Sampling)과 다수의 클래스 숫자를 줄이는 언더샘플링(Under Sampling)이 있다. 2. Cost-sensitive learning approaches (algorithm-level): 알고리즘 단에서 cost를 중요 데이터에 더 많이 할당 본 글에서는 우선 기본적으로 Stratified Random Sampling에 관해 보고, 대표적인 Over sampling 방법인 SMOTE에 관해 알아본다. Stratified ..
-
[Web] Chrome extension 개발전공&대외활동 이야기/프로메테우스5기_NLP+ 금융프로젝트 2025. 1. 24. 16:17
크롬 웹 extension으로 서비스를 개발하기 위해 해당 내용을 간략히 정리해보려고 한다. Chrome extensionChrome extension은 크롬 브라우저의 확장성을 제공해주는 소프트웨어 프로그램으로 웹과 동일하게 HTML, Javascript 및 CSS와 같은 웹 기술을 기반으로 제공한다. 아래의 링크를 통해 시작하기 튜토리얼을 확인하며 시작하면 좋을 것 같다. https://developer.chrome.com/docs/extensions/get-started?hl=ko 확장 프로그램 / 시작하기 | Get started | Chrome for DevelopersChrome 확장 프로그램을 시작하기 위한 모든 기본사항developer.chrome.com 구성 위와 같은 폴더구조를 ..
-
[NLP] 키워드 Extracion T전화는 어떤 알고리즘으로 이슈 뉴스를 추천하는 걸까?(키워드 추출 기술)전공&대외활동 이야기/프로메테우스5기_NLP+ 금융프로젝트 2025. 1. 3. 19:11
본 내용은 https://devocean.sk.com/blog/techBoardDetail.do?ID=164033 의 내용을 중심으로 작성하였습니다. 모든 자료 및 사진은 해당 SKT 기술블로그에서 따왔습니다. https://blog.naver.com/nuguai/222785545779 실제 프레임워크를 보기 위해 SKT의 NUGU에서 어떤식으로 작업이 이루어지는지 정리해보았다. T전화 × NUGU 투데이 탭 하단에서는 지금 사람들에게 인기 있는 뉴스를 골라 제공하고 있는데 해당 기술의 프레임워크 구성을 중심으로 정리해보고, 현재 우리 프로젝트에 어떻게 적용가능할지 알아보려고 한다. 최근 기간 발행된 뉴스 중 가장 이슈가 되는 뉴스를 선별하여 재공하기 위해 해당 서비스는 매 0시와 6시, 이후 3시간 ..
-
[NLP] Keyword 추출 방법 정리 & 개념 정리전공&대외활동 이야기/프로메테우스5기_NLP+ 금융프로젝트 2025. 1. 3. 17:49
Problem Case현재 프로젝트를 위해 리뷰 데이터에서 키워드를 뽑아 정리해야하는 Summarization Task를 실행해야하는 상황이다.단, 아래의 점들을 고려하자. 1. 한국어 리뷰 데이터가 중점이라고 가정하자(대다수의 영어 케이스는 잘 풀리는 경우가 많음)2. 빠른 서비스 타임을 위해 속도가 중요하다. Keyword Extraction이란키워드란 어떤 문서의 내용을 대표하는 단어의 집합으로 일반적으로는 하나의 단어 또는 구를 의미한다. 아래의 이미지는 SKT의 키워드추출기의 프로세스 그림이다. SKT의 방법론에 관해서는 다음 글에서 다시 정리해볼 예정이다. Summarization & Keword Extraction ApprochNLP Task의 한 종류로 문서 집합에서 핵심되는 문장을 추..
-
[자연어처리론] Word vectors & Word2Vec전공&대외활동 이야기/자연어처리론(Stanford CS224N&HYU class)) 2024. 10. 30. 13:11
Word Vectors앞장에서 얘기한 것과 같이 text를 vector로 변환해야한다. 이를 Word Vectors라고 한다. 정의는 다음과 같다. A term used for the representation of words, typically in the form of a real-valued vectorthat encodes the meaning of the word such that the words that are closer in the vector space are expected to be similar in meaning. 즉, 비슷한 의미를 가진 단어들은 vector space상에 더 가깝게 아닌 것은 더 멀리 위치시시키는 것을 목적으로 한다. Representing Words as ..
-
[자연어처리론] 자연어처리 개요전공&대외활동 이야기/자연어처리론(Stanford CS224N&HYU class)) 2024. 10. 30. 10:37
본 자료는 한양대학교 자연어처리론 김태욱 교수님의 자료 및 Standofrd NLP CS224N과 추가적인 자료들을 바탕으로 작성하였습니다What is NLP?Natural Language Processing (NLP) is a field of artificial intelligence that focuses on the interaction between computers and humans through natural language. The ultimate goal of NLP is to enable computers to understand, interpret, and generate human language in a way that is both meaningful and useful. 즉, ..
-
[TAF] 시계열 Air Passenger Forcasting Project전공&대외활동 이야기/전공 프로젝트 모음 2024. 7. 1. 16:34
과제uploaded dataset(AirPassengers.csv) provides number of monthly passengers of airlines over a period of 12 years (from 1949.01 to 1960.12). Please find the best ARMA model by satisfying the conditions in below.Use the first 10 years for estimation and rest of 2 years for one-step ahead forecasting.Please check the stationarity. If needed, you may need to use a d-th difference of yt or ARIMA(p, ..