ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [LG Aimers] 영업성공률 예측 모델 개발기 1(해커톤)
    전공&대외활동 이야기/2024 LG AIMERS 4기 활동 2024. 2. 21. 20:44
    LG Aimers는 phase1은 강의 phase2는 해커톤으로 이루어지는데, 이번 4기에서 저는 팀원 4명과 함께 해당 해커톤에 참석하였습니다. 그리고 해커톤을 진행하면서 일부 자료를 기록해보았습니다. 

    개요 및 목표

    이번 해커톤에서는 B2B 마케팅에서 전환율을 예측하여 마케팅 업무에 도움을 주기 위한 예측 모델을 개발하는 것이 목표로,  아마 영업 과정에서 전환 가능성이 높은 고객에게 영업 자원을 집중하기 위해 고객의 전환 여부를 예측하는 것이 목적으로 보인다. 

    이에  따라서 고객의 다양한 feature data를 기반으로 해당 고객이 전환고객일지 아닐지를 예측하는 모델을 개발해보았다. 

     

    데이터 EDA  및 전처리 

    데이터는 아래와 같다. 이때 유형은 float는 f로, string은 s 등으로 앞글자만 표시했다 

    유형 Field 정보 설명
    f bant_submit [1]Budget(예산), [2]Title(고객의 직책/직급), [3]Needs(요구사항), [4]Timeline(희망 납기일) 4가지 항목에 대해서 작성된 값의 비율
    s customer_country 고객의 국적(국적 말고 도시와 이메일 주소등이 적힌경우도 있음)
    s business_unit MQL 요청 상품에 대응되는 사업부( ID / IT / Solution / AS / CM )
    f com_reg_ver_win_rate Vertical Level 1, business unit, region을 기준으로 oppty 비율을 계산
    f customer_idx 고객의 회사명(특정 코드로 기입됨)
    s customer_type 고객 유형(34 유형)
    s enterprise Global 기업인지, Small/Medium 규모의 기업인지(2개 타입) 
    f historical_existing_cnt 이전에 Converted(영업 전환) 되었던 횟수(결측치가 많음)
      id_strategic_ver (도메인 지식) 특정 사업부(Business Unit이 ID일 때), 특정 사업 영역(Vertical Level1)에 대해 가중치를 부여 -> 인지 아닌지만 적힘 0,1
      it_strategic_ver (도메인 지식) 특정 사업부(Business Unit이 IT일 때), 특정 사업 영역(Vertical Level1)에 대해 가중치를 부여 -> > 인지 아닌지만 적힘 0,1
      idit_strategic_ver Id_strategic_ver이나 it_strategic_ver 값 중 하나라도 1의 값을 가지면 1 값으로 표현
    s customer_job 고객의 직업군 -> 종류가 매우 많음
    f lead_desc_length 고객이 작성한 Lead Descriptoin 텍스트 총 길이(길이 분포가 차이가 큼)
    s inquiry_type 고객의 문의 유형
    s product_category 요청 제품 카테고리
    s product_subcategory 요청 제품 하위 카테고리
    s product_modelname 요청 제품 모델명
    s customer_country.1 담당 자사 법인명 기반의 지역 정보(대륙)
    s customer_position 고객의 회사 직책
    s response_corporate 담당 자사 법인명
    s expected_timeline 고객의 요청한 처리 일정 -> 숫자로 변환 가능 
    i ver_cus 특정 Vertical Level 1(사업영역) 이면서 Customer_type(고객 유형)이 소비자(End-user)인 경우에 대한 가중치 (0,1)
    i ver_pro 특정 Vertical Level 1(사업영역) 이면서 특정 Product Category(제품 유형)인 경우에 대한 가중치 (0,1)
    f ver_win_rate_x 전체 Lead 중에서 Vertical을 기준으로 Vertical 수 비율과 Vertical 별 Lead 수 대비 영업 전환 성공 비율 값을 곱한 값 -> 12개 정도 class 존재
    f ver_win_ratio_per_bu 특정 Vertical Level1의 Business Unit 별 샘플 수 대비 영업 전환된 샘플 수의 비율을 계산
    s business_area 고객의 사업 영역
    s business_subarea 고객의 세부 사업 영역
    i lead_owner 영업 담당자 이름 -> 숫자로 제공
    i is_converted 영업 성공 여부. True일 시 성공.

     

    다양한 feature가 있으며, 이 대회에서 예측해야 하는 값은 is_converted 이다. 

    이 중 현재 팀으로 참여중이기에 일부 데이터의 전처리 과정을 찾아보면서 관련한 내용을 정리할 예정이다. 

     

Designed by Tistory.