전공&대외활동 이야기/2024 LG AIMERS 4기 활동
[LG Aimers] 영업성공률 예측 모델 개발기 1(해커톤)
혁진
2024. 2. 21. 20:44
LG Aimers는 phase1은 강의 phase2는 해커톤으로 이루어지는데, 이번 4기에서 저는 팀원 4명과 함께 해당 해커톤에 참석하였습니다. 그리고 해커톤을 진행하면서 일부 자료를 기록해보았습니다.
개요 및 목표
이번 해커톤에서는 B2B 마케팅에서 전환율을 예측하여 마케팅 업무에 도움을 주기 위한 예측 모델을 개발하는 것이 목표로, 아마 영업 과정에서 전환 가능성이 높은 고객에게 영업 자원을 집중하기 위해 고객의 전환 여부를 예측하는 것이 목적으로 보인다.
이에 따라서 고객의 다양한 feature data를 기반으로 해당 고객이 전환고객일지 아닐지를 예측하는 모델을 개발해보았다.
데이터 EDA 및 전처리
데이터는 아래와 같다. 이때 유형은 float는 f로, string은 s 등으로 앞글자만 표시했다
| 유형 | Field | 정보 설명 |
| f | bant_submit | [1]Budget(예산), [2]Title(고객의 직책/직급), [3]Needs(요구사항), [4]Timeline(희망 납기일) 4가지 항목에 대해서 작성된 값의 비율 |
| s | customer_country | 고객의 국적(국적 말고 도시와 이메일 주소등이 적힌경우도 있음) |
| s | business_unit | MQL 요청 상품에 대응되는 사업부( ID / IT / Solution / AS / CM ) |
| f | com_reg_ver_win_rate | Vertical Level 1, business unit, region을 기준으로 oppty 비율을 계산 |
| f | customer_idx | 고객의 회사명(특정 코드로 기입됨) |
| s | customer_type | 고객 유형(34 유형) |
| s | enterprise | Global 기업인지, Small/Medium 규모의 기업인지(2개 타입) |
| f | historical_existing_cnt | 이전에 Converted(영업 전환) 되었던 횟수(결측치가 많음) |
| id_strategic_ver | (도메인 지식) 특정 사업부(Business Unit이 ID일 때), 특정 사업 영역(Vertical Level1)에 대해 가중치를 부여 -> 인지 아닌지만 적힘 0,1 | |
| it_strategic_ver | (도메인 지식) 특정 사업부(Business Unit이 IT일 때), 특정 사업 영역(Vertical Level1)에 대해 가중치를 부여 -> > 인지 아닌지만 적힘 0,1 | |
| idit_strategic_ver | Id_strategic_ver이나 it_strategic_ver 값 중 하나라도 1의 값을 가지면 1 값으로 표현 | |
| s | customer_job | 고객의 직업군 -> 종류가 매우 많음 |
| f | lead_desc_length | 고객이 작성한 Lead Descriptoin 텍스트 총 길이(길이 분포가 차이가 큼) |
| s | inquiry_type | 고객의 문의 유형 |
| s | product_category | 요청 제품 카테고리 |
| s | product_subcategory | 요청 제품 하위 카테고리 |
| s | product_modelname | 요청 제품 모델명 |
| s | customer_country.1 | 담당 자사 법인명 기반의 지역 정보(대륙) |
| s | customer_position | 고객의 회사 직책 |
| s | response_corporate | 담당 자사 법인명 |
| s | expected_timeline | 고객의 요청한 처리 일정 -> 숫자로 변환 가능 |
| i | ver_cus | 특정 Vertical Level 1(사업영역) 이면서 Customer_type(고객 유형)이 소비자(End-user)인 경우에 대한 가중치 (0,1) |
| i | ver_pro | 특정 Vertical Level 1(사업영역) 이면서 특정 Product Category(제품 유형)인 경우에 대한 가중치 (0,1) |
| f | ver_win_rate_x | 전체 Lead 중에서 Vertical을 기준으로 Vertical 수 비율과 Vertical 별 Lead 수 대비 영업 전환 성공 비율 값을 곱한 값 -> 12개 정도 class 존재 |
| f | ver_win_ratio_per_bu | 특정 Vertical Level1의 Business Unit 별 샘플 수 대비 영업 전환된 샘플 수의 비율을 계산 |
| s | business_area | 고객의 사업 영역 |
| s | business_subarea | 고객의 세부 사업 영역 |
| i | lead_owner | 영업 담당자 이름 -> 숫자로 제공 |
| i | is_converted | 영업 성공 여부. True일 시 성공. |
다양한 feature가 있으며, 이 대회에서 예측해야 하는 값은 is_converted 이다.
이 중 현재 팀으로 참여중이기에 일부 데이터의 전처리 과정을 찾아보면서 관련한 내용을 정리할 예정이다.