팀 내에서 데이터 엔지니어링 관련 스터디를 시작했습니다. 책은 Fundamentals of Data Engineering입니다. DataOps와 MLOps작업을 팀 내 데이터 엔지니어분들과 함께 수행하면서 데이터 엔지니어링의 기반에 대해 항상 궁금했습니다.. 책을 정독하고 팀원들과 의견을 공유하면서 CRM 및 추천 태스크에 적용중인 M...
많은 기업은 효율적으로 마케팅을 집행하려고 노력합니다. 제가 속한 회사에서도 한정된 자원으로 효율적으로 고객을 터치하기 위해서 노력하고 있는데요. 일반적으로 새로운 고객을 확보하는 것보다 기존 고객이 다시 구매하도록 유도하는 것이 효율적입니다. 이미 회사는 천만에 가깝게 회원수들을 보유하고 있습니다. 기업이 고객께 가치를 제공할 수 있...
최근에 고객의 구매 확률 예측 모델을 고안하면서 확률 분포 관하여 공부하고 있습니다. 오늘은 그 중에서 이산형 확률 분포에 대해 기록하겠습니다. Uniform distribution 균일 분포는 확률 변수가 값을 가질 확률이 모두 동일할 때 표현되는 분포입니다. Discrete Uniform Distribution ...
지난 시간에는 팀원들과 Matrix Completion과 관련된 SVD1, ALS2, SGD의 개념을 살펴보았습니다. 이번 시간에는 이커머스에서 추천 모델의 최종 단계인 유사도(Similarity)를 계산하는 부분과 지표(Metric)를 점검해보았습니다. Similarity 상품 또는 고객을 벡터로 표현한 뒤 벡터 간의 유사...
지난 시간에는 팀원들과 Matrix Completion과 관련된 SVD1, ALS2, SGD의 개념을 살펴보았습니다. 이번 시간에는 이커머스에서 추천 모델의 최종 단계인 유사도(Similarity)를 계산하는 부분과 지표(Metric)를 점검해보았습니다. Similarity 상품 또는 고객을 벡터로 표현한 뒤 벡터 간의 유사...
현재 추천 시스템이 적용되고 있고 고도화를 진행하고 있는 시점에서 최근 팀원분들과 추천 스터디를 플립러닝(flipped learning) 방식으로 진행하게 되었습니다. 우선 팀원들과 함께 추천의 내재적인 부분과 기본적인 내용들을 확인하고 놓칠 수 있는 부분들을 점검하고 있습니다. 이번주는 팀원들과 함께 중소형 트래픽 규모를 가...
최근에 고객 세분화(Customer Segmentation) RFM 모델 디버깅 작업과 팀원 중 한분께서 Session Based RS를 고안하실 때 필요한 순차 데이터(Sequential Data) 전처리 작업을 스파크로 진행하면서 경험하였던 것들 중 몇 가지를 공유하고자 합니다. Spark Tuning 몇 가지 전제들 ‘Data...
지난 포스트에 이어서 고객의 이탈 유무와 LTV를 예측하는 태스크를 진행할 때 ‘불균형 데이터를 어떻게 다룰 것인가’에 관하여 숙고하였던 내용을 다루겠습니다. 불균형 데이터는 데이터 자체의 크기, 노이즈를 유발하는 데이터, 왜도가 높은 데이터 분포 문제와 관련이 깊습니다. 지난 포스트에서 우리는 명쾌한 클래스의 분류(Ex : 이탈 또는 비...
Cute imbalanced image1 지도학습에서 분류 문제를 다룰 때 Imbalanced classification인 경우가 많았습니다. 예를 들어 이커머스 데이터를 활용하여 개별적인 고객의 이탈을 예측하는 모델을 만들 때 위의 문제를 발견할 수 있었습니다. 실무에서 이탈 예측 태스크를 진행하면서 ‘불균형 데이터를 어떻게 다룰 것인가’에 대...
현실에서 마주한 문제 현재 제가 속한 팀은 개별 고객의 구매 확률을 예측하여 고객을 자동으로 세분화(Auto Customer Segmentation)하는 태스크를 진행하고 있습니다. 머신러닝 모델을 활용하여 각 고객이 해당 사이트를 방문한 후 구매를 할 확률값을 알 수 있습니다. 이 확률값들의 분포를 Histogram을 활용하여 ...