Data Science(34)
-
[데이터분석 인강] 코호트 분석과 푸쉬 노티피케이션
코호트 분석 데이터 분석 기법 중 하나로 코호트(동질 집단) 분석이 있다. 코호트란 특정 기간동안 공통된 특성이나 경험을 갖는 사용자 집단을 분석하는 것을 말하는데 대표적인 분석 예시가 사용자 이탈률/패턴, 재구매율같은 것들이 있다. # 구매 횟수 기준 우수 고객 확인 retail.groupby('CustomerID').count()['Quantity'].sort_values(ascending=False) # 지불 금액 기중 우수 고객 확인 retail.groupby('CustomerID').sum()['CheckoutPrice'].sort_values(ascending=False) # 사용자 기준으로 최초 구매한 월 연산하기 ## Month : 구매월, MonthStarted : 사용자가 최초 구매한 ..
2022.07.16 -
검색광고 데이터 분석 : 검색광고 데이터 키워드/광고그룹 분석
키워드 분석 : 저효율키워드 출력 노출수와 클릭수 상위 5%에 해당하는 키워드를 추출하는 작업을 통해 quantile함수를 활용한 95백분위수를 찾고 그 이상의 노출수를 추출, 상위 5%에 해당하는 키워드를 추출해보고자 한다. imp=df['노출수'] # quantile (default : 2사분위수(중앙값)) imp.quantile() # median - 중앙값 imp.median() # 최소값 imp.quantile(0) imp.min() # 최대값 imp.quantile(1) imp.max() quantile 함수는 분위수를 출력하는 함수로 default 값은 2사분위수이다. ※ 2사분위수 = 중앙값 물론 median이라는 중앙값만 호출할 수 있는 함수가 따로 있으나 수학 통계에서도 그렇듯 사분위수..
2022.07.10 -
[데이터분석 인강]검색광고 데이터 분석 : 데이터 탐색 시각화ver. (선그래프)
matplotlib을 이용한 Series 시각화를 통해 데이터 탐색을 해보고자 한다. import pandas as pd from pandas import DataFrame from pandas import Series import matplotlib.pyplot as plt # matplotlib 한글 폰트 출력코드 # 출처 : 데이터공방( https://kiddwannabe.blog.me) import matplotlib from matplotlib import font_manager, rc import platform try : if platform.system() == 'Windows': # 윈도우인 경우 font_name = font_manager.FontProperties(fname="c:/W..
2022.07.09 -
검색광고 데이터 분석 : 데이터 전처리&기본적인 데이터 탐색
데이터 전처리 import pandas as pd from pandas import DataFrame from pandas import Series import matplotlib.pyplot as plt 네이버 검색광고 데이터를 read_excel 함수를 사용하여 파이썬에 불러와 DataFrame의 열 단위 수치연산 및 데이터 타입 다루는 것을 목표로 한다. # window의 경우 경로인식에러 발생 df=pd.read_excel('C:\Users\user\OneDrive\Desktop\marketing\NAVER.xls') read함수를 이용하여 데이터를 불러올 때 탐색창에 있는 주소를 그대로 복붙해오면 Error를 발생하는데 그 이유가 윈도우 탐색창은 \를 사용하고, 파이썬은 /을 사용하기 때문인데 ..
2022.07.09 -
마케팅 데이터 분석 : 간단한 matplotlib 사용법 정리
데이터 분석을 위한 Domain Knowledge 1. 광고의 진행과정 광고주가 매체(네이버, 구글)에 광고비를 지불하고 매체는 광고를 플랫폼에 개제한다. 노출된 광고를 접한 소비자가 클릭을 하고 접속해서 광고주의 상품을 구매 한다. 물론 노출수=클릭수=구매수가 아닌 노출수>>클릭수>>구매수 라는 것도 인지하고 있어야한다. 2. 광고성과지표 CTR 노출 대비 클릭의 비율을 환산한 수치로 실무에서도 이 수치가 높으면 높을수록 좋다고 판단한다. 노출된 걸 보고 그만큼 클릭하여 홈페이지로 구경 온 소비자들이 많다는 뜻이니까 CPM 한번 노출당 얼마의 광고비가 나가는지, 1000이 곱해져 있으므로 1000번 노출 당 나가는 광고비용이 적혀지는 것이다. 이 지표는 낮으면 낮을수록 광고비를 효율적으로 사용했다고 판..
2022.07.08 -
Kaggle Survey EDA 03 : 직업과 관련된 EDA
교육수준 EDA를 했던 것과 동일한 방식으로 진행된다. 직업과 관련된 질문은 Q5, 20, 22가 있었다. Q5 Select the title most similar to your current role Q20 What is the size of the compnay where are employed? Q22 Does your current employer incorporate machine learning methods into their business? Q5 column Q5 = final_data["Q5"][1:] Q5를 정의해주고 plt.figure(figsize=(12, 12)) plt.hist(Q5) plt.xticks(rotation='vertical') plt.title("Histogra..
2022.07.06