Python(26)
-
검색광고 데이터 분석 : 검색광고 데이터 키워드/광고그룹 분석
키워드 분석 : 저효율키워드 출력 노출수와 클릭수 상위 5%에 해당하는 키워드를 추출하는 작업을 통해 quantile함수를 활용한 95백분위수를 찾고 그 이상의 노출수를 추출, 상위 5%에 해당하는 키워드를 추출해보고자 한다. imp=df['노출수'] # quantile (default : 2사분위수(중앙값)) imp.quantile() # median - 중앙값 imp.median() # 최소값 imp.quantile(0) imp.min() # 최대값 imp.quantile(1) imp.max() quantile 함수는 분위수를 출력하는 함수로 default 값은 2사분위수이다. ※ 2사분위수 = 중앙값 물론 median이라는 중앙값만 호출할 수 있는 함수가 따로 있으나 수학 통계에서도 그렇듯 사분위수..
2022.07.10 -
검색광고 데이터 분석 : 데이터 전처리&기본적인 데이터 탐색
데이터 전처리 import pandas as pd from pandas import DataFrame from pandas import Series import matplotlib.pyplot as plt 네이버 검색광고 데이터를 read_excel 함수를 사용하여 파이썬에 불러와 DataFrame의 열 단위 수치연산 및 데이터 타입 다루는 것을 목표로 한다. # window의 경우 경로인식에러 발생 df=pd.read_excel('C:\Users\user\OneDrive\Desktop\marketing\NAVER.xls') read함수를 이용하여 데이터를 불러올 때 탐색창에 있는 주소를 그대로 복붙해오면 Error를 발생하는데 그 이유가 윈도우 탐색창은 \를 사용하고, 파이썬은 /을 사용하기 때문인데 ..
2022.07.09 -
마케팅 데이터 분석 : 간단한 matplotlib 사용법 정리
데이터 분석을 위한 Domain Knowledge 1. 광고의 진행과정 광고주가 매체(네이버, 구글)에 광고비를 지불하고 매체는 광고를 플랫폼에 개제한다. 노출된 광고를 접한 소비자가 클릭을 하고 접속해서 광고주의 상품을 구매 한다. 물론 노출수=클릭수=구매수가 아닌 노출수>>클릭수>>구매수 라는 것도 인지하고 있어야한다. 2. 광고성과지표 CTR 노출 대비 클릭의 비율을 환산한 수치로 실무에서도 이 수치가 높으면 높을수록 좋다고 판단한다. 노출된 걸 보고 그만큼 클릭하여 홈페이지로 구경 온 소비자들이 많다는 뜻이니까 CPM 한번 노출당 얼마의 광고비가 나가는지, 1000이 곱해져 있으므로 1000번 노출 당 나가는 광고비용이 적혀지는 것이다. 이 지표는 낮으면 낮을수록 광고비를 효율적으로 사용했다고 판..
2022.07.08 -
Kaggle Survey EDA 03 : 직업과 관련된 EDA
교육수준 EDA를 했던 것과 동일한 방식으로 진행된다. 직업과 관련된 질문은 Q5, 20, 22가 있었다. Q5 Select the title most similar to your current role Q20 What is the size of the compnay where are employed? Q22 Does your current employer incorporate machine learning methods into their business? Q5 column Q5 = final_data["Q5"][1:] Q5를 정의해주고 plt.figure(figsize=(12, 12)) plt.hist(Q5) plt.xticks(rotation='vertical') plt.title("Histogra..
2022.07.06 -
Kaggle Survey EDA 02 : 교육수준과 관련된 EDA
이전에 예쁠게 전처리해놓은 fimal_data를 이용하여 EDA 분석을 해볼 것이다. 교육 수준과 관련된 질문은 다음과 같이 3가지가 있었다. Q4 "What is the highest level of formal education that you have attained or plan to attain with the next 2 years?" Q6 "For how many years have you been writing code and/or programming?" Q15 "For how many years have you used machine learning methods?" Q4 column 우선 Q4 column을 뜯어와 히스토그램으로 나타내보고자 한다. Q4 = final_data["Q4"..
2022.07.06 -
Kaggle Survey EDA 01 : 전처리
유명한 2020 Kaggle Survey 데이터를 이용하여 전처리와 시각화 연습을 해볼 것이다. 데이터는 Kaggle 홈페이지에서 다운 받을 수 있다. import pandas as pd import numpy as np import matplotlib as plt import seaborn as sns 자주 사용하는 라이브러리 호출은 외워놓고 시작하자마자 적어야한다. data = pd.read_csv("data/kaggle_survey_2020_responses.csv", header=1) 기본적으로 column에 Q 넘버가 찍히는데 그 아래 row0에 있는 정확한(구체적인) 질문을 column으로 쓰고 싶다고 하면 위와 같이 header option을 추가하면 된다. 위 사진의 경우 좌측이 heade..
2022.07.06