데이터 시각화(10)
-
검색광고 데이터 분석 : 데이터 전처리&기본적인 데이터 탐색
데이터 전처리 import pandas as pd from pandas import DataFrame from pandas import Series import matplotlib.pyplot as plt 네이버 검색광고 데이터를 read_excel 함수를 사용하여 파이썬에 불러와 DataFrame의 열 단위 수치연산 및 데이터 타입 다루는 것을 목표로 한다. # window의 경우 경로인식에러 발생 df=pd.read_excel('C:\Users\user\OneDrive\Desktop\marketing\NAVER.xls') read함수를 이용하여 데이터를 불러올 때 탐색창에 있는 주소를 그대로 복붙해오면 Error를 발생하는데 그 이유가 윈도우 탐색창은 \를 사용하고, 파이썬은 /을 사용하기 때문인데 ..
2022.07.09 -
마케팅 데이터 분석 : 간단한 matplotlib 사용법 정리
데이터 분석을 위한 Domain Knowledge 1. 광고의 진행과정 광고주가 매체(네이버, 구글)에 광고비를 지불하고 매체는 광고를 플랫폼에 개제한다. 노출된 광고를 접한 소비자가 클릭을 하고 접속해서 광고주의 상품을 구매 한다. 물론 노출수=클릭수=구매수가 아닌 노출수>>클릭수>>구매수 라는 것도 인지하고 있어야한다. 2. 광고성과지표 CTR 노출 대비 클릭의 비율을 환산한 수치로 실무에서도 이 수치가 높으면 높을수록 좋다고 판단한다. 노출된 걸 보고 그만큼 클릭하여 홈페이지로 구경 온 소비자들이 많다는 뜻이니까 CPM 한번 노출당 얼마의 광고비가 나가는지, 1000이 곱해져 있으므로 1000번 노출 당 나가는 광고비용이 적혀지는 것이다. 이 지표는 낮으면 낮을수록 광고비를 효율적으로 사용했다고 판..
2022.07.08 -
Kaggle Survey EDA 03 : 직업과 관련된 EDA
교육수준 EDA를 했던 것과 동일한 방식으로 진행된다. 직업과 관련된 질문은 Q5, 20, 22가 있었다. Q5 Select the title most similar to your current role Q20 What is the size of the compnay where are employed? Q22 Does your current employer incorporate machine learning methods into their business? Q5 column Q5 = final_data["Q5"][1:] Q5를 정의해주고 plt.figure(figsize=(12, 12)) plt.hist(Q5) plt.xticks(rotation='vertical') plt.title("Histogra..
2022.07.06 -
Kaggle Survey EDA 02 : 교육수준과 관련된 EDA
이전에 예쁠게 전처리해놓은 fimal_data를 이용하여 EDA 분석을 해볼 것이다. 교육 수준과 관련된 질문은 다음과 같이 3가지가 있었다. Q4 "What is the highest level of formal education that you have attained or plan to attain with the next 2 years?" Q6 "For how many years have you been writing code and/or programming?" Q15 "For how many years have you used machine learning methods?" Q4 column 우선 Q4 column을 뜯어와 히스토그램으로 나타내보고자 한다. Q4 = final_data["Q4"..
2022.07.06 -
공공 데이터 분석 프로젝트(커피 전문점) 03
카페 별 비율을 비교해볼 것이다. 2020년 12월 기준으로 커피전문점 평판 순위에 대한 뉴스 기사를 보면 1위가 스타벅스 2위 투썸플레이스 3위 이디야 4위 메가커피 5위가 커피빈이다. 이 5개의 브랜드에 대해서 전체 커피전문점 내 주요 커피브랜드 입점 비율, 서울 커피전문점 내 주요 커피브랜드 입점 비율, 그리고 각 커피브랜드별 서울 입점 비율 을 각각 뽑아보고자 한다. 전체 커피전문점 내 주요 커피브랜드 입점 비율 '비율'이기 때문에 뽑아보고자 하는 브랜드의 전체 개수(길이:len)를 전체 커피전문점의 개수(길이:len)로 나눠주면 된다. print("**** 전국 커피전문점중 주요 5대 커피브랜드 입점 비율 ****") print("주요 5대 커피브랜드 전국 입점 비율 : %.3f%%" % ((l..
2022.07.05 -
Seaborn : scatterplot&pairplot&heatmap (데이터분석 인강)
Scatterplot lineplot과 비슷하게 x, y에 대한 데이터의 전체적인 분포를 확인하는 plot이다. 차이점이 있다면 lineplot이 x,y 관계를 선으로 그었다면 scatterplot은 물감을 뿌리듯 흩뿌려서 나타내준다. 산포도, 산점도라고도 한다. 그렇다 보니 lineplot은 경향성에 초점을 둔다면, scatterplot은 전체적인 데이터가 퍼져있는 모양에 중점을 둔다. # penguin 데이터에 scatterplot을 출력. ## 1. 질량과 부리 길이 관계 - 종별 차이 sns.scatterplot(data=penguins, x="body_mass_g", y="flipper_length_mm", hue="species") ## 2. 부리 길이와 깊이(두께) 관계 - 성별 차이 sns..
2022.07.03