seaborn(9)
-
Kaggle Survey EDA 03 : 직업과 관련된 EDA
교육수준 EDA를 했던 것과 동일한 방식으로 진행된다. 직업과 관련된 질문은 Q5, 20, 22가 있었다. Q5 Select the title most similar to your current role Q20 What is the size of the compnay where are employed? Q22 Does your current employer incorporate machine learning methods into their business? Q5 column Q5 = final_data["Q5"][1:] Q5를 정의해주고 plt.figure(figsize=(12, 12)) plt.hist(Q5) plt.xticks(rotation='vertical') plt.title("Histogra..
2022.07.06 -
Kaggle Survey EDA 02 : 교육수준과 관련된 EDA
이전에 예쁠게 전처리해놓은 fimal_data를 이용하여 EDA 분석을 해볼 것이다. 교육 수준과 관련된 질문은 다음과 같이 3가지가 있었다. Q4 "What is the highest level of formal education that you have attained or plan to attain with the next 2 years?" Q6 "For how many years have you been writing code and/or programming?" Q15 "For how many years have you used machine learning methods?" Q4 column 우선 Q4 column을 뜯어와 히스토그램으로 나타내보고자 한다. Q4 = final_data["Q4"..
2022.07.06 -
공공 데이터 분석 프로젝트(커피 전문점) 03
카페 별 비율을 비교해볼 것이다. 2020년 12월 기준으로 커피전문점 평판 순위에 대한 뉴스 기사를 보면 1위가 스타벅스 2위 투썸플레이스 3위 이디야 4위 메가커피 5위가 커피빈이다. 이 5개의 브랜드에 대해서 전체 커피전문점 내 주요 커피브랜드 입점 비율, 서울 커피전문점 내 주요 커피브랜드 입점 비율, 그리고 각 커피브랜드별 서울 입점 비율 을 각각 뽑아보고자 한다. 전체 커피전문점 내 주요 커피브랜드 입점 비율 '비율'이기 때문에 뽑아보고자 하는 브랜드의 전체 개수(길이:len)를 전체 커피전문점의 개수(길이:len)로 나눠주면 된다. print("**** 전국 커피전문점중 주요 5대 커피브랜드 입점 비율 ****") print("주요 5대 커피브랜드 전국 입점 비율 : %.3f%%" % ((l..
2022.07.05 -
Seaborn : scatterplot&pairplot&heatmap (데이터분석 인강)
Scatterplot lineplot과 비슷하게 x, y에 대한 데이터의 전체적인 분포를 확인하는 plot이다. 차이점이 있다면 lineplot이 x,y 관계를 선으로 그었다면 scatterplot은 물감을 뿌리듯 흩뿌려서 나타내준다. 산포도, 산점도라고도 한다. 그렇다 보니 lineplot은 경향성에 초점을 둔다면, scatterplot은 전체적인 데이터가 퍼져있는 모양에 중점을 둔다. # penguin 데이터에 scatterplot을 출력. ## 1. 질량과 부리 길이 관계 - 종별 차이 sns.scatterplot(data=penguins, x="body_mass_g", y="flipper_length_mm", hue="species") ## 2. 부리 길이와 깊이(두께) 관계 - 성별 차이 sns..
2022.07.03 -
Seaborn : lineplot&pointplot
Lineplot 단어 그대로 선 그래프로 특정 데이터를 x, y로 표시하여 관계를 확인할 수 있는 plot이다. 수치형 지표들 간의 경향을 파악할 때 많이 사용한다. # penguin 데이터에 lineplot을 출력. sns.lineplot(data=penguins, x="body_mass_g", y="flipper_length_mm", hue="species") 선이란 특성상 x,y 값을 바꿔도 뒤집혔다는 느낌보단 x에 따른 y의 차이, 편차에 따라 이분포 느낌이 다르다. sns.lineplot(data=penguins, y="bill_length_mm", x="bill_depth_mm", hue="species") 어떤 조합이냐에 따라 다양한 정보를 얻을 수 있다. 이와 같이 어떤 값에 따라 다른 값..
2022.07.03 -
Seaborn : boxplot&violinplot
분포 정보를 보여주는 plotting 방법으로 많이 쓰이는 방법들 중 하나이다. Boxplot 데이터의 각 종류별로 사분위 수(quantile)를 표시하는 plot으로 특정 데이터의 전체적인 분포를 확인하기 좋은 시각화 기법이다. 전체적인 분포는 얼마인지, 그 중에 평균에 가까운 정보들은 어디에 얼마나 몰려있는지 등 과 같은 정보들을 그림으로 나타내준다. 그래서 box와 전체 range의 그림을 통해 outlier를 찾기 쉽습니다. (IQR : Inter-Quantile Range) penguin 데이터에 boxplot을 출력. sns.boxplot(data=penguins,x="flipper_length_mm", y="species", hue='species') 박스 안의 가운데 선 : 평균 박스의 크..
2022.07.03