Seaborn : histplot&displot

2022. 7. 3. 17:37Data Science/with Python(Numpy, Pandas …ect.)

우선 라이브러리와 데이터를 불러오고,

시각화를 위한 세팅을 한다.

다른 건 외울 필요도 없고 외우지 말라고

했으나 불러오는 명령문을 외워줘야 한다.

import seaborn as sns
sns.set_theme(style='whitegird')
penguins = sns.load_dataset("penguins")

[추가 설명]

sns.set_theme라는 테마 세팅 함수가 있는데

(style='whitegrid')은 배경이 하얀색이란 뜻이다.

필수 조건은 아니다. 개인 취향. 없어도 무관.

penguins 데이터는 유명한 dataset으로 이전 시간

ML에서 유명한 붓꽃(Iris)이 있듯 그걸

대체하는 최근 hot한 dataset이다. 그리고

seaborn에서 제공하는 dataset을 불러올 때

sns.load_dataset으로 호출해주면 된다.

 

 

sns.**plot(data=☆, x, y, hue)

seaborn에서 plot을 호출할 때 사용하는

코드는 거의 대부분 비슷하다.

sns.호출할 polt이름, 그리고 뒤에 data이름(☆)을

넣어주고, x, y, 그리고 hue까지. 거의 default다.

 

이후는 style이나 개인 취향대로 옵션이다.

x와 y는 말 그대로 히스토그램의 x축과 y축에

무얼 찍을지 적으란 건데 무조건 매번 적어 줄

필요는 없고 내가 하고 싶은 것만  채워주면

나머지는 자동으로 채워진다.

 

 

Histplot

가장 기본적으로 사용되는 히스토그램을

출력하는 plot이다. 전체 데이터를 특정

구간별 정보를 확인할 때 주로 사용한다.

# penguin 데이터에 histplot을 출력.
sns.histplot(data=penguins, x="flipper_length_mm", hue="species")

hue는 색깔을 나누는 기준이 된다.

즉, hue="species"는 종별로

다른 색을 찍어달라는 조건이다.

 

<결과>

만약 겹쳐진 색 때문에 보기 불편해서

전체 count를 보고 싶을 땐 multiple

옵션을 추가해주면 된다.

# penguin 데이터에 histplot을 출력.
sns.histplot(data=penguins, x="flipper_length_mm", hue="species", multiple='stack')

※ stack은 겹치지 말고 쌓으란 뜻이다.

그럼 이렇게 쌓여서 나오는 것을

확인할 수 있다.

 

 

Displot

distribution들을 여러 subplot들로 나눠서

출력해주는 plot으로 figure가 하나가 아닌

여러 개가 출력된다. displot에서 kind를 변경하는

것으로 histplot, kdeplot, ecdfplot 모두 출력이 가능하다.

# penguin 데이터에 displot을 출력.
sns.displot(data=penguins, x="flipper_length_mm", hue="species")

이렇게 입력했을 때는 아래와 같이

그래프가 그려진다.

여기서 만약 따로 따로 찍어주는 걸 해주고

싶다고 하면 col 옵션을 추가해주면 된다.

# penguin 데이터에 displot을 출력.
sns.displot(data=penguins, x="flipper_length_mm", hue="species", col="species")

 

'Data Science > with Python(Numpy, Pandas …ect.)' 카테고리의 다른 글

Seaborn : boxplot&violinplot  (0) 2022.07.03
Seaborn : barplot&countplot  (0) 2022.07.03
Seaborn 란..  (0) 2022.07.03
Pandas 외부 데이터 읽고 쓰기  (0) 2022.06.30
Pandas DataFrame Indexing  (0) 2022.06.30