2022. 7. 3. 17:37ㆍData Science/with Python(Numpy, Pandas …ect.)
우선 라이브러리와 데이터를 불러오고,
시각화를 위한 세팅을 한다.
다른 건 외울 필요도 없고 외우지 말라고
했으나 불러오는 명령문을 외워줘야 한다.
import seaborn as sns
sns.set_theme(style='whitegird')
penguins = sns.load_dataset("penguins")
[추가 설명]
sns.set_theme라는 테마 세팅 함수가 있는데
(style='whitegrid')은 배경이 하얀색이란 뜻이다.
필수 조건은 아니다. 개인 취향. 없어도 무관.
penguins 데이터는 유명한 dataset으로 이전 시간
ML에서 유명한 붓꽃(Iris)이 있듯 그걸
대체하는 최근 hot한 dataset이다. 그리고
seaborn에서 제공하는 dataset을 불러올 때
sns.load_dataset으로 호출해주면 된다.
sns.**plot(data=☆, x, y, hue)
seaborn에서 plot을 호출할 때 사용하는
코드는 거의 대부분 비슷하다.
sns.호출할 polt이름, 그리고 뒤에 data이름(☆)을
넣어주고, x, y, 그리고 hue까지. 거의 default다.
이후는 style이나 개인 취향대로 옵션이다.
x와 y는 말 그대로 히스토그램의 x축과 y축에
무얼 찍을지 적으란 건데 무조건 매번 적어 줄
필요는 없고 내가 하고 싶은 것만 채워주면
나머지는 자동으로 채워진다.
Histplot
가장 기본적으로 사용되는 히스토그램을
출력하는 plot이다. 전체 데이터를 특정
구간별 정보를 확인할 때 주로 사용한다.
# penguin 데이터에 histplot을 출력.
sns.histplot(data=penguins, x="flipper_length_mm", hue="species")
hue는 색깔을 나누는 기준이 된다.
즉, hue="species"는 종별로
다른 색을 찍어달라는 조건이다.
<결과>
만약 겹쳐진 색 때문에 보기 불편해서
전체 count를 보고 싶을 땐 multiple
옵션을 추가해주면 된다.
# penguin 데이터에 histplot을 출력.
sns.histplot(data=penguins, x="flipper_length_mm", hue="species", multiple='stack')
※ stack은 겹치지 말고 쌓으란 뜻이다.
그럼 이렇게 쌓여서 나오는 것을
확인할 수 있다.
Displot
distribution들을 여러 subplot들로 나눠서
출력해주는 plot으로 figure가 하나가 아닌
여러 개가 출력된다. displot에서 kind를 변경하는
것으로 histplot, kdeplot, ecdfplot 모두 출력이 가능하다.
# penguin 데이터에 displot을 출력.
sns.displot(data=penguins, x="flipper_length_mm", hue="species")
이렇게 입력했을 때는 아래와 같이
그래프가 그려진다.
여기서 만약 따로 따로 찍어주는 걸 해주고
싶다고 하면 col 옵션을 추가해주면 된다.
# penguin 데이터에 displot을 출력.
sns.displot(data=penguins, x="flipper_length_mm", hue="species", col="species")
'Data Science > with Python(Numpy, Pandas …ect.)' 카테고리의 다른 글
Seaborn : boxplot&violinplot (0) | 2022.07.03 |
---|---|
Seaborn : barplot&countplot (0) | 2022.07.03 |
Seaborn 란.. (0) | 2022.07.03 |
Pandas 외부 데이터 읽고 쓰기 (0) | 2022.06.30 |
Pandas DataFrame Indexing (0) | 2022.06.30 |