Pandas DataFrame Method

2022. 6. 30. 12:39Data Science/with Python(Numpy, Pandas …ect.)

DataFrame에서 다룰 수 있는

매우 기본적인 Method 몇 가지를

알아볼 건데 이전 게시글에서 만들었던

df를 이어서 활용할 거다.

👇🏻이전 시간에 만든 df code

# 6x4 행렬에 -1에서 1 사이의 랜덤한 숫자를 가지는 원소를 가지고, index열은 dates, 나머지 coulmns은 순서대로 A, B, C, D로 하는 DataFrame 생성
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A', 'B', 'C', 'D'])

 

DataFrame 기초 Method

# dataframe의 맨 위 5줄을 보여주는 head()
df.head()

## 맨 위 3줄
df.head(3)

## 뒤에서 5줄
df.tail()

# dataframe index 추출
df.index

# dataframe columns 추출
df.columns

# dataframe values 추출
df.values


# dataframe에 대한 전체적인 요약정보를 보여줍니다.
##index, columns, null/not-null/dtype/memory usage가 표시됩니다.
df.info()

df.info()의 출력값이다. 간단히 해석을 하자면

Index에 대한 정보가 먼저 나온다.

6 entries : 6개의 index가 있고,

2021-01-01 to 2021-01-06 : 그 index는

2021.01.01~2021.01.06이며

'Freq : D' : 단위는 일(day)이다.

 

다음은 column 정보가 나온다.

total 4개의 column이 있으며

# 은 index란 의미이다.

 

이어서 Nom-Null Count는

각 열에 비어있지 않는 값이

몇 개인지 count해준 것이고

Dtype은 데이터 타입, 메모리

사용량 등이 나오고 있다.

 

지금 봤을 때는 이게 그렇게 필요한

method일까 싶긴 한데, 데이터 용량이

커지거나 외부에서 받아온 데이터의 경우

제일 먼저 해보는 것이 이 df.info()라고 한다.

# dataframe에 대한 전체적인 통계정보를 보여줍니다.
df.describe()

# column B를 기준으로 오름차순 정렬
df.sort_values(by='B')

# column B를 기준으로 내림차순 정렬
df.sort_values(by='B', ascending=False)

sort의 경우 sort까지 입력 후 tab키를 누르면

선택이 가능하다.

그중 우리는 B열 값들을 내림차순

할거라 sort_values를 선택하고

옵션으로 기준 B열을 넣어줬다.

 

이때 결과값에 따라 index들과

그에 따른 다른 열들의 값들도

순서가 바뀐다. 이게 무슨 뜻인가 하면

B 열만 보았을 때는 내림차순이 되고,

index를 살펴보면 B의 나열에 맞춰

1일 다음 4일이 왔다가 그다음에 3일이

오기도 하는 식으로 기존의 순서가

흐트러진다는 뜻이다. 당연히 나머지

행/열의 값들도 그에 맞춰 자리를 찾아간다.

df.sort_values(by='B', ascending=False).head(3)

조금 더 응용해서 column B를 기준으로

값이 가장 큰 top3를 보겠다고 하면

위와 같이 코드를 바꿀 수 있다.

만약 df가 사내 직원들 연봉 정보가 담긴

df였다고 치면 B부서의 연봉 top3를

뽑아낸 것과 같다고 보면 된다ㅎㅎ

'Data Science > with Python(Numpy, Pandas …ect.)' 카테고리의 다른 글

Pandas 외부 데이터 읽고 쓰기  (0) 2022.06.30
Pandas DataFrame Indexing  (0) 2022.06.30
Pandas 기본 자료 구조 - Series, DataFrame  (0) 2022.06.30
Pandas 란..  (0) 2022.06.30
Numpy performance test  (0) 2022.06.30