판다스(5)
-
Pandas 외부 데이터 읽고 쓰기
외부 데이터 읽고 쓰기 # 기본틀 pd.read_파일타입("경로지정") # 예시 pd.read_csv("~.csv") pd.read_json("~.json") pd.read_xls("~.xls") 외부 데이터를 불러와 읽을 때는 .read_ 함수를 사용한다. # data 폴더에 있는 iris.csv를 불러오기. pd.read_csv("data/iris.csv") 붓꽃에 대한 데이터로 3가지 종을 구분해서 사용할 수 있는 dataset이면서 통계학적으로도 굉장히 유명한 dataset이다. 3가지 종을 분류하는 대표적인 머신러닝의 분류 문제 set이라고 한다. Pandas의 기능을 활용하여 실제 학습이 가능한 형태로 정제하는 프로세스가 있는데 그것을 따라해 보고자 한다. Species의 Dtype이 현재는 ..
2022.06.30 -
Pandas DataFrame Indexing
DataFrame Indexing Pandas에서 가장 중요하다고 말해도 과언이 아닌 파트이다. Indexing 개념 자체는 이제껏 공부해온 것과 다르지 않다. 주어진 데이터에서 유저가 입력한 어떤 특정 조건을 만족하는 원소를 찾는 방법으로 전체 DataFrame에서 조건에 만족하는 데이터를 쉽게 찾아서 조작할 때 유용하게 사용할 수 있다. 이 부분이 조금 어려울 수 있으나 pandas를 행복하게 사용할 수 있으니 미래의 편리를 위해 힘 내보자ㅋㅋ # numpy, pandas 라이브러리 호출 - 말 안해도 껐다 키거나 나갔다 들어오면 알아서 하기. import pandas as pd import numpy as np # 앞에서 이어서 계속 사용할 df df = pd.DataFrame(np.random.r..
2022.06.30 -
Pandas DataFrame Method
DataFrame에서 다룰 수 있는 매우 기본적인 Method 몇 가지를 알아볼 건데 이전 게시글에서 만들었던 df를 이어서 활용할 거다. 👇🏻이전 시간에 만든 df code # 6x4 행렬에 -1에서 1 사이의 랜덤한 숫자를 가지는 원소를 가지고, index열은 dates, 나머지 coulmns은 순서대로 A, B, C, D로 하는 DataFrame 생성 df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A', 'B', 'C', 'D']) DataFrame 기초 Method # dataframe의 맨 위 5줄을 보여주는 head() df.head() ## 맨 위 3줄 df.head(3) ## 뒤에서 5줄 df.tail() # datafram..
2022.06.30 -
Pandas 기본 자료 구조 - Series, DataFrame
Pandas의 기본 자료구조 DataFrame은 2차원 테이블 구조라고 했다. 그럼 Series는? Series는 테이블의 한 줄 -행/열은 상관없다-을 일켵는 용어로 Series의 모임이 DataFrame이 된다. 생명과학에서의 세포-조직 같은 느낌이랄까..? # pandas 라이브러리를 불러옵니다. pd를 약칭으로 사용합니다. import pandas as pd # numpy 같이 호출 - 둘이 set처럼 거의 같이 사용함. import numpy as np # pandas version 확인 print(pd.__version__) Pandas도 Numpy처럼 라이브러리이기 때문에 사용 전 우선 import를 해주어야 한다. Numpy를 np로 호출하는 것이 통상적이었다면 Pandas는 보통 pd라고..
2022.06.30 -
Pandas 란..
Pandas란? "python data analysis"의 약자로 다양한 머신러닝 라이브러리들에 의존성을 가지고 있다. 또한 numpy array를 베이스로 지원하기 때문에 데이터 처리 속도도 빠르고 메모리 사용량 역시 일반 python이나 Excel에 비해 효율적이다. 때문에 데이터 분석에서는 거의 필수라고 할 수 있을 정도로 활용도가 높고 실제로 사용하는 전문가들도 매우 많다. ** 특징 pandas는 정형 데이터 처리에 특화되어 있다. scikit-learn, scipy, statsmodel, tensorflow, pytorch…ect. 와 연동성👍🏻 pandas = python + excel이라고 소개하는 경우도 많지만 Pandas와 MS Excel 각각의 장단점이 명확하기 때문에 각각의 장단점,..
2022.06.30