2023. 11. 20. 11:47ㆍ데이터분석/pandas
pands란?
pandas는 ptthon의 데이터 분석 라이브러리이다. 팬더스는 수치형 테이블과 시계열 데이터를 조작하고 운영하기 위한 데이터를 제공하는데, 3조항 BSD 라이센스 조건 하에서 무료로 사용 가능하다. 팬더스의 이름은 계량 경제학에서 사용되는 용어인 'PANes ADta'의 앞 글자를 따서 지어졌다. 당연히 실제 동물인 판다 와는 아무런 관련이 없지만, 이름이 이름이니만큼 각종 개발 관련 사이트에서 판다 이미지를 활용하여 팬더스를 소개하곤 한다.
pands는 R에서 사용되던 data.frame 구조를 본뜬 DataFrame이라는 구조를 사용하기 때문에, R의 data.frame에서 사용하던 기능 상당수를 무리없이 사용할 수 있도록 만들었다. 더욱이 파이썬이라는 접근성이 좋은 언어 기반으로 동작하기 때문에 데이터 분석을 파이썬으로 입문하는 사람들이 필수적으로 사용하는 라이브러리가 되었다.
Pandas 의 장점
- Allows the use of labels for rows and columns
- 기본적인 통계데이터 제공
- NaN values 를 알아서 처리함.
- 숫자 문자열을 알아서 로드함.
- 데이터셋들을 merge 할 수 있음.
- It integrates with NumPy and Matplotlib
Pandas Series 데이터 생성하기
import pandas as pd
index = ['eggs', 'apples', 'milk', 'bread']
data = [30, 6, 'Yes', 'No']
#판다스의 1차원 데이터를 Series (시리즈) 라고 부른다.
#시리즈의 오른쪽 부분을 values (data) 라고 하고
#시리즈의 왼쪽 부분을 index 라고 한다.
groceries = pd.Series(data= data, index = index)
groceries
위와 같이 작성 후 실행 시 아래의 화면처럼 출력이 되는 모습을 볼 수 있다.
DataFrame
import pandas as pd
# We create a dictionary of Pandas Series
items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']),
'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])}
df = pd.DataFrame(data = items)
# 왼쪽 진한 글씨를 index 라고 하고
# 윗쪽 진한 글씨를 comumns 라고 하고
# 안쪽 데이터부분을 values 라고 한다.
*출력 결과*
*NaN 은 해당 항목에 값이 없음을 뜻합니다. (Not a Number)*
데이터 추출법
내가 원하는 데이터의 값만 추출하고 싶을 때 사용하는 문법이다.
import pandas as pd
# We create a list of Python dictionaries
items2 = [{'bikes': 20, 'pants': 30, 'watches': 35},
{'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5}]
df = pd.DataFrame(data = items2, index= ['store 1', 'store 2'] )
ioc
원하는 인덱스와 컬럼의 이름을 넣어 추출하는 방법.
df.loc[ 'store 1' , ]
출력 결과
iloc
원하는 인덱스와 컬럼의 순서를 넣어 추출하는 방법
df.iloc[ 0 , ]
출력 결과
drop
원하는 데이터의 값을 지울 때 사용하는 방법(axis = 0은 인덱스,1은 컬럼 값을 나타낸다)
df.drop('store 1', axis= 0 )
출력 결과
rename
원하는 컬럼 또는 인덱스의 이름을 바꿀 때 사용하는 문법
df.rename(index= {'store 2' : 'last store'})
NaN 처리 방법
dropna()
정보가 비어있는 데이터를 삭제 해준다.
fillna()
정보가 비어있는 데이터를 원하는 값으로 채워준다.
'데이터분석 > pandas' 카테고리의 다른 글
(데이터 분석)Python - pands 기본 사용법(set_index/isna/describe/unique/groupby) (1) | 2023.11.21 |
---|