#2. Basic Data Exploration

2020. 9. 5. 14:11

728x90

Using Pandas to Get Familiar With Your Data

어떠한 머신 러닝 프로젝트를 위한 첫 단계는 데이터에 친숙해지는 것입니다. 이를 위해 Pandas 라이브러리를 사용할 것입니다. Pandas는 데이터를 분석하고 조작하기 위해 데이터 사이언티스트들이 사용하는 주된 도구입니다. 대부분의 사람들이 그들의 코드에서 Pandas를 pd.로 줄여 씁니다. 우리는 다음 명령어를 사용합니다.

import pandas as pd

Pandas 라이브러리의 가장 중요한 부분은 DataFrame입니다. 데이터프레임은 여러분이 표로 생각하는 데이터를 다룹니다. 이는 엑셀의 시트나, SQL 데이터베이스의 표와 유사합니다.
판다스는 이러한 종류의 데이터를 다루고자 할 때 강력한 도구가 됩니다.
예를 들어, 우리는 오스트레일리아 멜버른의 집값 데이터를 보고자 합니다. 이번 예시에서, 여러분은 아이오와의 집값을 이용하여 새로운 데이터셋에 같은 절치를 진행하게 될 것입니다.
(멜버른의) 예시 데이터는 ../input/melbourne-housing-snapshot/melb_data.csv에 존재합니다.
우리는 데이터를 불러온 후 다음 명령어로 분석합니다.

# save filepath to variable for easier access
melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

Interpreting Data Description

원래의 데이터셋에서 각 열은 8개의 숫자를 보여줍니다. 첫 번째, Cound는 얼마나 많은 행이 non-missing values를 갖는지 보여줍니다.
Missing Value는 여러 가지 이유로 발생합니다. 예를 들면, 2번째 침실의 크기는 침실이 1개뿐인 집을 조사할 때는 수집되지 않습니다. missing data에 대한 주제는 곧 다시 알아볼 것입니다.
두번째 값은 평균입니다. 여기서, std는 표준편차를 의미하며, 수치적으로 값들이 얼마나 분포했는지를 나타냅니다.
min, 25%, 50%, 75%, 그리고 max값이 의미하는 것은, 각 열을 최저에서 최고값으로 분류하는 것을 생각해보면 됩니다. 첫 번째(최소) 값이 min입니다. 만약 리스트에서 1/4만큼 진행하면 값들 중 25%보다 크고 75%보다 작은 값을 보면 됩니다. 이 값을 25% 값이라고 하며, 50, 75퍼센트 값은 이와 같이 정의되며, max는 가장 큰 값이 됩니다.

728x90

저작자표시 비영리 변경금지

공부정리 아카이브

#2. Basic Data Exploration

Using Pandas to Get Familiar With Your Data

Interpreting Data Description

+ Recent posts

티스토리툴바