728x90
4. 표를 다루는 도구 '판다스'
- 머신러닝의 첫 단계 : 데이터 준비
- 대부분의 데이터는 파일 형태로 존재
- 파일 형태의 데이터를 프로그램을 이용하여 읽어들임
파일경로 = '___.csv'
데이터 = pd.read_csv(파일경로)
- 왼쪽에 있는 파일 경로, 데이터를 변수라고 칭함
- 표의 형태의 데이터에서 변수는 열을 의미 : 행이 변할때마다 그 값이 변화하므로
- 지도학습은 데이터의 독립변수(원인)과 종속변수(결과)를 분리하는 것이 중요
- 판다스
- 표를 다루는 파이썬 라이브러리
# -*- coding: utf-8 -*-
'''
# 판다스 실습
- 실습을 통해 배울 함수
- 파일 읽기 : pd.read_csv('경로.csv')
- 모양 확인하기 : 데이터.shape
- 칼럼 선택하기 : 데이터[['칼럼명']]
- 칼럼 이름 출력하기 : 데이터.columns
- 맨 위 관측치 출력하기 : 데이터.head
'''
import pandas as pd # pandas 라이브러리
# 파일로부터 데이터 읽어오기
파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/lemonade.csv'
레모네이드 = pd.read_csv(파일경로)
파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/boston.csv'
보스턴 = pd.read_csv(파일경로)
파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris.csv'
아이리스 = pd.read_csv(파일경로)
###########################
# 데이터의 모양 확인 : (행, 열) 형태
print(레모네이드.shape)
print(보스턴.shape)
print(아이리스.shape)
###########################
# 데이터 칼럼 이름 확인
print(레모네이드.columns)
print(보스턴.columns)
print(아이리스.columns)
###########################
# 독립변수와 종속변수 분리
독립 = 레모네이드[['온도']]
종속 = 레모네이드[['판매량']]
print(독립.shape, 종속.shape)
독립 = 보스턴[['crim', 'zn', 'indus', 'chas', 'nox',
'rm', 'age', 'dis', 'rad', 'tax',
'ptratio', 'b', 'lstat']]
종속 = 보스턴[['medv']]
print(독립.shape, 종속.shape)
독립 = 아이리스[['꽃잎길이', '꽃잎폭', '꽃받침길이', '꽃받침폭']]
종속 = 아이리스[['품종']]
print(독립.shape, 종속.shape)
###########################
# 각각의 데이터 확인해보기 : head - 보통 처음 5줄 출력, head(10) 지정 시 10줄 출력 등, 데이터 개수 지정 가능
print(레모네이드.head())
print(보스턴.head(10))
print(아이리스.head())
5. 첫번째 딥러닝 - 레모네이드 판매 예측
- 데이터의 학습
- 데이터 준비
- 모델 구조 형성 : 독립 / 종속밴수의 크기 확인 필수 (입-출력 크기 정의)
- 데이터로 모델 학습
- 모델의 활용
- 손실(Loss)
- tensorflow - keras의 model.fit() 함수에 대해
- model.fit(독립, 종속, epochs = 10) : epochs는 반복 횟수를 의미
- Loss : 학습 정도의 지표
- 종속 변수 - 모델의 예측 결과의 차의 제곱의 합
- Loss값이 0에 가까울수록 정확한 예측
728x90