728x90
4. 표를 다루는 도구 '판다스'

4. 표를 다루는 도구 '판다스'

  • 머신러닝의 첫 단계 : 데이터 준비
    • 대부분의 데이터는 파일 형태로 존재
    • 파일 형태의 데이터를 프로그램을 이용하여 읽어들임
파일경로 = '___.csv' 데이터 = pd.read_csv(파일경로)
  • 왼쪽에 있는 파일 경로, 데이터를 변수라고 칭함
    • 표의 형태의 데이터에서 변수는 열을 의미 : 행이 변할때마다 그 값이 변화하므로
    • 지도학습은 데이터의 독립변수(원인)과 종속변수(결과)를 분리하는 것이 중요
  • 판다스
    • 표를 다루는 파이썬 라이브러리
# -*- coding: utf-8 -*- ''' # 판다스 실습 - 실습을 통해 배울 함수 - 파일 읽기 : pd.read_csv('경로.csv') - 모양 확인하기 : 데이터.shape - 칼럼 선택하기 : 데이터[['칼럼명']] - 칼럼 이름 출력하기 : 데이터.columns - 맨 위 관측치 출력하기 : 데이터.head ''' import pandas as pd # pandas 라이브러리 # 파일로부터 데이터 읽어오기 파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/lemonade.csv' 레모네이드 = pd.read_csv(파일경로) 파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/boston.csv' 보스턴 = pd.read_csv(파일경로) 파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris.csv' 아이리스 = pd.read_csv(파일경로) ########################### # 데이터의 모양 확인 : (행, 열) 형태 print(레모네이드.shape) print(보스턴.shape) print(아이리스.shape) ########################### # 데이터 칼럼 이름 확인 print(레모네이드.columns) print(보스턴.columns) print(아이리스.columns) ########################### # 독립변수와 종속변수 분리 독립 = 레모네이드[['온도']] 종속 = 레모네이드[['판매량']] print(독립.shape, 종속.shape) 독립 = 보스턴[['crim', 'zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax', 'ptratio', 'b', 'lstat']] 종속 = 보스턴[['medv']] print(독립.shape, 종속.shape) 독립 = 아이리스[['꽃잎길이', '꽃잎폭', '꽃받침길이', '꽃받침폭']] 종속 = 아이리스[['품종']] print(독립.shape, 종속.shape) ########################### # 각각의 데이터 확인해보기 : head - 보통 처음 5줄 출력, head(10) 지정 시 10줄 출력 등, 데이터 개수 지정 가능 print(레모네이드.head()) print(보스턴.head(10)) print(아이리스.head())

5. 첫번째 딥러닝 - 레모네이드 판매 예측

  • 데이터의 학습
    1. 데이터 준비
    2. 모델 구조 형성 : 독립 / 종속밴수의 크기 확인 필수 (입-출력 크기 정의)
    3. 데이터로 모델 학습
    4. 모델의 활용
  • 손실(Loss)
    • tensorflow - keras의 model.fit() 함수에 대해
    • model.fit(독립, 종속, epochs = 10) : epochs는 반복 횟수를 의미
    • Loss : 학습 정도의 지표
      • 종속 변수 - 모델의 예측 결과의 차의 제곱의 합
      • Loss값이 0에 가까울수록 정확한 예측
728x90

+ Recent posts