본문 바로가기
카테고리 없음

티쳐블 머신 사용하기

by Hiiiiiit! 2022. 10. 12.
반응형

 인공지능이란 인간의 지능을 컴퓨터로 구현한 것이다. 그중에 컴퓨터가 알아서 학습할 수 있도록 하는 것이 머신러닝이고 그중 뉴럴 네트워크를 이용하면 딥러닝이라고 한다. 지도 학습과 비지도 학습으로 구분할 수 있는데 지도 학습이란 컴퓨터가 학습하는 것을 감독하는 것이고 정답을 주고 학습을 시킨다. 비지도 학습은 공통점과 차이점을 보고 인공지능이 2-3개로 분류를 하는 것을 말한다. 머신러닝은 분류 - 그룹을 나누는 것 회귀- 과거의 데이터로부터 미래를 예측하는 것 :작년 이맘때의 온도가 23도였는데 올해는 어떻게 될 것인가? 나의 중간고사 점수가 이런데 이번 중간고사 점수는 어떠할까? 등이 있다. 가장 일반적인 것은 지도 학습을 통해 분류하는 것이다. 

분류는 이미지/ 음성/ 동작 을 분류할 수 있다. 이미지 분류는 이미지가 누구인지를 판별할 수 있고, 동작은 관절의 각도를 통해 움직이는 대상이 하고 있는 것이 무엇인지를 판별할 수 있다. 인공지능으로 분류할 주제는 무엇인가/ 데이터는 어떻게 모을 것인가 - 이것이 중요하다. 

티쳐블 머신

(모델) 파라미터 vs 하이퍼 파라미터

 파라미터는 컴퓨터가 학습하면서 찾아낸 수식이다. 모델 파라미터는 컴퓨터가 찾은 수식이고, 하이퍼 파라미터는 사람이 설정해 주는 값으로 반복 횟수, 학습률, 배치 사이즈 등이 있다.  모델을 만든 후 데이터를 훈련 세트 / 검증 세트/ 테스트 세트로 구분해 주어야 한다. 훈련 세트와 테스트 세트는 다른 데이터로 해주는 것이 좋다. 

데이터 수집 방법 

1. 데이터 크롤링

(코랩 예제)

!pip install simple_image_download
from simple_image_download import simple_image_download as simp 
 
response = simp.simple_image_download()
response.download('아이유', limit=20
 
(다른 파이썬 버전 예제)
from simple_image_download import simple_image_download as simp 
 
my_downloader = simp.Downloader()
my_downloader.download('손흥민', limit=20)
 

2. AI-Hub 사이트 이용 

AI-Hub 사이트 내 이미지
이미지 다운로드

 원하는 이미지를 선택한 후 다운로드 하거나 이미지 20장/ 50장 등 숫자를 설정해서 다운로드할 수 있다. 이미지에 대한 정보를 찾고 싶으면 json에 대한 정보를 보면 된다. 동작 데이터의 경우 데이터의 용량이 크다. 데이터에 대한 이해가 어느정도 있어야 한다. 데이터를 모으는 방법 : 태극 1-8장까지 동작을 영상으로 찍은 뒤 사진으로 쪼갠다.(90만 장) 각 사진 1장에 json 파일 1개가 들어가 있다. 데이터의 특징에 따라 64개의 자세로 나눈다. 각 클래스 간의 데이터의 분포를 균일하게 맞춘다. 클래스를 나눈 것에서 클래스당 최소한의 데이터를 확보하는 것이 어렵다. 

3. 캐글

머신러닝 모델을 올려서 성능이 좋은것에 대해 경쟁하는 사이트이다. 데이터가 있어야 하기 때문에 어마어마한 데이터 셋들이 들어가 있다. 한국의 코로나 발생현황에 대한 데이터가 엑셀 파일로  들어가 있기도 하고 한국의 교육과 복지에 대한 데이터도 들어가 있다. 연도별/ 종교/ 지역/ 연령/ 등에 따라 구분되어 데이터가 들어가 있다. 결측치인 데이터들에 대해서는 데이터를 빼거나 채워 넣거나 해야 한다. 혹은 이상치인 값들을 찾아서 버려야 한다. 

반응형

댓글