본문 바로가기

728x90

전체 글

(170)
[HTML] 기본 개념 01 HTML 기본 용어 태그와 요소 - 요소 : HTML 페이지를 구성하는 각 부품(제목, 본문, 이미지 등) - 태그 : 요소를 만들 때 사용하는 작성 방법 생성 방법에 따른 요소 구분 요소 구분 형태 예 내용을 가질 수 있는 요소 내용 Hello HTML5 즐거운 웹 프로그래밍 입문 내용을 가질 수 없는 요소 Hello HTML5 : 시작 태그 : 끝 태그 내용 구분 예 텍스트인 경우 Hello HTML5 즐거운 웹 프로그래밍 입문 다른 태그인 경우 Hello HTML5 즐거운 웹 프로그래밍 입문 내용을 입력하지 않은 경우 속성 - 속성 : 태그에 추가 정보를 부여할 때 사용하는 것 - 속성 이름 = "속성의 값" -> X, 어떤 이미지를 불러올지, 파일명이 필요 주석 - 주석 : 코드 설명 기록(..
[Git] 깃허브 사용법 정리 2편 브랜치 바탕화면에 Programming 폴더를 만들어서 그 안에 tuto라는 폴더를 또 만들었다. tuto폴더 안에서 오른쪽 마우스-새로만들기-텍스트문서 라고 하고 myfile.txt라는 새 텍스트 문서를 만들었다. 내용은 아무거나 입력하면 된다. 예를 들어 '가나다라마바사' 라는 문장을 입력했다고 하자. 저장하고 나와서, tuto라는 폴더에서 git bash를 연다. git을 열고 명령어를 입력해보자! git init 이라고 입력하면 새롭게 .git이라는 숨김파일이 생긴다. git add my file.txt git commit -m "첫번째 커밋" 위 명령어들을 입력하면 이런 식으로 이력이 남게 된다. 여기에 브랜치를 하나 추가해보자. git branch issue1 위 명령어는 issue1이라는 브랜치를 ..
[혼공머신] CHAPTER 05-3 트리의 앙상블 정형 데이터 비정형 데이터 - 수치만으로 의미 파악이 쉬운 데이터 - 값이 의미를 파악하기 쉽고, 규칙적인 값으로 데이터가 들어가는 경우 ex) 엑셀, CSV, 데이터베이스 - 정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 경우 ex) 텍스트 데이터, 사진, 영상, 음성 앙상블 학습(ensemble learning) : 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘, 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘 랜덤 포레스트(Random Forest) : 여러 개의 무작위 의사결정트리 기반의 앙상블 학습 방법 - 입력한 훈련 데이터에서 랜덤하게 샘플을 추출하여 훈련 데이터를 만든다 -> 샘플 중복 가능 - 부트스트랩 샘플(bootstrap sample..
[혼공머신] CHAPTER 05-2 교차검증과 그리드 서치 검증 세트(validation set): 테스트세트를 사용하지 않고 모델이 과대적합인지 과소적합인지 측정하기 위해 훈련세트를 또 나누어 만든 데이터 - 전체 데이터 중에서 60%를 훈련세트로, 20%를 테스트세트로, 20%를 검증세트로 만들어 사용한다. 1. 훈련세트에서 모델을 훈련하고 검증세트로 모델을 평가한다. 2. 테스트하고 싶은 매개변수를 바꿔가며 가장 좋은 모델을 골라 이 매개변수를 사용해 훈련세트와 검증세트를 합쳐 전체 훈련데이터에서 모델을 다시 훈련한다. 3. 테스트세트에서 최종점수를 평가한다 -> 실전에 투입했을 때 테스트세트의 점수와 비슷한 성능을 기대할 수 있을 것 판다스로 CSV데이터를 읽고 class열을 타깃으로 사용하고 나머지 alcohol, sugar, pH열은 특성배열에 저장한..
[혼공머신] CHAPTER 05-1 결정 트리 이번 챕터는 레드와인과 화이트와인을 구분하는 문제이다. 알코올 도수, 당도, pH 값으로 와인 종류를 구분해보아야한다. 먼저, 로지스틱 회귀로 와인을 분류해보자! import pandas as pd wine = pd.read_csv('https://bit.ly/wine_csv_data') wine.head() # wine.tail() 첫 번째 열은 각각 알코올 도수, 당도, pH 값을 나타낸다. class는 타깃값으로 0이면 레드와인, 1이면 화이트와인이다. 레드와인과 화이트와인을 구분하는 이진 분류 문제이고 화이트 와인이 양성 클래스이다. 판다스 데이터프레임의 유용한 메서드를 알아보자 wine.info() info() : 데이터프레임의 각 열의 데이터 타입과 누락된 데이터가 있는지 확인하는데 유용 Ra..
[혼공머신] CHAPTER 04-2 확률적 경사 하강법 i) 훈련데이터가 한 번에 준비되는 것이 아니라 조금씩 전달되는 문제 -> 기존의 훈련 데이터에 새로운 데이터를 추가하여 모델을 매일매일 다시 훈련시킨다 >> 시간이 지날수록 데이터가 늘어난다는 단점이 있다 ii) 새로운 데이터를 추가할 때 이전 데이터를 버림으로써 훈련 데이터 크기를 일정하게 유지 -> 데이터셋의 크기가 너무 커지지 않을 것 >> 버릴 데이터에 중요한 데이터가 있다면 앞으로 모델이 제대로 예측하지 못하는 단점이 있다. ∴ 점진적 학습 or 온라인 학습 : 앞서 훈련한 모델을 버리지 않고 새로운 데이터에 대해서만 조금씩 훈련시킨다. - 대표적인 점진적 학습 알고리즘 : 확률적 경사 하강법이다. 확률적 경사 하강법(Stochastic Gradient Descent) : 학습 데이터셋에서 전..
[혼공머신] CHAPTER 04-1 로지스틱 회귀 럭키백의 확률 - k-최근접 이웃 분류기 : 가장 가까운 이웃 클래스의 비율을 확률이라고 하기(?) 1 데이터 준비하기 3장에서 사용한 pandas를 이용해서 CSV 파일을 읽어들인다. CSV파일은 read_csv() 함수로 읽어들일 수 있다. head() 메서드로 어떤 데이터가 있는지 확인하는 절차로 처음 5개의 행을 출력해본다. head tail - 데이터프레임 내의 처음 n줄의 데이터를 출력 - 객체 안에 제대로 된 데이터 타입이 입력되어 있는지 빠르게 확인할 경우 사용 - n의 기본 값은 5 - 데이터프레임 내의 마지막 n줄의 데이터 출력 - 객체 내의 데이터 타입을 확인할 때, 데이터를 정렬하거나 데이터를 추가했을 경우 결과 확인 - n의 기본 값은 5 이번에 사용할 수 있는 특성은 총 5개로,..
[혼공머신] CHAPTER 03-3 특성공학과 규제 전 챕터에서 훈련세트보다 테스트세트의 점수가 높아서 이 문제를 해결하기 위해 제곱보다 더 고차항이 필요. -> 특성 공학을 이용해 특성을 많이 만들어내서 고차원에서 선형 회귀가 복잡한 모델을 표현하려고 한다.(?) 다중회귀(multiple regression) - 여러 개의 특성을 사용한 선형 회귀 - 특성이 많으면 선형 모델이 강력한 성능을 발휘한다 >> 여기에서는 농어의 길이, 높이, 두께 사용! 특성 공학(feature engineering) - 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업 - ex) 농어 길이 x 농어 높이 - 각 특성을 서로 곱해서 또 다른 특성을 만들어낸다 판다스(pandas) - 파이썬 데이터 처리를 위한 라이브러리 - 관례적으로 pd라는 명칭으로 임포트 - 3가지의 데..

728x90