본문 바로가기

Study40

[Python] Google Colab에서 numpy has no attribute 'int' Error 해결하기 오류 계단 함수 예제 실습 중 numpy numpy has no attribute 'int'라는 오류가 발생했다.      해결방법  numpy version을 1.23.0 이하로 설치해 준다. # numpy version 1.23.0 이하로 install!pip install numpy==1.23.0# numpy version 확인import numpy as npprint(np.__version__)         📌 참고. https://velog.io/@juyeon048/ERROR-AttributeError-module-numpy-has-no-attribute-int  [ERROR] AttributeError: module 'numpy' has no attribute 'int'DeepSORT 알고.. 2024. 2. 29.
[Python] Google Colab에서 NLTK downloader Error 해결하기 오류  NLTK로 불용어 제거하는 예제 실습 중 Resource stopword not found.라는 오류가 발생했다.     해결방법  NLTK 불용어 패키지를 다운로드한다.# nltk 불용어 다운로드import nltknltk.download('stopwords')nltk.download('punkt')          📌 참고. https://taepseon.tistory.com/76 nltk 오류 발생 corpus 자료 downloadNLTK 패키지의 corpus 자료는 설치시 제공되지 않는다 따라서 download의 명령으로 사용자가 다운로드 받아야 한다. 이걸 몰라서.... from nltk.corpus import stopwords stop = stopwords.words('english.. 2024. 2. 25.
[Python] 윈도우에서 파이썬 설치하기 👀 내가 보려고 쓰는 글  01. 파이썬 설치하기 1. 파이썬 홈페이지(https://www.python.org/downloads/)에서 최신 설치파일 다운로드하기  2. 설치파일 실행 후 [Add python.exe to PATH] 체크 → [Install Now] 눌러서 설치하기     02. 파이썬 에디터 설치하기  1. 비주얼 스튜디오 코드 홈페이지에서(https://code.visualstudio.com/Download) 설치파일 다운로드하기  2. [동의합니다] 체크 → [다음]  3. 기본 설정(Code를 지원하는 파일 형식~/PATH에 추가~) 확인 후 [다음]  4. 설치 완료 2024. 2. 13.
[ML] Generalize Models 01. Generalize 개념 training data에 대해서 error를 줄이는 것이 아니라 test data에 대해서 error를 최소화하는 model을 찾는 것model의 복잡도를 무조건 늘리는 게 중요한 것이 아니라 model의 복잡도를 적당히 늘려 test data에 대한 error가 최소화되는 지점을 찾아야 함     02. Regularization 방법 Increasing the Size of Data주어진 data와 학습하고자 하는 w 사이에서 w의 개수는 고정으로 두고 data의 개수를 늘려 overfitting 문제를 해소함데이터 수집이 용이한 환경에서 사용할 수 있음Penalizing the Model Complexitymodel이 지나치게 복잡하면 그것에 대한 penalty를 .. 2024. 1. 31.
[ML] Overfitting Problem 01. Overfitting 정의 일반적으로 training data에 대한 error가 줄어들면 test data에 대한 error도 비슷한 비율로 줄어듦 다항식의 경우, 다항식의 차수가 커지면 커질수록 model complexity가 증가하게 됨model 복잡도가 증가할수록 error function을 최소화하는 방향으로 잘 학습할 수 있음그러나 model complexity가 지나치게 높은 경우 error function관점에서는 error가 0인 경우에 해당되지만 training data가 아닌 새롭게 학습한 data에 적용한 경우 error가 많이 발생하는 현상이 생길 수 있음(주어진 데이터에 대해서만 특화해서 학습함)     02. Overfitting vs. Generalization 머신러.. 2024. 1. 31.
[ML] Multinomial Logistic Regression 01. Multi-class Classification label의 개수가 2개 이상인 경우 ex. 학생이 어떤 전공을 선택할지 푸는 문제ex. 혈액형이 무엇인지 맞히는 문제ex. 뉴스기사가 어떤 카테고리인지 예측하는 문제두 개 이상의 decision boundary 필요함class가 k개인 경우 최소 k-1개의 classifier가 필요함k개의 label에 대해서 k개의 서로 다른 class로 분류하는 decision boundary 사용(decision boundary는 서로에 대한 의존성 없이 특정 class에 대해서 효과적으로 분류하는 것이 목적)각각의 classifier를 서로 결합하여 어떤 class에 속하는 게 좋을지 최종 결정함     02. Formulating Multinomial Lo.. 2024. 1. 4.
[ML] Logistic Regression 01. Linear Classification  Simple Classification 문제점 binary classification 문제에서 임의의 선을 그었을 때 어떤 선도 두 개의 클래스를 분류할 수 없는 경우 error fuction이 계단 함수 모양이 되므로 특정 부분에서 미분이 불가능함확률 관점에서 계산 필요Simple Classification은 1 또는 0 두 개의 값 중 하나만 가지게끔 판단했음Linear Classification은 0에서 1 사이의 특정 값을 가지는 형태로 가설 함수를 표현함 → sigmoid 또는 logistic functiondata가 positive sample이면 주어진 data에 대해서 확률이 최대화되는 방향으로 w값 결정data가 negative sample.. 2024. 1. 2.
[Kaggle] 주택 가격 예측 EDA #3(결측치, 이상치 처리) 1. 결측치 데이터의 이론 및 시각화 탐색 결측 데이터의 종류임의적 결측 발생(MAR: Missing at Random) 누락된 데이터가 특정 변수와 관련되어 일어나지만, 그 변수의 값과는 관계가 없는 경우 ex)어떤 설문조사에서 누락된 자료가 특정 변수들에 국한되어 발견되었는데 알고 보니 일부 대상자가 설문지 3페이지에 반대쪽 면이 있는 것을 모르고 채우지 않았을 경우 MAR로 확인 가능 완전무작위 결측 발생(MCAR: Missing Completely at Random) 변수의 종류와 변수의 값과 상관없이 전체에 걸쳐 무작위적으로 발생 이러한 missing data는 분석에 영향을 주지 않음 비임의적 결측 발생(NMAR: Not Missing at Random)누락된 변수의 값과 누락된 이유가 관련이.. 2024. 1. 2.
[Kaggle] 주택 가격 예측 EDA #2(시각화) 1. 데이터의 자료 유형 변수 : 값이 변하는 모든 데이터 ex)키, 체중, 온도상수 : 값이 달라지지 않는 것 ex)파이(=3.14) 독립변수 : 원인이 되는 것 = 설명변수종속변수 : 결과가 되는 것 = 결과(반응)변수 질적변수 : 수치로 나타낼 수 없는 변수 ex)성별, 혈액형, 학교, 지역 등양적변수 : 수치로 나타낼 수 있는 변수 ex)체중, 키, 온도     2. 날짜 데이터 처리(연도 관련)# 연도 데이터 탐색 year_fea = [fea for fea in numeric_features if 'Yr' in fea or 'Year' in fea] // Yr, Year관련 데이터 추출print(year_fea)# return : ['YearBuilt', 'YearRemodAdd', 'Garag.. 2023. 12. 29.
[Kaggle] 주택 가격 예측 EDA #1(Kaggle 데이터 불러오기, EDA) 1. Colab에서 캐글 데이터 불러오기 - Kaggle # Kaggle KPI 설치!pip install kaggle# Kaggle Token 다운로드 from google.colab import filesuploaded = files.upload()for fn in uploaded.keys(): print('uploaded file "{name}" with length {length} bytes'.format( name=fn, length=len(uploaded[fn]))) # kaggle.json을 아래 폴더로 옮긴 뒤, file을 사용할 수 있도록 권한을 부여함 !mkdir -p ~/.kaggle/ && mv kaggle.json ~/.kaggle/ && chmod 600 ~/.kag.. 2023. 12. 27.
[Kaggle] 기초문법 1. Matplotlib 파이썬의 배열의 2D플롯을 만들기 위한 라이브러리임(NumPy와 연계성이 큼) MATLAB 그래픽 명령어에 기원, 그러나 독립적머신러닝/딥러닝 모형 개발 시 성능 확인 차 자주 사용됨# 기본적인 시각화 문법import matplotlib.pyplot as pltplt.plot(x축 리스트, y축 리스트)plt.show()# 리스트import matplotlib.pyplot as pltx = [1, 2, 3, 4] // listy = [1, 2, 3, 4] // listplt.plot(x, y) // Matplotlib.plotplt.show()# 판다스에서 Matplotlib 그래프 시각화 기본 문법import matplotlib.pyplot as pltdata.plot(ki.. 2023. 11. 14.
[ML] Parameter Estimation 01. Parameter Estimation 확률 기반으로 데이터를 모델링할 때 주어진 확률 모델 하에서 원하는 parameter를 추정할 때 사용하는 방법샘플링된 데이터를 통해 주어진 모분포의 parameter를 추정하는 기법Population : 전체 데이터셋Sample : 모집단 중 임의로 선택한 데이터셋Parameter estimation 방법Point estimate평균 또는 분산을 추정하는 방식모분포를 알 수 없으므로 최소한 모분포의 모양을 추정 결정모분포가 Gaussian distribution 또는 임의의 분포라는 가정하에 주정Interval estimate 특정한 값의 구간을 추정하는 방식특정한 신뢰구간에서 얼마나 신뢰할 수 있는 수준인지를 보여줄 때 활용      02. Maximum .. 2023. 11. 14.
[ML] Classification 01. Classification supervised learning의 한 종류예) 나이와 혈압 간의 상관관계주어진 regression 모델을 통해 주어진 y와 예측되는 y의 error를 최소화하는 w를 찾는 것이 목적     02. Simple Classification Model 주어진 선형모델 중 주어진 데이터를 플러스와 마이너스 방향으로 얼마나 잘 분류할 수 있는지 학습하는 것이 목적주어진 데이터와 학습하고자 하는 직선에 해당되는 w 벡터와의 각도를 통해서 파악분모에 해당되는 값은 항상 양수 → cosɑ의 값은 wTx(두 벡터의 내적)에 비례 임의의 w와 각각의 데이터 간의 각도가 90도 보다 작은 경우 : positive 샘플positive 샘플이 잘못 분류된 경우 w+x의 방향으로 w를 조정임.. 2023. 11. 9.
[ML] Numerical Solution 01. Numerical Solution 최적해를 계산하기 어려운 환경에서 analytic solution을 대체하여 원하는 해를 찾고자 하는 방식gradient descent를 이용해 임의로 주어진 w값을 조정해 나가면서 주어진 error function의 기울기가 편미분 한 gradient 값이 0이 되는 지점을 찾음임의의 w0 선택주어진 w에 대해서 편미분하여 방향 결정(미분값이 음수인 경우 오른쪽, 양수인 경우 왼쪽)η로 이동의 폭 결정(step마다 고정값 or 다른 값 사용 가능)0에 가까워질 때까지 반복     02. Batch Gradient Descent 모든 트레이닝 데이터 사용하여 gradient를 계산함모든 error의 평균을 표현하기 위해 1/2n으로 normalization 처리주.. 2023. 11. 9.
[선형대수학] 아핀 변환, 고유벡터, 고유값 분해 01. 아핀 변환 Affine Transformation v = np.array([3, 1])v# array([3, 1])import matplotlib.pyplot as pltdef plot_vectors(vectors, colors): """ Plot one or more vectors in a 2D plane, specifying a color for each. Arguments --------- vectors: list of lists or of arrays Coordinates of the vectors to plot. For example, [[1, 3], [2, 2]] contains two vectors to plot, [1, 3] a.. 2023. 11. 8.
728x90