본문 바로가기

캐글6

[Kaggle] 아마존 리뷰 분석 #02(EDA, 감정분석) 🗂️ 데이터셋.https://www.kaggle.com/datasets/tarkkaanko/amazon   1. 시각화 리뷰 평점 시각화contraints로 pie chart 색상 구분5.0점대 평점 비율이 79.8%로 가장 높음# 리뷰 평점 확인constraints = ['#4682B4', '#FF6347', '#32CD32', '#FFD700', '#8A2BE2']def categorical_variable_summary(df, column_name): plt.figure(figsize=(10, 5)) # Countplot plt.subplot(1, 2, 1) df[column_name].value_counts().plot(kind='bar', color='skyblue') .. 2024. 6. 23.
[Kaggle] 아마존 리뷰 분석 #01(데이터 불러오기, 전처리) 🗂️ 데이터셋.https://www.kaggle.com/datasets/tarkkaanko/amazon   0. Introduction 텍스트 마이닝 기법을 활용해서 고객 리뷰를 분석하고 이를 통해 고객이 만족하는 서비스 요인과 불만족하는 서비스 요익을 파악하고자 함     1. 데이터 불러오기 Kaggle에서 제공하는 'amazon reviews' 데이터 불러오기# library setting!pip install chart_studio!pip install TextBlob!pip install plotly!pip install WordCloud!pip install cufflinks!pip install SentimentIntensityAnalyzer!pip install vaderSentiment.. 2024. 6. 21.
[Kaggle] 주택 가격 예측 EDA #3(결측치, 이상치 처리) 1. 결측치 데이터의 이론 및 시각화 탐색 결측 데이터의 종류임의적 결측 발생(MAR: Missing at Random) 누락된 데이터가 특정 변수와 관련되어 일어나지만, 그 변수의 값과는 관계가 없는 경우 ex)어떤 설문조사에서 누락된 자료가 특정 변수들에 국한되어 발견되었는데 알고 보니 일부 대상자가 설문지 3페이지에 반대쪽 면이 있는 것을 모르고 채우지 않았을 경우 MAR로 확인 가능 완전무작위 결측 발생(MCAR: Missing Completely at Random) 변수의 종류와 변수의 값과 상관없이 전체에 걸쳐 무작위적으로 발생 이러한 missing data는 분석에 영향을 주지 않음 비임의적 결측 발생(NMAR: Not Missing at Random)누락된 변수의 값과 누락된 이유가 관련이.. 2024. 1. 2.
[Kaggle] 주택 가격 예측 EDA #2(시각화) 1. 데이터의 자료 유형 변수 : 값이 변하는 모든 데이터 ex)키, 체중, 온도상수 : 값이 달라지지 않는 것 ex)파이(=3.14) 독립변수 : 원인이 되는 것 = 설명변수종속변수 : 결과가 되는 것 = 결과(반응)변수 질적변수 : 수치로 나타낼 수 없는 변수 ex)성별, 혈액형, 학교, 지역 등양적변수 : 수치로 나타낼 수 있는 변수 ex)체중, 키, 온도     2. 날짜 데이터 처리(연도 관련)# 연도 데이터 탐색 year_fea = [fea for fea in numeric_features if 'Yr' in fea or 'Year' in fea] // Yr, Year관련 데이터 추출print(year_fea)# return : ['YearBuilt', 'YearRemodAdd', 'Garag.. 2023. 12. 29.
[Kaggle] 주택 가격 예측 EDA #1(Kaggle 데이터 불러오기, EDA) 1. Colab에서 캐글 데이터 불러오기 - Kaggle # Kaggle KPI 설치!pip install kaggle# Kaggle Token 다운로드 from google.colab import filesuploaded = files.upload()for fn in uploaded.keys(): print('uploaded file "{name}" with length {length} bytes'.format( name=fn, length=len(uploaded[fn]))) # kaggle.json을 아래 폴더로 옮긴 뒤, file을 사용할 수 있도록 권한을 부여함 !mkdir -p ~/.kaggle/ && mv kaggle.json ~/.kaggle/ && chmod 600 ~/.kag.. 2023. 12. 27.
[Kaggle] 기초문법 1. Matplotlib 파이썬의 배열의 2D플롯을 만들기 위한 라이브러리임(NumPy와 연계성이 큼) MATLAB 그래픽 명령어에 기원, 그러나 독립적머신러닝/딥러닝 모형 개발 시 성능 확인 차 자주 사용됨# 기본적인 시각화 문법import matplotlib.pyplot as pltplt.plot(x축 리스트, y축 리스트)plt.show()# 리스트import matplotlib.pyplot as pltx = [1, 2, 3, 4] // listy = [1, 2, 3, 4] // listplt.plot(x, y) // Matplotlib.plotplt.show()# 판다스에서 Matplotlib 그래프 시각화 기본 문법import matplotlib.pyplot as pltdata.plot(ki.. 2023. 11. 14.
728x90