전체 글

240604 Today I Learn로지스틱 회귀 이론💡 로지스틱 회귀독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법으로 가중치 값을 안다면 X값이 주어졌을 때 해당 사건이 일어날 수 있는 P의 확률을 계산한다. 이때, 확률 0.5를 기준으로 그보다 높으면 사건이 일어남(P(Y) = 1), 그렇지 않으면 사건이 일어나지 않음(P(Y) = 0)으로 판단하여 분류 예측에 사용한다.로짓의 경우 어떤 값을 가지더라도 반드시 특정 사건이 일어날 확률을 0~1로 만들어준다.로짓은 다음과 같이 해석된다.→ X의 값이 1만큼 증가할 때, 오즈비는 e의 w1승 만큼 증가한다.분류 평가지표💡 정확도 (Accuracy)전체 중 예측이 실제 값과 같을 경우 (참인 경우 참으로, 거..
240604 Today I Learn다중선형회귀💡 다중 선형회귀(Multiple Linear Regression)설명 변수(독립변수)가 두 개 이상인 회귀 분석다중선형 회귀 실습🙋‍♀️ 머신이는 데이터 선형회귀를 훈련 시켰지만 성능이 별로 좋지 않다는 것을 알게 되었습니다. 그래서 성별과 같은 다른 데이터를 사용하고 싶어졌습니다. 1. 성별데이터는 문자형이여서 숫자로 표현해줘야 합니다.# 1. male(1), female(0)으로 변환하기def encode_gender(series): if series == 'Female': return 0 else: return 1 # apply를 활용해 sex 컬럼의 모든 행에 encode_gender를 적용합니다...
240603 Today I Learn머신러닝이란?💡 머신러닝(Machine Learning, ML)관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘. 기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론.머신러닝의 종류지도학습 : 문제와 정답을 모두 알려주고 공부시키는 방법예측분류비지도학습 : 답을 알려주지 않고 공부시키는 방법연관규칙군집강화학습 : 보상을 통해 상은 최대화, 벌은 최소화 하는 방향으로 행위를 강화선형회귀분석 이론💡선형회귀(Linear Regression)종속 변수 y와 한 개 이상의 독립 변수 (또는 설명 변수) X와의 선형 상관 관계를 모델링하는 회귀분석 기법..
240603 Today I Learn데이터의 종류수치형 자료 - 숫자를 이용해 표현할 수 있는 데이터연속형 : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터→ 체중, 신장이산형 : 횟수와 값은 정수형 값만 취할 수 있는 데이터(소수점이 의미가 없음)→ 사고건수, 일 방문자수범주형 자료 - 가능한 범주 안의 값만을 취하는 데이터순위형(순서형) : 값들 사이에 분명한 순위가 있는 데이터 → 등수명목형 : 값들 사이에 순위가 없는 데이터→ 나라, 도시, 혈액형, 성별, 성공여부, MBTI이진형 : 두개의 값만을 가지는 범주형 데이터 → Y/N, T/F, M/F편차, 분산, 표준편차, 표본분포편차💡 편차각가의 값에서 평균을 뺀 값으로, 해당 값이 평균으로부터 얼마나 떨어져 있는지를 의미한다.세 학생의 영..
상관관계 그래프 그리기💽 활용 데이터셋 - seaborn diamondsdiamonds = sns.load_dataset('diamonds')# diamonds에서 numeric 변수만 선택diamonds2 = diamonds.select_dtypes(include='number')diamonds2.head()📊 상관관계 히트맵 그리기heatmap_diamonds = sns.heatmap(diamonds2.corr(), annot = True, cmap = 'RdPu')heatmap_diamonds.set(title='corr plot')조인트 그래프 그리기💽 활용 데이터셋 - seaborn healthexphealth_exp = sns.load_dataset('healthexp')health..
누적 막대그래프 그리기💽 활용 데이터셋 - seaborn  Tipstips = sns.load_dataset('tips')tips2 = tips.groupby(['time','sex'])['tip'].mean().unstack(1)📊 누적 막대그래프 그리기#stacked=True 로 설정하면 누적그래프를 그릴 수 있습니다. stacked_plot= tips2.plot(kind='bar', stacked=True, color = ['#D4F0F0','#FEE1E8'])plt.title("Average tips by time")plt.xlabel("time")plt.xticks(rotation = 0)plt.ylabel("gender")plt.legend(loc='upper left')`kind = '..
ny:D
n.archive