GitHub - JT-Kim89/05.python_ProDS_Associate: [ProDS] Python을 활용한 데이터 분석 실습(초급) / 멀티캠퍼스(온라인) / 2023.12.01~2023.12.31

part 1 데이터 전처리

01차시 프로그램 소개 및 설치

Anaconda 설치
Jupyter Notebook 실행

02차시 기본 문법1: 연산자, 숫자/문자, 리스트, 튜플, 딕셔너리

Python basic(list, tuple, dictionary)

03차시 기본 문법2: 제어문, 라이브러리

Python basic(if, for, def)

04차시 EDA: 수치형, 범주형 기술통계

Numpy basic(array, ones, zeros, empty, eye, identity)
Pandas basic(Series, DataFrame)
df.groupby

05차시 데이터 전처리: 결측치, 이상치

결측치: df.isna, isnull
결측치 채우기: df.fillna
결측치 제거: df.dropna
분위수: df.quantile

06차시 데이터 전처리: 파생변수 생성

조건출력: np.where
변수명 변경: pd.rename
행 또는 열 function 계산: pd.apply
속성 변경: pd.astype
가변수 생성: pd.get_dummies

07차시 데이터 전처리: 데이터 병합

인덱스 초기화: dt.reset_index
특정 변수를 인덱스로 지정: df.set_index
데이터 단순병합: pd.concat
데이터 키(key) 병합: pd.merge

08차시 데이터 전처리: 정렬 및 변환

빈도 확인: pd.crosstab
정렬: df.sort_values
자료 구조변환(long form): df.melt
자료 구조변환(wide form): df.pivot

part 2 통계

09차시 모평균 비교에 관한 가설검정: t-test

단일 표본 t-검정: scipy.stats ttest_1samp
대응 표본 t-검정: scipy.stats ttest_rel
독립 2 표본 t-검정: scipy.stats ttest_ind

※ 아래 사이트에서 p-value, 검정통계량 이해하기

https://huidea.tistory.com/233
https://www.youtube.com/watch?v=tpow70KGTYY (~32분까지)
가설검정: 모집단을 알 수 없을 때, 표본집단을 이용하여 모집단을 추정하는 것 (표본으로 보아 전체는 이럴 것이다.)
귀무가설: 모집단의 평균은 10 일 것이다.
p-value: probability, 0 ~ 1 사이 값, 귀무가설이 맞으면 1에 가까워 짐 (통상 0.1 보다 커야 맞다고 볼 수 있음)
검정통계량: 샘플값(샘플의 평균값) - 귀무가설값(평균10), 귀무가설값에 가까워지면 검정통계량은 0에 가까워 짐

10차시 모평균 비교에 관한 가설검정: One way ANOVA(분산 분석, analysis of variance)

일원 분산 분석: scipy.stats f_oneway
일원 분산 분석: statsmodels ols
일원 분산 분석: statsmodels anova_lm
사후검정: statsmodels pairwise_tukeyhsd

11차시 모분산 비교에 관한 가설검정: 등분산 검정(F-test of equality of variances)

F-검정: scipy.stats f.cdf
Bartlett 검정: scipy.stats bartlett
Leneve 검정: scipy.stats levene

12차시 범주형 변수 간의 독립성 검정(Chi-squared test)

카이제곱 검정: scipy.stats chi2_contingency

13차시 상관분석

상관분석: pandas corr
Pearsono 상관분석: scipy.stats pearsonr
Spearman 상관분석: scipy.stats spearmanr
Kendall 상관분석: scipy.stats kendalltau

part 3 분석

14차시 단순 회귀분석(Simple Linear Regression)

선형회귀분석: statsmodels.formula.api ols
선형회귀분석: sklearn.linear_model LinearRegression
MAE(Mean Absolute Error): sklearn.metrics mean_absolute_error
RMSE(Root Mean Squared Error): sklearn.metrics mean_squared_error

15차시 다중 회귀분석(Multiple Linear Regression)

전처리: pasty dmatrices
분산 팽창 계수(VIF): statsmodels.stats.outliers_influence variance_inflation_factor

16차시 분류: 로지스틱 회귀분석(Logistic Regression)

로지스틱 회귀분석: statsmodels.api Logit
로지스틱 회귀분석: sklearn.linear_model LogisticRegression
AUC(Area Under Curve): sklearn.metrics roc_auc_score
정확도: sklearn.metrics accuracy_score
f1: sklearn.metrics f1_score
정밀도: sklearn.metrics precision_score
재현율: sklearn.metrics recall_score

17차시 의사결정나무 모델: 분류 및 회귀나무

분류 나무(명목형 종속변수): sklearn.tree DecisionTreeClassifier
회귀 나무(연속형 종속변수): sklearn.tree DecisionTreeRegressor

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

part 1 데이터 전처리

part 2 통계

part 3 분석

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
README.md		README.md
ch03 python basic.ipynb		ch03 python basic.ipynb
ch04 Numpy, Pandas basic.ipynb		ch04 Numpy, Pandas basic.ipynb
ch05 Pandas isna fillna dropna quantile.ipynb		ch05 Pandas isna fillna dropna quantile.ipynb
ch06 np.where, pd.rename, pd.apply, pd.astype, pd.get_dummies.ipynb		ch06 np.where, pd.rename, pd.apply, pd.astype, pd.get_dummies.ipynb
ch07 Pandas reset_index, set_index, pd.concat, pd.merge.ipynb		ch07 Pandas reset_index, set_index, pd.concat, pd.merge.ipynb
ch08 pd.crosstab, sort_values, melt, pivot.ipynb		ch08 pd.crosstab, sort_values, melt, pivot.ipynb
ch09 scipy.stats ttest_1samp, ttest_rel, ttest_ind.ipynb		ch09 scipy.stats ttest_1samp, ttest_rel, ttest_ind.ipynb
ch10 scipy.stats f_oneway, statsmodels ols, anova_lm, pairwise_tukeyhsd.ipynb		ch10 scipy.stats f_oneway, statsmodels ols, anova_lm, pairwise_tukeyhsd.ipynb
ch11 scipy.stats f.cdf, bartlett, levene.ipynb		ch11 scipy.stats f.cdf, bartlett, levene.ipynb
ch12 scipy.stats chi2_contingency(pd.crosstab()).ipynb		ch12 scipy.stats chi2_contingency(pd.crosstab()).ipynb
ch13 pandas corr, scipy.stats pearsonr, spearmanr, kendalltau.ipynb		ch13 pandas corr, scipy.stats pearsonr, spearmanr, kendalltau.ipynb
ch14 statsmodels.formula.api ols sklearn.linear_model LinearRegression, sklearn.metrics mean_absolute_error, mean_squared_error.ipynb		ch14 statsmodels.formula.api ols sklearn.linear_model LinearRegression, sklearn.metrics mean_absolute_error, mean_squared_error.ipynb
ch15 patsy dmatrices, statsmodels.stats.outliers_influence variance_inflation_factor.ipynb		ch15 patsy dmatrices, statsmodels.stats.outliers_influence variance_inflation_factor.ipynb
ch16 statsmodels.api Logit, sklearn.linear_model LogisticRegression, sklearn.metrics roc_auc_score, accuracy_score, f1_score, precision_score, recall_score.ipynb		ch16 statsmodels.api Logit, sklearn.linear_model LogisticRegression, sklearn.metrics roc_auc_score, accuracy_score, f1_score, precision_score, recall_score.ipynb
ch17 sklearn.tree DecisionTreeClassifier, DecisionTreeRegressor.ipynb		ch17 sklearn.tree DecisionTreeClassifier, DecisionTreeRegressor.ipynb

JT-Kim89/05.python_ProDS_Associate

Folders and files

Latest commit

History

Repository files navigation

part 1 데이터 전처리

part 2 통계

part 3 분석

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages