์กฐ์ํ / ๊น์ ์ง / ์ด์ํ
โโ โ
. ํ๋ก์ ํธ Concept ๋ฐ ๋ถ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์๊ฐ
โโ โ
ก. ํ๋ก์ ํธ ๋ฐฉํฅ
โโ โ
ข. DataSets & ๋ถ์๋ณ์
โโ โ
ฃ. Data ์ ์ฒ๋ฆฌ (dataset ์ ๋ณด ๋ฐ ๊ฐ๊ณต)
โโ โ
ค. Machine-Learning (Model ์ ๋ณด)
โโ โ
ฅ. ์ต์ข
Model
โโ โ
ฆ. ์๋น์คํ
[ํ๊ฒฝ์ ์์ธ(์ํ์ต๊ด) ๋น๋จ ์์ธก]
import pandas
import numpy
import sklearn
import streamlit
import joblib
import wordcloud
ย ย ย โ ์ท์ฅ์ ๋ฒ ํ์ธํฌ ์ ์ ์ ๊ฒฐํจ
ย ย ย โ ์ธ์๋ฆฐ ์์ฉ์ฒด ์ ์ ์ ๊ฒฐํจ
ย ย ย โ ์ธ์๋ฆฐ ์์ฉ๋ ฅ์ ๊ฐ์์ํค๋ ์ ์ ์
ย ย ย โ ์คํธ๋ ์ค
ย ย ย โ ๋
ธํ
ย ย ย โ ๋น๋ง์ฆ
ย ย ย โ ์ด๋๋ถ์กฑ
ย ย ย โ ๊ฐ์ผ
ย ย ย โ ์ธ์
ย ย ย โ ์์
ย ย ย โ ์์ ๋ฐ ์ฝ๋ฌผ
ย ย ย โ ๋์ ์์ํ
-
- [NHIS_2018] https://www.cdc.gov/nchs/nhis/nhis_2018_data_release.htm
- Sample Adult file : samadult.csv, familyxx.csv
-
- ๋ถ์ํ ์ปฌ๋ผ์ ์ถ๋ ค๋ด๊ธฐ ์ํด ๊ฒฐ์ธก์น ๊ฐ์ fillna()ํจ์ ์ฌ์ฉ -> 0์ผ๋ก ๋์ฒด
# ๋น๋จ๋ณ ๋ถ์ ๋ณ์ ์ ์
import pandas as pd
df_a = pd.read_csv('samadult.csv')
df_a = df_a[['SEX','AGE_P','R_MARITL','DIBEV1','HYPEV','PREGNOW','DEP_2','AFLHCA18','BMI',
'AFLHC29_','AFLHC31_','AFLHC32_','AFLHC33_','SMKEV','ALC1YR','CHLEV','VIGNO',
'AUSUALPL','ASICNHC','HIT1A']]
-
- ํ๊ฒฝ, ์ํ ์์ธ์ ๋ฐ๋ผ ๋น๋จ ๋ฐ๋ณ๋ฅ ์ ์ํฅ์ ์ค ๊ฒ์ด๋ผ ํ๋จ
- ์ฑ๋ณ, ์ฐ๋ น ๋ฑ ์ธ๊ตฌํต๊ณํ์ ์์ธ ํฌํจํ ํ๊ฒฝ ์์ธ๋ณ ๋น๋จ ์์ธก์ ์งํ
- ๊ธฐ๋ณธ ๋ฐ์ดํฐํ๋ ์ ์์ฑ
- EDA (ํ์์ ๋ฐ์ดํฐ ๋ถ์)
- ์ค๋ฌธ ๋ต๋ณ 1/2๋ก ์ ํํ
- null๊ฐ ๋ฐ ์ด์์น ๋ฐ์ดํฐ ์ ์
- ์ปฌ๋ผ๋ช
์ฌ๊ตฌ์ฑ
- df_01, df_02, df_03, df_04, df_05, df_06์ผ๋ก ์ฌ๊ตฌ์ฑ
- ์ค์ผ์ผ๋ง ๋ฐ ๋ฐ์ดํฐ csv ์ ์ฅ
- one-hot encoding
- _1 ๋์ _yes๋ก ๋ณ๊ฒฝ
- SVC
- Decisiontree
- KNN
- Adaboost
- Naivebayes
- Randomforest
- XGBoost
- Adaboost