04_preprocess.Rmd

# データ編集

- サンプルデータで実行例を示す

## 列の追加

### mutate

- https://kazutan.github.io/kazutanR/hands_on_170730/mutate.html

```{r mutate}
drug2 <- mutate(drug, dose_amount_2 = dose_amount * 2)
drug2
```

### add_column

- 指定の位置に列を追加

```{r add_column}
drug %>% 
  add_column(new_var = "value", .before = "id")
```

### 複数の列から最大や最小を求める

- maxやminは基本列方向にしか働かないためrowwiseを使う
- よりよい書き方ありますか?

```{r rowwise}
df <- disease %>% 
  rename(date_dis = date) %>%  # 列名重複を避ける為に変更しておく
  inner_join(drug, "id") %>%  # 結合
  rowwise() %>% 
  mutate(date_max = max(date, date_dis, na.rm = TRUE)) # NAは除外
```

### 条件分岐

- if_else()
- case_when()

### ビニング
```{r}
# mutate(bmigp = case_when(bmi < 25 ~ 1, 25 <= bmi & bmi < 30 ~ 2, 30 <= bmi ~ 3))
# mutate(bmigp=cut(bmi, c(0, 25, 30, 40), labels=c(“nwt”, “owt”, “obese”), LEFT =FALSE))
```

### 1行ずらす

- lag()
- lead()

## 列の編集

### mutate

- mutateで既存の列を指定すれば上書きになる

```{r mutate_same_col}
drug2 <- mutate(drug, dose_amount = as.character(dose_amount))
```

### mutate, across

- 制作中

## 列の選択

- selectを使う
- 列番号または列名による指定が可能

```{r select}
drug2 <- drug %>% 
  select(1, 3)
drug2 <- drug %>% 
  select(id, atccode)
```

## 列の削除

- selectで「!」を使うと削除になる
- 列番号または列名による指定が可能

```{r remove}
drug2 <- drug %>% 
  select(!2, !4)
drug2 <- drug %>% 
  select(!id, !atccode)
```

### 列名が重複してる場合

- 列名が重複してるデータをもらった場合、select等で列名を指定することができない
- `tibble::repair_names()`を使うと列名の重複を解消してくれる

## 列の入替

- 列番号または列名による指定が可能

```{r replace3}
patient2 <- patient %>% 
  select(2, 3, 1)
patient2 <- patient %>% 
  select(gender, start_date, id)
```

## 列名関連

## 列名確認

```{r colnames}
colnames(patient)
```

### 一部変更

```{r rename}
patient2 <- patient %>% 
  rename(patientid = id)
```

### 全体変更

```{r set_colnames}
patient2 <- patient %>% 
  set_colnames(c("col1", "col2", "col3"))
```

## 列の作成・選択・入替・名前変更を一括で

- transmuteを使うと上記の作業を一行で書くことができる

```{r transmute}
patient2 <- patient %>% 
  transmute(gender, patientid = id)
```

## 並べ替え

- 複数の列をキーにして並べ替えることもできる

```{r arrange}
patient2 <- patient %>% 
  arrange(start_date)
```

## 条件によるフィルタ

```{r filter}
# idが1の患者み
patient2 <- patient %>% 
  filter(id == 1)

# idが5以下の患者のみ
patient2 <- patient %>% 
  filter(id <= 5)

# genderがMの患者のみ
patient2 <- patient %>% 
  filter(gender == "M")
```

## その人のx番目の行を取得

- row_number()を使う

```{r}
disease2 <- disease %>% 
  group_by(id) %>% 
  filter(row_number() == 2) %>%   # ここの数字を変えてx番目の行を取得
  ungroup()
```

## その人の上からx番目の行を取得

- `row_number()`の例を不等号に変えればできるが、`top_n()`の例を示す

```{r}
disease2 <- disease %>% 
  group_by(id) %>% 
  top_n(2, date) %>%   # ここの数字を変えて1~x番目の行を取得
  ungroup()
```

## 特定のデータフレームの列に含まれる行を抽出

- `filter`と`%in%`か、`semi_join`を使う

```{r semi_join}
# 一例としてデータフレームを作成する
df <- data.frame(id = c(1, 3, 5), var = c("a", "b", "c"))

patient2 <- filter(patient, id %in% df$id)
patient2 <- semi_join(patient, df, "id")
```

## 特定のデータフレームの列に含まれない行を抽出

- `filter`と`%in%`か、`anti_join`を使う

```{r anti_join}
# 一例としてデータフレームを作成する
df <- data.frame(id = c(1, 3, 5), var = c("a", "b", "c"))

patient2 <- filter(patient, !(id %in% df$id))
patient2 <- anti_join(patient, df, "id")
```

## 重複削除

- 初回処方日や初診断月の特定に用いることが多い

### distinct

```{r distinct}
drug2 <- drug %>% 
  distinct(id, .keep_all = TRUE)
```

### first

```{r first}
drug2 <- drug %>% 
  group_by(id) %>% 
  first() %>% 
  ungroup()
```

## データを縦に結合

```{r bind_rows}
patient2 <- bind_rows(patient, patient)
```
  
## データを横に結合

```{r bind_cols}
patient2 <- bind_cols(patient, patient)
```

## マッチしたデータを横に結合

- 基本的にleft_joinとinner_joinが使えればOK
- 使い分けについては以下URLなどを参考に
- https://qiita.com/matsuou1/items/b1bd9778610e3a586e71

```{r left_join}
df <- left_join(patient, disease, "id")
```
  
```{r inner_join}
df <- inner_join(patient, disease, "id")
```

- 2つのデータで同名の列があると接尾に「.x」と「.y」がつくが、suffixを使うと自分で指定できる

```{r}
df <- inner_join(drug, disease, "id", suffix = c("_drug", "_disease"))
```

## 部分一致

### 文字列一致判定

- str_detect()

### 文字列置換

- str_replace(), str_replace_all()
- https://qiita.com/kazutan/items/0b690961d4516e48f6c0

### 文字列削除

- str_remove()

## 正規表現
  
## 欠損値

- https://qiita.com/five-dots/items/361a42baf1e94edf5846