R/02_clean.qmd

---
title: "02_clean"
format: html
editor: visual
---

```{r}
library(tidyverse)
```

```{r}
dat_load_01 <- read_tsv(
  file = '~/projects/Group_19_project/data/01_dat_load.tsv'
)
```

# Joining demonstration

Joining since we did not need to group together two data set. We won't use the joined data set for the rest of the project,

it is just a demonstration of our joining skills

## Addition of an observation ID

```{r}
dat_load_01 <- dat_load_01 |> 
  mutate(ID = row_number()) |> 
  relocate(ID)
  
```

## Separation of the dataset in two distinct datasets

```{r}
df_Etiology <- dat_load_01 |> # First dataset containing etiologies
  select(ID,
         cps,
         Alcohol,
         hcv,
         hbv,
         nafld,
         Cryptogenic,
         PrimarySclerosingCholangitis,
         Autoimmunehepatitis,
         pbc,
         Otherliverdiseaseetiology
         )

df_Comorbidities <- dat_load_01 |> # Second dataset containing comorbidities
  select(ID,
         mi,
         chf,
         pvd,
         Cerebrovasculardisease,
         Dementia,
         Chronicpulmonorydisease,
         Rheumatologicaldisease,
         Pepticulcerdisease,
         Anymalignancyincludinglymphomaor,
         Moderateorsevereliverdisease,
         aids
         )
```

## Joining the two datasets

```{r}
df_Etiology_and_Comorbidities <- left_join(df_Etiology, df_Comorbidities)
df_Etiology_and_Comorbidities
```

# Cleaning of the dataset

```{r}
dat_clean_02 <- dat_load_01 |> 
  # Selection of correct variable 
  select(Sex, 
         `Age(Decade)atadmission`,
         Liverrelateddiagnosis1, 
         Alcohol, 
         hcv, 
         hbv, 
         nafld, 
         Cryptogenic, 
         PrimarySclerosingCholangitis, 
         Autoimmunehepatitis, 
         pbc,
         mi,
         chf, 
         pvd, 
         Cerebrovasculardisease,
         Dementia, 
         Chronicpulmonorydisease, 
         Rheumatologicaldisease,
         Pepticulcerdisease,
         Mildliverdisease,
         Diabetes,
         Diabeteswithchroniccomplications,
         Heiplegiaorparaplegia,
         Renaldisease,
         Anymalignancyincludinglymphomaor, 
         Moderateorsevereliverdisease,
         Metastaticsolidtumor,
         aids, 
         cps, 
         Mortality_InHospital, 
         CHARLSON_CI,
         MORTALITY_30_DAYS_postDC, 
         MORTALITY_90_DAYS_postDC ) |> 
    
  # Create a general diabetes variable with and without chronic complications
  mutate(C_Diabetes_with_without_complications = Diabetes + 
           Diabeteswithchroniccomplications) |> 
  # Discard the previous diabetes variables
  select(-c(Diabetes, Diabeteswithchroniccomplications)) |> 
  
  # Change the name of variables 
  rename(Age = `Age(Decade)atadmission`, 
         Liver_disease = Liverrelateddiagnosis1, 
         E_Alcohol_consumption = Alcohol, 
         E_Hepatitis_c = hcv, 
         E_Hepatitis_b = hbv, 
         E_Non_alcoolic_fatty_LD = nafld, 
         E_Cryptogenic = Cryptogenic, 
         E_Primary_sclerosing_cholangitis =  PrimarySclerosingCholangitis, 
         E_Autoimmune_hepatitis = Autoimmunehepatitis, 
         E_Primary_biliary_cholangitis = pbc,
         C_Myocardial_infarction = mi, 
         C_Congestive_Heart_Failure = chf, 
         C_Peripheral_vascular_disease = pvd, 
         C_Cerebro_Vascular_disease = Cerebrovasculardisease, 
         C_Dementia = Dementia, 
         C_Chronic_pulmonary_disease = Chronicpulmonorydisease, 
         C_Rheumatological_disease = Rheumatologicaldisease,
         C_Pepticulcer_disease = Pepticulcerdisease, 
         C_Mild_liver_disease = Mildliverdisease, 
         C_Heiplegia_paraplegia = Heiplegiaorparaplegia, 
         C_Renal_disease = Renaldisease, 
         C_Malignancy = Anymalignancyincludinglymphomaor, 
         C_Moderate_severe_liver_disease = Moderateorsevereliverdisease, 
         C_Metastatic_solid_tumor = Metastaticsolidtumor, 
         C_AIDS = aids, 
         CPS = cps, 
         Mortality_hospital = Mortality_InHospital, 
         Charlson_CI = CHARLSON_CI, 
         Mortality_30_days = MORTALITY_30_DAYS_postDC, 
         Mortality_90_days = MORTALITY_90_DAYS_postDC, 
         ) |> 

  # Reordering columns 
  relocate(C_Diabetes_with_without_complications, .after = C_AIDS) |> 
  relocate(Charlson_CI, .after = CPS) |> 

  # Add a column "C_none"
  mutate(C_None = (C_AIDS == 0) &
        (C_Cerebro_Vascular_disease ==0)&
        (C_Congestive_Heart_Failure == 0) &
        (C_Chronic_pulmonary_disease == 0) & 
        (C_Dementia == 0) &
        (C_Diabetes_with_without_complications == 0) & 
        (C_Heiplegia_paraplegia == 0) & 
        (C_Malignancy == 0) &
        (C_Myocardial_infarction == 0) &
        (C_Mild_liver_disease == 0) & 
        (C_Moderate_severe_liver_disease == 0) & 
        (C_Metastatic_solid_tumor == 0) & 
        (C_Pepticulcer_disease == 0) & 
        (C_Peripheral_vascular_disease == 0) & 
        (C_Rheumatological_disease == 0) & 
        (C_Renal_disease == 0)
      ) |> 


  # Change numerical (1/0) into categorical (Yes/No)
  mutate_at(vars(starts_with('C_')), ~ifelse(. == 1, 'Yes', 'No')) |> 
  mutate_at(vars(starts_with('E_')), ~ifelse(. == 1, 'Yes', 'No')) |> 
  mutate_at(vars(starts_with('Mortality')), ~ifelse(. == 1, 'Yes', 'No')) |> 


  # If mortalityH = yes -> Mortality 30&90 = no 
  mutate_at(vars(c(Mortality_30_days, Mortality_90_days)), 
           ~ifelse(Mortality_hospital == 'Yes', 'No', .)) |> 
  # If mortality30 = yes -> mortality90 = no   
  mutate_at(vars(Mortality_90_days), 
            ~ifelse(Mortality_30_days == 'Yes', 'No', .)) |>
  
  # Create a id for each ind 
  mutate(Id = row_number()) |>
  relocate(Id, .before = Sex) |>
  relocate(C_None, .before = CPS) |>

  # Getting rid of observations with NA values: data set goes from 733 patients 
  # to 468 patients which is still acceptable 
  drop_na(CPS) |> 
  drop_na(Sex) |> 
  drop_na(Mortality_hospital) |> 
  drop_na(Mortality_30_days) |> 
  drop_na(Mortality_90_days)
 
dat_clean_02
```

## Tidying of the data using pivot_longer - Only tidying the comorbidities

Tidying only comorbidities to be able to count them properly in 04_describe

```{r}
dat_tidy_C_02 <- dat_clean_02 |>
  # Create a column Comorbidities using the pivot_longer (one column /
  # one line / one observation)
  pivot_longer(
    cols = starts_with("C_"), 
    names_to = "Comorbidities", 
    values_to = "Presence_of_comorbidities",
    values_drop_na = TRUE) |> 
  filter(Presence_of_comorbidities == 'Yes') |> 
  select(-Presence_of_comorbidities) |> 
  mutate(Comorbidities = str_remove(Comorbidities, "C_"))

dat_tidy_C_02 
```

## Tidying of the data using pivot_longer - Only tidying the etiologies

```{r}
dat_tidy_E_02 <- dat_clean_02 |>
  pivot_longer(
    cols = starts_with("E_"), 
    names_to = "Etiologies", 
    values_to = "Presence_of_etiologies",
    values_drop_na = TRUE) |> 
  filter(Presence_of_etiologies == 'Yes') |> 
  select(-Presence_of_etiologies) |> 
  mutate(Etiologies = str_remove(Etiologies, "E_"))
```

## Tidying of the data using pivot_longer

```{r}

dat_tidy_02 <- dat_clean_02 |>
  # Create a column Comorbidities using the pivot_longer (one column /
  # one line / one observation)
  pivot_longer(
    cols = starts_with("C_"), 
    names_to = "Comorbidities", 
    values_to = "Presence_of_comorbidities",
    values_drop_na = TRUE) |> 
  
  # Create a column Etiology
  pivot_longer(
    cols = starts_with("E_"), 
    names_to = "Etiologies", 
    values_to = "Presence_of_etiologies",
    values_drop_na = TRUE) |> 
  
  # Only select the patients that have comorbidity + the one that have 
  #C_none = Yes
  filter(Presence_of_comorbidities == 'Yes') |> 
  select(-Presence_of_comorbidities) |> 
  filter(Presence_of_etiologies == 'Yes') |> 
  select(-Presence_of_etiologies) |> 
  
  # Change the name of the observations to make it more digest
  mutate(Comorbidities = str_remove(Comorbidities, "C_")) |> 
  mutate(Etiologies = str_remove(Etiologies, "E_"))

dat_tidy_02
```

## Save data in the folder "data"

```{r}
write_tsv(
  x= dat_clean_02, 
  file = '~/projects/Group_19_project/data/02_dat_clean.tsv'
  )
```

```{r}
write_tsv(
  x= dat_tidy_02, 
  file = '~/projects/Group_19_project/data/02_dat_tidy.tsv'
  )
```

```{r}
write_tsv(
  x= dat_tidy_C_02, 
  file = '~/projects/Group_19_project/data/02_dat_tidy_C.tsv'
  )
```

```{r}
write_tsv(
  x= dat_tidy_E_02, 
  file = '~/projects/Group_19_project/data/02_dat_tidy_E.tsv'
  )
```

```{r}
write_tsv(
  x= df_Etiology, 
  file = '~/projects/Group_19_project/data/02_df_E.tsv'
  )
```