El grupo DatalabUsal 2018 explorará distintas técnicas Machine Learning con una base de datos de pacientes de corazón.
Cada participante/grupo escogera una técnica de clasificación/regresión para ajustar un modelo con los datos train.csv y lo aplicará sobre los datos test.csv.
El participante/grupo explicará al resto de componentes de qué se trata la técnica de Machine Learning así como el ejemplo aplicado a la base de datos.
Cada participante obtendrá un certificado acreditando su participación como el haber dado una charla sobre la técnica en concreto.
Aquel participante/grupo que obtenga el mejor ajuste se llevará una mención honorífica en su certificado.
- (age) edad en años
- (sex) sexo (1 = masculino; 0 = femenino)
- (cp) dolor de pecho
- Valor 1: angina típica
- Valor 2: angina atípica
- Valor 3: dolor no relacionado con angina
- Valor 4: asintomático
- (trestbps) presión sanguínea en el momento de ingresar (mm Hg momento de admisión)
- (chol) colesterol serum (mg/dl)
- (fbs) (nivel de azúcar en ayunas > 120 mg/dl) (1 = verdadero; 0 = falso)
- (restecg) resultados del electrocardiograma
- Valor 0: normal
- Valor 1: onda ST-T anormal (inversiones de la onda T y/o elevación o depresión ST de > 0.05 mV)
- Valor 2: hipertropia probable o definitiva del ventrículo izquierdo (criterio Estes)
- (thalach) frecuencia cardíaca máxima alcanzada
- (exang) ejercicio induce angina (1 = sí; 0 = no)
- (oldpeak) depresión ST inducida por ejercicio relativo a reposo
- (slope) pendiente del segmento ST (pico de ejercicio)
- Value 1: pendiente positiva
- Value 2: sin pendiente
- Value 3: pendiente negativa
- (ca) número de vasos principales (0-3) coloreados por fluoroscopia
- (thal) 3 = normal; 6 = defecto fijo; 7 = defecto reversible
- (num) diagnosis enfermedad corazón (estado post-angiografía)
- Valor 0: < 50% estrechamiento del diámetro * Valor >=1: > 50% estrechamiento del diámetro
¡Ojo! num está categorizado de 0-4 según el grado de estrechamiento 0 (no enfermo) 1-2-3-4 (enfermo) La idea es clasificar enfermo/no enfermo. Sin embargo, si tenéis tiempo podéis clasificar los 5 grupos.
Cada participante deberá crear una carpeta con el nombre del algoritmo que haya usado para ajustar el modelo.
En la carpeta existirán tres archivos:
- Jupyter notebook explicando cómo ha desarrollado el modelo.
- Archivo test con las soluciones.
Ejemplo: Si has usado el modelo Modelo_ejemplo
deberás crear una carpeta con el mismo nombre. En la misma existirá un Jupyter notebook (el nombre del mismo tiene que coincidir con el modelo) y por último un archivo test.csv igual que el que se adjunta en data
añadiendo una columna num
con los resultados (1/0 únicamente) y una columna prob
con la probabilidad de que esté enfermo el paciente.
Una vez creada la carpeta y habiendo introducido los elementos explicados anteriormente. Procede a hacer merge
de tu rama.
-
REGRESIÓN LOGÍSTICA
- accuracy_score > 0.79487179487179482
- True Negatives > 14
- True Positives > 17
- False Negatives > 7
- False Positives > 1
- Log_loss > 0.638
-
SVM
- accuracy_score > 0.71794871794871795
- True Negatives > 13
- True Positives > 15
- False Negatives > 9
- False Positives > 2
- Log_loss > 1.405