diff --git a/learning-objectives/data.yml b/learning-objectives/data.yml
index 78991f429..69319c388 100644
--- a/learning-objectives/data.yml
+++ b/learning-objectives/data.yml
@@ -483,12 +483,18 @@ ai-prompting:
- priming-chatbots
- open-ai-api
-data-analytics:
- - data-preparation
- - data-exploration
- - data-analysis
- - analysis-report
+data-analytics:
- analysis-presentation
+ - looker-studio:
+ - data-preparation
+ - data-exploration
+ - data-analysis
+ - analysis-report
+ - power-bi:
+ - data-preparation
+ - data-exploration
+ - data-analysis
+ - analysis-report
devops:
- computing-cloud-services:
diff --git a/learning-objectives/intl/es.yml b/learning-objectives/intl/es.yml
index d123676ef..d2f44114f 100644
--- a/learning-objectives/intl/es.yml
+++ b/learning-objectives/intl/es.yml
@@ -2099,7 +2099,31 @@ data-analytics:
title: Análisis de datos
description: Validar hipótesis mediante el análisis de los datos, y proporcionar recomendaciones estratégicas basadas en tus hallazgos
-data-analytics/data-preparation:
+data-analytics/analysis-presentation:
+ title: Presentar Resultados
+ description: Presentar Resultados
+ links:
+ - title: Concepto presentar resultados
+ url: https://docs.google.com/document/d/10Xabbxk7WxojFAdncs3YSc4wSCLihw0LUOOqxijGdMc/edit?usp=sharing
+ - title: Que es Data Storytelling
+ url: https://www.youtube.com/watch?v=NDs2BXgvzPc
+ - title: Diferentes formas de presentar una misma información
+ url: https://www.youtube.com/watch?v=2vWT6hmnVVg
+ - title: Video sobre como crear presentaciones en Google Slides
+ url: https://www.youtube.com/watch?v=T8Fs-zkIX3I
+ - title: Compartir presentación para trabajar en conjunto
+ url: https://www.loom.com/share/3220709262c142d4a0214cfc09856dcc?sid=b00df098-70e9-4a2a-89c7-e68b265ed588
+ - title: Artículo sobre presentar datos
+ url: https://apolitical.co/solution-articles/es/presentar-datos-5-consejos-hacer-datos-comprensibles
+ - title: Artículo sobre presentar datos
+ url: https://vilmanunez.com/como-hacer-una-presentacion-de-resultados/
+ - title: Video tips para una presentación
+ url: https://www.youtube.com/watch?v=MPW6Ak3dxWc&t=157s
+
+data-analytics/looker-studio:
+ title: Google Looker Studio
+
+data-analytics/looker-studio/data-preparation:
title: Cargar información a una base de datos
description: Cargar información a una base de datos
links:
@@ -2166,7 +2190,7 @@ data-analytics/data-preparation:
- title: Cómo utilizar comando WITH y para qué sirve
url: https://www.loom.com/share/8e2f6f70db214e2484af45375539d8e9?sid=222c7e6d-1ff5-430a-ab28-64c025f34ebf
-data-analytics/data-exploration:
+data-analytics/looker-studio/data-exploration:
title: Hacer un análisis exploratorio
description: Hacer un análisis exploratorio
links:
@@ -2203,42 +2227,152 @@ data-analytics/data-exploration:
- title: Cómo calcular correlación en BigQuery
url: https://www.loom.com/share/9bf3e48cf57d48ca9c81c2c19562dedf?sid=c4c8a611-d0ae-4c4f-a2f5-200ce48746f4
-data-analytics/data-analysis:
+data-analytics/looker-studio/data-analysis:
title: Aplicar técnica de análisis
description: Aplicar técnica de análisis
links:
- title: Gráfico de dispersión
url: https://www.youtube.com/watch?v=gX-vNQVSYSM&t=477s
-data-analytics/analysis-report:
+data-analytics/looker-studio/analysis-report:
title: Resumir información en un dashboard o reporte
description: Resumir información en un dashboard o reporte
links:
- title: Como crear scorecards (tarjeta de resultados) en Looker Studio
url: https://www.youtube.com/watch?v=D09zovxBXWs
- - title: Ffiltros en Looker Studio
+ - title: Filtros en Looker Studio
url: https://www.youtube.com/watch?v=HZMZcNf1jdk
-data-analytics/analysis-presentation:
- title: Presentar Resultados
- description: Presentar Resultados
+data-analytics/power-bi:
+ title: Power BI
+
+data-analytics/power-bi/data-preparation:
+ title: Cargar información a una base de datos
+ description: Cargar información a una base de datos
links:
- - title: Concepto presentar resultados
- url: https://docs.google.com/document/d/10Xabbxk7WxojFAdncs3YSc4wSCLihw0LUOOqxijGdMc/edit?usp=sharing
- - title: Que es Data Storytelling
- url: https://www.youtube.com/watch?v=NDs2BXgvzPc
- - title: diferentes formas de presentar una misma información
- url: https://www.youtube.com/watch?v=2vWT6hmnVVg
- - title: Video sobre como crear presentaciones en Google Slides
- url: https://www.youtube.com/watch?v=T8Fs-zkIX3I
- - title: Compartir presentación para trabajar en conjunto
- url: https://www.loom.com/share/3220709262c142d4a0214cfc09856dcc?sid=b00df098-70e9-4a2a-89c7-e68b265ed588
- - title: Artículo sobre presentar datos
- url: https://apolitical.co/solution-articles/es/presentar-datos-5-consejos-hacer-datos-comprensibles
- - title: Artículo sobre presentar datos
- url: https://vilmanunez.com/como-hacer-una-presentacion-de-resultados/
- - title: Video tips para una presentación
- url: https://www.youtube.com/watch?v=MPW6Ak3dxWc&t=157s
+ - title: Mini curso BigQuery
+ url: https://coda.io/d/Curso-Google-BigQuery_dhocNT3PUIE/Introduccion_su3UO#_luO8s
+ - title: Cómo empezar con BigQuery (sandbox - versión gratuita)
+ url: https://cloud.google.com/bigquery/docs/sandbox?hl=es-419
+ - title: Qué es BigQuery
+ url: https://www.youtube.com/watch?v=RxKtIicl8r0
+ - title: Cómo crear un Project, Dataset y cargar tabla en BigQuery
+ url: https://www.youtube.com/watch?v=BN8WAOtJ4CY
+ - title: Concepto valores nulos
+ url: https://docs.google.com/document/d/1AJRLPg2SWLvC1pnGOz-f1SNZXH1X63x2xWlquDBtlmE/edit?usp=sharing
+ - title: versión en audio
+ url: https://drive.google.com/file/d/1Y88gJEBdorDMRoEjnIUJNyI4G0LLAaGk/view?usp=drive_link
+ - title: Qué es una consulta (query)
+ url: https://docs.google.com/document/d/1upi7Ashq_wro02zjMjnQlWgivQ9gsQWIy8q9pLm9WZ4/edit
+ - title: Cómo guardar queries
+ url: https://www.loom.com/share/461b7c3f07214d7897b68890c1389b77?sid=9c6d46b2-5ff6-4a60-823b-c976f535a18d
+ - title: Cómo idenficar nulos usando COUNT, WHERE y IS NULL
+ url: https://www.loom.com/share/3ae5d6e7f500405f95e8f1a110413a35?sid=c44c44d8-7caa-4da4-9261-03f6fd92348c
+ - title: Concepto valores duplicados
+ url: https://docs.google.com/document/d/1jXm4s7b17eObHd8sMvJSGwWi1YzdG_VZq56Xooy5Ioo/edit?usp=sharing
+ - title: versión en audio
+ url: https://drive.google.com/file/d/1TbKPSvocksk33eFg42lHf3kD8Y3NuzsN/view?usp=drive_link
+ - title: Cómo identificar duplicados a través de GROUP BY y HAVING (Ve también la diferencia entre los comandos WHERE y HAVING)
+ url: https://www.loom.com/share/0bd5d25a7e634bd39012f5bd913e3a3b?sid=507743b7-ee30-4c68-8756-a344798cad32
+ - title: Concepto valores fuera del alcance
+ url: https://docs.google.com/document/d/1-SsxH5Ke3qAaWg5YKrkRwkExd91Q0RdJGplLAiXPiYA/edit?usp=sharing
+ - title: versión en audio
+ url: https://drive.google.com/file/d/1Z963-z4MCiRRjt5RZF75oH_CH1BqDNrO/view?usp=drive_link
+ - title: Cómo utilizar EXCEPT para selecionar variables
+ url: https://www.loom.com/share/2fa18d5cfd33403faaa794a2b08671f1?sid=2d16f30b-a26c-4d3c-bfd8-88ba7c664f25
+ - title: Cómo utilizar comandos LIKE y REGEXP
+ url: https://www.loom.com/share/3f7bb1362d5947ecb8c83e6f0690a4a5?sid=76f52b28-efb3-4991-b4c1-bd288bd4e805
+ - title: Documentación Google sobre String Functions
+ url: https://cloud.google.com/bigquery/docs/reference/standard-sql/string_functions
+ - title: Concepto variables categóricas
+ url: https://docs.google.com/document/d/1BIqa7xR0JNadM9kQExypo3plnwrNia92zCuxkPuMj5A/edit?usp=sharing
+ - title: Concepto variables categóricas (versión en audio)
+ url: https://drive.google.com/file/d/13gQ6Ni9FUfDmi5bjQivjeKj04fAI8Gl2/view?usp=drive_link
+ - title: Video sobre tipos de variables
+ url: https://www.loom.com/share/afa56686810e46309761bc889364b2d9?sid=cabf587c-7ba1-4419-b501-32c98a73e191
+ - title: Identificar valores discrepantes en variables numéricas con MAX, MIN y AVG
+ url: https://www.loom.com/share/4fb40d01dddf4e3cbf981029ed08613a?sid=5e46b20b-5ea4-47c4-a808-99969a369431
+ - title: Concepto variables numéricas
+ url: https://docs.google.com/document/d/1oTn46djgWYlhcY9_Ak9H2edY2_rR8gpJco66njPwkCc/edit?usp=sharing
+ - title: Tipos de datos en SQL
+ url: https://docs.google.com/document/d/1z0evGu8JtjDPuFlH1pkbqYR6scRwukPfwWKJ-KmZRmI/edit?usp=sharing
+ - title: Tipos de datos en SQL
+ url: https://www.youtube.com/watch?v=A1tZ-d2uxws
+ - title: Cambiar tipo de dato con CAST
+ url: https://www.loom.com/share/dfca15dd59084f83a1343eb476c71e96?sid=5ffd1896-5cf2-4ad5-88dc-741152483c45
+ - title: Concepto crear nuevas variables
+ url: https://docs.google.com/document/d/1yp5MVB8iirIbYwptscJ4YrjsY4Bnd8mrsDB75Onun2s/edit?usp=sharing
+ - title: versión en audio
+ url: https://drive.google.com/file/d/15P7Gp4_F_EOasIgW7SUhK8bf0MIDD6K8/view?usp=drive_link
+ - title: Como crear nuevas variables con CONCAT y operaciones matemáticas
+ url: https://www.loom.com/share/65e15aa134c545bc9cfdc6b88bc2ae78?sid=46988f46-bcc0-471f-b89e-55c7ffe953b5
+ - title: Tipos de JOIN en SQL
+ url: https://www.youtube.com/watch?v=HDBdAIcqJQo
+ - title: Diferencia entre VIEW y CREATE TABLE
+ url: https://www.loom.com/share/97dbe237b9de459baa4d788f8bb44502?sid=e2168d4f-a8ff-44e4-b3f0-55e72596350a
+ - title: Cómo utilizar comando WITH y para qué sirve
+ url: https://www.loom.com/share/8e2f6f70db214e2484af45375539d8e9?sid=222c7e6d-1ff5-430a-ab28-64c025f34ebf
+
+data-analytics/power-bi/data-exploration:
+ title: Hacer un análisis exploratorio
+ description: Hacer un análisis exploratorio
+ links:
+ - title: Concepto variables categóricas
+ url: https://docs.google.com/document/d/1BIqa7xR0JNadM9kQExypo3plnwrNia92zCuxkPuMj5A/edit?usp=sharing
+ - title: versión en audio
+ url: https://drive.google.com/file/d/13gQ6Ni9FUfDmi5bjQivjeKj04fAI8Gl2/view?usp=drive_link
+ - title: Video sobre tipos de variables
+ url: https://www.loom.com/share/afa56686810e46309761bc889364b2d9?sid=cabf587c-7ba1-4419-b501-32c98a73e191
+ - title: Link para download de Power BI Desktop
+ url: https://www.microsoft.com/en-us/download/details.aspx?id=58494
+ - title: Video download y instalación de Power BI
+ url: https://www.youtube.com/watch?v=8lkZKeNdLWU
+ - title: Cómo empezar con Power BI
+ url: https://www.youtube.com/watch?v=L74STt9hnu4
+ - title: Conectar datos de bigquery a Power BI
+ url: https://www.loom.com/share/eebef73c37fc47bda21576f0d300841e
+ - title: Cómo crear una tabla matrix en Power BI
+ url: https://www.youtube.com/watch?v=m2N7SXEj_9w
+ - title: Cómo crear gráficos en Power BI
+ url: https://www.youtube.com/watch?v=gNEgfp_HRWM
+ - title: Gráficos de barras o columnas en Power BI
+ url: https://www.youtube.com/watch?v=m7_6SHPovvY
+ - title: Concepto estadísticas descriptivas
+ url: https://docs.google.com/document/d/13xu7cf5LcUN2CE58qwyZoNrhS713Ci0tI9S1odeapig/edit?usp=sharing
+ - title: 🔈 Concepto estadísticas descriptivas (versión en audio)
+ url: https://drive.google.com/file/d/1v6xdtWci7rYtMKibGowl9OxBArT3CVnI/view?usp=drive_link
+ - title: Concepto medidas de tendencia central
+ url: https://docs.google.com/document/d/1Ly_7zLmUjcczqCkQLQwvDYEGyRLtSNQLVi3w8CIh8sI/edit?usp=sharing
+ - title: 🔈 Concepto medidas de tendencia central (versión en audio)
+ url: https://drive.google.com/file/d/1viy63m4n8Gn9aYHNuLJpd8RzFrTNnlw2/view?usp=drive_link
+ - title: Cómo crear una tabla con promedio y mediana en Power B
+ url: https://www.loom.com/share/67c7d22e0898482683654f1f6c53e41a?sid=e25d3fda-ee49-4d94-ab44-099785f33a9c
+ - title: Concepto Medidas de dispersión
+ url: https://docs.google.com/document/d/1a5N-8fV3X8pnhdRyXVcG293zJn2eL16KBhy-7NCExRI/edit?usp=sharing
+ - title: Concepto desviación estándar
+ url: https://docs.google.com/document/d/17OhF8RkTQxgwbDZtBphXd-nd9hXDrkylHGaF7ylezPo/edit?usp=sharing
+ - title: Desviación estándar en Power BI
+ url: https://www.loom.com/share/551494bd11124dd8ad4ca751ad47ab91
+ - title: Concepto correlación de Pearson
+ url: https://docs.google.com/document/d/1HvuENDveavTmlRtSGk3Gv3LqSPNbRPWNYgOU8e3CxTM/edit?usp=sharing
+ - title: Cómo calcular correlación en BigQuery
+ url: https://www.loom.com/share/9bf3e48cf57d48ca9c81c2c19562dedf?sid=c4c8a611-d0ae-4c4f-a2f5-200ce48746f4
+
+data-analytics/power-bi/data-analysis:
+ title: Aplicar técnica de análisis
+ description: Aplicar técnica de análisis
+ links:
+ - title: Como crear un scatter plot en Power BI
+ url: https://www.loom.com/share/91adb4a427124fde8013d305a3d6111c?sid=114cf627-5d35-42d4-851b-147600e84e43
+
+data-analytics/power-bi/analysis-report:
+ title: Resumir información en un dashboard o reporte
+ description: Resumir información en un dashboard o reporte
+ links:
+ - title: Como crear scorecards en Power BI
+ url: https://www.loom.com/share/a8b4a6e43317415abc02049f7923e785?sid=b69d56f7-6f63-4e18-81bc-71abc1aff667
+ - title: Cómo incluir filtros en Power BI
+ url: https://www.loom.com/share/bcd20fecbf2b4298bd1419648189bc3e?sid=74ced7af-c3bc-4844-8b26-8e46732a8adc
# New UX OAs since UXD006
#--- skill Project framing
diff --git a/projects/05-artist-launch/LookerStudio.md b/projects/05-artist-launch/LookerStudio.md
new file mode 100644
index 000000000..8be340271
--- /dev/null
+++ b/projects/05-artist-launch/LookerStudio.md
@@ -0,0 +1,352 @@
+# Looker Studio
+
+## 1. Plan detallado de trabajo
+
+En la siguiente imagen se describe el plan de trabajo detallado
+que seguiremos.
+
+![image](https://drive.google.com/file/d/1Yftgpw7uL0AIBMkuu6XDS9Wta3yHbe-J/view)
+
+### ⬜ Paso 0. Preparación
+
+#### 0.1 Herramientas y/o plataformas
+
+En este proyecto vas a utilizar una herramienta de Google llamada
+BigQuery, para el manejo de los datos, y una herramienta llamada
+Looker Studio para la visualización de los datos:
+
+* BigQuery
+* Looker Studio
+
+#### 0.2 Lenguajes
+
+Utilizarás el lenguaje SQL en BigQuery . Nota la
+diferencia entre “lenguaje” (SQL) y “herramienta” (BigQuery), en la sección de
+recursos de cada meta encontrarás cursos de SQL que pueden ayudarte a comprender
+estos lenguajes y cómo usarlos en estas herramientas.
+
+#### 0.3 Insumos
+
+Este conjunto de datos contiene datos sobre las canciones más
+reproducidas en Spotify en 2023. Los datos se dividen en 3 tablas, la
+primera sobre el rendimiento de cada canción en Spotify, la segunda con
+el rendimiento en otras plataformas como Deezer o Apple Music, y la
+tercera con las características de estas canciones.
+
+El conjunto de datos está disponible para download en este enlace
+[dataset](https://storage.cloud.google.com/bootcamp-assets/projects/05-artist-launch/spotify_2023.zip),
+ten en cuenta que es un archivo comprimido, tendrás que descomprimirlo
+para acceder a los archivos con los datos.
+
+A continuación, puedes consultar la descripción de las variables que
+componen las tablas de este conjunto de datos:
+
+##### **Track_in_spotify**
+
+* **track_id**: Identificador único de la canción. Es un número entero
+ de 7 dígitos que no se repite
+* **track_name**: Nombre de la canción
+* \*\*artist(s)\_name\*\*: Nombre del artista(s) de la canción
+* **artist_count**: Número de artistas que contribuyen a la canción.
+* **released_year**: Año en que se lanzó la canción.
+* **released_month**: Mes en el que se lanzó la canción.
+* **released_day**: Día del mes en que se lanzó la canción.
+* **in_spotify_playlists**: Número de listas de reproducción de Spotify
+ en las que está incluida la canción
+* **in_spotify_charts**: Presencia y ranking de la canción en las listas
+ de Spotify
+* **streams**: Número total de transmisiones en Spotify. Representa la
+ cantidad de veces que la canción fue escuchada.
+
+##### **Track_in_competition**
+
+* **track_id**: Identificador único de la canción. Es un número entero
+ de 7 dígitos que no se repite
+* **in_apple_playlists**: número de listas de reproducción de Apple
+ Music en las que está incluida la canción
+* **in_apple_charts**: Presencia y rango de la canción en las listas de
+ Apple Music
+* **in_deezer_playlists**: Número de listas de reproducción de Deezer en
+ las que está incluida la canción
+* **in_deezer_charts**: Presencia de la canción en las listas de
+ Deezer
+* **in_shazam_charts**: Presencia de la canción en las listas de
+ Shazam
+
+##### **Track_technical_info**
+
+* **track_id**: Identificador único de la canción. Es un número entero
+ de 7 dígitos que no se repite
+* **bpm**: Pulsaciones por minuto, una medida del tiempo de la canción.
+* **key**: Clave musical de la canción
+* **mode**: Modo de la canción (mayor o menor)
+* **danceability\_%**: Porcentaje que indica qué tan adecuada es la
+ canción para bailar
+* **valence\_%**: Positividad del contenido musical de la canción.
+* **energy\_%**: Nivel de energía percibido de la canción.
+* **acusticness\_%**: Cantidad de sonido acústico en la canción.
+* **instrumentality\_%**: Cantidad de contenido instrumental en la
+ canción.
+* **liveness\_%**: Presencia de elementos de actuación en vivo.
+* **speechiness\_%**: Cantidad de palabras habladas en la canción.
+
+#### 0.4 Buenas prácticas
+
+Documentar tu proceso es una de las mejores
+prácticas en el análisis de datos. Aquí hay dos sugerencias más para
+organizarse en este proyecto, específicamente para la fase de
+procesamiento y preparación de los datos:
+
+* Haz consultas que te permitan identificar todos los elementos que
+ deberán limpiarse. Al terminar, haz una consulta completa para crear
+ una tabla con los datos limpios, en lugar de crear una tabla en cada
+ paso.
+
+* Guarda las consultas y describe qué hace cada una de ellas. Crea un
+ repo donde acopiar todas los recursos y usa comentarios para describir
+ para qué sirve cada una. Esto te ayudará en proyectos futuros a
+ recordar cómo identificar valores nulos, por ejemplo.
+
+* Comprende la diferencia entre vista (view) y tabla para organizarse.
+ Muchas veces, guardar una vista te ayuda a trabajar de una manera más
+ organizada y puedes ver la consulta que generó esa vista y modificarla
+ rápidamente.
+
+### 🟦 Paso 1. Procesar y preparar base de datos
+
+⌛ **Rango de tiempo estimado: De 8 a 12 horas**
+
+El preprocesamiento de datos no es una etapa que se pueda pasar por alto
+en el análisis de datos. Su importancia es evidente en la calidad de los
+resultados obtenidos. Cuando los datos se procesan y preparan de manera
+inadecuada, pueden surgir sesgos, errores y conclusiones incorrectas.
+Además, el ruido en los datos sin tratar puede perjudicar la precisión
+de las predicciones y la calidad de las decisiones basadas en el
+análisis. Por lo tanto, invertir tiempo y esfuerzo en la fase inicial de
+preprocesamiento se recompensa a lo largo de todo el proceso de análisis
+de datos, asegurando resultados más confiables y significativos.
+
+En este hito, trabajaremos con una herramienta llamada BigQuery para
+realizar la etapa de procesamiento y preparación de los datos. El
+lenguaje SQL, utilizado en esta herramienta, es ampliamente utilizado en
+el ambiente laboral y un buen analista de datos debe saber utilizarlo a
+su favor.
+
+BigQuery es un servicio de almacenamiento y análisis de datos en la nube
+proporcionado por Google Cloud. Está diseñado para permitir a las
+organizaciones almacenar, consultar y analizar grandes volúmenes de
+datos de manera rápida y escalable. BigQuery se utiliza comúnmente en
+todas las fases del análisis de datos, incluyendo la fase de
+procesamiento y preparación, debido a sus capacidades de procesamiento
+de datos y su escalabilidad.
+
+| Meta | Objetivo | Objetivo individual | Recurso |
+| -------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
+| 🔵 Conectar/importar datos a otras herramientas | Crear en BigQuery un proyecto, un conjunto de datos e importar tablas |
Debes crear su propio entorno de trabajo en BigQuery con su cuenta de Google.
En este caso, nos referimos a crear un project, un dataset (de BigQuery) y subir las tablas del dataset que te proporcionamos.
Deben coordinarse ambas para que sigan la misma estructura de proyecto en BigQuery y los mismos nombres de tablas, así será más fácil trabajar en conjunto y compartir códigos.
|
🚨 Altamente recomendado: [Mini curso BigQuery:](https://coda.io/d/Curso-Google-BigQuery_dhocNT3PUIE/Introduccion_su3UO#_luO8s) Aquí encontrarás cómo configurar tu Sandbox, y cómo hacer tus primeras consultas
📄 [Cómo empezar con BigQuery (sandbox - versión gratuita)](https://cloud.google.com/bigquery/docs/sandbox?hl=es-419)
📹 [Qué es BigQuery](https://www.youtube.com/watch?v=RxKtIicl8r0)
📹 [Cómo crear un Project, Dataset y cargar tabla en BigQuery](https://www.youtube.com/watch?v=BN8WAOtJ4CY)
⚠️ Sandbox es la versión gratuita de Bigquery que te permite realizar consultas y crear tablas, y no te pide incluir datos de tarjeta de crédito, sin embargo, al ser la versión gratuita, el almacenamiento de tablas, vistas y consultas solo dura 3 meses por lo que es importante crear un documento donde puedas guardar tus consultas y todo lo que creas que es importante sobre este proyecto para consultarlo en el futuro.
|
+| 🔵 Identificar y manejar valores nulos | Identificar nulos a través de comandos SQL COUNT, WHERE y IS NULL |
Debes consultar los nulos de al menos una tabla, por ejemplo, una consulta los nulos `track_technical_info`, la otra de track_in_competition y ambas de track_in_spotify.
De esta forma, se aseguran de que cada una haga (y aprenda) al menos una consulta para identificar y manejar los nulos. Pueden intercambiar las consultas para que cada una vaya completando todo en su propio entorno de BigQuery.
|
🚨**Altamente recomendado**: 📄[Concepto valores nulos](https://docs.google.com/document/d/1AJRLPg2SWLvC1pnGOz-f1SNZXH1X63x2xWlquDBtlmE/edit?usp=sharing): En este enlace encontrarás la descripción de algunos tipos de nulos. (🔈[versión en audio](https://drive.google.com/file/d/1Y88gJEBdorDMRoEjnIUJNyI4G0LLAaGk/view?usp=drive_link))
📄 [Qué es una consulta (query)](https://docs.google.com/document/d/1upi7Ashq_wro02zjMjnQlWgivQ9gsQWIy8q9pLm9WZ4/edit)
📹 [Cómo idenficar nulos usando COUNT, WHERE y IS NULL](https://www.loom.com/share/3ae5d6e7f500405f95e8f1a110413a35?sid=c44c44d8-7caa-4da4-9261-03f6fd92348c)
💡 Haz una consulta para identificar los valores nulos en cada variable, toma nota de lo que encuentras o guarda la consulta (query) con la decisión que tomará (conservar o eliminar), de modo que después de realizar todo el paso de limpieza e identificar que es necesario eliminar/modificar etc, pueda crear una solo consulta (query) con todos los pasos de limpieza para la tabla en la que estás trabajando y en este momento crear una tabla o view con los datos limpios.
🧑💻 Si aún no está claro cómo identificar valores nulos en BigQuery, puedes pedir ejemplos a alguna AI como ChatGPT, Bing o Perplexity (por ejemplo)
|
+| 🔵 Identificar y manejar valores duplicados | Identificar duplicados a través de comandos SQL COUNT, GROUP BY, HAVING |
Debes consultar los duplicados de al menos una tabla, por ejemplo, una consulta los duplicados de `track_technical_info`, la otra de track_in_competition y ambas de track_in_spotify.
|
🚨 **Altamente recomendado**: [Concepto valores duplicados](https://docs.google.com/document/d/1jXm4s7b17eObHd8sMvJSGwWi1YzdG_VZq56Xooy5Ioo/edit?usp=sharing): En este enlace encontrarás un artículo sobre valores duplicados y algunos ejemplos de por qué esto pasa. (🔈[versión en audio](https://drive.google.com/file/d/1TbKPSvocksk33eFg42lHf3kD8Y3NuzsN/view?usp=drive_link))
📹 [Cómo identificar duplicados a través de GROUP BY y HAVING (Ve también la diferencia entre los comandos WHERE y HAVING)](https://www.loom.com/share/0bd5d25a7e634bd39012f5bd913e3a3b?sid=507743b7-ee30-4c68-8756-a344798cad32)
💡 Recuerda que los valores duplicados no siempre significan un error, y as veces para determinar si un dato es duplicado debemos mirar otras variables en conjunto. Es decir, el nombre de la canción se puede repetir, sin embargo, si miramos la variable `track_name` más el nombre del artista, esta información en conjunto no se puede repetir, por ejemplo, podemos tener la canción Flowers de Mily Cyrus y Flowers de Bruno Mars, pero no podemos tener Flowers de Mily Cyrus dos veces.
|
+| 🔵 Identificar y manejar datos fuera del alcance del análisis | Manejar variables que no son útiles para el análisis a través de comandos SQL SELECT EXCEPT |
Debes analizar las variables fuera de alcance de al menos una tabla, por ejemplo, una consulta los de `track_technical_info`, la otra de track_in_competition y ambas de track_in_spotify.
|
🚨 **Altamente recomendado**: [Concepto valores fuera del alcance](https://docs.google.com/document/d/1-SsxH5Ke3qAaWg5YKrkRwkExd91Q0RdJGplLAiXPiYA/edit?usp=sharing): En este enlace encontrarás algunas descripciones y ejemplos de qué es un valor fuera del alcance del análisis. (🔈[versión en audio](https://drive.google.com/file/d/1Z963-z4MCiRRjt5RZF75oH_CH1BqDNrO/view?usp=drive_link))
📹 [Cómo utilizar EXCEPT para selecionar variables](https://www.loom.com/share/2fa18d5cfd33403faaa794a2b08671f1?sid=2d16f30b-a26c-4d3c-bfd8-88ba7c664f25)
💡 Los datos fuera de alcance, como vimos en el proyecto anterior, pueden hacer referencia a filas de una base de datos o también a variables. ¿Hay alguna variable que creas que no se utilizará en este análisis y quizás podríamos excluirla, como `key` y `mode` u otra variable que tenga una gran cantidad de valores nulos?
|
+| 🔵 Identificar y manejar datos discrepantes en variables categóricas | Utilizar comandos de manejo de string, como LIKE o REGEXP |
Debes usar el comando para ajustar las variables de tipo string al menos una vez, en este objetivo pueden trabajar en la misma tabla.
|
📹 [Cómo utilizar comandos LIKE y REGEXP](https://www.loom.com/share/3f7bb1362d5947ecb8c83e6f0690a4a5?sid=76f52b28-efb3-4991-b4c1-bd288bd4e805)
📄 [Documentación Google sobre String Functions](https://cloud.google.com/bigquery/docs/reference/standard-sql/string_functions)
🔈 [Concepto variables categóricas (versión en audio)](https://drive.google.com/file/d/13gQ6Ni9FUfDmi5bjQivjeKj04fAI8Gl2/view?usp=drive_link)
📹. [Video sobre tipos de variables](https://www.loom.com/share/afa56686810e46309761bc889364b2d9?sid=cabf587c-7ba1-4419-b501-32c98a73e191)
🧑💻 Notarás que algunos nombres de música y artistas tienen símbolos raros. Trabajar con cadenas suele suponernos algo de trabajo extra, siempre tenemos que buscar la secuencia REGEX que nos ayude a gestionar estos datos, por lo que sería un buen momento para utilizar nuestros recursos de IA. escribe al ChatGPT "¿Cómo eliminar caracteres especiales de una cadena (string) en BigQuery?"
|
+| 🔵 Identificar y manejar datos discrepantes en variables numéricas | Utilizar comandos como MAX, MIN y AVG para identificar valores discrepantes en variables numéricas |
Debes analizar las variables numéricas de al menos una tabla, por ejemplo, una consulta los de `track_technical_info`, la otra de track_in_competition y ambas de track_in_spotify.
|
📹[Identificar valores discrepantes en variables numéricas con MAX, MIN y AVG](https://www.loom.com/share/4fb40d01dddf4e3cbf981029ed08613a?sid=5e46b20b-5ea4-47c4-a808-99969a369431)
💡 Notarás que la variable streams contiene datos no numéricos, por lo que no podemos hacer AVG, este error puede haber causado que esta variable que debería ser INTEGER esté como STRING y es por eso que necesitamos cambiar el tipo de datos. Puedes avanzar a la siguiente meta, cambiar el tipo de dato y luego volver.
|
+| 🔵 Comprobar y cambiar tipo de dato | Utilizar CAST para modificar el tipo de dato |
Una debe poder cambiar el tipo de dato de la variable streams y la otra debe brindar soporte. En el próximo objetivo, cuando creemos una nueva variable de fecha, tendrás la oportunidad de poner en práctica el comando CAST nuevamente.
|
🚨 **Altamente recomendado**: 📄[Tipos de datos en SQL](https://docs.google.com/document/d/1z0evGu8JtjDPuFlH1pkbqYR6scRwukPfwWKJ-KmZRmI/edit?usp=sharing)
📹 [Tipos de datos en SQL](https://www.youtube.com/watch?v=A1tZ-d2uxws)
📹 [Cambiar tipo de dato con CAST](https://www.loom.com/share/dfca15dd59084f83a1343eb476c71e96?sid=5ffd1896-5cf2-4ad5-88dc-741152483c45)
💡 Encontrarás una variable de texto que no puede ser convertida. Evalúa si no es mejor borrar esta variable. Tip: usa NOT LIKE para filtrar los datos de texto de la variable streams.
|
+| 🔵 Crear nuevas variables | Crear una variable de fecha released y una de participación total en playlists |
Ambas deben poder crear una nueva variable, para que la que no tuvo la oportunidad de usar el comando CAST pueda poner en práctica este comando, debe crear la variable de fecha de lanzamiento completa usando concat y cast para que la fecha quede en el formato aaaa-mm-dd
|
🚨 **Altamente recomendado**: [Concepto crear nuevas variables](https://docs.google.com/document/d/1yp5MVB8iirIbYwptscJ4YrjsY4Bnd8mrsDB75Onun2s/edit?usp=sharing): en este enlace encontrarás una pequeña descripción sobre este concepto. (🔈[versión en audio](https://drive.google.com/file/d/15P7Gp4_F_EOasIgW7SUhK8bf0MIDD6K8/view?usp=drive_link))
📹 [Como crear nuevas variables con CONCAT y operaciones matemáticas](https://www.loom.com/share/65e15aa134c545bc9cfdc6b88bc2ae78?sid=46988f46-bcc0-471f-b89e-55c7ffe953b5)
💡 Recuerda que hay diferencia cuando estamos utilizando operaciones matemáticas en SQL, cuando utilizamos el comando SUM se suma la columna y cuando queremos sumar los valores por fila podemos utilizar los operadores matemáticos como +.
Antes de unir las tablas, debes crear la vista (view) con los datos limpios de cada tabla.Y al unir tablas usando LEFT JOIN, debes hacer el JOIN de una tabla.
|
🚨 **Altamente recomendado**:📹 [Tipos de JOIN en SQL](https://www.youtube.com/watch?v=HDBdAIcqJQo)
📹 [Diferencia entre VIEW y CREATE TABLE](https://www.loom.com/share/97dbe237b9de459baa4d788f8bb44502?sid=e2168d4f-a8ff-44e4-b3f0-55e72596350a)
💡 Antes unir las tablas crea views con los datos limpios de cada tabla y haz el left join de las views.
|
+| 🔵 Construir tablas auxiliares | Utilizar el comando WITH para crear una tabla temporal para calcular el total de canciones por artista solista |
Una debe crear la tabla temporal con WITH y la otra auxiliar. En la próxima oportunidad que se necesite crear la tabla temporal con WITH dentro de este hito, la que aún no haya implementado esta técnica deberá hacerlo.
|
📹[Cómo utilizar comando WITH y para qué sirve](https://www.loom.com/share/8e2f6f70db214e2484af45375539d8e9?sid=222c7e6d-1ff5-430a-ab28-64c025f34ebf)
💡 Calcular el total de canciones para el artista solo, es decir, cuando no hay más artistas creadores de la canción.
|
+
+🤸 Sólo por diversión:
+
+¿Piensas en una forma de hacer todos estos pasos en una misma consulta
+después de importadas las tablas?
+
+### 🟪 Paso 2. Hacer un análisis exploratorio
+
+⌛ Rango de tiempo estimado: **De 8 a 12 horas**
+
+El análisis exploratorio de datos (AED) es una fase fundamental en la
+comprensión de conjuntos de datos, y las herramientas como Looker Studio y
+BigQuery desempeñan un papel crucial en este proceso. Looker Studio, una
+plataforma de visualización de datos de Google, permite crear paneles
+interactivos y gráficos dinámicos que facilitan la exploración y
+comprensión de los datos. Al aprovechar las capacidades de Looker Studio, los
+usuarios finales pueden identificar patrones, tendencias y anomalías en
+los datos de manera efectiva.
+
+BigQuery, por otro lado, es una potente herramienta de almacenamiento y
+análisis de datos de Google Cloud. Con su capacidad para manejar grandes
+volúmenes de datos y realizar consultas en lenguaje SQL de alto
+rendimiento, BigQuery es esencial para explorar datos a gran escala. Los
+analistas pueden utilizar BigQuery para realizar consultas avanzadas y
+calcular estadísticas esenciales que proporcionan información valiosa
+sobre el conjunto de datos.
+
+Combinar Looker Studio y BigQuery brinda una solución integral para el
+análisis exploratorio. Los datos pueden ser extraídos y transformados en
+BigQuery, y luego visualizados y explorados en profundidad utilizando
+Looker Studio. Esta combinación permite desentrañar insights significativos,
+identificar relaciones, y tomar decisiones informadas basadas en un
+análisis profundo de los datos. En resumen, el análisis exploratorio se
+beneficia enormemente de la sinergia entre Looker Studio y BigQuery,
+facilitando la obtención de información valiosa a partir de datos
+complejos y extensos.
+
+| Meta | Objetivo | Objetivo Individual | Recurso |
+| ---- | ---- | ---- | ---- |
+| 🟣 Agrupar datos según variables categóricas | Agrupar variables categóricas a través de tablas en Looker Studio o a través de GROUP BY en BigQuery|
Debes agrupar al menos una variable categórica que pueden ser cantidad de tracks por artista, cantidad de tracks por `released_year` etc.
|
🚨 **Altamente recomendado**: [Concepto variables categóricas](https://docs.google.com/document/d/1BIqa7xR0JNadM9kQExypo3plnwrNia92zCuxkPuMj5A/edit?usp=sharing): En este documento encontrará la descripción y ejemplos de este concepto. (🔈 [versión en audio](https://drive.google.com/file/d/13gQ6Ni9FUfDmi5bjQivjeKj04fAI8Gl2/view?usp=drive_link))
📹 [Video sobre tipos de variables](https://www.loom.com/share/afa56686810e46309761bc889364b2d9?sid=cabf587c-7ba1-4419-b501-32c98a73e191): En este video verá una pequeña descripción de variables categóricas y numéricas.
📹 [Video como empezar en Looker Studio](https://www.youtube.com/watch?v=P5WLaeSQK7s&t=3s)
📹 [Video Como conectar datos en Looker Studio](https://www.loom.com/share/0cce98d5bbc7482ea421444e2f850cc1)
📹 [Video visión general Looker Studio](https://www.loom.com/share/9c7505eb3c2a4612bdfb7c9d43c40051)
📹 [Video como crear un dashboard en data studio](https://www.youtube.com/watch?v=Sprmb4W82sk)
📄 [Tutorial de Google Como crear un informe en Looker Studio](https://support.google.com/looker-studio/answer/6292570?hl=ES#zippy=%2Csecciones-de-este-art%C3%ADculo)
⚠️Recientemente, Data Studio ha cambiado de nombre a Looker Studio, por lo que es posible que encuentres referencias a Data Studio en algunos contenidos. Sin embargo, se trata del mismo producto.
📹 [Cómo crear una tabla dinamica en Looker Studio](https://www.youtube.com/watch?v=3WJrWfAtgEw)
💡 Visualiza las variables categóricas como artist y fíjate si hay alguno que destaque, utiliza los años para ver estos datos por año
💡 Prueba hacerlo en BigQuery a través del comando GROUP BY para ver los datos agrupados o con tablas en Looker Studio
|
+| 🟣 Visualizar las variables categóricas | A través de gráficos de barras, visualizar las variables categóricas |
Debes crear al menos un gráfico de barras para visualizar las variables agrupadas anteriormente.
|
📹 [Cómo crear gráficos en Looker Studio](https://www.youtube.com/watch?v=B3hPsl-8u3A)
|
+| 🟣 Aplicar medidas de tendencia central | A través de tablas en Looker Studio o BigQuery, calcular las medidas de tendencia central (Promedio y Mediana) |
Debes calcular las medidas de tendencia central (promedio y mediana) al menos para una variable. Una puede analizar `streams` y otra el total de veces que aparece en una playlist
[🔈 Concepto estadísticas descriptivas (versión en audio)](https://drive.google.com/file/d/1v6xdtWci7rYtMKibGowl9OxBArT3CVnI/view?usp=drive_link)
📄 [Concepto medidas de tendencia central](https://docs.google.com/document/d/1Ly_7zLmUjcczqCkQLQwvDYEGyRLtSNQLVi3w8CIh8sI/edit?usp=sharing)
[🔈 Concepto medidas de tendencia central (versión en audio)](https://drive.google.com/file/d/1viy63m4n8Gn9aYHNuLJpd8RzFrTNnlw2/view?usp=drive_link)
📹 [Video tablas en Looker Studio](https://www.youtube.com/watch?v=7CLCz3PgJ5s)
💡 Observa el comportamiento de las variables streams y total presencia en playlists
|
+| 🟣 Calcular correlación entre variables | Calcular correlación en BigQuery a través de CORR |
Debes calcular la correlación entre dos variables continuas. Una puede calcular para `streams` y `playlists` y otra para `streams` y `danceability`
|
📄 [Concepto correlación de Pearson](https://docs.google.com/document/d/1HvuENDveavTmlRtSGk3Gv3LqSPNbRPWNYgOU8e3CxTM/edit?usp=sharing)
📹 [Cómo calcular correlación en BigQuery](https://www.loom.com/share/9bf3e48cf57d48ca9c81c2c19562dedf?sid=c4c8a611-d0ae-4c4f-a2f5-200ce48746f4)
💡 Comprender el cálculo de correlación nos ayudará más adelante en la validación de las hipótesis
|
+
+🤸 Sólo por diversión:
+
+¿Piensas en algún gráfico que podría ayudar a ver y entender la relación
+entre dos variables?
+
+### 🟥 Paso 3. Aplicar técnica de análisis
+
+⌛ **Rango de tiempo estimado: De 8 a 12 horas**
+
+La validación de hipótesis es un proceso crucial en la estadística y la
+investigación científica. Se refiere a la evaluación de afirmaciones o
+suposiciones acerca de una población o un fenómeno, a través del examen
+de datos recopilados de una muestra de esa población. En esencia, se
+trata de determinar si las suposiciones hechas sobre una población son
+respaldadas por la evidencia empírica proporcionada por los datos.
+
+En este hito, buscamos responder las hipótesis planteadas por la
+discográfica:
+
+* Las canciones con un mayor BPM (Beats Por Minuto) tienen más éxito en
+ términos de streams en Spotify
+* Las canciones más populares en el ranking de Spotify también tienen un
+ comportamiento similar en otras plataformas como Deezer
+* La presencia de una canción en un mayor número de playlists se
+ relaciona con un mayor número de streams
+* Los artistas con un mayor número de canciones en Spotify tienen más
+ streams
+* Las características de la música influyen en el éxito en términos de
+ streams en Spotify
+
+Para validar las hipótesis vamos a utilizar el cálculo de la
+correlación entre dos variables y la interpretación de gráficos,
+como gráficos combinados o gráficos de dispersión con línea de tendencia.
+Al analizar la variable que estamos intentando comprender (streams) en
+relación con otras variables disponibles en la base de datos, podemos
+identificar características comunes entre las canciones más escuchadas
+en Spotify,
+
+| Meta | Objetivo | Objetivo individual | Recurso|
+| --- | ---- | ---- | ---- |
+| 🔴 Validar hipótesis | Validar las hipótesis levantadas a través de la correlación y scatter plot |
Debes calcular la correlación de las variables de una hipótesis y visualizar estos datos a través de un scatter plot y discutir los resultados si existe o no una correlación y si la hipótesis es verdadera
|
💡 Para validar las hipótesis planteadas podemos analizar la relación entre las variables de la hipótesis a través de la correlación, que ya hemos visto como calcular en BigQuery y visualizarlas a través de un gráfico scatter plot en Looker Studio para comprender y analizar lo que hace una canción exitosa.
📹 [Gráfico de dispersión](https://www.youtube.com/watch?v=gX-vNQVSYSM&t=477s)
|
+
+🤸 Sólo por diversión:
+
+¿Crees que se podría validar estas hipótesis por grupos menores,
+como por ejemplo, las canciones con fecha de lanzamiento en 2023?
+
+¿Piensas en alguna otra hipótesis que puedas analizar?
+
+### 🟧 Paso 4. Resumir información en un dashboard o reporte
+
+⌛ **Rango de tiempo estimado: De 8 a 12 horas**
+
+Looker Studio es una plataforma de visualización y análisis de datos
+de Google que permite a los usuarios crear informes interactivos y
+personalizados, integrando diversas fuentes de datos para generar
+insights visuales detallados. Los dashboards, o paneles de control,
+son una característica clave de esta plataforma, presentando datos
+clave en un formato visual conciso y fácil de entender. Un dashboard
+es una herramienta visual que presenta información clave y datos relevantes
+de manera concisa y accesible, facilitando la supervisión y análisis
+del rendimiento en tiempo real. Sus elementos incluyen gráficos y
+diagramas para identificar tendencias, tablas para una lectura detallada,
+indicadores clave de desempeño (KPIs) para monitoreo rápido, filtros
+y controles interactivos para personalizar la visualización, mapas para
+datos geoespaciales, texto y notas para contexto adicional, y widgets
+de tiempo real para actualizaciones instantáneas. Combinados, estos
+elementos permiten una visualización eficiente y comprensible de grandes
+volúmenes de datos, apoyando la toma de decisiones informadas.
+
+En resumen, Looker Studio es una herramienta esencial para cualquier empresa
+o profesional que desee convertir datos en información significativa,
+tomar decisiones estratégicas y comunicar de manera efectiva los
+insights a través de visualizaciones atractivas y accesibles.
+
+En este hito, trabajaremos con Looker Studio también para crear un dashboard
+organizado que genere información al negocio. Este es el momento de
+organizar tus gráficos creados en el paso de análisis exploratorio y
+crear un ambiente amigable para la compañía discográfica.
+
+| Meta | Objetivo | Objetivo individual | Recurso |
+| ---- | ---- | ---- | ---- |
+| 🟠 Representar datos a través de tabla resumen o scorecards | Crear scorecards para los números generales de la base de datos |
Debes crear al menos una tarjeta de resultados (scorecards)
|
📹 [Video como crear scorecards (tarjeta de resultados) en Looker Studio](https://www.youtube.com/watch?v=D09zovxBXWs)
💡 Busque contenidos en YouTube para sacar ideas de como armar su dashboard en Looker Studio
|
+| 🟠 Representar datos a través de gráficos simples | Representar los datos a través de gráficos de barras y líneas |
Cada una ya ha hecho este ejercicio anteriormente en la habilidad de Análisis Exploratorio, ahora como dupla deben elegir qué gráficos utilizar en su dashboard y organízalo
|
💡 Crea nuevas páginas en Looker Studio para organizar tus datos. En la opción “manejar páginas” puedes elegir dejar visible o no una página en tu dashboard, así no necesitas borrar ninguna página y puedes dejar tu análisis exploratorio guardado.
|
+| 🟠 Representar datos a través de gráficos o visuales avanzados | Representar datos a través de scatter plot |
Cada una ya ha hecho este ejercicio anteriormente en la habilidad de Análisis Exploratorio, ahora como dupla deben elegir qué gráficos utilizar en su dashboard y organízalo para que explique los resultados obtenidos |
💡 Considera incluir el gráfico scatter plot para representar tus resultados.
|
+| 🟠 Aplicar opciones de filtros para manejo e interacción | Incluir filtros para visualizar los resultados por categorías y por fecha |
Incluir una página donde se pueda visualizar los datos generales por filtros. Debes incluir un filtro, pueden ser filtro de fecha, filtro de categoría, etc.
|
📹 [Video filtros en Looker Studio](https://www.youtube.com/watch?v=HZMZcNf1jdk).
💡 Incluye filtros para que podamos visualizar estos datos en diferentes perspectivas
|
+
+🤸 Sólo por diversión:
+
+¿Piensas en otros gráficos que se podrían utilizar para construir tu dashboard?
+
+### 🟩 Paso 5. Presentar resultados
+
+⌛ **Rango de tiempo estimado: De 8 a 12 horas**
+
+Tanto Google Slides como Looker Studio son herramientas valiosas para
+presentar datos en una presentación de negocios. Google Slides es ideal
+para presentaciones visuales y concisas, mientras que Looker Studio es una
+opción poderosa para analizar y explorar datos de manera interactiva.
+Elige la herramienta que mejor se adapte a tus necesidades y audiencia,
+y crea una presentación impactante que respalde tus argumentos y ayude a
+tomar decisiones informadas.
+
+En este hito, puedes elegir presentar solamente a través de Google
+Slides o mezclar con tu dashboard de Looker Studio en presentación.
+
+| Meta | Objetivo | Objetivo individual | Recurso |
+| ---------------------------------------------------------- | -------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
+| 🟢 seleccionar gráficos e información relevante | Resumir información para una presentación de 5 minutos |
En este momento deben ponerse de acuerdo sobre que gráficos deben presentar, pues la presentación que crearán en conjunto debe ser presentada individualmente.
📹 [Que es Data Storytelling](https://www.youtube.com/watch?v=NDs2BXgvzPc).
📹 Vea en este video [diferentes formas de presentar una misma información](https://www.youtube.com/watch?v=2vWT6hmnVVg).
|
+| 🟢 crear una presentación | Crear una presentación de slides que te guíe y presente los resultados más importantes |
Crear la presentación de slides en conjunto.
|
📹 [Video sobre como crear presentaciones en Google Slides](https://www.youtube.com/watch?v=T8Fs-zkIX3I)
📹 [Compartir presentación para trabajar en conjunto](https://www.loom.com/share/3220709262c142d4a0214cfc09856dcc?sid=b00df098-70e9-4a2a-89c7-e68b265ed588).
💡 Crea una presentación que deje ambas confortables para hacer su video de presentación de los resultados.
|
+| 🟢 presentar resultados con conclusiones y recomendaciones | Grabar un video de máximo 5 minutos explicando sus conclusiones y recomendaciones |
Debes grabar su video individualmente, pero utilizando los recursos que hicieron en conjunto.
|
📄 [Artículo sobre presentar datos](https://apolitical.co/solution-articles/es/presentar-datos-5-consejos-hacer-datos-comprensibles)
📄 [Artículo sobre presentar datos](https://vilmanunez.com/como-hacer-una-presentacion-de-resultados/)
📹 [Video tips para una presentación](https://www.youtube.com/watch?v=MPW6Ak3dxWc&t=157s)
💡 Aunque han hecho el trabajo juntos y utilizarán los mismos recursos, esto no significa que la forma en que presenten los resultados deba ser la misma. Cada persona puede presentar los resultados a su manera, según su personalidad e individualidad.
|
+
+🤸 Sólo por diversión:
+¿Puedes armar una presentación como si estuvieras presentando al representante
+de la compañía discográfica y al nuevo artista que quiere lanzarse en el mundo
+musical?
+
+ℹ️ **Al finalizar el proyecto comparte el enlace/liga/link público de
+repositorio de Github conteniendo un README con las consultas
+(queries) utilizadas donde se pueden ver claramente todos los pasos
+que seguiste y los resultados que obtuviste. Agrega tambienel link
+del Looker Studio en el que trabajaste el proyecto.
+Como este es un proyecto en dupla, solo
+el video debe ser individual, los archivos compartidos pueden ser los mismos.**
+
+## 2. Self review
+
+A continuación se muestran una tabla con las habilidades y objetivos de aprendizaje.
+Uso la columna `Self review` para evaluar si haz alcanzado o no cada objetivo.
+
+| Habilidades | Objetivos de aprendizaje |Self review|
+| ---------------------------------------------------- | -------------------------------------------------------------------- |---|
+| 🟦 **Procesar y preparar la base de datos** | 🔵 Conectar/importar datos a herramientas |
👍 ¿Creaste un project, un dataset y subiste las tablas al ambiente de BigQuery?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Identificar y manejar valores nulos |
👍 ¿Has identificado nulos a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Identificar y manejar valores duplicados |
👍 ¿Has identificado duplicados a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Identificar y manejar datos fuera del alcance del análisis |
👍 ¿Has manejado datos fuera del alcance a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Identificar y manejar datos discrepantes en variables categóricas |
👍 ¿Has identificado y manejado datos discrepantes en variables categóricas través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Identificar y manejar datos discrepantes en variables numéricas |
👍 ¿Has identificado y manejado datos discrepantes en variables numéricas a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Comprobar y cambiar tipo de dato |
👍 ¿Has cambiado el tipo de dato a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Crear nuevas variables |
👍 ¿Has creado nuevas variables a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Unir tablas |
👍 ¿Has utilizado JOINS para unir tablas?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Construir tablas auxiliares |
👍 ¿Has utilizado la estructura de tablas temporales WITH?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| 🟪 **Hacer un análisis exploratorio** | 🟣 Agrupar datos según variables categóricas |
👍 ¿Has agrupado al menos una variable categórica y analizado su resultado en perspectiva a otra variable numérica?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🟣 Visualizar las variables categóricas |
👍 ¿Has creado al menos un gráfico de barras para el resultado de la meta anterior?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🟣 Aplicar medidas de tendencia central |
👍 ¿Has aplicado al menos una vez las medidas de tendencia central para analizar una variable (y lo entendiste/interpretaste)?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🟣 Calcular correlación entre variables |
👍 ¿Has calculado la correlación entre dos variables al menos una vez (y lo entendiste/interpretaste)?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
👍 ¿Has discutido y seleccionado la información relevante para la presentación en conjunto con tu dupla?
👎**Veto**: Si no has hecho este proceso de discusión con tu dupla y solo has mirado a tu compañera hacer la selección de información, no has logrado esta meta.
|
+| | 🟢 Crear una presentación |
👍 ¿Has creado una presentación en conjunto con tu dupla?
👎**Veto**: Si no has creado la presentación en conjunto y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🟢 Presentar resultados con conclusiones y recomendaciones |
👍 ¿Has presentado de manera individual los resultados de este proyecto en un video de 5 minutos?
👎**Veto**: Si no has hecho tu propio video con conclusiones de los análisis realizados, no has logrado esta meta.
|
diff --git a/projects/05-artist-launch/PowerBI.md b/projects/05-artist-launch/PowerBI.md
new file mode 100644
index 000000000..e052a3dde
--- /dev/null
+++ b/projects/05-artist-launch/PowerBI.md
@@ -0,0 +1,334 @@
+# Power BI
+
+## 1. Plan detallado de trabajo
+
+En la siguiente imagen se describe el plan de trabajo detallado
+que seguiremos.
+
+![image](https://drive.google.com/file/d/1Yftgpw7uL0AIBMkuu6XDS9Wta3yHbe-J/view)
+
+### ⬜ Paso 0. Preparación
+
+#### 0.1 Herramientas y/o plataformas
+
+En este proyecto vas a utilizar una herramienta de Google llamada
+BigQuery, para el manejo de los datos, una herramienta de Microsoft
+llamada Power BI para la visualización de los datos:
+
+* BigQuery
+* Power BI
+
+#### 0.2 Lenguajes
+
+Utilizarás el lenguaje SQL en BigQuery . Nota la
+diferencia entre “lenguaje” (SQL) y “herramienta” (BigQuery), en la sección de
+recursos de cada meta encontrarás cursos de SQL que pueden ayudarte a comprender
+estos lenguajes y cómo usarlos en estas herramientas.
+
+#### 0.3 Insumos
+
+Este conjunto de datos contiene datos sobre las canciones más
+reproducidas en Spotify en 2023. Los datos se dividen en 3 tablas, la
+primera sobre el rendimiento de cada canción en Spotify, la segunda con
+el rendimiento en otras plataformas como Deezer o Apple Music, y la
+tercera con las características de estas canciones.
+
+El conjunto de datos está disponible para download en este enlace
+[dataset](https://storage.cloud.google.com/bootcamp-assets/projects/05-artist-launch/spotify_2023.zip),
+ten en cuenta que es un archivo comprimido, tendrás que descomprimirlo
+para acceder a los archivos con los datos.
+
+A continuación, puedes consultar la descripción de las variables que
+componen las tablas de este conjunto de datos:
+
+##### **Track_in_spotify**
+
+* **track_id**: Identificador único de la canción. Es un número entero
+ de 7 dígitos que no se repite
+* **track_name**: Nombre de la canción
+* \*\*artist(s)\_name\*\*: Nombre del artista(s) de la canción
+* **artist_count**: Número de artistas que contribuyen a la canción.
+* **released_year**: Año en que se lanzó la canción.
+* **released_month**: Mes en el que se lanzó la canción.
+* **released_day**: Día del mes en que se lanzó la canción.
+* **in_spotify_playlists**: Número de listas de reproducción de Spotify
+ en las que está incluida la canción
+* **in_spotify_charts**: Presencia y ranking de la canción en las listas
+ de Spotify
+* **streams**: Número total de transmisiones en Spotify. Representa la
+ cantidad de veces que la canción fue escuchada.
+
+##### **Track_in_competition**
+
+* **track_id**: Identificador único de la canción. Es un número entero
+ de 7 dígitos que no se repite
+* **in_apple_playlists**: número de listas de reproducción de Apple
+ Music en las que está incluida la canción
+* **in_apple_charts**: Presencia y rango de la canción en las listas de
+ Apple Music
+* **in_deezer_playlists**: Número de listas de reproducción de Deezer en
+ las que está incluida la canción
+* **in_deezer_charts**: Presencia de la canción en las listas de
+ Deezer
+* **in_shazam_charts**: Presencia de la canción en las listas de
+ Shazam
+
+##### **Track_technical_info**
+
+* **track_id**: Identificador único de la canción. Es un número entero
+ de 7 dígitos que no se repite
+* **bpm**: Pulsaciones por minuto, una medida del tiempo de la canción.
+* **key**: Clave musical de la canción
+* **mode**: Modo de la canción (mayor o menor)
+* **danceability\_%**: Porcentaje que indica qué tan adecuada es la
+ canción para bailar
+* **valence\_%**: Positividad del contenido musical de la canción.
+* **energy\_%**: Nivel de energía percibido de la canción.
+* **acusticness\_%**: Cantidad de sonido acústico en la canción.
+* **instrumentality\_%**: Cantidad de contenido instrumental en la
+ canción.
+* **liveness\_%**: Presencia de elementos de actuación en vivo.
+* **speechiness\_%**: Cantidad de palabras habladas en la canción.
+
+#### 0.4 Buenas prácticas
+
+Documentar tu proceso es una de las mejores
+prácticas en el análisis de datos. Aquí hay dos sugerencias más para
+organizarse en este proyecto, específicamente para la fase de
+procesamiento y preparación de los datos:
+
+* Haz consultas que te permitan identificar todos los elementos que
+ deberán limpiarse. Al terminar, haz una consulta completa para crear
+ una tabla con los datos limpios, en lugar de crear una tabla en cada
+ paso.
+
+* Guarda las consultas y describe qué hace cada una de ellas. Crea un
+ repo donde acopiar todas los recursos y usa comentarios para describir
+ para qué sirve cada una. Esto te ayudará en proyectos futuros a
+ recordar cómo identificar valores nulos, por ejemplo.
+
+* Comprende la diferencia entre vista (view) y tabla para organizarse.
+ Muchas veces, guardar una vista te ayuda a trabajar de una manera más
+ organizada y puedes ver la consulta que generó esa vista y modificarla
+ rápidamente.
+
+### 🟦 Paso 1. Procesar y preparar base de datos
+
+⌛ **Rango de tiempo estimado: De 8 a 12 horas**
+
+El preprocesamiento de datos no es una etapa que se pueda pasar por alto
+en el análisis de datos. Su importancia es evidente en la calidad de los
+resultados obtenidos. Cuando los datos se procesan y preparan de manera
+inadecuada, pueden surgir sesgos, errores y conclusiones incorrectas.
+Además, el ruido en los datos sin tratar puede perjudicar la precisión
+de las predicciones y la calidad de las decisiones basadas en el
+análisis. Por lo tanto, invertir tiempo y esfuerzo en la fase inicial de
+preprocesamiento se recompensa a lo largo de todo el proceso de análisis
+de datos, asegurando resultados más confiables y significativos.
+
+En este hito, trabajaremos con una herramienta llamada BigQuery para
+realizar la etapa de procesamiento y preparación de los datos. El
+lenguaje SQL, utilizado en esta herramienta, es ampliamente utilizado en
+el ambiente laboral y un buen analista de datos debe saber utilizarlo a
+su favor.
+
+BigQuery es un servicio de almacenamiento y análisis de datos en la nube
+proporcionado por Google Cloud. Está diseñado para permitir a las
+organizaciones almacenar, consultar y analizar grandes volúmenes de
+datos de manera rápida y escalable. BigQuery se utiliza comúnmente en
+todas las fases del análisis de datos, incluyendo la fase de
+procesamiento y preparación, debido a sus capacidades de procesamiento
+de datos y su escalabilidad.
+
+| Meta | Objetivo | Objetivo individual | Recurso |
+| -------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
+| 🔵 Conectar/importar datos a otras herramientas | Crear en BigQuery un proyecto, un conjunto de datos e importar tablas |
Debes crear su propio entorno de trabajo en BigQuery con su cuenta de Google.
En este caso, nos referimos a crear un project, un dataset (de BigQuery) y subir las tablas del dataset que te proporcionamos.
|
🚨 Altamente recomendado: [Mini curso BigQuery:](https://coda.io/d/Curso-Google-BigQuery_dhocNT3PUIE/Introduccion_su3UO#_luO8s) Aquí encontrarás cómo configurar tu Sandbox, y cómo hacer tus primeras consultas
📄 [Cómo empezar con BigQuery (sandbox - versión gratuita)](https://cloud.google.com/bigquery/docs/sandbox?hl=es-419)
📹 [Qué es BigQuery](https://www.youtube.com/watch?v=RxKtIicl8r0)
📹 [Cómo crear un Project, Dataset y cargar tabla en BigQuery](https://www.youtube.com/watch?v=BN8WAOtJ4CY)
⚠️ Sandbox es la versión gratuita de Bigquery que te permite realizar consultas y crear tablas, y no te pide incluir datos de tarjeta de crédito, sin embargo, al ser la versión gratuita, el almacenamiento de tablas, vistas y consultas solo dura 3 meses por lo que es importante crear un documento donde puedas guardar tus consultas y todo lo que creas que es importante sobre este proyecto para consultarlo en el futuro.
|
+| 🔵 Identificar y manejar valores nulos | Identificar nulos a través de comandos SQL COUNT, WHERE y IS NULL |
Debes consultar los nulos de `track_technical_info`, `track_in_competition` y `track_in_spotify`.
|
🚨**Altamente recomendado**: 📄[Concepto valores nulos](https://docs.google.com/document/d/1AJRLPg2SWLvC1pnGOz-f1SNZXH1X63x2xWlquDBtlmE/edit?usp=sharing): En este enlace encontrarás la descripción de algunos tipos de nulos. (🔈[versión en audio](https://drive.google.com/file/d/1Y88gJEBdorDMRoEjnIUJNyI4G0LLAaGk/view?usp=drive_link))
📄 [Qué es una consulta (query)](https://docs.google.com/document/d/1upi7Ashq_wro02zjMjnQlWgivQ9gsQWIy8q9pLm9WZ4/edit)
📹 [Cómo idenficar nulos usando COUNT, WHERE y IS NULL](https://www.loom.com/share/3ae5d6e7f500405f95e8f1a110413a35?sid=c44c44d8-7caa-4da4-9261-03f6fd92348c)
💡 Haz una consulta para identificar los valores nulos en cada variable, toma nota de lo que encuentras o guarda la consulta (query) con la decisión que tomará (conservar o eliminar), de modo que después de realizar todo el paso de limpieza e identificar que es necesario eliminar/modificar etc, pueda crear una solo consulta (query) con todos los pasos de limpieza para la tabla en la que estás trabajando y en este momento crear una tabla o view con los datos limpios.
🧑💻 Si aún no está claro cómo identificar valores nulos en BigQuery, puedes pedir ejemplos a alguna AI como ChatGPT, Bing o Perplexity (por ejemplo)
|
+| 🔵 Identificar y manejar valores duplicados | Identificar duplicados a través de comandos SQL COUNT, GROUP BY, HAVING |
Debes consultar los duplicados de `track_technical_info`, `track_in_competition` y `track_in_spotify`.
|
🚨 **Altamente recomendado**: [Concepto valores duplicados](https://docs.google.com/document/d/1jXm4s7b17eObHd8sMvJSGwWi1YzdG_VZq56Xooy5Ioo/edit?usp=sharing): En este enlace encontrarás un artículo sobre valores duplicados y algunos ejemplos de por qué esto pasa. (🔈[versión en audio](https://drive.google.com/file/d/1TbKPSvocksk33eFg42lHf3kD8Y3NuzsN/view?usp=drive_link))
📹 [Cómo identificar duplicados a través de GROUP BY y HAVING (Ve también la diferencia entre los comandos WHERE y HAVING)](https://www.loom.com/share/0bd5d25a7e634bd39012f5bd913e3a3b?sid=507743b7-ee30-4c68-8756-a344798cad32)
💡 Recuerda que los valores duplicados no siempre significan un error, y as veces para determinar si un dato es duplicado debemos mirar otras variables en conjunto. Es decir, el nombre de la canción se puede repetir, sin embargo, si miramos la variable `track_name` más el nombre del artista, esta información en conjunto no se puede repetir, por ejemplo, podemos tener la canción Flowers de Mily Cyrus y Flowers de Bruno Mars, pero no podemos tener Flowers de Mily Cyrus dos veces.
|
+| 🔵 Identificar y manejar datos fuera del alcance del análisis | Manejar variables que no son útiles para el análisis a través de comandos SQL SELECT EXCEPT |
Debes analizar las variables fuera de alcance de `track_technical_info`, `track_in_competition` y `track_in_spotify`.
|
🚨 **Altamente recomendado**: [Concepto valores fuera del alcance](https://docs.google.com/document/d/1-SsxH5Ke3qAaWg5YKrkRwkExd91Q0RdJGplLAiXPiYA/edit?usp=sharing): En este enlace encontrarás algunas descripciones y ejemplos de qué es un valor fuera del alcance del análisis. (🔈[versión en audio](https://drive.google.com/file/d/1Z963-z4MCiRRjt5RZF75oH_CH1BqDNrO/view?usp=drive_link))
📹 [Cómo utilizar EXCEPT para selecionar variables](https://www.loom.com/share/2fa18d5cfd33403faaa794a2b08671f1?sid=2d16f30b-a26c-4d3c-bfd8-88ba7c664f25)
💡 Los datos fuera de alcance, como vimos en el proyecto anterior, pueden hacer referencia a filas de una base de datos o también a variables. ¿Hay alguna variable que creas que no se utilizará en este análisis y quizás podríamos excluirla, como `key` y `mode` u otra variable que tenga una gran cantidad de valores nulos?
|
+| 🔵 Identificar y manejar datos discrepantes en variables categóricas | Utilizar comandos de manejo de string, como LIKE o REGEXP |
Debes usar el comando para ajustar las variables de tipo string al menos una vez, en este objetivo pueden trabajar en la misma tabla.
|
📹 [Cómo utilizar comandos LIKE y REGEXP](https://www.loom.com/share/3f7bb1362d5947ecb8c83e6f0690a4a5?sid=76f52b28-efb3-4991-b4c1-bd288bd4e805)
📄 [Documentación Google sobre String Functions](https://cloud.google.com/bigquery/docs/reference/standard-sql/string_functions)
🔈 [Concepto variables categóricas (versión en audio)](https://drive.google.com/file/d/13gQ6Ni9FUfDmi5bjQivjeKj04fAI8Gl2/view?usp=drive_link)
📹. [Video sobre tipos de variables](https://www.loom.com/share/afa56686810e46309761bc889364b2d9?sid=cabf587c-7ba1-4419-b501-32c98a73e191)
🧑💻 Notarás que algunos nombres de música y artistas tienen símbolos raros. Trabajar con cadenas suele suponernos algo de trabajo extra, siempre tenemos que buscar la secuencia REGEX que nos ayude a gestionar estos datos, por lo que sería un buen momento para utilizar nuestros recursos de IA. escribe al ChatGPT "¿Cómo eliminar caracteres especiales de una cadena (string) en BigQuery?"
|
+| 🔵 Identificar y manejar datos discrepantes en variables numéricas | Utilizar comandos como MAX, MIN y AVG para identificar valores discrepantes en variables numéricas |
Debes analizar las variables numéricas de `track_technical_info`, `track_in_competition` y `track_in_spotify`.
|
📹[Identificar valores discrepantes en variables numéricas con MAX, MIN y AVG](https://www.loom.com/share/4fb40d01dddf4e3cbf981029ed08613a?sid=5e46b20b-5ea4-47c4-a808-99969a369431)
💡 Notarás que la variable streams contiene datos no numéricos, por lo que no podemos hacer AVG, este error puede haber causado que esta variable que debería ser INTEGER esté como STRING y es por eso que necesitamos cambiar el tipo de datos. Puedes avanzar a la siguiente meta, cambiar el tipo de dato y luego volver.
|
+| 🔵 Comprobar y cambiar tipo de dato | Utilizar CAST para modificar el tipo de dato |
Una debe poder cambiar el tipo de dato de la variable streams y la otra debe brindar soporte. En el próximo objetivo, cuando creemos una nueva variable de fecha, tendrás la oportunidad de poner en práctica el comando CAST nuevamente.
|
🚨 **Altamente recomendado**: 📄[Tipos de datos en SQL](https://docs.google.com/document/d/1z0evGu8JtjDPuFlH1pkbqYR6scRwukPfwWKJ-KmZRmI/edit?usp=sharing)
📹 [Tipos de datos en SQL](https://www.youtube.com/watch?v=A1tZ-d2uxws)
📹 [Cambiar tipo de dato con CAST](https://www.loom.com/share/dfca15dd59084f83a1343eb476c71e96?sid=5ffd1896-5cf2-4ad5-88dc-741152483c45)
💡 Encontrarás una variable de texto que no puede ser convertida. Evalúa si no es mejor borrar esta variable. Tip: usa NOT LIKE para filtrar los datos de texto de la variable streams.
|
+| 🔵 Crear nuevas variables | Crear una variable de fecha released y una de participación total en playlists |
Puedes crear la variable de fecha de lanzamiento completa usando concat y cast para que la fecha quede en el formato aaaa-mm-dd
|
🚨 **Altamente recomendado**: [Concepto crear nuevas variables](https://docs.google.com/document/d/1yp5MVB8iirIbYwptscJ4YrjsY4Bnd8mrsDB75Onun2s/edit?usp=sharing): en este enlace encontrarás una pequeña descripción sobre este concepto. (🔈[versión en audio](https://drive.google.com/file/d/15P7Gp4_F_EOasIgW7SUhK8bf0MIDD6K8/view?usp=drive_link))
📹 [Como crear nuevas variables con CONCAT y operaciones matemáticas](https://www.loom.com/share/65e15aa134c545bc9cfdc6b88bc2ae78?sid=46988f46-bcc0-471f-b89e-55c7ffe953b5)
💡 Recuerda que hay diferencia cuando estamos utilizando operaciones matemáticas en SQL, cuando utilizamos el comando SUM se suma la columna y cuando queremos sumar los valores por fila podemos utilizar los operadores matemáticos como +.
Antes de unir las tablas, debes crear la vista (view) con los datos limpios de cada tabla.Y al unir tablas usando LEFT JOIN, debes hacer el JOIN de una tabla.
|
🚨 **Altamente recomendado**:📹 [Tipos de JOIN en SQL](https://www.youtube.com/watch?v=HDBdAIcqJQo)
📹 [Diferencia entre VIEW y CREATE TABLE](https://www.loom.com/share/97dbe237b9de459baa4d788f8bb44502?sid=e2168d4f-a8ff-44e4-b3f0-55e72596350a)
💡 Antes unir las tablas crea views con los datos limpios de cada tabla y haz el left join de las views.
|
+| 🔵 Construir tablas auxiliares | Utilizar el comando WITH para crear una tabla temporal para calcular el total de canciones por artista solista |
Una debe crear la tabla temporal con WITH y la otra auxiliar. En la próxima oportunidad que se necesite crear la tabla temporal con WITH dentro de este hito, la que aún no haya implementado esta técnica deberá hacerlo.
|
📹[Cómo utilizar comando WITH y para qué sirve](https://www.loom.com/share/8e2f6f70db214e2484af45375539d8e9?sid=222c7e6d-1ff5-430a-ab28-64c025f34ebf)
💡 Calcular el total de canciones para el artista solo, es decir, cuando no hay más artistas creadores de la canción.
|
+
+🤸 Sólo por diversión:
+
+¿Piensas en una forma de hacer todos estos pasos en una misma consulta
+después de importadas las tablas?
+
+### 🟪 Paso 2. Hacer un análisis exploratorio
+
+⌛ Rango de tiempo estimado: **De 8 a 12 horas**
+
+El análisis exploratorio de datos (AED) es una fase fundamental en la
+comprensión de conjuntos de datos, y las herramientas como Power BI y
+BigQuery desempeñan un papel crucial en este proceso. Power BI, una
+plataforma de visualización de datos de Microsoft, permite crear paneles
+interactivos y gráficos dinámicos que facilitan la exploración y
+comprensión de los datos. Al aprovechar las capacidades de Power BI, los
+usuarios finales pueden identificar patrones, tendencias y anomalías en
+los datos de manera efectiva.
+
+BigQuery, por otro lado, es una potente herramienta de almacenamiento y
+análisis de datos de Google Cloud. Con su capacidad para manejar grandes
+volúmenes de datos y realizar consultas en lenguaje SQL de alto
+rendimiento, BigQuery es esencial para explorar datos a gran escala. Los
+analistas pueden utilizar BigQuery para realizar consultas avanzadas y
+calcular estadísticas esenciales que proporcionan información valiosa
+sobre el conjunto de datos.
+
+Combinar Power BI y BigQuery brinda una solución integral para el
+análisis exploratorio. Los datos pueden ser extraídos y transformados en
+BigQuery, y luego visualizados y explorados en profundidad utilizando
+Power BI. Esta combinación permite desentrañar insights significativos,
+identificar relaciones, y tomar decisiones informadas basadas en un
+análisis profundo de los datos. En resumen, el análisis exploratorio se
+beneficia enormemente de la sinergia entre Power BI y BigQuery,
+facilitando la obtención de información valiosa a partir de datos
+complejos y extensos.
+
+| Meta | Objetivo | Objetivo Individual | Recurso |
+| ------------------------------------------------------------------ | ----------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
+| 🟣 Agrupar datos según variables categóricas | Agrupar variables categóricas a través de tablas en Power BI |
Debes agrupar al menos una variable categórica que pueden ser cantidad de tracks por artista, cantidad de tracks por `released_year` etc.
|
🚨 **Altamente recomendado**: [Concepto variables categóricas](https://docs.google.com/document/d/1BIqa7xR0JNadM9kQExypo3plnwrNia92zCuxkPuMj5A/edit?usp=sharing): En este documento encontrará la descripción y ejemplos de este concepto. (🔈 [versión en audio](https://drive.google.com/file/d/13gQ6Ni9FUfDmi5bjQivjeKj04fAI8Gl2/view?usp=drive_link))
📹 [Video sobre tipos de variables](https://www.loom.com/share/afa56686810e46309761bc889364b2d9?sid=cabf587c-7ba1-4419-b501-32c98a73e191): En este video verá una pequeña descripción de variables categóricas y numéricas.
ℹ️ [Link para download de Power BI Desktop](https://www.microsoft.com/en-us/download/details.aspx?id=58494)
📹 [Video download y instalación de Power BI](https://www.youtube.com/watch?v=8lkZKeNdLWU)
📹 [Cómo empezar con Power BI](https://www.youtube.com/watch?v=L74STt9hnu4)
📹 [Conectar datos de bigquery a Power BI](https://www.loom.com/share/eebef73c37fc47bda21576f0d300841e)
📹 [Cómo crear una tabla matrix en Power BI](https://www.youtube.com/watch?v=m2N7SXEj_9w)
💡 Visualiza las variables categóricas como artist y fíjate si hay alguno que destaque, utiliza los años para ver estos datos por año
|
+| 🟣 Visualizar las variables categóricas | A través de gráficos de barras, visualizar las variables categóricas |
Debes crear al menos un gráfico de barras para visualizar las variables agrupadas anteriormente.
|
📹 [Cómo crear gráficos en Power BI](https://www.youtube.com/watch?v=gNEgfp_HRWM)
📹 [Gráficos de barras o columnas en Power BI](https://www.youtube.com/watch?v=m7_6SHPovvY)
|
+| 🟣 Aplicar medidas de tendencia central | A través de tablas en Power BI, calcular las medidas de tendencia central (Promedio y Mediana) |
Debes calcular las medidas de tendencia central (promedio y mediana) al menos para una variable. Una puede analizar `streams` y otra el total de veces que aparece en una playlist
[🔈 Concepto estadísticas descriptivas (versión en audio)](https://drive.google.com/file/d/1v6xdtWci7rYtMKibGowl9OxBArT3CVnI/view?usp=drive_link)
📄 [Concepto medidas de tendencia central](https://docs.google.com/document/d/1Ly_7zLmUjcczqCkQLQwvDYEGyRLtSNQLVi3w8CIh8sI/edit?usp=sharing)
[🔈 Concepto medidas de tendencia central (versión en audio)](https://drive.google.com/file/d/1viy63m4n8Gn9aYHNuLJpd8RzFrTNnlw2/view?usp=drive_link)
📹 [Cómo crear una tabla con promedio y mediana en Power B](https://www.loom.com/share/67c7d22e0898482683654f1f6c53e41a?sid=e25d3fda-ee49-4d94-ab44-099785f33a9c)
💡 Observa el comportamiento de las variables streams y total presencia en playlists
|
+| 🟣 Aplicar medidas de dispersión | Calcular medidas de dispersión a través de la desviación estándar |
Debes calcular para la variable que estaba trabajando anteriormente.
Muy importante também, además de calcular, es compartir las conclusiones
|
📄 [Concepto Medidas de dispersión](https://docs.google.com/document/d/1a5N-8fV3X8pnhdRyXVcG293zJn2eL16KBhy-7NCExRI/edit?usp=sharing)
📹 [Desviación estándar en Power BI](https://www.loom.com/share/551494bd11124dd8ad4ca751ad47ab91)
💡 Calcula la desviación estándar de streams y otras variables continuas, usa ChatGPT para ayudarte en la interpretación de los valores obtenidos.
|
+| 🟣 Calcular correlación entre variables | Calcular correlación en BigQuery a través de CORR |
Debes calcular la correlación entre dos variables continuas. Una puede calcular para `streams` y `playlists` y otra para `streams` y `danceability`
|
📄 [Concepto correlación de Pearson](https://docs.google.com/document/d/1HvuENDveavTmlRtSGk3Gv3LqSPNbRPWNYgOU8e3CxTM/edit?usp=sharing)
📹 [Cómo calcular correlación en BigQuery](https://www.loom.com/share/9bf3e48cf57d48ca9c81c2c19562dedf?sid=c4c8a611-d0ae-4c4f-a2f5-200ce48746f4)
💡 Comprender el cálculo de correlación nos ayudará más adelante en la validación de las hipótesis
|
+
+🤸 Sólo por diversión:
+
+¿Piensas en algún gráfico que podría ayudar a ver y entender la relación
+entre dos variables?
+
+### 🟥 Paso 3. Aplicar técnica de análisis
+
+⌛ **Rango de tiempo estimado: De 8 a 12 horas**
+
+La validación de hipótesis es un proceso crucial en la estadística y la
+investigación científica. Se refiere a la evaluación de afirmaciones o
+suposiciones acerca de una población o un fenómeno, a través del examen
+de datos recopilados de una muestra de esa población. En esencia, se
+trata de determinar si las suposiciones hechas sobre una población son
+respaldadas por la evidencia empírica proporcionada por los datos.
+
+En este hito, buscamos responder las hipótesis planteadas por la
+discográfica:
+
+* Las canciones con un mayor BPM (Beats Por Minuto) tienen más éxito en
+ términos de streams en Spotify
+* Las canciones más populares en el ranking de Spotify también tienen un
+ comportamiento similar en otras plataformas como Deezer
+* La presencia de una canción en un mayor número de playlists se
+ relaciona con un mayor número de streams
+* Los artistas con un mayor número de canciones en Spotify tienen más
+ streams
+* Las características de la música influyen en el éxito en términos de
+ streams en Spotify
+
+| Meta | Objetivo | Objetivo individual | Recurso |
+| ----------------------- | ------------------------------------------------------------------------------------------------------------------------------------ | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
+| 🔴 Validar hipótesis | Validar las hipótesis levantadas a través de la correlación y scatter plot |
Debes calcular la correlación de las variables de una hipótesis y visualizar estos datos a través de un scatter plot y discutir los resultados si existe o no una correlación y si la hipótesis es verdadera
|
💡 Para validar las hipótesis planteadas podemos analizar la relación entre las variables de la hipótesis a través de la correlación, que ya hemos visto como calcular en BigQuery y visualizarlas a través de un gráfico scatter plot en Power BI para comprender y analizar lo que hace una canción exitosa.
📹 [Como crear un scatter plot en Power BI](https://www.loom.com/share/91adb4a427124fde8013d305a3d6111c?sid=114cf627-5d35-42d4-851b-147600e84e43)
|
+
+🤸 Sólo por diversión:
+
+¿Crees que se podría validar estas hipótesis por grupos menores,
+como por ejemplo, las canciones con fecha de lanzamiento en 2023?
+
+¿Piensas en alguna otra hipótesis que puedas analizar?
+
+### 🟧 Paso 4. Resumir información en un dashboard o reporte
+
+⌛ **Rango de tiempo estimado: De 8 a 12 horas**
+
+Power BI se ha convertido en una de las soluciones líderes en el mercado
+para la creación de informes interactivos y paneles de control que
+permiten a las organizaciones tomar decisiones informadas. Con Power BI,
+puedes conectar y transformar datos de diversas fuentes, como bases de
+datos, hojas de cálculo y servicios en la nube, y luego crear
+visualizaciones impactantes y dinámicas.
+
+En resumen, Power BI es una herramienta esencial para cualquier empresa
+o profesional que desee convertir datos en información significativa,
+tomar decisiones estratégicas y comunicar de manera efectiva los
+insights a través de visualizaciones atractivas y accesibles.
+
+En este hito, trabajaremos con Power BI también para crear un dashboard
+organizado que genere información al negocio. Este es el momento de
+organizar tus gráficos creados en el paso de análisis exploratorio y
+crear un ambiente amigable para la compañía discográfica.
+
+| Meta | Objetivo | Objetivo individual | Recurso |
+| -------------------------------------------------------------- | ------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
+| 🟠 Representar datos a través de tabla resumen o scorecards | Crear scorecards para los números generales de la base de datos |
Debes crear al menos una tarjeta de resultados (scorecards)
|
📹 [Como crear scorecards en Power BI](https://www.loom.com/share/a8b4a6e43317415abc02049f7923e785?sid=b69d56f7-6f63-4e18-81bc-71abc1aff667)
💡 Busque contenidos en YouTube para sacar ideas de como armar su dashboard en Power BI
🧑💻 Quieres aprender un poco más de herramientas AI, vea este video de Copilot en PowerBI
|
+| 🟠 Representar datos a través de gráficos simples | Representar los datos a través de gráficos de barras y líneas |
Debes elegir qué gráficos utilizar en su dashboard y organízalo
|
💡 Crea nuevas páginas en Power BI para organizar tus datos. Puedes hacer clic con el botón derecho en la pestaña que no quieres dejar visible en tu dashboard y esconderla (hide), así no necesitas borrar ninguna página y puedes dejar tu análisis exploratorio guardado.
|
+| 🟠 Representar datos a través de gráficos o visuales avanzados | Representar datos a través de scatter plot |
Debes elegir qué gráficos utilizar en su dashboard y organízalo para que explique los resultados obtenidos |
💡 Considera incluir el gráfico scatter plot para representar tus resultados.
|
+| 🟠 Aplicar opciones de filtros para manejo e interacción | Incluir filtros para visualizar los resultados por categorías y por fecha |
Incluir una página donde se pueda visualizar los datos generales por filtros. Debes incluir un filtro, pueden ser filtro de fecha, filtro de categoría, etc.
|
📹 [Cómo incluir filtros en Power BI](https://www.loom.com/share/bcd20fecbf2b4298bd1419648189bc3e?sid=74ced7af-c3bc-4844-8b26-8e46732a8adc).
💡 Incluye filtros para que podamos visualizar estos datos en diferentes perspectivas
|
+
+🤸 Sólo por diversión:
+
+¿Piensas en otros gráficos que se podrían utilizar para construir tu dashboard?
+
+### 🟩 Paso 5. Presentar resultados
+
+⌛ **Rango de tiempo estimado: De 8 a 12 horas**
+
+Tanto Google Slides como Power BI son herramientas valiosas para
+presentar datos en una presentación de negocios. Google Slides es ideal
+para presentaciones visuales y concisas, mientras que Power BI es una
+opción poderosa para analizar y explorar datos de manera interactiva.
+Elige la herramienta que mejor se adapte a tus necesidades y audiencia,
+y crea una presentación impactante que respalde tus argumentos y ayude a
+tomar decisiones informadas.
+
+En este hito, puedes elegir presentar solamente a través de Google
+Slides o mezclar con tu dashboard de Power BI en presentación.
+
+| Meta | Objetivo | Recurso |
+| ------ | ------ | ------ |
+| 🟢 seleccionar gráficos e información relevante | Resumir información para una presentación de 5 minutos |
📹 [Que es Data Storytelling](https://www.youtube.com/watch?v=NDs2BXgvzPc).
📹 Vea en este video [diferentes formas de presentar una misma información](https://www.youtube.com/watch?v=2vWT6hmnVVg).
|
+| 🟢 crear una presentación | Crear una presentación de slides que te guíe y presente los resultados más importantes |
📹 [Video sobre como crear presentaciones en Google Slides](https://www.youtube.com/watch?v=T8Fs-zkIX3I)
📹 [Compartir presentación para trabajar en conjunto](https://www.loom.com/share/3220709262c142d4a0214cfc09856dcc?sid=b00df098-70e9-4a2a-89c7-e68b265ed588).
|
+| 🟢 presentar resultados con conclusiones y recomendaciones | Grabar un video de máximo 5 minutos explicando sus conclusiones y recomendaciones |
📄 [Artículo sobre presentar datos](https://apolitical.co/solution-articles/es/presentar-datos-5-consejos-hacer-datos-comprensibles)
📄 [Artículo sobre presentar datos](https://vilmanunez.com/como-hacer-una-presentacion-de-resultados/)
📹 [Video tips para una presentación](https://www.youtube.com/watch?v=MPW6Ak3dxWc&t=157s)
|
+
+🤸 Sólo por diversión:
+¿Puedes armar una presentación como si estuvieras presentando al representante
+de la compañía discográfica y al nuevo artista que quiere lanzarse en el mundo
+musical?
+
+ℹ️ **Al finalizar el proyecto comparta el enlace/liga/link público de
+una carpeta de Google Drive conteniendo un archivo con las consultas
+(queries) utilizadas y el archivo de Power BI en el que trabajaste el
+proyecto, y donde se pueden ver claramente todos los pasos que seguiste
+y los resultados que obtuviste.**
+
+## 2. Self review
+
+A continuación se muestran una tabla con las habilidades y objetivos de aprendizaje.
+Uso la columna `Self review` para evaluar si haz alcanzado o no cada objetivo.
+
+| Habilidades | Objetivos de aprendizaje |Self review|
+| ---------------------------------------------------- | -------------------------------------------------------------------- |---|
+| 🟦 **Procesar y preparar la base de datos** | 🔵 Conectar/importar datos a herramientas |
👍 ¿Creaste un project, un dataset y subiste las tablas al ambiente de BigQuery?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Identificar y manejar valores nulos |
👍 ¿Has identificado nulos a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Identificar y manejar valores duplicados |
👍 ¿Has identificado duplicados a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Identificar y manejar datos fuera del alcance del análisis |
👍 ¿Has manejado datos fuera del alcance a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Identificar y manejar datos discrepantes en variables categóricas |
👍 ¿Has identificado y manejado datos discrepantes en variables categóricas través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Identificar y manejar datos discrepantes en variables numéricas |
👍 ¿Has identificado y manejado datos discrepantes en variables numéricas a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Comprobar y cambiar tipo de dato |
👍 ¿Has cambiado el tipo de dato a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Crear nuevas variables |
👍 ¿Has creado nuevas variables a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Unir tablas |
👍 ¿Has utilizado JOINS para unir tablas?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🔵 Construir tablas auxiliares |
👍 ¿Has utilizado la estructura de tablas temporales WITH?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| 🟪 **Hacer un análisis exploratorio** | 🟣 Agrupar datos según variables categóricas |
👍 ¿Has agrupado al menos una variable categórica y analizado su resultado en perspectiva a otra variable numérica?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🟣 Visualizar las variables categóricas |
👍 ¿Has creado al menos un gráfico de barras para el resultado de la meta anterior?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🟣 Aplicar medidas de tendencia central |
👍 ¿Has aplicado al menos una vez las medidas de tendencia central para analizar una variable (y lo entendiste/interpretaste)?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🟣 Aplicar medidas de dispersión |
👍 ¿Has calculado al menos una vez la desviación estándar (y lo entendiste/interpretaste)?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🟣 Calcular correlación entre variables |
👍 ¿Has calculado la correlación entre dos variables al menos una vez (y lo entendiste/interpretaste)?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
👍 ¿Has discutido y seleccionado la información relevante para la presentación?
👎**Veto**: Si no has hecho este proceso de discusión no has logrado esta meta.
|
+| | 🟢 Crear una presentación |
👍 ¿Has creado una presentación?
👎**Veto**: Si no has creado la presentación en conjunto y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
+| | 🟢 Presentar resultados con conclusiones y recomendaciones |
👍 ¿Has presentado los resultados de este proyecto en un video de 5 minutos?
👎**Veto**: Si no has hecho tu propio video con conclusiones de los análisis realizados, no has logrado esta meta.
|
diff --git a/projects/05-artist-launch/README.md b/projects/05-artist-launch/README.md
index 6cfe8e662..70f27b0f8 100644
--- a/projects/05-artist-launch/README.md
+++ b/projects/05-artist-launch/README.md
@@ -8,8 +8,7 @@
* [4. Plan general de trabajo](#4-plan-general-de-trabajo)
* [5. Plan detallado de trabajo](#5-plan-detallado-de-trabajo)
* [6. Consideraciones para pedir tu Project Feedback](#6-consideraciones-para-pedir-tu-project-feedback)
-* [7. Self review](#7-self-review)
-* [8. Objetivos de aprendizaje](#8-objetivos-de-aprendizaje)
+* [7. Objetivos de aprendizaje](#7-objetivos-de-aprendizaje)
***
@@ -137,324 +136,12 @@ vayas encontrando, pero siempre siguiendo una lógica.
## 5. Plan detallado de trabajo
-En la siguiente imagen se describe el plan de trabajo detallado
-que seguiremos.
-
-![image](https://drive.google.com/file/d/1Yftgpw7uL0AIBMkuu6XDS9Wta3yHbe-J/view)
-
-### ⬜ Paso 0. Preparación
-
-#### 0.1 Herramientas y/o plataformas
-
-En este proyecto vas a utilizar una herramienta de Google llamada
-BigQuery, para el manejo de los datos, y una herramienta llamada
-Looker Studio para la visualización de los datos:
-
-* BigQuery
-* Looker Studio
-
-#### 0.2 Lenguajes
-
-Utilizarás el lenguaje SQL en BigQuery . Nota la
-diferencia entre “lenguaje” (SQL) y “herramienta” (BigQuery), en la sección de
-recursos de cada meta encontrarás cursos de SQL que pueden ayudarte a comprender
-estos lenguajes y cómo usarlos en estas herramientas.
-
-#### 0.3 Insumos
-
-Este conjunto de datos contiene datos sobre las canciones más
-reproducidas en Spotify en 2023. Los datos se dividen en 3 tablas, la
-primera sobre el rendimiento de cada canción en Spotify, la segunda con
-el rendimiento en otras plataformas como Deezer o Apple Music, y la
-tercera con las características de estas canciones.
-
-El conjunto de datos está disponible para download en este enlace
-[dataset](https://storage.cloud.google.com/bootcamp-assets/projects/05-artist-launch/spotify_2023.zip),
-ten en cuenta que es un archivo comprimido, tendrás que descomprimirlo
-para acceder a los archivos con los datos.
-
-A continuación, puedes consultar la descripción de las variables que
-componen las tablas de este conjunto de datos:
-
-##### **Track_in_spotify**
-
-* **track_id**: Identificador único de la canción. Es un número entero
- de 7 dígitos que no se repite
-* **track_name**: Nombre de la canción
-* \*\*artist(s)\_name\*\*: Nombre del artista(s) de la canción
-* **artist_count**: Número de artistas que contribuyen a la canción.
-* **released_year**: Año en que se lanzó la canción.
-* **released_month**: Mes en el que se lanzó la canción.
-* **released_day**: Día del mes en que se lanzó la canción.
-* **in_spotify_playlists**: Número de listas de reproducción de Spotify
- en las que está incluida la canción
-* **in_spotify_charts**: Presencia y ranking de la canción en las listas
- de Spotify
-* **streams**: Número total de transmisiones en Spotify. Representa la
- cantidad de veces que la canción fue escuchada.
-
-##### **Track_in_competition**
-
-* **track_id**: Identificador único de la canción. Es un número entero
- de 7 dígitos que no se repite
-* **in_apple_playlists**: número de listas de reproducción de Apple
- Music en las que está incluida la canción
-* **in_apple_charts**: Presencia y rango de la canción en las listas de
- Apple Music
-* **in_deezer_playlists**: Número de listas de reproducción de Deezer en
- las que está incluida la canción
-* **in_deezer_charts**: Presencia de la canción en las listas de
- Deezer
-* **in_shazam_charts**: Presencia de la canción en las listas de
- Shazam
-
-##### **Track_technical_info**
-
-* **track_id**: Identificador único de la canción. Es un número entero
- de 7 dígitos que no se repite
-* **bpm**: Pulsaciones por minuto, una medida del tiempo de la canción.
-* **key**: Clave musical de la canción
-* **mode**: Modo de la canción (mayor o menor)
-* **danceability\_%**: Porcentaje que indica qué tan adecuada es la
- canción para bailar
-* **valence\_%**: Positividad del contenido musical de la canción.
-* **energy\_%**: Nivel de energía percibido de la canción.
-* **acusticness\_%**: Cantidad de sonido acústico en la canción.
-* **instrumentality\_%**: Cantidad de contenido instrumental en la
- canción.
-* **liveness\_%**: Presencia de elementos de actuación en vivo.
-* **speechiness\_%**: Cantidad de palabras habladas en la canción.
-
-#### 0.4 Buenas prácticas
-
-Documentar tu proceso es una de las mejores
-prácticas en el análisis de datos. Aquí hay dos sugerencias más para
-organizarse en este proyecto, específicamente para la fase de
-procesamiento y preparación de los datos:
-
-* Haz consultas que te permitan identificar todos los elementos que
- deberán limpiarse. Al terminar, haz una consulta completa para crear
- una tabla con los datos limpios, en lugar de crear una tabla en cada
- paso.
-
-* Guarda las consultas y describe qué hace cada una de ellas. Crea un
- repo donde acopiar todas los recursos y usa comentarios para describir
- para qué sirve cada una. Esto te ayudará en proyectos futuros a
- recordar cómo identificar valores nulos, por ejemplo.
-
-* Comprende la diferencia entre vista (view) y tabla para organizarse.
- Muchas veces, guardar una vista te ayuda a trabajar de una manera más
- organizada y puedes ver la consulta que generó esa vista y modificarla
- rápidamente.
-
-### 🟦 Paso 1. Procesar y preparar base de datos
-
-⌛ **Rango de tiempo estimado: De 8 a 12 horas**
-
-El preprocesamiento de datos no es una etapa que se pueda pasar por alto
-en el análisis de datos. Su importancia es evidente en la calidad de los
-resultados obtenidos. Cuando los datos se procesan y preparan de manera
-inadecuada, pueden surgir sesgos, errores y conclusiones incorrectas.
-Además, el ruido en los datos sin tratar puede perjudicar la precisión
-de las predicciones y la calidad de las decisiones basadas en el
-análisis. Por lo tanto, invertir tiempo y esfuerzo en la fase inicial de
-preprocesamiento se recompensa a lo largo de todo el proceso de análisis
-de datos, asegurando resultados más confiables y significativos.
-
-En este hito, trabajaremos con una herramienta llamada BigQuery para
-realizar la etapa de procesamiento y preparación de los datos. El
-lenguaje SQL, utilizado en esta herramienta, es ampliamente utilizado en
-el ambiente laboral y un buen analista de datos debe saber utilizarlo a
-su favor.
-
-BigQuery es un servicio de almacenamiento y análisis de datos en la nube
-proporcionado por Google Cloud. Está diseñado para permitir a las
-organizaciones almacenar, consultar y analizar grandes volúmenes de
-datos de manera rápida y escalable. BigQuery se utiliza comúnmente en
-todas las fases del análisis de datos, incluyendo la fase de
-procesamiento y preparación, debido a sus capacidades de procesamiento
-de datos y su escalabilidad.
-
-| Meta | Objetivo | Objetivo individual | Recurso |
-| -------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
-| 🔵 Conectar/importar datos a otras herramientas | Crear en BigQuery un proyecto, un conjunto de datos e importar tablas |
Debes crear su propio entorno de trabajo en BigQuery con su cuenta de Google.
En este caso, nos referimos a crear un project, un dataset (de BigQuery) y subir las tablas del dataset que te proporcionamos.
Deben coordinarse ambas para que sigan la misma estructura de proyecto en BigQuery y los mismos nombres de tablas, así será más fácil trabajar en conjunto y compartir códigos.
|
🚨 Altamente recomendado: [Mini curso BigQuery:](https://coda.io/d/Curso-Google-BigQuery_dhocNT3PUIE/Introduccion_su3UO#_luO8s) Aquí encontrarás cómo configurar tu Sandbox, y cómo hacer tus primeras consultas
📄 [Cómo empezar con BigQuery (sandbox - versión gratuita)](https://cloud.google.com/bigquery/docs/sandbox?hl=es-419)
📹 [Qué es BigQuery](https://www.youtube.com/watch?v=RxKtIicl8r0)
📹 [Cómo crear un Project, Dataset y cargar tabla en BigQuery](https://www.youtube.com/watch?v=BN8WAOtJ4CY)
⚠️ Sandbox es la versión gratuita de Bigquery que te permite realizar consultas y crear tablas, y no te pide incluir datos de tarjeta de crédito, sin embargo, al ser la versión gratuita, el almacenamiento de tablas, vistas y consultas solo dura 3 meses por lo que es importante crear un documento donde puedas guardar tus consultas y todo lo que creas que es importante sobre este proyecto para consultarlo en el futuro.
|
-| 🔵 Identificar y manejar valores nulos | Identificar nulos a través de comandos SQL COUNT, WHERE y IS NULL |
Debes consultar los nulos de al menos una tabla, por ejemplo, una consulta los nulos `track_technical_info`, la otra de track_in_competition y ambas de track_in_spotify.
De esta forma, se aseguran de que cada una haga (y aprenda) al menos una consulta para identificar y manejar los nulos. Pueden intercambiar las consultas para que cada una vaya completando todo en su propio entorno de BigQuery.
|
🚨**Altamente recomendado**: 📄[Concepto valores nulos](https://docs.google.com/document/d/1AJRLPg2SWLvC1pnGOz-f1SNZXH1X63x2xWlquDBtlmE/edit?usp=sharing): En este enlace encontrarás la descripción de algunos tipos de nulos. (🔈[versión en audio](https://drive.google.com/file/d/1Y88gJEBdorDMRoEjnIUJNyI4G0LLAaGk/view?usp=drive_link))
📄 [Qué es una consulta (query)](https://docs.google.com/document/d/1upi7Ashq_wro02zjMjnQlWgivQ9gsQWIy8q9pLm9WZ4/edit)
📹 [Cómo idenficar nulos usando COUNT, WHERE y IS NULL](https://www.loom.com/share/3ae5d6e7f500405f95e8f1a110413a35?sid=c44c44d8-7caa-4da4-9261-03f6fd92348c)
💡 Haz una consulta para identificar los valores nulos en cada variable, toma nota de lo que encuentras o guarda la consulta (query) con la decisión que tomará (conservar o eliminar), de modo que después de realizar todo el paso de limpieza e identificar que es necesario eliminar/modificar etc, pueda crear una solo consulta (query) con todos los pasos de limpieza para la tabla en la que estás trabajando y en este momento crear una tabla o view con los datos limpios.
🧑💻 Si aún no está claro cómo identificar valores nulos en BigQuery, puedes pedir ejemplos a alguna AI como ChatGPT, Bing o Perplexity (por ejemplo)
|
-| 🔵 Identificar y manejar valores duplicados | Identificar duplicados a través de comandos SQL COUNT, GROUP BY, HAVING |
Debes consultar los duplicados de al menos una tabla, por ejemplo, una consulta los duplicados de `track_technical_info`, la otra de track_in_competition y ambas de track_in_spotify.
|
🚨 **Altamente recomendado**: [Concepto valores duplicados](https://docs.google.com/document/d/1jXm4s7b17eObHd8sMvJSGwWi1YzdG_VZq56Xooy5Ioo/edit?usp=sharing): En este enlace encontrarás un artículo sobre valores duplicados y algunos ejemplos de por qué esto pasa. (🔈[versión en audio](https://drive.google.com/file/d/1TbKPSvocksk33eFg42lHf3kD8Y3NuzsN/view?usp=drive_link))
📹 [Cómo identificar duplicados a través de GROUP BY y HAVING (Ve también la diferencia entre los comandos WHERE y HAVING)](https://www.loom.com/share/0bd5d25a7e634bd39012f5bd913e3a3b?sid=507743b7-ee30-4c68-8756-a344798cad32)
💡 Recuerda que los valores duplicados no siempre significan un error, y as veces para determinar si un dato es duplicado debemos mirar otras variables en conjunto. Es decir, el nombre de la canción se puede repetir, sin embargo, si miramos la variable `track_name` más el nombre del artista, esta información en conjunto no se puede repetir, por ejemplo, podemos tener la canción Flowers de Mily Cyrus y Flowers de Bruno Mars, pero no podemos tener Flowers de Mily Cyrus dos veces.
|
-| 🔵 Identificar y manejar datos fuera del alcance del análisis | Manejar variables que no son útiles para el análisis a través de comandos SQL SELECT EXCEPT |
Debes analizar las variables fuera de alcance de al menos una tabla, por ejemplo, una consulta los de `track_technical_info`, la otra de track_in_competition y ambas de track_in_spotify.
|
🚨 **Altamente recomendado**: [Concepto valores fuera del alcance](https://docs.google.com/document/d/1-SsxH5Ke3qAaWg5YKrkRwkExd91Q0RdJGplLAiXPiYA/edit?usp=sharing): En este enlace encontrarás algunas descripciones y ejemplos de qué es un valor fuera del alcance del análisis. (🔈[versión en audio](https://drive.google.com/file/d/1Z963-z4MCiRRjt5RZF75oH_CH1BqDNrO/view?usp=drive_link))
📹 [Cómo utilizar EXCEPT para selecionar variables](https://www.loom.com/share/2fa18d5cfd33403faaa794a2b08671f1?sid=2d16f30b-a26c-4d3c-bfd8-88ba7c664f25)
💡 Los datos fuera de alcance, como vimos en el proyecto anterior, pueden hacer referencia a filas de una base de datos o también a variables. ¿Hay alguna variable que creas que no se utilizará en este análisis y quizás podríamos excluirla, como `key` y `mode` u otra variable que tenga una gran cantidad de valores nulos?
|
-| 🔵 Identificar y manejar datos discrepantes en variables categóricas | Utilizar comandos de manejo de string, como LIKE o REGEXP |
Debes usar el comando para ajustar las variables de tipo string al menos una vez, en este objetivo pueden trabajar en la misma tabla.
|
📹 [Cómo utilizar comandos LIKE y REGEXP](https://www.loom.com/share/3f7bb1362d5947ecb8c83e6f0690a4a5?sid=76f52b28-efb3-4991-b4c1-bd288bd4e805)
📄 [Documentación Google sobre String Functions](https://cloud.google.com/bigquery/docs/reference/standard-sql/string_functions)
🔈 [Concepto variables categóricas (versión en audio)](https://drive.google.com/file/d/13gQ6Ni9FUfDmi5bjQivjeKj04fAI8Gl2/view?usp=drive_link)
📹. [Video sobre tipos de variables](https://www.loom.com/share/afa56686810e46309761bc889364b2d9?sid=cabf587c-7ba1-4419-b501-32c98a73e191)
🧑💻 Notarás que algunos nombres de música y artistas tienen símbolos raros. Trabajar con cadenas suele suponernos algo de trabajo extra, siempre tenemos que buscar la secuencia REGEX que nos ayude a gestionar estos datos, por lo que sería un buen momento para utilizar nuestros recursos de IA. escribe al ChatGPT "¿Cómo eliminar caracteres especiales de una cadena (string) en BigQuery?"
|
-| 🔵 Identificar y manejar datos discrepantes en variables numéricas | Utilizar comandos como MAX, MIN y AVG para identificar valores discrepantes en variables numéricas |
Debes analizar las variables numéricas de al menos una tabla, por ejemplo, una consulta los de `track_technical_info`, la otra de track_in_competition y ambas de track_in_spotify.
|
📹[Identificar valores discrepantes en variables numéricas con MAX, MIN y AVG](https://www.loom.com/share/4fb40d01dddf4e3cbf981029ed08613a?sid=5e46b20b-5ea4-47c4-a808-99969a369431)
💡 Notarás que la variable streams contiene datos no numéricos, por lo que no podemos hacer AVG, este error puede haber causado que esta variable que debería ser INTEGER esté como STRING y es por eso que necesitamos cambiar el tipo de datos. Puedes avanzar a la siguiente meta, cambiar el tipo de dato y luego volver.
|
-| 🔵 Comprobar y cambiar tipo de dato | Utilizar CAST para modificar el tipo de dato |
Una debe poder cambiar el tipo de dato de la variable streams y la otra debe brindar soporte. En el próximo objetivo, cuando creemos una nueva variable de fecha, tendrás la oportunidad de poner en práctica el comando CAST nuevamente.
|
🚨 **Altamente recomendado**: 📄[Tipos de datos en SQL](https://docs.google.com/document/d/1z0evGu8JtjDPuFlH1pkbqYR6scRwukPfwWKJ-KmZRmI/edit?usp=sharing)
📹 [Tipos de datos en SQL](https://www.youtube.com/watch?v=A1tZ-d2uxws)
📹 [Cambiar tipo de dato con CAST](https://www.loom.com/share/dfca15dd59084f83a1343eb476c71e96?sid=5ffd1896-5cf2-4ad5-88dc-741152483c45)
💡 Encontrarás una variable de texto que no puede ser convertida. Evalúa si no es mejor borrar esta variable. Tip: usa NOT LIKE para filtrar los datos de texto de la variable streams.
|
-| 🔵 Crear nuevas variables | Crear una variable de fecha released y una de participación total en playlists |
Ambas deben poder crear una nueva variable, para que la que no tuvo la oportunidad de usar el comando CAST pueda poner en práctica este comando, debe crear la variable de fecha de lanzamiento completa usando concat y cast para que la fecha quede en el formato aaaa-mm-dd
|
🚨 **Altamente recomendado**: [Concepto crear nuevas variables](https://docs.google.com/document/d/1yp5MVB8iirIbYwptscJ4YrjsY4Bnd8mrsDB75Onun2s/edit?usp=sharing): en este enlace encontrarás una pequeña descripción sobre este concepto. (🔈[versión en audio](https://drive.google.com/file/d/15P7Gp4_F_EOasIgW7SUhK8bf0MIDD6K8/view?usp=drive_link))
📹 [Como crear nuevas variables con CONCAT y operaciones matemáticas](https://www.loom.com/share/65e15aa134c545bc9cfdc6b88bc2ae78?sid=46988f46-bcc0-471f-b89e-55c7ffe953b5)
💡 Recuerda que hay diferencia cuando estamos utilizando operaciones matemáticas en SQL, cuando utilizamos el comando SUM se suma la columna y cuando queremos sumar los valores por fila podemos utilizar los operadores matemáticos como +.
Antes de unir las tablas, debes crear la vista (view) con los datos limpios de cada tabla.Y al unir tablas usando LEFT JOIN, debes hacer el JOIN de una tabla.
|
🚨 **Altamente recomendado**:📹 [Tipos de JOIN en SQL](https://www.youtube.com/watch?v=HDBdAIcqJQo)
📹 [Diferencia entre VIEW y CREATE TABLE](https://www.loom.com/share/97dbe237b9de459baa4d788f8bb44502?sid=e2168d4f-a8ff-44e4-b3f0-55e72596350a)
💡 Antes unir las tablas crea views con los datos limpios de cada tabla y haz el left join de las views.
|
-| 🔵 Construir tablas auxiliares | Utilizar el comando WITH para crear una tabla temporal para calcular el total de canciones por artista solista |
Una debe crear la tabla temporal con WITH y la otra auxiliar. En la próxima oportunidad que se necesite crear la tabla temporal con WITH dentro de este hito, la que aún no haya implementado esta técnica deberá hacerlo.
|
📹[Cómo utilizar comando WITH y para qué sirve](https://www.loom.com/share/8e2f6f70db214e2484af45375539d8e9?sid=222c7e6d-1ff5-430a-ab28-64c025f34ebf)
💡 Calcular el total de canciones para el artista solo, es decir, cuando no hay más artistas creadores de la canción.
|
-
-🤸 Sólo por diversión:
-
-¿Piensas en una forma de hacer todos estos pasos en una misma consulta
-después de importadas las tablas?
-
-### 🟪 Paso 2. Hacer un análisis exploratorio
-
-⌛ Rango de tiempo estimado: **De 8 a 12 horas**
-
-El análisis exploratorio de datos (AED) es una fase fundamental en la
-comprensión de conjuntos de datos, y las herramientas como Looker Studio y
-BigQuery desempeñan un papel crucial en este proceso. Looker Studio, una
-plataforma de visualización de datos de Google, permite crear paneles
-interactivos y gráficos dinámicos que facilitan la exploración y
-comprensión de los datos. Al aprovechar las capacidades de Looker Studio, los
-usuarios finales pueden identificar patrones, tendencias y anomalías en
-los datos de manera efectiva.
-
-BigQuery, por otro lado, es una potente herramienta de almacenamiento y
-análisis de datos de Google Cloud. Con su capacidad para manejar grandes
-volúmenes de datos y realizar consultas en lenguaje SQL de alto
-rendimiento, BigQuery es esencial para explorar datos a gran escala. Los
-analistas pueden utilizar BigQuery para realizar consultas avanzadas y
-calcular estadísticas esenciales que proporcionan información valiosa
-sobre el conjunto de datos.
-
-Combinar Looker Studio y BigQuery brinda una solución integral para el
-análisis exploratorio. Los datos pueden ser extraídos y transformados en
-BigQuery, y luego visualizados y explorados en profundidad utilizando
-Looker Studio. Esta combinación permite desentrañar insights significativos,
-identificar relaciones, y tomar decisiones informadas basadas en un
-análisis profundo de los datos. En resumen, el análisis exploratorio se
-beneficia enormemente de la sinergia entre Looker Studio y BigQuery,
-facilitando la obtención de información valiosa a partir de datos
-complejos y extensos.
-
-| Meta | Objetivo | Objetivo Individual | Recurso |
-| ---- | ---- | ---- | ---- |
-| 🟣 Agrupar datos según variables categóricas | Agrupar variables categóricas a través de tablas en Looker Studio o a través de GROUP BY en BigQuery|
Debes agrupar al menos una variable categórica que pueden ser cantidad de tracks por artista, cantidad de tracks por `released_year` etc.
|
🚨 **Altamente recomendado**: [Concepto variables categóricas](https://docs.google.com/document/d/1BIqa7xR0JNadM9kQExypo3plnwrNia92zCuxkPuMj5A/edit?usp=sharing): En este documento encontrará la descripción y ejemplos de este concepto. (🔈 [versión en audio](https://drive.google.com/file/d/13gQ6Ni9FUfDmi5bjQivjeKj04fAI8Gl2/view?usp=drive_link))
📹 [Video sobre tipos de variables](https://www.loom.com/share/afa56686810e46309761bc889364b2d9?sid=cabf587c-7ba1-4419-b501-32c98a73e191): En este video verá una pequeña descripción de variables categóricas y numéricas.
📹 [Video como empezar en Looker Studio](https://www.youtube.com/watch?v=P5WLaeSQK7s&t=3s)
📹 [Video Como conectar datos en Looker Studio](https://www.loom.com/share/0cce98d5bbc7482ea421444e2f850cc1)
📹 [Video visión general Looker Studio](https://www.loom.com/share/9c7505eb3c2a4612bdfb7c9d43c40051)
📹 [Video como crear un dashboard en data studio](https://www.youtube.com/watch?v=Sprmb4W82sk)
📄 [Tutorial de Google Como crear un informe en Looker Studio](https://support.google.com/looker-studio/answer/6292570?hl=ES#zippy=%2Csecciones-de-este-art%C3%ADculo)
⚠️Recientemente, Data Studio ha cambiado de nombre a Looker Studio, por lo que es posible que encuentres referencias a Data Studio en algunos contenidos. Sin embargo, se trata del mismo producto.
📹 [Cómo crear una tabla dinamica en Looker Studio](https://www.youtube.com/watch?v=3WJrWfAtgEw)
💡 Visualiza las variables categóricas como artist y fíjate si hay alguno que destaque, utiliza los años para ver estos datos por año
💡 Prueba hacerlo en BigQuery a través del comando GROUP BY para ver los datos agrupados o con tablas en Looker Studio
|
-| 🟣 Visualizar las variables categóricas | A través de gráficos de barras, visualizar las variables categóricas |
Debes crear al menos un gráfico de barras para visualizar las variables agrupadas anteriormente.
|
📹 [Cómo crear gráficos en Looker Studio](https://www.youtube.com/watch?v=B3hPsl-8u3A)
|
-| 🟣 Aplicar medidas de tendencia central | A través de tablas en Looker Studio o BigQuery, calcular las medidas de tendencia central (Promedio y Mediana) |
Debes calcular las medidas de tendencia central (promedio y mediana) al menos para una variable. Una puede analizar `streams` y otra el total de veces que aparece en una playlist
[🔈 Concepto estadísticas descriptivas (versión en audio)](https://drive.google.com/file/d/1v6xdtWci7rYtMKibGowl9OxBArT3CVnI/view?usp=drive_link)
📄 [Concepto medidas de tendencia central](https://docs.google.com/document/d/1Ly_7zLmUjcczqCkQLQwvDYEGyRLtSNQLVi3w8CIh8sI/edit?usp=sharing)
[🔈 Concepto medidas de tendencia central (versión en audio)](https://drive.google.com/file/d/1viy63m4n8Gn9aYHNuLJpd8RzFrTNnlw2/view?usp=drive_link)
📹 [Video tablas en Looker Studio](https://www.youtube.com/watch?v=7CLCz3PgJ5s)
💡 Observa el comportamiento de las variables streams y total presencia en playlists
|
-| 🟣 Calcular correlación entre variables | Calcular correlación en BigQuery a través de CORR |
Debes calcular la correlación entre dos variables continuas. Una puede calcular para `streams` y `playlists` y otra para `streams` y `danceability`
|
📄 [Concepto correlación de Pearson](https://docs.google.com/document/d/1HvuENDveavTmlRtSGk3Gv3LqSPNbRPWNYgOU8e3CxTM/edit?usp=sharing)
📹 [Cómo calcular correlación en BigQuery](https://www.loom.com/share/9bf3e48cf57d48ca9c81c2c19562dedf?sid=c4c8a611-d0ae-4c4f-a2f5-200ce48746f4)
💡 Comprender el cálculo de correlación nos ayudará más adelante en la validación de las hipótesis
|
-
-🤸 Sólo por diversión:
-
-¿Piensas en algún gráfico que podría ayudar a ver y entender la relación
-entre dos variables?
-
-### 🟥 Paso 3. Aplicar técnica de análisis
-
-⌛ **Rango de tiempo estimado: De 8 a 12 horas**
-
-La validación de hipótesis es un proceso crucial en la estadística y la
-investigación científica. Se refiere a la evaluación de afirmaciones o
-suposiciones acerca de una población o un fenómeno, a través del examen
-de datos recopilados de una muestra de esa población. En esencia, se
-trata de determinar si las suposiciones hechas sobre una población son
-respaldadas por la evidencia empírica proporcionada por los datos.
-
-En este hito, buscamos responder las hipótesis planteadas por la
-discográfica:
+El plan detallado de ejecución de este proyecto dependerá de la herramienta
+de _Bussiness intelligent_ que uses. Tienes dos opciones para escoger. Consulta
+con tu coach cual debes elegir.
-* Las canciones con un mayor BPM (Beats Por Minuto) tienen más éxito en
- términos de streams en Spotify
-* Las canciones más populares en el ranking de Spotify también tienen un
- comportamiento similar en otras plataformas como Deezer
-* La presencia de una canción en un mayor número de playlists se
- relaciona con un mayor número de streams
-* Los artistas con un mayor número de canciones en Spotify tienen más
- streams
-* Las características de la música influyen en el éxito en términos de
- streams en Spotify
-
-Para validar las hipótesis vamos a utilizar el cálculo de la
-correlación entre dos variables y la interpretación de gráficos,
-como gráficos combinados o gráficos de dispersión con línea de tendencia.
-Al analizar la variable que estamos intentando comprender (streams) en
-relación con otras variables disponibles en la base de datos, podemos
-identificar características comunes entre las canciones más escuchadas
-en Spotify,
-
-| Meta | Objetivo | Objetivo individual | Recurso|
-| --- | ---- | ---- | ---- |
-| 🔴 Validar hipótesis | Validar las hipótesis levantadas a través de la correlación y scatter plot |
Debes calcular la correlación de las variables de una hipótesis y visualizar estos datos a través de un scatter plot y discutir los resultados si existe o no una correlación y si la hipótesis es verdadera
|
💡 Para validar las hipótesis planteadas podemos analizar la relación entre las variables de la hipótesis a través de la correlación, que ya hemos visto como calcular en BigQuery y visualizarlas a través de un gráfico scatter plot en Looker Studio para comprender y analizar lo que hace una canción exitosa.
📹 [Gráfico de dispersión](https://www.youtube.com/watch?v=gX-vNQVSYSM&t=477s)
|
-
-🤸 Sólo por diversión:
-
-¿Crees que se podría validar estas hipótesis por grupos menores,
-como por ejemplo, las canciones con fecha de lanzamiento en 2023?
-
-¿Piensas en alguna otra hipótesis que puedas analizar?
-
-### 🟧 Paso 4. Resumir información en un dashboard o reporte
-
-⌛ **Rango de tiempo estimado: De 8 a 12 horas**
-
-Looker Studio es una plataforma de visualización y análisis de datos
-de Google que permite a los usuarios crear informes interactivos y
-personalizados, integrando diversas fuentes de datos para generar
-insights visuales detallados. Los dashboards, o paneles de control,
-son una característica clave de esta plataforma, presentando datos
-clave en un formato visual conciso y fácil de entender. Un dashboard
-es una herramienta visual que presenta información clave y datos relevantes
-de manera concisa y accesible, facilitando la supervisión y análisis
-del rendimiento en tiempo real. Sus elementos incluyen gráficos y
-diagramas para identificar tendencias, tablas para una lectura detallada,
-indicadores clave de desempeño (KPIs) para monitoreo rápido, filtros
-y controles interactivos para personalizar la visualización, mapas para
-datos geoespaciales, texto y notas para contexto adicional, y widgets
-de tiempo real para actualizaciones instantáneas. Combinados, estos
-elementos permiten una visualización eficiente y comprensible de grandes
-volúmenes de datos, apoyando la toma de decisiones informadas.
-
-En resumen, Looker Studio es una herramienta esencial para cualquier empresa
-o profesional que desee convertir datos en información significativa,
-tomar decisiones estratégicas y comunicar de manera efectiva los
-insights a través de visualizaciones atractivas y accesibles.
-
-En este hito, trabajaremos con Looker Studio también para crear un dashboard
-organizado que genere información al negocio. Este es el momento de
-organizar tus gráficos creados en el paso de análisis exploratorio y
-crear un ambiente amigable para la compañía discográfica.
-
-| Meta | Objetivo | Objetivo individual | Recurso |
-| ---- | ---- | ---- | ---- |
-| 🟠 Representar datos a través de tabla resumen o scorecards | Crear scorecards para los números generales de la base de datos |
Debes crear al menos una tarjeta de resultados (scorecards)
|
📹 [Video como crear scorecards (tarjeta de resultados) en Looker Studio](https://www.youtube.com/watch?v=D09zovxBXWs)
💡 Busque contenidos en YouTube para sacar ideas de como armar su dashboard en Looker Studio
|
-| 🟠 Representar datos a través de gráficos simples | Representar los datos a través de gráficos de barras y líneas |
Cada una ya ha hecho este ejercicio anteriormente en la habilidad de Análisis Exploratorio, ahora como dupla deben elegir qué gráficos utilizar en su dashboard y organízalo
|
💡 Crea nuevas páginas en Looker Studio para organizar tus datos. En la opción “manejar páginas” puedes elegir dejar visible o no una página en tu dashboard, así no necesitas borrar ninguna página y puedes dejar tu análisis exploratorio guardado.
|
-| 🟠 Representar datos a través de gráficos o visuales avanzados | Representar datos a través de scatter plot |
Cada una ya ha hecho este ejercicio anteriormente en la habilidad de Análisis Exploratorio, ahora como dupla deben elegir qué gráficos utilizar en su dashboard y organízalo para que explique los resultados obtenidos |
💡 Considera incluir el gráfico scatter plot para representar tus resultados.
|
-| 🟠 Aplicar opciones de filtros para manejo e interacción | Incluir filtros para visualizar los resultados por categorías y por fecha |
Incluir una página donde se pueda visualizar los datos generales por filtros. Debes incluir un filtro, pueden ser filtro de fecha, filtro de categoría, etc.
|
📹 [Video filtros en Looker Studio](https://www.youtube.com/watch?v=HZMZcNf1jdk).
💡 Incluye filtros para que podamos visualizar estos datos en diferentes perspectivas
|
-
-🤸 Sólo por diversión:
-
-¿Piensas en otros gráficos que se podrían utilizar para construir tu dashboard?
-
-### 🟩 Paso 5. Presentar resultados
-
-⌛ **Rango de tiempo estimado: De 8 a 12 horas**
-
-Tanto Google Slides como Looker Studio son herramientas valiosas para
-presentar datos en una presentación de negocios. Google Slides es ideal
-para presentaciones visuales y concisas, mientras que Looker Studio es una
-opción poderosa para analizar y explorar datos de manera interactiva.
-Elige la herramienta que mejor se adapte a tus necesidades y audiencia,
-y crea una presentación impactante que respalde tus argumentos y ayude a
-tomar decisiones informadas.
-
-En este hito, puedes elegir presentar solamente a través de Google
-Slides o mezclar con tu dashboard de Looker Studio en presentación.
-
-| Meta | Objetivo | Objetivo individual | Recurso |
-| ---------------------------------------------------------- | -------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
-| 🟢 seleccionar gráficos e información relevante | Resumir información para una presentación de 5 minutos |
En este momento deben ponerse de acuerdo sobre que gráficos deben presentar, pues la presentación que crearán en conjunto debe ser presentada individualmente.
📹 [Que es Data Storytelling](https://www.youtube.com/watch?v=NDs2BXgvzPc).
📹 Vea en este video [diferentes formas de presentar una misma información](https://www.youtube.com/watch?v=2vWT6hmnVVg).
|
-| 🟢 crear una presentación | Crear una presentación de slides que te guíe y presente los resultados más importantes |
Crear la presentación de slides en conjunto.
|
📹 [Video sobre como crear presentaciones en Google Slides](https://www.youtube.com/watch?v=T8Fs-zkIX3I)
📹 [Compartir presentación para trabajar en conjunto](https://www.loom.com/share/3220709262c142d4a0214cfc09856dcc?sid=b00df098-70e9-4a2a-89c7-e68b265ed588).
💡 Crea una presentación que deje ambas confortables para hacer su video de presentación de los resultados.
|
-| 🟢 presentar resultados con conclusiones y recomendaciones | Grabar un video de máximo 5 minutos explicando sus conclusiones y recomendaciones |
Debes grabar su video individualmente, pero utilizando los recursos que hicieron en conjunto.
|
📄 [Artículo sobre presentar datos](https://apolitical.co/solution-articles/es/presentar-datos-5-consejos-hacer-datos-comprensibles)
📄 [Artículo sobre presentar datos](https://vilmanunez.com/como-hacer-una-presentacion-de-resultados/)
📹 [Video tips para una presentación](https://www.youtube.com/watch?v=MPW6Ak3dxWc&t=157s)
💡 Aunque han hecho el trabajo juntos y utilizarán los mismos recursos, esto no significa que la forma en que presenten los resultados deba ser la misma. Cada persona puede presentar los resultados a su manera, según su personalidad e individualidad.
|
-
-🤸 Sólo por diversión:
-¿Puedes armar una presentación como si estuvieras presentando al representante
-de la compañía discográfica y al nuevo artista que quiere lanzarse en el mundo
-musical?
-
-ℹ️ **Al finalizar el proyecto comparte el enlace/liga/link público de
-repositorio de Github conteniendo un README con las consultas
-(queries) utilizadas donde se pueden ver claramente todos los pasos
-que seguiste y los resultados que obtuviste. Agrega tambienel link
-del Looker Studio en el que trabajaste el proyecto.
-Como este es un proyecto en dupla, solo
-el video debe ser individual, los archivos compartidos pueden ser los mismos.**
+* [Looker Studio](./LookerStudio.md)
+* [Power BI](./PowerBI.md)
## 6. Consideraciones para pedir tu Project Feedback
@@ -478,37 +165,7 @@ Antes de agendar tu Project Feedback con tu coach, asegúrate de que tu proyecto
que obtuviste. Como este es un proyecto en dupla, solo el video debe
ser individual, los archivos compartidos pueden ser los mismos.
-## 7. Self review
-
-A continuación se muestran una tabla con las habilidades y objetivos de aprendizaje.
-Uso la columna `Self review` para evaluar si haz alcanzado o no cada objetivo.
-
-| Habilidades | Objetivos de aprendizaje |Self review|
-| ---------------------------------------------------- | -------------------------------------------------------------------- |---|
-| 🟦 **Procesar y preparar la base de datos** | 🔵 Conectar/importar datos a herramientas |
👍 ¿Creaste un project, un dataset y subiste las tablas al ambiente de BigQuery?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🔵 Identificar y manejar valores nulos |
👍 ¿Has identificado nulos a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🔵 Identificar y manejar valores duplicados |
👍 ¿Has identificado duplicados a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🔵 Identificar y manejar datos fuera del alcance del análisis |
👍 ¿Has manejado datos fuera del alcance a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🔵 Identificar y manejar datos discrepantes en variables categóricas |
👍 ¿Has identificado y manejado datos discrepantes en variables categóricas través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🔵 Identificar y manejar datos discrepantes en variables numéricas |
👍 ¿Has identificado y manejado datos discrepantes en variables numéricas a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🔵 Comprobar y cambiar tipo de dato |
👍 ¿Has cambiado el tipo de dato a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🔵 Crear nuevas variables |
👍 ¿Has creado nuevas variables a través de comandos SQL?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🔵 Unir tablas |
👍 ¿Has utilizado JOINS para unir tablas?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🔵 Construir tablas auxiliares |
👍 ¿Has utilizado la estructura de tablas temporales WITH?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| 🟪 **Hacer un análisis exploratorio** | 🟣 Agrupar datos según variables categóricas |
👍 ¿Has agrupado al menos una variable categórica y analizado su resultado en perspectiva a otra variable numérica?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🟣 Visualizar las variables categóricas |
👍 ¿Has creado al menos un gráfico de barras para el resultado de la meta anterior?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🟣 Aplicar medidas de tendencia central |
👍 ¿Has aplicado al menos una vez las medidas de tendencia central para analizar una variable (y lo entendiste/interpretaste)?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🟣 Calcular correlación entre variables |
👍 ¿Has calculado la correlación entre dos variables al menos una vez (y lo entendiste/interpretaste)?
👎**Veto**: Si no has hecho este proceso al menos una vez y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
👍 ¿Has discutido y seleccionado la información relevante para la presentación en conjunto con tu dupla?
👎**Veto**: Si no has hecho este proceso de discusión con tu dupla y solo has mirado a tu compañera hacer la selección de información, no has logrado esta meta.
|
-| | 🟢 Crear una presentación |
👍 ¿Has creado una presentación en conjunto con tu dupla?
👎**Veto**: Si no has creado la presentación en conjunto y solo has mirado a tu compañera hacerlo, no has logrado esta meta.
|
-| | 🟢 Presentar resultados con conclusiones y recomendaciones |
👍 ¿Has presentado de manera individual los resultados de este proyecto en un video de 5 minutos?
👎**Veto**: Si no has hecho tu propio video con conclusiones de los análisis realizados, no has logrado esta meta.
|
-
-## 8. Objetivos de aprendizaje
+## 7. Objetivos de aprendizaje
> ℹ️ Esta sección será automáticamente generada en el idioma pertinente, a partir
> de los objetivos de aprendizaje declarados en [`project.yml`](./project.yml),
diff --git a/projects/05-artist-launch/README.pt.md b/projects/05-artist-launch/README.pt.md
deleted file mode 100644
index baffde019..000000000
--- a/projects/05-artist-launch/README.pt.md
+++ /dev/null
@@ -1,514 +0,0 @@
-# Artist Launch
-
-## Índice
-
-* [1. Considerações gerais](#1-Considerações-gerais)
-* [2. Preâmbulo](#2-Preâmbulo)
-* [3. Resumo do projeto](#3-Resumo-do-projeto)
-* [4. Plano geral de trabalho](#4-Plano-geral-de-trabalho)
-* [5. Plano-detalhado-de-trabalho](#5-Plano-detalhado-de-trabalho)
-* [6. Considerações para solicitar seu Feedback do Projeto](#6-Considerações-para-solicitar-seu-Feedback-do-Projeto)
-* [7. Self review](#7-self-review)
-* [8. Objetivos de aprendizaje](#8-Objetivos-de-aprendizaje)
-
-***
-
-## 1. Considerações gerais
-
-* Este projeto será realizado em **duplas**.
-* O tempo estimado para concluir o projeto é de 2 a 4 Sprints.
-* Foque em aprender e não apenas em "concluir" o projeto.
-
-## 2. Preâmbulo
-
-![Um microfone e ao fundo um guitarrista](https://images.unsplash.com/photo-1535712593684-0efd191312bb)
-
-_Crédito: Foto de [Daniel Chekalov](https://unsplash.com/@dchuck?utm_content=creditCopyText&utm_medium=referral&utm_source=unsplash)_
-_em [Unsplash](https://unsplash.com/photos/guitarist-holding-black-guitar-4YhwiEsL0AQ?utm_content=creditCopyText&utm_medium=referral&utm_source=unsplash)_
-
-A validação de hipóteses é um processo fundamental na tomada de
-decisões baseadas em evidências, e não somente em crenças ou
-opiniões. Na análise de dados, é comum levantar suposições ou
-hipóteses sobre relações, tendências ou diferenças entre as variáveis
-dos dados disponíveis. A validação dessas hipóteses (confirmar ou
-refutar) é realizada com técnicas e métodos projetados para determinar se
-os resultados observados nos dados são estatisticamente
-significativos ou se podem ser atribuídos ao acaso.
-
-A formulação e validação de hipóteses
-pode ser utilizada em uma variedade de contextos e mercados para, por
-exemplo, planejar estratégias de marketing, estabelecer políticas de
-preços, avaliar investimentos, entender melhor o comportamento do
-mercado e dos consumidores. Ou seja, para tomar todo tipo de decisões
-estratégicas.
-
-Alguns exemplos:
-
-* Mercado da moda:
-
-Hipótese: Mudar o design do logotipo de uma marca de moda líder
-aumentará o apelo da marca entre os consumidores jovens.
-
-Análise: Poder-se-ia realizar um teste em que se mostre o novo e
-o antigo logotipo a um grupo de consumidores e se recolham suas
-opiniões (dados) para determinar se a nova imagem da marca é mais
-atraente para o público-alvo.
-
-* Mercado de tecnologia:
-
-Hipótese: Reduzir o preço de um produto tecnológico resultará em um
-aumento na participação de mercado.
-
-Análise: Poder-se-iam realizar testes de preços em diferentes
-localizações geográficas ou períodos de tempo para avaliar se essa
-redução de preço leva a um aumento na participação de mercado.
-
-* Mercado de imóveis:
-
-Hipótese: A proximidade de escolas de alta qualidade aumenta o valor das
-propriedades residenciais.
-
-Análise: Poder-se-iam comparar os preços das propriedades localizadas
-próximas a escolas de alta qualidade com as que não estão para
-determinar se a hipótese é válida.
-
-## 3. Resumo do projeto
-
-Neste projeto, vamos explorar um conjunto de dados com o objetivo de
-identificar padrões ou características que possam influenciar na
-popularidade (quantidade de streams) de uma música em plataformas como
-Spotify, Apple Music e Deezer.
-
-Uma gravadora enfrenta o emocionante desafio de
-lançar um novo artista no cenário musical global. Felizmente,
-conta com uma ferramenta poderosa em seu arsenal: um extenso dataset do
-Spotify com informações sobre as músicas mais ouvidas em 2023.
-
-A gravadora levantou uma série de hipóteses sobre o que faz com que uma
-música seja mais ouvida. Essas hipóteses incluem:
-
-* As músicas com um maior BPM (Batidas Por Minuto) têm mais sucesso em
- termos de quantidade de streams no Spotify.
-
-* As músicas mais populares no ranking do Spotify também têm um
- comportamento similar em outras plataformas como Deezer.
-
-* A presença de uma música em um maior número de playlists está
- relacionada com um maior número de streams.
-
-* Os artistas com um maior número de músicas no Spotify têm mais
- streams.
-
-* As características da música influenciam no sucesso em termos de
- quantidade de streams no Spotify.
-
-Como analista de dados,
-o desafio consiste em **determinar os fatores que contribuem para o sucesso
-de uma música**. Você deverá validar (refutar ou confirmar) essas hipóteses
-por meio da análise dos dados, e fornecer recomendações estratégicas
-baseadas em suas descobertas. Em última análise, o objetivo é que a
-gravadora e o novo artista possam tomar decisões informadas que
-aumentem suas chances de conseguir o “sucesso”.
-
-## 4. Plano geral de trabalho
-
-Vamos trabalhar no processo sequencial descrito na seguinte
-imagem.
-
-![image](https://drive.google.com/uc?id=1GBP2hLKqNpADEJ6Aa4EkKwd4oBNNnLMj)
-
-**Cada passo representa também o desenvolvimento de uma habilidade** necessária para
-desempenhar-se como analista de dados. É sequencial porque conseguir
-cada passo depende de ter feito o anterior, não faria sentido aplicar
-uma técnica de análise sem previamente ter preparado os dados nem sem
-ter feito uma análise exploratória.
-
-Isso não quer dizer de maneira alguma que você deve completar cada passo
-perfeitamente antes de passar para o próximo ou que não terá que avançar e
-retroceder constantemente. O processo provavelmente será algo assim:
-
-![image](https://drive.google.com/uc?id=1Pz_zrJxwH_qJRDfwwdvYmfeudtc72d0_)
-
-Por exemplo, ao fazer uma análise exploratória, talvez você detecte que há
-algum aspecto da sua preparação de dados que deve ser melhorado, então
-você volta, melhora isso e depois continua. Este é um processo natural
-em que você irá adaptando seu trabalho conforme os “problemas” que
-for encontrando, mas sempre seguindo uma lógica.
-
-## 5. Plano detalhado de trabalho
-
-Na imagem a seguir, é descrito o plano de trabalho detalhado
-que seguiremos.
-
-![image](https://drive.google.com/file/d/1OtVYVxk7zs1P8LWtiMnnokQYbPUfv2kQ/view)
-
-### ⬜ Passo 0. Preparação
-
-#### 0.1 Ferramentas e/ou plataformas
-
-Neste projeto, você vai utilizar uma ferramenta do Google chamada
-BigQuery, para o gerenciamento dos dados, e uma ferramenta chamada
-Looker Studio para a visualização dos dados:
-
-* BigQuery
-* Looker Studio
-
-#### 0.2 Linguagens
-
-Você utilizará a linguagem SQL no BigQuery. Note a
-diferença entre “linguagem” (SQL) e “ferramenta” (BigQuery), na seção de
-recursos de cada meta você encontrará cursos de SQL que podem ajudá-lo a compreender
-essas linguagens e como usá-las nessas ferramentas.
-
-#### 0.3 Insumos
-
-Este conjunto de dados contém informações sobre as músicas mais
-reproduzidas no Spotify em 2023. Os dados estão divididos em 3 tabelas, a
-primeira sobre o desempenho de cada música no Spotify, a segunda com
-o desempenho em outras plataformas como Deezer ou Apple Music, e a
-terceira com as características dessas músicas.
-
-O conjunto de dados está disponível para download neste link
-[dataset](https://storage.cloud.google.com/bootcamp-assets/projects/05-artist-launch/spotify_2023.zip),
-tenha em mente que é um arquivo compactado, você terá que descompactá-lo
-para acessar os arquivos com os dados.
-
-A seguir, você pode consultar a descrição das variáveis que
-compõem as tabelas deste conjunto de dados:
-
-##### **Track_in_spotify**
-
-* **track_id**: Identificador único da música. É um número inteiro
- de 7 dígitos que não se repete
-* **track_name**: Nome da música
-* **artist(s)_name**: Nome do(s) artista(s) da música
-* **artist_count**: Número de artistas que contribuem para a música.
-* **released_year**: Ano em que a música foi lançada.
-* **released_month**: Mês em que a música foi lançada.
-* **released_day**: Dia do mês em que a música foi lançada.
-* **in_spotify_playlists**: Número de playlists do Spotify
- em que a música está incluída
-* **in_spotify_charts**: Presença e ranking da música nas listas
- do Spotify
-* **streams**: Número total de transmissões no Spotify. Representa a
- quantidade de vezes que a música foi ouvida.
-
-##### **Track_in_competition**
-
-* **track_id**: Identificador único da música. É um número inteiro
- de 7 dígitos que não se repete
-* **in_apple_playlists**: Número de playlists da Apple
- Music em que a música está incluída
-* **in_apple_charts**: Presença e ranking da música nas listas de
- Apple Music
-* **in_deezer_playlists**: Número de playlists do Deezer em
- que a música está incluída
-* **in_deezer_charts**: Presença da música nas listas do
- Deezer
-* **in_shazam_charts**: Presença da música nas listas do
- Shazam
-
-##### **Track_technical_info**
-
-* **track_id**: Identificador único da música. É um número inteiro
- de 7 dígitos que não se repete
-* **bpm**: Batidas por minuto, uma medida do tempo da música.
-* **key**: Tom musical da música
-* **mode**: Modo da música (maior ou menor)
-* **danceability_%**: Percentual que indica quão adequada é a
- música para dançar
-* **valence_%**: Positividade do conteúdo musical da música.
-* **energy_%**: Nível de energia percebido da música.
-* **acousticness_%**: Quantidade de som acústico na música.
-* **instrumentality_%**: Quantidade de conteúdo instrumental na
- música.
-* **liveness_%**: Presença de elementos de performance ao vivo.
-* **speechiness_%**: Quantidade de palavras faladas na música.
-
-#### 0.4 Boas práticas
-
-Documentar seu processo é uma das melhores
-práticas na análise de dados. Aqui estão duas sugestões adicionais para
-se organizar neste projeto, especificamente para a fase de
-processamento e preparação dos dados:
-
-* Faça consultas que permitam identificar todos os elementos que
- deverão ser limpos. Ao terminar, faça uma consulta completa para criar
- uma tabela com os dados limpos, em vez de criar uma tabela em cada
- passo.
-
-* Salve as consultas e descreva o que cada uma delas faz. Crie um
- repositório onde você possa armazenar todos os
- recursos e use comentários para descrever
- para que serve cada um. Isso te ajudará em projetos futuros a
- lembrar como identificar valores nulos, por exemplo.
-
-* Compreenda a diferença entre view (vista) e tabela para se organizar.
- Muitas vezes, salvar uma vista te ajuda a trabalhar de uma maneira mais
- organizada e você pode ver a consulta que gerou essa vista e modificá-la
- rapidamente.
-
-### 🟦 Passo 1. Processar e preparar banco de dados
-
-⌛ **Tempo estimado: De 8 a 12 horas**
-
-O pré-processamento de dados não é uma etapa que pode ser ignorada
-na análise de dados. Sua importância é evidente na qualidade dos
-resultados obtidos. Quando os dados são processados e preparados de maneira
-inadequada, podem surgir vieses, erros e conclusões incorretas.
-Além disso, o ruído nos dados sem tratamento pode prejudicar a precisão
-das previsões e a qualidade das decisões baseadas na
-análise. Portanto, investir tempo e esforço na fase inicial de
-pré-processamento é recompensado ao longo de todo o processo de análise
-de dados, garantindo resultados mais confiáveis e significativos.
-
-Neste marco, trabalharemos com uma ferramenta chamada BigQuery para
-realizar a etapa de processamento e preparação dos dados. A
-linguagem SQL, utilizada nesta ferramenta, é amplamente utilizada no
-ambiente de trabalho e um bom analista de dados deve saber utilizá-la a
-seu favor.
-
-BigQuery é um serviço de armazenamento e análise de dados na nuvem
-proporcionado pelo Google Cloud. Ele é projetado para permitir que as
-organizações armazenem, consultem e analisem grandes volumes de
-dados de maneira rápida e escalável. O BigQuery é comumente utilizado em
-todas as fases da análise de dados, incluindo a fase de
-processamento e preparação, devido às suas capacidades de processamento
-de dados e sua escalabilidade.
-
-| Meta|Objetivo| Objetivo individual | Recurso |
-|---|----|---|---|
-| 🔵 Conectar/importar dados para outras ferramentas | Crie um projeto, um conjunto de dados e importe tabelas no BigQuery |
Cada pessoa deve criar seu próprio ambiente de trabalho no BigQuery com sua conta do Google.
Neste caso, estamos nos referindo a criar um projeto, um conjunto de dados (no BigQuery) e carregar as tabelas do conjunto de dados fornecido.
Ambas devem coordenar para seguir a mesma estrutura de projeto no BigQuery e os mesmos nomes de tabelas, assim será mais fácil trabalhar em conjunto e compartilhar códigos.
|
🚨 Altamente recomendado: [Mini curso BigQuery:](https://coda.io/d/PT-Curso-Google-BigQuery_dvpJ2RzVDub/Configurando-o-Sandbox_suq00#_lu8z6) Aqui você encontrará como configurar sua Sandbox e como fazer suas primeiras consultas
📄 [Como começar com BigQuery (sandbox - versão gratuita)](https://cloud.google.com/bigquery/docs/sandbox?hl=pt)
📹 [O que é BigQuery](https://www.youtube.com/watch?v=BRPUA0EgS4I&list=PL5TJqBvpXQv5n1N15kcK1m9oKJm_cv-m6)
📹 [Como criar um Projeto, Conjunto de Dados e carregar tabela no BigQuery](https://www.youtube.com/watch?v=z32438Yehl4&list=PL5TJqBvpXQv5n1N15kcK1m9oKJm_cv-m6&index=2)
⚠️ **Sandbox é a versão gratuita do BigQuery que permite fazer consultas e criar tabelas, e não pede para incluir dados de cartão de crédito, no entanto, sendo a versão gratuita, o armazenamento de tabelas, visualizações e consultas dura apenas 3 meses, então é importante criar um documento onde você possa guardar suas consultas e tudo o que considerar importante sobre este projeto para consultar no futuro**.
|
-| 🔵 Identificar e tratar valores nulos | Identificar nulos através dos comandos SQL COUNT, WHERE e IS NULL |
Cada uma deve consultar os nulos de pelo menos uma tabela, por exemplo, uma consulta os nulos em track_technical_info, a outra em track_in_competition e ambas em track_in_spotify.
Desta forma, garantem que cada uma faça (e aprenda) pelo menos uma consulta para identificar e lidar com os nulos. Podem trocar as consultas para que cada uma complete tudo em seu próprio ambiente do BigQuery.
|
🚨**Altamente recomendado**: 📄[Conceito de valores nulos](https://docs.google.com/document/d/1kiUVEx6n9gwu5BcyfTtFMR9UkgICJd2bdjMS7u9Laws/edit?usp=sharing): Neste link, você encontrará a descrição de alguns tipos de valores nulos.🔈Versão de áudio:
📄 [O que é uma consulta (query)](https://docs.google.com/document/d/1QjuWNUrCCs0kSMjq0RxnUoa8lCr58GvIwerYrLZs2Bs/edit?usp=sharing)
📹 [Como identificar nulos usando COUNT, WHERE e IS NULL](https://www.loom.com/share/972220ee18874d1b872c206f5e62627c?sid=fb520257-c035-490a-8d42-c41d134476c6)
💡 Faça uma consulta para identificar os valores nulos em cada variável, tome nota do que encontrar ou salve a consulta (query) com a decisão que tomará (conservar ou eliminar), de modo que após realizar todos os passos de limpeza e identificar o que é necessário excluir/modificar etc., possa criar uma única consulta (query) com todos os passos de limpeza para a tabela em que está trabalhando e neste momento criar uma tabela ou view com os dados limpos.
🧑💻 Se ainda não estiver claro como identificar valores nulos no BigQuery, você pode pedir exemplos para alguma IA como ChatGPT, Bing ou Perplexity (por exemplo)
|
-| 🔵 Identificar e tratar valores duplicados |Identificar duplicados através dos comandos SQL COUNT, GROUP BY, HAVING |
Cada uma deve consultar os duplicados de pelo menos uma tabela, por exemplo, uma consulta os duplicados em track_technical_info, a outra em track_in_competition e ambas em track_in_spotify.
|
🚨 **Altamente recomendado**: [Conceito de valores duplicados](https://docs.google.com/document/d/1GrC45LJEwAKR5IjTf-sBJGseGzHYjFjehf2Fk41yNs8/edit?usp=sharing): Neste link, você encontrará um artigo sobre valores duplicados e alguns exemplos de por que isso acontece.🔈Versão de áudio:
📹 [Como identificar duplicados através de GROUP BY e HAVING (Veja também a diferença entre os comandos WHERE e HAVING)](https://www.loom.com/share/7f066ca3cad3438180509ba0643221a5?sid=1555e2cc-a68c-4ff8-80e4-2133059f0acb)
💡 Lembre-se de que valores duplicados nem sempre significam um erro, e às vezes, para determinar se um dado é duplicado, devemos olhar outras variáveis em conjunto. Ou seja, o nome da música pode se repetir, no entanto, se olharmos o nome da música mais o nome do artista, essa informação em conjunto não pode se repetir, por exemplo, podemos ter a música "Flowers" de Mily Cyrus e "Flowers" de Bruno Mars, mas não podemos ter "Flowers" de Mily Cyrus duas vezes.
|
-| 🔵 Identificar e tratar dados fora do escopo de análise | Manipular variáveis que não são úteis para análise através de comandos SQL SELECT EXCEPT |
Cada uma deve analisar as variáveis fora do escopo de pelo menos uma tabela, por exemplo, uma consulta as de track_technical_info, a outra as de track_in_competition e ambas as de track_in_spotify.
|
🚨 **Altamente recomendado**: [Conceito de valores fora do escopo](https://docs.google.com/document/d/1c__WRov6ZvLsrGuznpsGthOYb3jGwTtnmOFe5zCP3X4/edit?usp=sharing): Neste link, você encontrará algumas descrições e exemplos do que é um valor fora do alcance da análise.🔈Versão de áudio:
📹 [Como usar EXCEPT para selecionar variáveis](https://www.loom.com/share/2c507731f3004d9f8f64c555232702a3?sid=f608d12d-d248-47e5-b034-15259817cf5d)
💡 Os dados fora do escopo, como vimos no projeto anterior, podem fazer referência a linhas de uma base de dados ou também a variáveis. Há alguma variável que você acha que não será usada nesta análise e talvez possamos excluí-la, como Keye Mode ou outra variável que tenha um grande número de valores nulos?
|
-|🔵 Identificar e tratar dados discrepantes em variáveis categóricas | Use comandos de manipulação de strings, como LIKE ou REGEXP |
Cada pessoa deve utilizar o comando para ajustar variáveis de string pelo menos uma vez, neste objetivo elas podem trabalhar na mesma tabela.
|
📹 [Como usar os comandos LIKE e REGEXP](https://www.loom.com/share/3ec6dda6ef4741288bda6044b50b0cbc?sid=a47774e0-e3c5-4dd4-b5f3-d3096d5bd70d)
📄 [Documentação do Google sobre funções de string](https://cloud.google.com/bigquery/docs/reference/standard-sql/string_functions)
📄 [Conceito de variáveis categóricas](https://docs.google.com/document/d/1cOTKw04u2008G7JyRaYHzSzyWRjJwxLryn8hIxkO2es/edit?usp=sharing): Neste documento você encontrará a descrição e exemplos deste conceito . 🔈Versão de áudio:
📹 [Vídeo sobre tipos de variáveis](https://www.youtube.com/watch?v=c2R378U4gcA)
🧑💻 Você notará que alguns nomes de músicas e os artistas têm símbolos estranhos. Trabalhar com strings geralmente envolve algum trabalho extra, sempre temos que procurar a sequência REGEX que nos ajuda a gerenciar esses dados, então seria um bom momento para usar um recurso de IA. escreva para ChatGPT "Como remover caracteres especiais de uma string no BigQuery?"
|
-|🔵 Identificar e tratar dados discrepantes em variáveis numéricas | Utilize comandos como MAX, MIN e AVG para identificar valores discrepantes em variáveis numéricas |
Cada uma deve analisar as variáveis numéricas de pelo menos uma tabela, por exemplo, uma consulta para track_technical_info, outra para track_in_competition e ambas para track_in_spotify.
|
📹[Identifique valores discrepantes em variáveis numéricas com MAX, MIN e AVG](https://www.loom.com/share/86e9b5b4cbe941348193039b0c60691f?sid=1472fe57-e4fd-4287-8408-405c8c922b8e) li>
📄 [Conceito de variáveis numéricas](https://docs.google.com/document/d/1-C065f5Vti_H7vO1ioqHN0IYocxz5hVpCruc0RFnRa8/edit?usp=sharing)
💡 Você notará que os streams variável contém dados não numéricos, então não podemos fazer AVG, esse erro pode ter feito com que essa variável que deveria ser INTEGER ficasse como STRING e é por isso que precisamos alterar o tipo de dados. Você pode avançar para a próxima meta, alterar o tipo de dados e depois retornar.
|
-|🔵 Verificar e alterar o tipo de dados | Use CAST para modificar o tipo de dados |
Uma deve ser capaz de alterar o tipo de dados da variável streams e a outra deve fornecer suporte. No próximo objetivo, ao criarmos uma nova variável de data, vocês terão a oportunidade de implementar novamente o comando CAST.
|
🚨 **Altamente recomendado**: 📄[Tipos de dados em SQL](https://docs.google.com/document/d/1GYwd_Gg_gsIJuv0XnJ7C7JMorYNom9Z7wyfLPclHTBo/edit?usp=sharing)
📹 [Tipos de dados em SQL](https://www.youtube.com/watch?v=X40zYYRsw1U)
📹 [Alterar tipo de dados com CAST](https://www.loom.com/share/93e9005ecfb944ddbe9effa8dcb2fc27?sid=ab42f8e3-6d41-453b-b080-7461e3736582)
💡 Você encontrará uma variável de texto que não pode ser convertida. Avalie se é melhor excluir esta variável. Dica: use NOT LIKE para filtrar os dados de texto da variável streams.
|
-|🔵 Criar novas variáveis | Crie uma variável de data de lançamento e uma variável de participação total nas playlists |
Ambas devem ser capazes de criar uma nova variável, para que quem não teve a oportunidade de usar o comando CAST possa implementar este comando, você deve criar a variável de data de lançamento completa usando concat e cast para que a data fiqueno formato aaaa-mm-dd
|
🚨 **Altamente recomendado**: [Conceito de criar novas variáveis](https://docs.google.com/document/d/1mSSLszUU9-ED-HDMF0ADmrXKtMkoUXLj1HCIj8ZA0fc/edit?usp=sharing): Neste link, você encontrará uma pequena descrição sobre este conceito.🔈Versão de áudio: 📹 [Como criar novas variáveis com CONCAT e operações matemáticas](https://www.loom.com/share/9f8a444c394e40dfb2cd693b2ac4201f?sid=004aeaae-97e1-41b2-8cbd-26d45ff48cc8)
💡 Lembre-se que há uma diferença quando estamos utilizando operações matemáticas em SQL, quando utilizamos o comando SUM a coluna é somada e quando queremos somar os valores por linha podemos utilizar operadores matemáticos como +.
|
-|🔵 Unir tabelas| Unir tabelas usando LEFT JOIN |
Antes de unir as tabelas, cada uma deve criar a view com os dados limpos de cada tabela. E ao unir tabelas usando LEFT JOIN, cada uma deve fazer o JOIN de uma tabela.
|
🚨 **Altamente recomendado**: 📹 [tipos de JOIN em SQL](https://www.youtube.com/watch?v=3IdKyi-KezU)
📹 [Diferença entre VIEW e CREATE TABLE](https://www.loom.com/share/bd6987ebe2ad48eebf291931981a0c4d?sid=ca3e7ea1-bc44-4f0a-b332-36f86b093f5f)
💡 Antes de unir as tabelas, crie visualizações com os dados limpos de cada tabela e faça a LEFT JOIN (junção esquerda) das views.
|
-|🔵 Construir tabelas auxiliares | Use o comando WITH para criar uma tabela temporária para calcular o total de músicas por artista solo |
Deve-se criar a tabela temporária com WITH e a outra auxiliar. Na próxima vez que uma tabela temporária precisar ser criada com WITH dentro deste marco, qualquer pessoa que ainda não tenha implementado esta técnica deverá fazê-lo.
|
📹[Como usar o comando WITH e para que serve](https://www.loom.com/share/2d982ea5dd58420e9e3fb15b9153f6c8?sid=6fc75c6e-f68a-43f9-9f94-8ff494432f69)
💡 Calcule o número total de músicas de artistas solo, ou seja, quando não há outros artistas que criaram a música em conjunto.
|
-
-🤸 Apenas por diversão:
-
-Você pensa em uma forma de realizar todos esses passos em
-uma única consulta após importar as tabelas?
-
-### 🟪 Passo 2. Realizar uma análise exploratória
-
-⌛ Intervalo de tempo estimado: **De 8 a 12 horas**
-
-A análise exploratória de dados (AED) é uma fase fundamental na compreensão de
-conjuntos de dados, e ferramentas como o Looker Studio e o BigQuery desempenham
-um papel crucial nesse processo. O Looker Studio, uma plataforma de visualização
-de dados do Google, permite criar painéis interativos e gráficos dinâmicos que
-facilitam a exploração e compreensão dos dados. Ao aproveitar as capacidades do
-Looker Studio, os usuários finais podem identificar padrões, tendências e
-anomalias nos dados de forma eficaz.
-
-Por outro lado, o BigQuery é uma poderosa ferramenta de armazenamento e análise
-de dados do Google Cloud. Com sua capacidade de lidar com grandes volumes de
-dados e realizar consultas em SQL de alto desempenho, o BigQuery é essencial
-para explorar dados em grande escala. Os analistas podem usar o BigQuery para
-realizar consultas avançadas e calcular estatísticas essenciais que fornecem
-informações valiosas sobre o conjunto de dados.
-
-Combinar o Looker Studio e o BigQuery oferece uma solução abrangente para a
-análise exploratória. Os dados podem ser extraídos e transformados no BigQuery
-e, em seguida, visualizados e explorados em profundidade usando o Looker Studio.
-Essa combinação permite desvendar insights significativos, identificar relações
-e tomar decisões informadas com base em uma análise profunda dos dados.
-Em resumo, a análise exploratória se beneficia enormemente da sinergia entre
-o Looker Studio e o BigQuery, facilitando a obtenção de informações valiosas
-a partir de dados complexos e extensos.
-
-| Meta | Objetivo | Objetivo Individual | Recurso |
-| ---- | ---- | ---- | ---- |
-| 🟣 Agrupar dados por variáveis categóricas | Agrupar variáveis categóricas usando tabelas no Looker Studio ou através de GROUP BY no BigQuery |
Você deve agrupar pelo menos uma variável categórica, como a quantidade de faixas por artista, a quantidade de faixas por `ano_de_lançamento`, etc.
|
🚨 **Altamente recomendado**: [Conceito de variáveis categóricas](https://docs.google.com/document/d/1cOTKw04u2008G7JyRaYHzSzyWRjJwxLryn8hIxkO2es/edit?usp=sharing): Neste documento, você encontrará a descrição e exemplos deste conceito. 🔈Versão de áudio:
📹 [Vídeo sobre tipos de variáveis](https://www.youtube.com/watch?v=N7AbQZA06QU&pp=ygUldmFyacOhdmVpcyBjYXRlZ8OzcmljYXMgZSBudW3DqXJpY2FzIA%3D%3D): Neste vídeo você verá uma breve descrição de variáveis categóricas e numéricas.
[Link para acessar o Looker Studio](https://lookerstudio.google.com/navigation/reporting)
📹 [Vídeo como começar no Looker Studio](https://www.youtube.com/watch?v=Gx5S8Ry54TU&pp=ygUjY29tbyBjcmlhciB1bSBwYWluZWwgbm8gZGF0YSBzdHVkaW8%3D)
📹 [Vídeo Como conectar dados no Looker Studio](https://www.youtube.com/watch?v=dAZ0yfRSKjQ&pp=ygUiY29tbyBjb25lY3RhciBkYWRvcyBubyBkYXRhIHN0dWRpbw%3D%3D) li>
📹 [Vídeo como criar um painel/dashboard no Looker Studio](https://www.youtube.com/watch?v=qoKPW5Yn3Dk&pp=ygUjY29tbyBjcmlhciB1bSBwYWluZWwgbm8gZGF0YSBzdHVkaW8%3D)
📄 [Tutorial do Google Como criar um relatório no Looker Studio](https://support.google.com/looker-studio/answer/6292570?hl=pt-br#zippy=%2Cneste-artigo)
⚠️O Data Studio mudou recentemente seu nome para Looker Studio, então você pode encontrar referências ao Data Studio em alguns conteúdos na internet. Não se preocupe, é o mesmo produto.
[📹 Tabelas no Looker Studio](https://www.youtube.com/watch?v=WcxlQG1UdkY)
💡 Visualize as variáveis categóricas, como o artista, e veja se algum se destaca, use os anos para ver esses dados por ano.
💡 Experimente fazer isso no BigQuery usando o comando GROUP BY para ver os dados agrupados ou com tabelas no Looker Studio.
|
-| 🟣 Visualizar as variáveis categóricas | Visualizar as variáveis categóricas através de gráficos de barras |
Você deve criar pelo menos um gráfico de barras para visualizar as variáveis agrupadas anteriormente.
|
📹 [Video como criar gráficos de barras](https://www.youtube.com/watch?v=p4nNJWtStAs)
|
-| 🟣 Aplicar medidas de tendência central | Calcular medidas de tendência central (Média e Mediana) usando tabelas no Looker Studio ou BigQuery |
Você deve calcular medidas de tendência central (média e mediana) para pelo menos uma variável. Um pode analisar `streams` e outro o total de vezes que aparece em uma playlist.
|
🚨 Altamente recomendado: 📄 [Conceito de estatística descritiva](https://docs.google.com/document/d/12YZ-984bRqWxKGr8M-Yzrq8MjWubBw_i38SEcjDt9tE/edit?usp=sharing). 🔈Versão de áudio:
📄 [Conceito de medidas de tendência central](https://docs.google.com/document/d/15_eD0wsb1w7GFMmmAm8HPFZJGNzlmsZalMwBke9hSt0/edit?usp=sharing). 🔈Versão de áudio:
📹 [Tabelas no Looker Studio](https://www.youtube.com/watch?v=WcxlQG1UdkY)
💡 Observe o comportamento das variáveis `streams` e presença total em playlists.
|
-| 🟣 Calcular correlação entre variáveis | Calcular a correlação no BigQuery usando CORR |
Você deve calcular a correlação entre duas variáveis contínuas. Um pode calcular para `streams` e `playlists` e outro para `streams` e `danceability`.
|
📄 [Conceito de correlação de Pearson](https://docs.google.com/document/d/1z_GT13b-GJphDGujDneULn2IOz-KuSmrQpSJBepJF7o/edit?usp=sharing)
📹 [Como calcular a correlação no BigQuery](https://www.loom.com/share/447a64fa6bd5431289a5a9ca0014e8cb?sid=1edc546a-9691-400a-8cde-b63a2f395532)
💡 Compreender o cálculo de correlação nos ajudará mais tarde na validação das hipóteses.
|
-
-🤸 Apenas por diversão:
-
-Você pensa em algum gráfico que poderia ajudar a visualizar
-e entender a relação entre duas variáveis?
-
-### 🟥 Passo 3. Aplicar técnica de análise
-
-⌛ **Intervalo de tempo estimado: De 8 a 12 horas**
-
-A validação de hipóteses é um processo crucial em estatística e pesquisa
-científica. Refere-se à avaliação de afirmações ou suposições sobre uma
-população ou fenômeno, através do exame de dados coletados de uma amostra
-dessa população. Em essência, trata-se de determinar se as suposições
-feitas sobre uma população são apoiadas pela evidência empírica fornecida
-pelos dados.
-
-Neste marco, buscamos responder às hipóteses propostas pela gravadora:
-
-* As músicas com um BPM (Batidas Por Minuto) mais alto têm mais sucesso em
-termos de streams no Spotify
-* As músicas mais populares no ranking do Spotify também têm um comportamento
-semelhante em outras plataformas como Deezer
-* A presença de uma música em um maior número de playlists está relacionada
-a um maior número de streams
-* Os artistas com um maior número de músicas no Spotify têm mais streams
-* As características da música influenciam o sucesso em termos de streams no
-Spotify
-
-Para validar as hipóteses, vamos utilizar o cálculo da correlação entre duas
-variáveis e a interpretação de gráficos, como gráficos combinados ou gráficos
-de dispersão com linha de tendência. Ao analisar a variável que estamos
-tentando entender (streams) em relação a outras variáveis disponíveis no banco
-de dados, podemos identificar características comuns entre as músicas mais
-ouvidas no Spotify.
-
-| Meta | Objetivo | Objetivo individual | Recurso|
-| --- | ---- | ---- | ---- |
-| 🔴 Validar hipóteses | Validar as hipóteses levantadas através da correlação e scatter plot |
Deve calcular a correlação das variáveis de uma hipótese e visualizar esses dados através de um scatter plot e discutir os resultados se existe ou não uma correlação e se a hipótese é verdadeira
|
💡 Para validar as hipóteses levantadas, podemos analisar a relação entre as variáveis da hipótese através da correlação, que já vimos como calcular no BigQuery e visualizá-las através de um gráfico de dispersão no Looker Studio para compreender e analisar o que faz uma música ser bem-sucedida.
📹 [Gráfico de dispersão](https://www.youtube.com/watch?v=ksRa12dmxNc)
|
-
-🤸 Apenas por diversão:
-
-Você acha que seria possível validar essas hipóteses em grupos menores,
-como por exemplo, as músicas com data de lançamento em 2023?
-
-Você tem alguma outra hipótese em mente que possa analisar?
-
-### 🟧 Passo 4. Resumir informações em um painel ou relatório
-
-⌛ **Intervalo de tempo estimado: De 8 a 12 horas**
-
-O Looker Studio é uma plataforma de visualização e análise de dados do Google
-que permite aos usuários criar relatórios interativos e personalizados,
-integrando diversas fontes de dados para gerar insights visuais detalhados.
-Os painéis de controle, ou dashboards, são uma característica chave desta
-plataforma, apresentando dados-chave em um formato visual conciso e fácil
-de entender. Um dashboard é uma ferramenta visual que apresenta informações
-chave e dados relevantes de maneira concisa e acessível, facilitando a
-supervisão e análise do desempenho em tempo real. Seus elementos incluem
-gráficos e diagramas para identificar tendências, tabelas para uma leitura
-detalhada, indicadores chave de desempenho (KPIs) para monitoramento rápido,
-filtros e controles interativos para personalizar a visualização, mapas para
-dados geoespaciais, texto e notas para contexto adicional, e widgets de tempo
-real para atualizações instantâneas. Combinados, esses elementos permitem uma
-visualização eficiente e compreensível de grandes volumes de dados, apoiando
-a tomada de decisões informadas.
-
-Em resumo, o Looker Studio é uma ferramenta essencial para qualquer empresa
-ou profissional que deseje transformar dados em informações significativas,
-tomar decisões estratégicas e comunicar de maneira eficaz os insights através
-de visualizações atrativas e acessíveis.
-
-Neste marco, trabalharemos com o Looker Studio também para criar um painel
-organizado que gere informações para o negócio. Este é o momento de organizar
-seus gráficos criados no passo de análise exploratória e criar um ambiente
-amigável para a gravadora.
-
-| Meta | Objetivo | Objetivo individual | Recurso |
-| ---- | ---- | ---- | ---- |
-| 🟠 Representar dados através de tabela resumo ou scorecards | Criar scorecards para os números gerais do banco de dados |
Deve criar pelo menos um cartão de resultados (scorecards)
|
📹 [Vídeo como criar scorecards (cartão de resultados) no Looker Studio](https://www.youtube.com/watch?v=dEu4dDUT52o&pp=ygUjbG9va2VyIHN0dWRpbyBjb21vIGZhemVyIHNjb3JlY2FyZHM%3D)
💡 Busque conteúdos no YouTube para tirar ideias de como montar seu painel no Looker Studio
|
-| 🟠 Representar dados através de gráficos simples| Representar os dados através de gráficos de barras e linhas|