December 11, 2023

00:07:19

Como hacer un análisis de datos básico? - Data Analysis - Marketing - Python - Pandas - Jupyter

Hosted by

Jose Garcia
Como hacer un análisis de datos básico? - Data Analysis - Marketing - Python - Pandas - Jupyter
Economista Jose Garcia | Ultima Hora | Noticias | Directo | Economia, Rusia, China, EEUU, Ucrania, Europa, India | Conflicto, Guerra | Geopolítica | Podcast el Economista | Mejora y Emprende
Como hacer un análisis de datos básico? - Data Analysis - Marketing - Python - Pandas - Jupyter

Dec 11 2023 | 00:07:19

/

Show Notes

COMO ANALIZAR LOS DATOS DE UN PODCAST? 

En esta ocasión, te comparto algunas claves para realizar un análisis de datos básicos utilizando Python, Jupyter Lab y librerías como: Pandas, Matplotlib, Seaborn, etc.

Por razones obvias no te voy a mostrar todos los entresijos de mi podcast, pero si que te mostraré pasos muy interesantes como: cambio de formatos, descomposición de fechas y un interesantísimo bucle anidado para crear una nueva “feature”.

Recuerda que esto aún NO es Inteligencia Artificial o Machine Learning, pero nos da pistas de cuáles serían los siguientes pasos e incluso nos indica si puede merecer la pena.

Pero cuidado, no infravalores un análisis de datos ya que aún nos sigue dando información súper valiosa, sin necesidad de añadir ML/AI. De nuevo, disculpa por no mostrarte los últimos resultados, pero como he dicho, es muy potente así que me lo guardo “pa mi” ;)

Página oficial del podcast:

https://www.podcasteleconomista.com

Quien es Jose Garcia:

https://www.economistajosegarcia.com

Apoyar el podcast:

https://ko-fi.com/economista

 

*

Tambien puedes ver el video de este episodio:

https://www.podcasteleconomista.com/videos/como-hacer-un-analisis-de-datos-basico-data-analysis-marketing-python-pandas-jupyter/

View Full Transcript

Episode Transcript

[00:00:00] Muy buenas, te doy la bienvenida al podcast del economista José García. Como siempre, seguimiento y suscripción. Hoy capítulo especial en el que te voy a hablar de cómo hacer un análisis de datos básico. En esta ocasión nos vamos a enfrentar a un problema muy común dentro del marketing digital y concretamente dentro del mundo del podcast. Y es que verás, muchos proveedores de hosting para podcast nos dan una información que nos hace muy difícil la comparación entre capítulos. ya que normalmente nos ofrecen los datos totales. De tal forma que es muy complicado comparar los podcasts del mes pasado con un podcast que acaba de ser publicado hace unos días, ya que evidentemente los de hace unos meses tendrán más descargas que los que acaban de ser publicados. [00:00:41] y otros problemas nos llevan a acudir a la información en bruto que nos ofrecen los propios servidores, sin pasar por la interfaz de los propios hosting. Esto en la mayoría de casos será un archivo CSV. Lo primero que podemos hacer es explorar un poco el archivo. Para ello tenemos dos opciones. La primera de ellas es abrirlo directamente con una aplicación como Numbers e incluso Excel o similares, que aquí nos puede servir porque no estamos trabajando con archivos masivos, pero de manera general podemos utilizar JupyterLab también para esta función. Podemos ver las cinco primeras filas de la base de datos. También podemos explorar las últimas filas. Si esto no fuera suficiente, podemos añadir cuántas filas queremos ver. Podemos sacar información general de los formatos, información estadística, e incluso podemos ir filtrando por los valores más repetidos. Para no extenderme mucho, resumo. Y lo que nos encontramos es tres columnas, en una aparece la fecha, en otra el título del episodio y finalmente el número de descargas. [00:01:41] Pero mucho ojo, hablamos del número de descargas para una fecha concreta y un episodio en particular. de tal forma que si un episodio es escuchado en varios días, se producirán dos filas diferentes, una por cada fecha, y dentro de las descargas aparecerán las que se hayan producido en ese día en particular. Con esta información podemos hacer algunas exploraciones, pero creo que queda bastante claro que lo más interesante sería realizar una serie de transformaciones. ¿A qué me refiero con todo ello? Si recuerdas el principio de este programa, te he hablado de que es difícil comparar un episodio publicado hace unos meses con un episodio publicado hace solo unos días. De tal forma que lo que vamos a hacer es averiguar el número de descargas de cada episodio en los 7 primeros días. Y así tenemos una mejor forma de comparar el rendimiento de cada uno de ellos. Pero antes, vamos a crear una nueva tabla en la que vamos a obtener solamente dos parámetros. O dicho de otra forma, dos columnas. Una con la fecha de publicación del episodio y otra con el título de ese episodio. Para ello tenemos que darnos cuenta que la primera vez que aparezca un título de un episodio será también la fecha de publicación de ese episodio. Claro, si no ha aparecido hasta ahora es porque es nuevo. De tal forma que podemos filtrar por valores únicos y crear un data frame con la fecha y el título. Si eres observador te habrás dado cuenta que te hablé de dos parámetros, y además hemos seleccionado dos columnas. Así que, ¿de dónde ha salido la tercera? Estos son los índices de la tabla original, que se han añadido automáticamente. Pero no te preocupes, que lo podemos arreglar. Ahora, vamos a convertir la fecha en formato estándar. Lo más probable es que el propio servidor nos lo haya dado correctamente. Pero, por desgracia, los archivos CSV no guardan el formato. Así que vamos a corregir. Una vez hecho esto, vamos a descomponer la fecha. Es decir, vamos a sacar el día de la semana. Hablamos de lunes, martes, miércoles hasta domingo. Y en vez de ponerle letras, le pondremos números. y esto nos ayudará si posteriormente decidimos crear modelos de Machine Learning. También vamos a sacar el número del mes, el propio mes, y de nuevo no vamos a utilizar letras, sino que vamos a asignar números, y por último, el año. En este momento que tenemos la tabla descompuesta, fecha de publicación en el formato correcto, el día de la semana, el día del mes en número, el mes y el año, ha llegado el momento del paso más interesante, y es contar el número de descargas de cada episodio en los siete primeros días. Para ello, nos vamos a apoyar en un vector y en un bucle anidad. Estamos hablando de un bucle dentro de otro bucle. Primero, declaramos la variable vector y la dejamos vacía. Dentro de los bucles, nos encargaremos de asignar los valores. ¡Spoiler! Aquí vamos a incluir el número de descargas en los siete primeros días de cada episodio. En el primer bucle FOR, vamos a seleccionar los títulos de los episodios de la nueva tabla que hemos creado, ya que dentro de ella tenemos los valores únicos de cada título. También declaramos y asignamos el valor 0 a la variable cuenta, que es donde iremos sumando el número de descargas producido en cada episodio particular. Con el segundo FOR, es decir, el bucle anidado, vamos a recorrer la tabla original buscando ese episodio en particular. Y utilizamos IF para indicar las condiciones que van a producir la suma de las descargas. Las condiciones son las siguientes. Primero, ¿coincide el título del episodio con el que estamos buscando? Segunda condición, ¿se ha producido dentro del plazo de los 7 primeros días? Si ambas condiciones se cumplen, el número de descargas producidas en ese día se suma. Por último, una vez comprobadas todas las filas, de la base de datos original, la que nos da los valores brutos, este valor es añadido al vector. Y realizamos la misma operación con el siguiente episodio, hasta que obtenemos la suma de las descargas de cada episodio durante los siete primeros días. Con esto obtenemos una tabla mucho más práctica, mucho más útil, que nos permite realizar mapas de calor, comparar gráficamente una variable con otra e incluso, por qué no, utilizar profiles y obtener un rico informe. Si has utilizado este comando con la información en bruto, no tiene nada que ver con la información que te da una vez que hemos hecho la transformación. Todo esto aún no es inteligencia artificial, no es machine learning, pero es un paso fundamental y previo antes de utilizar estas potentes herramientas, ya que en este paso previo, en el análisis, en su posterior transformación y en la realización de un nuevo análisis a partir de la nueva tabla nos da información más que suficiente, en muchos casos, y nos da pistas de por dónde tenemos que ir a la hora de aplicar el Machine Learning y la inteligencia artificial en general. Así que, muy importante tener un poco de idea de los datos con los que estamos trabajando, de conocimientos de programación, y no caer en los cantos de sirena o de vendehumos del 3 al 4 con herramientas de arrastrar o con pseudoprofesionales que no han picado una línea de código en toda su vida. Así que, ya sabes, si tienes un negocio y quieres sacar jugo a tus datos, ponte en contacto, empezamos con un análisis básico y si realmente merece la pena, entramos con el Machine Learning y con la Inteligencia Artificial. Y como siempre, seguimiento y suscripción. Nos vemos aquí, en el podcast del economista José García. Un saludo y toda la suerte del mundo.

Other Episodes