Hola mi nombre es

Diego

Data Scientist

Ing. Industrial y Comercial apasionado por la Ciencia de Datos, Inteligencia Artificial y Tecnología.

Sobre mí

A lo largo de mi carrera he demostrado habilidades sólidas en Ciencia de Datos, Machine Learning, Big Data y el uso efectivo de herramientas en la nube. Esto me ha permitido posicionarme como responsable principal en proyectos de analítica de datos, visualización de datos, desarrollo de flujos de ETL y creación de modelos, destacándome por mi enfoque estratégico y capacidad para obtener resultados sobresalientes.

Actualmente estoy capacitándome en temas relacionados a Machine Learning Engineering para potenciar mis habilidades como Data Scientist y tener un panorama más amplio del desarrollo, puesta en producción y mantenimiento de modelos de ML.

Estoy comprometido a aportar mi experiencia y habilidades para contribuir de manera significativa al logro y superación de metas. Siempre listo para enfrentar desafíos.

Si deseas compartir reflexiones, comentarios o preguntas, estoy aquí y siempre interesado en ampliar mi red profesional. ¡No dudes en conectar!

Algunas tecnologías con las que suelo trabajar frecuentemente:
  • Python
  • SQL
  • GCP
  • Matillion
  • Pyspark
  • Excel
  • Power BI

Proyectos Laborales

Modelo RFM Ecommerce - Farmacias Peruanas

Proyecto basado en la creación de Segmentos de clientes del Ecommerce de Inkafarma y Mifarma:

  • Uso de GCP (Big Query y Cloud Storage) para la creación de base de información, de acuerdo al comportamiento de compra de los clientes, y su almacenamiento.
  • Uso de Machine Learning No Supervisado: modelo K-means. Se obtuvieron 5 segmentos de clientes.
  • Se utilizó la base final de clientes para la ejecución de una estrategia de segmentaciones piloto con el objetivo de incrementar la venta en categorías específicas del Ecommerce.
Modelo de Deserción Estudiantil - Freelance

Proyecto basado en la creación de un modelo de detección de estudiantes propensos a abandonar sus estudios:

  • Uso de información del SIAGIE para la creación de base de información.
  • Uso de Machine Learning Supervisado: modelos XGBOOST, CATBOOST Y LIGHT GBM. Se obtuvo un recall de 73.7% y F1 score de 71.8% para la clase ‘desertor’.
  • Uso de Streamlit para la creación de una Web app que sirve para la demostración y descarga de predicciones, con valores ingresados a mano y con carga de archivos de múltiples registros.

Proyectos Académicos

Marketing para Depósito a plazo
Python
Marketing para Depósito a plazo
Uso de Python para análisis exploratorio descriptivo de variables, Feature Selection (Mutual Information), preprocesamiento de data, construcción y evaluación de modelos, y de “shap” para explicabilidad del modelo elegido. Se obtuvo un valor de Recall de 81% en test.
Construcción de una Web-app para detección de Covid-19 (2021)
Python Streamlit
Construcción de una Web-app para detección de Covid-19 (2021)
Uso de Python para realizar análisis descriptivo a las variables, procesamiento de data y construcción de modelos. Se obtuvo un valor de accuracy de 92% en test y valores F1-score de 96% y 61% para las clases “No” y “Yes” respectivamente. Uso de “shap” para explicabilidad del modelo elegido y “Streamlit” para despliegue en entorno local.
Topic Modelling sobre reviews negativos de restaurantes de Lima usando NLP y LDA
Python
Topic Modelling sobre reviews negativos de restaurantes de Lima usando NLP y LDA
Construcción de una solución eficiente para detectar tópicos de quejas principales en los reviews negativos usando LDA (modelo no supervisado) y NLP. Se obtuvieron valor de coherencia de 56.69% y 4 tópicos principales.
Modelo RFM-T utilizando K-modes
Python
Modelo RFM-T utilizando K-modes
Proyecto basado en la creación de Clusters de clientes de acuerdo a su comportamiento de compra R(RECENCIA), F(FRECUENCIA), M(MONTO), T(TRANSACCIONES), utilizando Machine Learning (No Supervisado-modelo Kmodes). Con la finalidad de analizar la proporción que representa cada grupo y encaminar estrategias de venta.
Clasificador de Vehículos
Python Pytorch
Clasificador de Vehículos
Uso de Python (numpy, pytorch, entre otras librerías), para construir un modelo de clasificación de imágenes utilizando Transfer Learning y la red pre-entrenada mobilenet_v2. Se obtuvo un Accuracy de 95%.
Clasificador de enfermedades oculares
Python Keras
Clasificador de enfermedades oculares
Uso de Python (numpy, Keras, entre otras librerías), para construir un modelo de clasificación de imágenes utilizando Transfer Learning y la red pre-entrenada mobilenet_v2. Se obtuvo un Accuracy de 89%.
Web Scraping
Python
Web Scraping
Proyecto con fines educativos para hacer scraping estático y dinámico a una página de libros y obtener un listado de ellos.
Pronóstico de ventas (Series de Tiempo y Comparación entre modelos)
Python
Pronóstico de ventas (Series de Tiempo y Comparación entre modelos)
Análisis de Serie de Tiempo Univariada proveniente de un dataset de ventas de tiendas. Se realizó un Comparativo entre los siguientes modelos Prophet, Sarima, Exponential Smoothing, Holt-Winters.
Pronóstico de producción de energía eléctrica en Lima y Callao 2022
Python
Pronóstico de producción de energía eléctrica en Lima y Callao 2022
Uso de data histórica de INEI sobre producción de energía eléctrica en Lima y Callao, para realizar un análisis y pronóstico de series de tiempo utilizando FB Prophet y Python obteniendo un valor MAPE de 11%
Análisis Estadístico Descriptivo e Inferencial respecto al "Heart Failure Prediction Dataset"
Python
Análisis Estadístico Descriptivo e Inferencial respecto al "Heart Failure Prediction Dataset"
Uso de Python para análisis estadístico descriptivo de variables cuantitativas y cualitativas mediante gráficos y tablas. Además se realizó un análisis inferencial con Intervalos de confianza y pruebas de hipótesis
Data Engineering en GCP
Hadoop Hive Pyspark Big Query Looker Studio
Data Engineering en GCP
Uso de la nube de Google para crear un datalake de 3 capas utilizando hadoop, hive, pyspark. Además se creó una conexión entre Big Query y Looker Studio para explotar la información cargada en la última capa y un proceso de actualización Real Time con Kafka.
Business Intelligence-Proyecto Walmart
SQL-Server Integration Services Python Power BI
Business Intelligence-Proyecto Walmart
Uso de SQL server, Integration Services, Python para la construcción de un datalake y dimensiones de datos que alimentan un tablero de visualización construido en Power BI.

Logros

Expositor del programa Semillero de Data Science Research Perú
Proyecto sobre ‘NLP’ elegido en el Programa Semillero 2022-02, basado en el uso de LDA para realizar Topic Modelling.
Participación y Finalización del Programa "Salto" de Intercorp
Analista de datos del Proyecto "Farma Media Connect", encargado de realizar segmentaciones de clientes y calcular de métricas de desempeño de las comunicaciones.

Contacto

Mi inbox está disponible en caso tengas alguna duda o desees comunicarte conmigo,¡Trataré de responder lo más rápido posible!