Modelo de Hábitos de Compra de Clientes en el Sector Mayorista Deportivo (1ª parte)

Estantería con zapatillas deportivas y balones

Uno de los trabajos de Ciencia de Datos (o Data Science) que más satisfacción me ha dado en este año 2018 que nos acaba de dejar, ha sido la creación de un modelo del comportamiento de clientes para una empresa distribuidora de material deportivo. No sólo por el hecho de crear el modelo, sino por haberme permitido presentarlo en el WGML 2018. No voy a repetir cómo fue mi experiencia en el Congreso Gallego de Machine Learning, porque ya hablé sobre ella en otra entrada, sino que mi intención es desgranar el trabajo con la idea de demostrar que para beneficiarse de las técnicas de la ciencia de datos y el aprendizaje automático, no se necesita disponer de un enorme conjunto de datos.

Es curioso, pero aunque no hay ninguna razón objetiva para ello, muchos directivos de empresas, sobre todo de PYMEs, entienden que los modelos predictivos creados con técnicas de aprendizaje automático, sólo son posibles cuando se cuenta con un volumen de datos enorme. Lamentablemente, les ha llegado la “cantinela” del big data y sólo se han quedado con lo de “big”. Y lo más triste de todo esto es que nuestras propias instituciones públicas son unas de las encargadas de difundir el bulo, en publicaciones como esta de la ONTSI, el Observatorio Nacional de las Telecomunicaciones y de la SI, en donde se habla de big data cuando se quiere hacer referencia al análisis de datos y no a la complejidad técnica de su almacenamiento y tratamiento debido a su volumen.
Bueno, pues con estos mimbres y partiendo del hecho de que el trabajo se realizó en una PYME con un volumen de facturación de unos pocos millones de euros y un volumen de datos que cabe en un lápiz USB, veremos que no siempre es necesario disponer de esos “datos enormes” para conseguir resultados interesantes.

Muy bien, comencemos, pero aviso que el desarrollo no será corto, por lo que esta será la primera entrega de una “serie en fascículos”.

Continuar leyendo “Modelo de Hábitos de Compra de Clientes en el Sector Mayorista Deportivo (1ª parte)”

Pinturillo Ganador de la Categoría “Robot Sigue-líneas”

El sábado 10 de noviembre de 2018 será un día recordado en el múndo de la robótica, pues Pinturillo, el robot construido entre mis hijos y yo, ha sido el ganador en la categoría de sigue-líneas. Esta fue su intervención en la competición:

Y aquí tenemos el momento en el que se desvela el ganador de la competición y su vuelta de honor:

Además, dado el éxito conseguido entre el público, Pinturillo intervino en la competición posterior de velocistas para ayudar a limpiar la pista:

Y en Twitter, ¡ha llegado incluso hasta Japón!

En definitiva, fue una jornada muy divertida en donde lo pasamos estupendamente. Hay que agradecérsela a la gente de BricoLabs, pues son el alma mater de todo esto. Y muchas gracias también a Rubén, creador del Cyclops-Project que nos llevamos como premio. ¡Nos veremos de nuevo en #OSWDem2019!

Construcción del Robot Sigue-líneas “Pinturillo”

Un año más, la Feria de Tecnologías Abiertas OSHWDEM tendrá lugar este sábado 10 de noviembre en la Casa del Hombre de A Coruña. Una de sus actividades es la competición de robótica en diferentes categorías, por lo que este año, al igual que los dos anteriores, mis hijos y yo nos hemos decidido por hacer un robot sigue-líneas que hemos llamado “Pinturillo”.

La idea base fue la de hacer un robot con un bote de pintura, utilizando dos rollos de cinta de pintor como ruedas e incluyendo pinceles. Después de algunos bocetos, nos decidimos por usar una brocha grande en el frente que, accionada por un servo, se fuese girando continuamente para dar la impresión de que el robot está pintando. Y así nació “Pinturillo” que, aunque seguro que no será el robot más rápido, lo queremos igual por su simpatía.

Continuar leyendo “Construcción del Robot Sigue-líneas “Pinturillo””

Mi Participación en el Machine Learning Workshop Galicia 2018 (WGML2018)

El pasado 18 de octubre de 2018 se celebró en Vigo la tercera edición del Machine Learning Workshop Galicia 2018 (WGML2018). Un evento que se ha convertido en referente en Galicia, máxime cuando este año el número de asistentes fue tal que se necesitó habilitar una segunda sala desde donde poder seguir las ponencias a través del streaming que también se difundió en directo. La organización corrió a cargo del centro tecnológico AttlanTTic, dependiente de la Universidad de Vigo.

Pues allí estaba yo a las 8:45, en la puerta de la Sede de Afundación en la Calle Policarpo Sanz. Un poco “mosca” porque apenas se veía gente y estaba todo cerrado, así que me puse a rodear el edificio, pensando que se entraría por alguna puerta lateral. Por suerte, me encontré con Sergio de Televés, perdido igual que yo, pero al menos con el comodín del teléfono, pues tenía compañeros que ya habían entrado. Así, nos dimos cuenta de que el WGML2018 en realidad se celebraba en el edificio que Afundación tiene al otro lado de la calle…

Tras este accidentado comienzo, llegué a la acreditación, donde nos entregaron nuestra identificación así como las actas de las ponencias. Después de saludar, me dirigí a una de las primeras filas, donde tenían reservados asientos para los ponentes. Inició el evento la ponencia de Ana Peleteiro-Ramallo, antigua alumna de la Escuela de Ingeniería de Telecomunicación de la Universidad de Vigo y Directora de Ciencia de Datos de Tendam (antes Cortefiel), que disertó sobre su experiencia a lo largo de su carrera profesional, habiendo trabajado antes en Zalando, siendo nombrada Data Scientist of the Year 2017 en Irlanda. Habló también de cómo la Ciencia de Datos está ayudando a una empresa tradicional en el cambiante mundo de la moda. Inmediatamente comenzaron las sesiones de comunicación que se dividieron en cuatro bloques con distintos coordinadores en cada caso. En este primer bloque destacaré:

  • ExpliClas, servicio que genera de manera automática explicaciones en lenguaje natural de árboles de decisión, algo muy interesante de cara a facilitar la interpretabilidad de las decisiones tomadas por modelos creados con métodos supervisados de este tipo.
  • Senseitrade, una start-up que quiere democratizar el acceso a la información relevante para la toma de decisiones de inversión en bolsa, mediante técnicas de NLP de análisis de sentimientos sobre determinados influenciadores.
  • Cinfo, otra start-up gallega que ha desarrollado un sistema de emisión de vídeo en streaming mediante el uso de una sola cámara, pero que puede realizar seguimientos y cambios de cámara como estamos acostumbrados a ver en TV, mediante la creación automática de cámaras virtuales.

Antes del segundo bloque, fue el turno de Inditex, la multinacional gallega que nos enseñó que no está a la altura de las circunstancias, al menos en lo que respecta a la aplicación de la Ciencia de Datos para el análisis de sus datos de negocio.

En este segundo bloque estaba encuadrada mi presentación titulada “Modelo de Hábitos de Compra de Clientes en el Sector Mayorista Deportivo”. Se trata de un análisis realizado en base a los datos reales de la empresa Grupo Jim Sports, donde se buscaba conocer cuándo un cliente estaba dejando de comprar algún tipo de producto. Prometo en breve describir con detalle en qué consistió el trabajo.

Después de una entretenida comida en donde conocí a gente del CITIC, comenzaron los dos bloques de la tarde, quizá algo más densos y específicos que los de la mañana. En el primero de ellos, la detección de anomalías en centros de datos fue el mantra de varias ponencias; mientras que en el segundo bloque destacaron las presentaciones sobre vehículos autónomos. Aunque éstas me dejaron pensando sobre el sentido de realizar investigaciones en ámbitos donde grandes empresas están invirtiendo cantidades ingentes de recursos, algo completamente fuera del alcance de cualquiera de los centros de investigación de Galicia.

Como conclusión, comentar que me gustó mucho haber participado en un evento como este, en el que hemos podido ver que en Galicia también se están haciendo proyectos punteros en cuanto a la aplicación del machine learning o aprendizaje automático. Y aunque algunas importantes empresas gallegas como FINSA o Inditex estuvieron presentes, también ha quedado patente que aquí la innovación proviene del ámbito de la universidad, centros tecnológicos y start-ups o PYMEs. Espero con muchas ganas la próxima edición que, según me contaron, organizará el CITIC y que en ella participen más actores que configuran el ecosistema económico gallego.

Y muchas gracias al CITIC por permitirme reproducir sus fotografías del evento en este artículo.

Mi Experiencia en el Máster en Investigación en Inteligencia Artificial de AEPIA

En julio de este año 2018 finalicé el Máster en Investigación en Inteligencia Artificial que ha desarrollado la Asociación Española para la Inteligencia Artificial (AEPIA) y que gestiona la Universidad Internacional Menéndez Pelayo. Esta fue la segunda edición del máster que, en un área tan dinámica como la Inteligencia Artificial, ya ha incluido nuevas asignaturas en su tercera edición para el curso 2018/2019. En esta entrada os hablaré de qué es el máster, qué se aprende en él y os daré mi opinión y experiencia personal.

En primer lugar, hablemos de AEPIA, responsable del contenido y metodología del máster. AEPIA se define como una “asociación formada por docentes, investigadores y profesionales que comparten intereses en temas relacionados con la Inteligencia Artificial”. Entre sus socios se encuentran los principales investigadores y profesores de diferentes universidades y centros de investigación españoles, siendo sus metas la transferencia tecnológica, coordinar grupos de trabajo, facilitar la innovación, etc. Con estos mimbres, el nivel de profesorado del máster no puede ser bajo y no lo es.  Así, los profesores provienen de diferentes universidades españolas como la Universidad de Santiago de Compostela, Universidad de A Coruña, Universidad de Oviedo, Universidad Politécnica de Madrid, Universidad de Valencia, Universidad de Málaga, Universidad Autónoma de Barcelona, Universidad San Pablo CEU, Universidad de Granada y muchas más, incluyendo centros de investigación como el Consejo Superior de Investigaciones Científicas (el listado total de docentes es de 80). Luego, evidentemente, hay profesores mejores y peores, pero ninguno sin nivel ni resultados de investigación a sus espaldas que no lo acrediten como un experto en IA en su área de trabajo.

Por otro lado, las asignaturas de mi plan de estudios se dividían en 4 bloques: uno genérico de fundamentos, que incluye las bases en metaheurísticos, aprendizaje automático y representación del conocimiento, entre otras; otro bloque para la especialidad en aprendizaje y ciencia de datos (que es la que yo cursé), así como el bloque de inteligencia en la web y el de razonamiento y planificación, que conforman las otras dos especialidades del máster. No voy a dar el listado completo, puesto que se puede ver en la web del máster y puede cambiar ligeramente, pero sí que me gustaría explicar qué es lo que me han aportado. Antes tengo que aclarar que yo no inicié el máster sin conocimientos previos en la materia, al menos en lo que respecta a la Ciencia de Datos. Más o menos un año antes había finalizado la especialización en Data Science que la Universidad John Hopkins Bloomberg School of Public Health desarrolla en Coursera. Así que me matriculé en el máster con los deberes hechos, aunque con dudas de si cumpliría los criterios de selección, pues son bastante estrictos. Evidentemente, me admitieron e inicié el curso siguiendo el orden recomendado en la guía de estudio, por lo que la primera asignatura con la que me encontré fue “Introducción a la Investigación”. Siendo una asignatura relativamente fácil en cuanto a su contenido (no así en las entregas), me resultó interesante conocer los entresijos de la investigación: las revistas científicas, los congresos, el periplo del doctorando… Pero fue un inicio suave, porque el choque me lo llevé al comenzar con “Técnicas Avanzadas de Representación del Conocimiento y Razonamiento”, pues se trata de una asignatura completamente teórica, con una base matemática inmensa y que requiere un esfuerzo importante para seguirla con el ritmo adecuado. Eso sí, te mete realmente en el máster, por lo que una vez pasado el escollo, se puede disfrutar más. Y ahí me sorprendió el estado de los algoritmos metaheurísticos, uno de los pilares de la IA cuando lo que se busca es optimización. También me resultaron muy interesantes las redes bayesianas, de las cuales me habría gustado ver más. En cuanto al aprendizaje automático o machine learning, la especialidad incluyó métodos supervisados, no supervisados, detección de anomalías y series temporales, aunque eché de menos algo de aprendizaje con refuerzo (reinforcement learning) y aprendizaje profundo (deep learning), cosa que se ha resuelto este año con la inclusión de dos nuevas asignaturas. No puedo acabar este apartado sin mencionar Big Data, una asignatura impartida por Amparo Alonso, catedrática de la UDC y Presidenta de la AEPIA, que cubre tanto la parte de almacenamiento de datos distribuido con Hadoop y Spark, como el análisis de los mismos con Spark ML, incluyendo el envío y recepción de datos en streaming con Kafka y Storm.  Según el plan era una de las últimas asignaturas, pero al comenzar con ella me di cuenta de que había sido un error dejarla para el final. El motivo fue que, en realidad, incluye muchísimo material y unas entregas complejas que requieren mucho tiempo, así que fue el único caso en el que no conseguí entregar todos los trabajos, al quedarme pendiente una parte de data streaming. A pesar de todo, aprobé todas las asignaturas en la primera convocatoria, por lo que en junio ya tenía la posibilidad de presentar el Trabajo de Fin de Máster (TFM) en julio.

Poco más de un mes fue un tiempo muy justo para el TFM, habida cuenta de que se trata de un proyecto de investigación que engloba todo o buena parte de lo aprendido a lo largo del curso. Mi TFM no fue uno de los propuestos por los profesores, si no una propuesta basada en la problemática de uno de mis clientes, por lo que partía de un caso práctico sobre datos reales. Eso, a priori, le daba un punto de interés, aunque en realidad supuso mucha más carga de trabajo en las fases de extracción, transformación y carga de datos, aunque se vio compensada con la ayuda de mis tutores, Alberto Bugarín y Manuel Mucientes ambos del CiTIUS de la USC,  a los que estoy enormemente agradecido. Prometo dar más detalles al respecto en otro post.

La conclusión final, para mí, fue positiva. Quizá podría señalar, como aspectos negativos, la plataforma de e-learning que no facilitaba mucho las cosas, así como la gestión de la UIMP que es manifiestamente mejorable. Con todo ello, reconozco que he aprendido muchísimo, también he encontrado áreas que conocía poco y, sobre todo, me he dado cuenta de que en el ámbito de la IA en general y de la Ciencia de Datos en particular, hay muchísimo camino aún por recorrer, por lo que es muy fácil encontrar un área interesante y poco explorada en la que, por ejemplo, poder realizar una tesis. Si alguien me pregunta si mereció la pena, le diría que sí, a pesar de tener que sacrificar fines y fines de semana y de reducir mis interacciones familiares a la mínima expresión, sobre todo porque, aunque es posible realizar el Máster en Investigación en Inteligencia Artificial en dos años, opté por hacerlo en uno sólo y compatibilizarlo con los proyectos en marcha de mis clientes.

Punto de Partida

Bienvenidos a mi blog personal. Como creo que habrás visto, su temática gira en torno a los datos, centrándome en particular en la Ciencia de Datos e Inteligencia Artificial.

Creo que existe aún muy pocos sitios en español de calidad que abarquen estos temas, por lo que intentaré poner mi granito de arena que contribuya a que nuestra sociedad conozca el impacto que la IA tendrá en nuestro día a día, huyendo siempre del “pensamiento mágico”, pues trataré de explicar los conceptos subyacentes que, en general, no son tan complejos como parecen.