OBJETIVO
El Rayo Vallecano es un club que en los últimos años se ha caracterizado por hacer un buen trabajo en el terreno de juego y también en los despachos, formando y dando continuidad a un grupo de jugadores que han dado un gran rendimiento, pero al termino de esta temporada, un gran número de ellos saldrán del equipo y el club deberá acometer una profunda remodelación de la plantilla.
Desde que el Rayo Vallecano consiguiera el ascenso a primera división en la temporada 2020-2021, el equipo no ha pasado grandes apuros para mantener la categoría, incluso ha estado por momentos rozando puestos europeos.
Hay muchos factores que han propiciado estos buenos resultados, como la gestión del hasta hace poco entrenador, Andoni Iraola, o también la continuidad en el tiempo de grandes jugadores que han formado la columna vertebral del equipo como Óscar Trejo, Stole Dimitrievski, Alejandro Catena, Fran García, Isi Palazón, Óscar Valentín, Álvaro García o Santi Comesaña, jugadores que ya estaban en el equipo en segunda división.
La salida ya confirmada del equipo de alguno de estos jugadores, como es el caso de Fran García destino a su club de origen, el Real Madrid, Alejandro Catena al Atlético Osasuna, Florian Lejeune, que regresa al Deportivo Alavés después de terminar su cesión o Santi Comesaña al Villarreal, deja un vacío importante en la plantilla, ya que, si perder a un jugador de los llamados titulares siempre es un problema, no digamos perder de una tacada a cuatro de ellos.
Además de estas pérdidas, también abandona el equipo Sergio Camello, otro jugador que, sin la etiqueta de titular indiscutible, sí ha tenido un impacto muy importante en el equipo, peleando la titularidad a Raúl de Tomás, la gran apuesta del Rayo en la delantera.
Luego tenemos el caso de Radamel Falcao, un jugador cuya salida se daba por segura antes de terminar la temporada y que a día de hoy no está tan claro.
Ante esta incertidumbre y dado que siempre es bueno tener en la plantilla jugadores de los llamados «especialistas», que puedan ayudar en partidos y momentos determinados, también se buscará en este estudio un jugador que pudiera reemplazarle llegado el momento.
El «problema» de hacerlo tan bien es que muchos equipos con mayores presupuestos y con plantillas diseñadas para jugar siempre torneos europeos fijan sus radares en estos equipos y ven oportunidades de conseguir jugadores consolidados y de alto nivel a un precio bajo o lo que es peor, en algún caso, directamente a coste cero.
Este proyecto pretende, mediante el uso del dato y el Machine Learning, explorar el mercado de las cinco grandes ligas y de otras ligas menores para obtener una muestra de jugadores lo más semejante posibles a los que abandonan la plantilla.
La estructura de una plantilla puede formarse en base a muchos factores, quizá no sea necesario sustituir a todos los jugadores que se marchen puesto por puesto, pero estas consideraciones deben llevarse a cabo internamente y, debido a esta circunstancia, este estudio se basará en la sustitución de jugador por jugador, rol por rol.
Una vez hecha la selección de la muestra y analizados los aspectos que consideraremos relevantes, se darán tres candidatos1 principales para cada jugador a sustituir basándonos en sus habilidades, pero también siendo consecuentes con la realidad económica del club.
Esto es un aspecto muy importante a tener en cuenta, la selección final de la muestra estará basada en el Machine Learning, pero después habrá que ir descartando candidatos que, objetivamente hablando, son inviables para el club.
Al no saber el límite presupuestario del club, he fijado un precio máximo de valor de mercado (basado en Transfermarkt) de 8 millones de euros, que fue el precio máximo que pago el Rayo Vallecano por un jugador la temporada pasada (Raúl de Tomás).
1 Es posible que algún jugador de los que aparece en este informe haya cambiado de equipo durante la realización de este proyecto.
DATOS Y FUENTES UTILIZADAS
Todos los datos que se usan para en este informe han sido extraídos del portal web fbref, y están actualizados con todas las jornadas de la temporada 2022-2023 de los campeonatos que hemos seleccionado.
Para realizar esta tarea de rastreo es importante tener los datos de las cinco grandes ligas (La Liga, Premier League, Serie A, Ligue 1 y Bundesliga), ya que al ser las más potentes, podemos suponer que será una ventaja conseguir algún jugador consolidado en alguna de ellas, pero hay que tener en cuenta que los salarios y valores de mercado de los jugadores que militan en los equipos de estas ligas hacen que para equipos como el Rayo Vallecano sea muy difícil acceder a ellos y es por esto por lo que he querido enriquecer la muestra de jugadores añadiendo otras cinco ligas al estudio.
Cada una de estas nuevas ligas añadidas tienen sus propias características que hacen que sean interesantes para tenerlas en cuenta, por ejemplo, la Primeira Liga portuguesa está plagada de talento joven (muchas veces proveniente de Brasil, ya que gracias a tener el mismo idioma hace que sea el lugar ideal para dar el salto a Europa de muchos jugadores aun sin explotar) y de jugadores ya veteranos pero que aún disponen de algunos años de un nivel alto; la Eredivisie holandesa siempre se ha caracterizado por tener un juego de toque, alegre y vistoso, parecido al que se practica en nuestro país, además de ser también una liga que apuesta mucho por el talento joven; la Serie A brasileña es la cuna de los grandes jugadores brasileños que luego llegan a Europa; la Liga MX mejicana es un campeonato que ha evolucionado mucho en los últimos años y cuenta con jugadores experimentados y, en muchas ocasiones, jugadores procedentes de las ligas argentinas y uruguayas y para terminar, la Championship, la «segunda» división inglesa es un campeonato tremendamente complicado, diría que más potente que algunas ligas menores de Europa.
Me hubiera gustado disponer de los datos de la segunda división española y francesa, (campeonatos estos con una gran variedad de jugadores muy hechos y con jóvenes con gran margen de progresión) pero no me ha sido posible ya que fbref no dispone de la misma cantidad de información que las ligas seleccionadas y no sería adecuado evaluar jugadores sin disponer de la misma información para todos.
MODELOS ANALÍTICOS
Una vez tenemos todos nuestros archivos preparados, aplicaremos Machine Learning usando la reducción de la dimensionalidad mediante la técnica de PCA (Análisis de componentes principales) para conseguir correlaciones entre los jugadores de la muestra. Para afinar aún más la elección, aplicaremos la técnica de clustering y terminaremos realizando un scoring que nos ayudará a definir nuestra elección.
Reducción de la dimensionalidad (PCA)
El problema de tener una alta cantidad de información es que contamos con numerosas características que dan como resultado un ajuste excesivo.
Para solucionar esto se aplicará la reducción de la dimensionalidad, que básicamente es el proceso de reducir el número de variables del conjunto de datos mediante la obtención de un conjunto de variables principales.
Dicho de una manera más sencilla, lo que queremos es comprimir el dataset para eliminar la información redundante y ya, con este dataset comprimido que contendrá las métricas con los pesos correctos, poder sacar correlaciones entre todos los jugadores.
Este proceso de aplicación de la reducción de la dimensionalidad y búsqueda de la correlación de los jugadores lo llevaremos a cabo íntegramente con Python.
Resultados de correlación de todos los jugadores
Clustering
Gracias al proceso llevado a cada con la reducción de la dimensionalidad y la similitud, hemos conseguido tener una muestra de jugadores semejantes que nos ayudarán a tomar una decisión sobre qué jugadores pueden ser los más convenientes, pero llegados a este punto, vamos a intentar afinar un poco más.
Vamos a intentar que, de entre la muestra final y teniendo en cuenta que ya todos estos jugadores guardan una gran similitud, hacer un clustering para ver qué jugadores estarían más próximos al jugador a reemplazar.
Hacer este clustering no significa que tengamos que descartar a los jugadores que no estén en el mismo grupo que el jugador a reemplazar, se trata simplemente de tener aún más argumentos para tomar la decisión final.
Resultados del Clustering de todos los jugadores
Alejandro Catena
Florian Lejeune
Fran García
Santi Comesaña
Sergio Camello
Radamel Falcao
Fuente: elaboración propia.
Scoring
Este ranking será la culminación de todos los procesos de análisis que hemos realizado. Hemos hecho una selección de jugadores en base al factor de correlación, después hemos dividido esa muestra en clusters para afinar más la similitud y ahora con este ranking conseguiremos una lista, que aun sin ser definitiva, será la base para la elección final.
Este proceso se realizará con R y será el último paso que haremos para ayudarnos a elegir a un jugador sobre otro y así poder tomar la mejor decisión. Esto nos permitirá tener una clasificación de la muestra en base a unas métricas determinadas que habrá que ir eligiendo en función del tipo de jugador que queramos.
A estas métricas que seleccionemos les aplicamos unos valores o pesos, que son los que, una vez normalizados, se sumarán y posteriormente se pasarán a porcentajes para ordenar así nuestra selección.
Es importante comprender el concepto de pesos, ya que es la parte fundamental de este proceso porque la importancia que le demos a cada variable que utilicemos hará que nuestro scoring sea uno u otro.
Pero también debemos tener en cuenta el contexto en el que nos movemos. Como ya hemos dicho anteriormente, el Rayo Vallecano es un club con un presupuesto muy limitado, y por ello hemos tenido en cuenta este hecho para hacer la selección final de la muestra descartando candidatos con niveles de correlación altos, pero inviables para el club.
Pues para hacer este ranking también debemos tener en cuenta este dato, de manera que vamos a añadir la métrica que tenemos del valor de mercado basado en Transfermarkt a las métricas que elijamos para, en este caso, penalizar a los jugadores más caros sobre los más baratos.
A groso modo, lo que vamos a hacer es estudiar a cada jugador que queremos seleccionar para ver dónde destacan, lo que nos permitirá saber a qué métricas debemos darle más importancia, porque, al final, lo que estamos buscando desde el comienzo son jugadores similares a un jugador determinado, por lo tanto, debemos basarnos en las virtudes y los defectos de éstos.
Resultados del Scoring de todos los jugadores
Alejandro Catena
Florian Lejeune
Fran García
Santi Comesaña
Sergio Camello
Radamel Falcao
Fuente: elaboración propia.
* Para ampliar la información relacionada con las nomenclaturas de las métricas, consultar glosario.
VISUALIZACIONES
En el paso anterior hemos conseguido tener a los jugadores separados en clusters y, además, se ha obtenido la parte crucial del proceso, por un lado, el índice de correlación y por otra, el scoring. Todo esto son números, pero ahora, para terminar de encajarlo todo, es necesario plasmar mediante diferentes visualizaciones toda la información recabada para analizar en profundidad a los jugadores seleccionados con respecto a nuestro modelo.
Estas visualizaciones nos ayudarán a comprender mejor todos los datos extraídos y para ello utilizaré herramientas específicas como Tableau y Power BI, además de Python y R.
Es importante señalar que no veremos grandes diferencias entre ningún jugador debido precisamente a que hemos hecho una selección en base al factor de correlación, con lo cual, nos hemos asegurado que todos estos jugadores sean similares y ahora terminaremos de afinar la búsqueda.
El primer paso será el de hacer una presentación a modo resumen donde mostraremos un gráfico de embudo generado en Power BI con el porcentaje de correlación o similitud del jugador a reemplazar con el resto de jugadores, así como la gráfica resultante de hacer el clustering en R (se hará también una pequeña infografía con los jugadores separados en sus clusters).
Al ver los grupos que R ha generado en el clustering, no debemos caer en la trampa de creer que los jugadores con mayor índice de correlación deben estar en un mismo cluster y los otros en el siguiente.
Si recordamos, el clustering se ha hecho usando menos métricas que en la reducción de la dimensionalidad, porque se quitaron algunas de ellas al tener outliers que podrían desvirtuar el resultado de la búsqueda de estos conglomerados, por lo tanto, el resultado también es algo diferente.
Después de esta página introductoria, vemos una tabla con un resumen estadístico por colores condicionales, donde, de un vistazo rápido podremos ver qué jugadores destacan en cada métrica… cuanto más oscuro esté el color, más destacado será en esa métrica, y viceversa.
Esta información numérica es importante porque nos ayudará a saber los valores exactos de cada métrica de todos los jugadores. En las gráficas no veremos reflejados estos valores, ya que en éstas, lo que haremos será posicionar a los jugadores dentro de un contexto específico.
El siguiente paso será generar diferentes gráficas de dispersión donde podremos observar a todos los jugadores respecto a unas métricas determinadas, independientemente del cluster al que pertenezcan.
Los gráficos de dispersión me parecen muy interesantes, pero siempre teniendo en cuenta qué variables queremos mostrar. No se trata simplemente de mostrar una métrica tras otra y, por eso, he intentado siempre dar una visión de causa y efecto, por ejemplo, he comparado la métrica de pases recibidos con la de errores de control, ¿por qué?, por una razón obvia… cuantos más pases recibes, más probabilidad de cometer un error en el control de balón… causa y efecto.
Para terminar la parte de visualizaciones, se mostrará en un gráfico de Lollipop (Tableau) una comparativa de varias métricas que sean interesantes y que no se hayan mostrado en gráficos anteriores. Este tipo de gráficos, al ser también muy visuales nos permiten comparar rápidamente a todos los jugadores.
Finalmente, y a modo de conclusión, se realizará una infografía con los resultados obtenidos en el scoring, además de una página final con los tres candidatos seleccionados donde veremos sus métricas comparadas con el futbolista a reemplazar mediante unos gráficos de radar.
CONCLUSIONES
Haciendo una valoración global basada en todos los datos que se han mostrado, en todos los procesos de análisis realizados y en el contexto económico que se marcó (máximo 8 millones de valor de mercado), considero que Rasmus Nicolaisen, Erik Palmer-Brown y Rodrigo Ely serían los tres principales candidatos a sustituir a Catena.
En un principio, Iván Márquez estaba entre los tres candidatos principales, pero a comienzos de julio cambió de equipo como agente libre al FC Nürnberg, por lo que su fichaje pasa a ser poco probable y como consecuencia, le sustituyo por Rodrigo Ely.
Como se observa en el scoring, Grant Hanley, Alfie Jones y Jack Whatmough aparecen antes que dos de los candidatos.
Contratar futbolistas ingleses siempre es algo a estudiar en profundidad ya que no suelen tener una adaptación sencilla, tanto por el idioma como por el cambio en el estilo de juego, por lo tanto, aunque aparezcan en los primeros puestos, será preferible optar por otra opción siempre que haya otros jugadores similares.
1. Rasmus Nicolaisen. Futbolista danés que milita en el Toulouse de la Ligue 1. De edad similar a Catena, destaca sobre él en todas las métricas defensivas y a priori sería un candidato óptimo, pero tiene el hándicap de su precio, teniendo un valor de mercado alto para un club como el Rayo. También juega en contra el hecho de que su club ha ganado la Coupe de France y quizá sea difícil pensar en un cambio a un equipo de nivel similar.
2. Erik Palmer-Brown. Estadounidense que milita en el Troyes, de la Ligue 1. Muy similar en recuperaciones, despejes, intercepciones y en el porcentaje de duelos aéreos ganados, y superior en tackles y pases bloqueados. Está valorado en 2.50 millones, pero termina contrato en 2024, por lo que el club puede estar abierto a un posible traspaso en este mercado de fichajes. Puede ser una oportunidad de mercado debido al descenso de su equipo a la Ligue 2.
3. Rodrigo Ely. Brasileño con pasaporte italiano que milita en la Unión Deportiva Almería. Destaca en despejes y en los porcentajes de duelos aéreos ganados y pases completados. Conoce perfectamente La Liga por lo que no necesitaría aclimatación, está valorado en tres millones, pero también termina contrato en 2024.
Destacaría en esta ocasión a Leandro Cabrera como una cuarta opción porque, al igual que sucede con Erik Palmer-Brown, su equipo ha descendido a la segunda división y podría ser otra oportunidad de mercado debido a que su situación contractual puede ser beneficiosa para un posible traspaso económico o una cesión.
Fuente: Elaboración propia.
CONCLUSIONES
Haciendo una valoración global basada en todos los datos que se han mostrado, en todos los procesos de análisis realizados y en el contexto económico que se marcó (máximo 8 millones de valor de mercado), considero que Pedro Álvaro, Yoann Salmier y Riccieli serían los tres principales candidatos a sustituir a Lejeune.
Iván Márquez y Jack Whatmough han sido descartados debido a las circunstancias antes descritas.
1. Pedro Álvaro. Joven jugador portugués formado en la cantera del Benfica y que milita en el Estoril Praia de la Primeira Liga. Muy similar en los porcentajes de duelos aéreos ganados y pases completados, además de en los despejes y superior en interceptaciones, disparos bloqueados y pases recibidos. Su alto índice de similitud con Lejeune, su margen de mejora al ser un jugador muy joven y su asequible valor de mercado hacen de Pedro Álvaro un candidato óptimo.
2. Yoann Salmier. Futbolista francés que milita en el Troyes, compañero de zaga de Erik Palmer-Brown, jugador que está entre los seleccionados para sustituir a Catena. Supera prácticamente en todas las métricas a Lejeune y es especialmente destacable en intercepciones, conducciones y recuperaciones.
3. Riccieli. Brasileño de 24 años que milita en el Famalicão de la Primeira Liga. Destaca en despejes, en el porcentaje de pases completados y en los pases y disparos bloqueados y sufre con respecto a Lejeune en recuperaciones y conducciones.
Fuente: Elaboración propia.
CONCLUSIONES
Haciendo una valoración global basada en todos los datos que se han mostrado, en todos los procesos de análisis realizados y en el contexto económico que se marcó (máximo 8 millones de valor de mercado), considero que Gijs Smal, Conor Townsend y Rogério serían los tres principales candidatos a sustituir a Fran García.
He mantenido en esta ocasión a Conor Townsend dentro de los jugadores elegidos porque el mercado de los laterales izquierdos es más reducido, no hay tantas opciones asequibles, por lo que, aunque sea jugador británico, a primado más en su elección el hecho de que su valor de mercado sea menor que el de muchos del resto de jugadores.
1. Gijs Smal. Jugador holandés de 26 años que milita en el Twente, de la Eredivisie. Es el candidato óptimo, pero juega en su contra su alto valor de mercado (6 mill.). En cuanto a sus métricas, son muy altas en casi todas ellas, destacando los pases y toques en el último cuarto, pases progresivos, pases al área de penalti o las acciones de creación de tiros. Solo sufre algo con respecto a Fran García en las conducciones en el último tercio.
2. Conor Townsend. Futbolista inglés que milita en el West Brom, de la Championship. Similar a Fran García en muchas de sus métricas, sufre también con respecto a él sobre todo en las conducciones en el último tercio. Su hándicap, como se ha comentado antes, podría ser una posible difícil adaptación al cambio de liga e idioma.
3. Rogério. Brasileño de 25 años que milita en el Sassuolo. Es similar en métricas a Conor Townsend, y, también como él, sufre con respecto a Fran García en las conducciones en el último tercio aunque les supera ambos en los pases progresivos y en los pases al área de penalti.
CONCLUSIONES
Haciendo una valoración global basada en todos los datos que se han mostrado, en todos los procesos de análisis realizados y en el contexto económico que se marcó (máximo 8 millones de valor de mercado), considero que Himad Abdelli, Samu y Yohann Magnin serían los tres principales candidatos a sustituir a Comesaña.
Ben Sheaf han sido descartados debido a que es el jugador con mayor valor de mercado entre los cuatro primeros y, además, es británico, por lo que considero que Yohann Magnin puede ser un objetivo más realista.
1. Himad Abdelli. Jugador francés de 23 que milita en el Angers, supera en casi todas las métricas a Comesaña, destacando en los toques y en los pases progresivos y pases largos y medios completados. Puede ser una oportunidad de mercado debido al descenso de su equipo a la Ligue 2.
2. Samu. Futbolista portugués que milita en el Vizela, de la Primeira Liga. Al contrario que Himad Abdelli, Samu destaca más en los pases cortos completados que en los largos o medios, por lo que podemos deducir que su fútbol es más de toque, de hecho, su métrica en toques es muy alta. Sufre con respecto a Comesaña en recuperaciones.
3. Yohann Magnin. Francés de 25 años que milita en el Clermont de la Ligue 1. Grandes métricas de toques, pases medios completados y porcentaje de pases completados. Sufre respecto a Comesaña en acciones de creación de tiros, intercepciones y pases progresivos.
CONCLUSIONES
Haciendo una valoración global basada en todos los datos que se han mostrado, en todos los procesos de análisis realizados y en el contexto económico que se marcó (máximo 8 millones de valor de mercado), considero que Marcus Forss, Isac Lidberg y Roberto de la Rosa serían los tres principales candidatos a sustituir a Sergio Camello.
1. Marcus Forss. Jugador finlandés de 23 años que milita en el Middlesbrough, de la Championship. Supera a Camello ampliamente en goles por 90 minutos, y también en los disparos a puerta. Por contra, Camello le supera en las acciones de creación de tiros y en el porcentaje de regates exitosos.
2. Isac Lidberg. Futbolista sueco de 23 años que milita en el Go Ahead Eagles, de la Eredivisie. Métrica de goles por 90 minutos similar a Camello, le supera en disparos a puerta, en el porcentaje de estos disparos a puerta, en pases recibidos, xG y toques en el último tercio y tiene una métrica de asistencias por noventa minutos inferior.
3. Roberto de la Rosa. Mejicano de 22 años que milita en el Pachuca de la Liga MX. Supera a Camello en casi todas las métricas excepto en los goles por 90 minutos y asistencias por noventa minutos. Destaca en los disparos a puerta, pases recibidos y en el porcentaje de regates exitosos.
CONCLUSIONES
Haciendo una valoración global basada en todos los datos que se han mostrado, en todos los procesos de análisis realizados y en el contexto económico que se marcó (máximo 8 millones de valor de mercado), considero que Deyverson, Jordan Rhodes y Robert Mühren serían los tres principales candidatos a sustituir a Radamel Falcao.
1. Deyverson. Jugador brasileño de 32 años que milita en el Cuiabá, de la Seria A brasileña. Similar en asistencias y acciones de creación de tiros, supera a Falcao en goles por noventa minutos, disparos a puerta y el porcentaje de estos disparos a puerta, mientras que sufre en la comparación en pases recibidos, toques en el último tercio y recuperaciones. Con experiencia en la La Liga tras su paso por Levante, Getafe y Alavés y todavía en una edad muy aprovechable, es un candidato óptimo.
2. Jordan Rhodes. Futbolista inglés de 32 años que milita en el Huddersfield, de la Championship. Algo mejor en goles por 90 minutos y, sobre todo, en disparos a puerta y el porcentaje de éstos. Al igual que Deyverson, sufre en la comparación en pases recibidos y en los toques en el último tercio, además de en los xG. Su hándicap, la adaptación, su punto fuerte, el accesible valor de mercado (300.000 mil euros).
3. Robert Mühren. Holandés de 33 años que milita en el Volendam de la Eredivisie. Destaca en disparos a puerta y acciones de creación de tiros y, al igual que les pasa a los dos jugadores anteriores, sufre con respecto a Falcao en pases recibidos y toques en el último tercio, además de en recuperaciones.
GLOSARIO Y REFERENCIAS
Para la correcta comprensión de los términos de todas las métricas que aparecen a lo largo del documento, se adjunta un glosario con la nomenclatura que se ha usado finalmente después de haber hecho todo el proceso de limpieza de los datos descargados desde la página web de fbref.
Glosario