Índice de Similitud Coseno y Euclídea entre jugadores y equipos

Share this post

Hoy en día, en el proceso de búsqueda de jugadores, es muy usual utilizar un índice de similitud en el que se muestre qué jugadores pueden ser más semejantes entre sí. Este proceso es particularmente útil para equipos con presupuestos ajustados, ya que normalmente necesitarán «descubrir» nuevos jugadores y este índice de similitud puede ayudarlos.

Este proceso es importante, pero lo que se pretende en este ejercicio no es buscar solo la similitud de un jugador, sino buscar también la similitud entre equipos, ya que para intentar hacer la elección correcta de un jugador es importante hacernos una pregunta… ¿Encajaría este jugador «x» en mi equipo?

En este ejercicio intentaremos encontrar al jugador más parecido a Alexis Sánchez, jugador que la temporada pasada militó en el Olympique de Marsella. Para ello partiremos en primera instancia de un índice de similitud creado para descubrir los jugadores más semejantes a él y posteriormente se generará otro, esta vez de equipos para poder comprobar si alguno de los jugadores que se han obtenido juegan también en un equipo similar al OM.

Es obvio que, aunque haya algún jugador que tenga un alto nivel de similitud, pero no juegue en un equipo muy similar al OM, no debe ser un motivo principal para descartarlo, pero este paso nos dará un argumento más a la hora de escoger a un jugador por encima de otro.

Es importante aclarar también que, aunque este ejercicio está planteado para mostrar unos índices de similitud basándonos en las distancias coseno y euclídea, cuando vayamos a plantear este ejercicio en un caso real, debemos decantarnos solo por uno de ellos y apostar por él.

Los datos utilizados tanto para los jugadores como para los equipos han sido obtenidos del portal web fbref y corresponden a la temporada 2022-2023 al completo.

Este ejercicio está realizado íntegramente en R, la limpieza de los datos en Python y las visualizaciones en Power BI y Python.

SELECCIÓN DE LA MUESTRA PARA EVALUAR A LOS JUGADORES

Como siempre, lo primero de todo es hacer una selección de la muestra que vamos a utilizar, en este caso, teniendo la mayoría de métricas que nos proporciona fbref, filtraremos por competición, por posición y por los minutos jugados.

Infografía: Elaboración propia.

Posteriormente se elegirán las métricas que se consideren relevantes para evaluar a los delanteros.

APLICAR ALGORITMO DE SIMILITUD

Para resumir sin necesidad de mostrar todos los elementos del código, calcularemos la distancia coseno y la distancia euclídea en R.

¿Cuándo decimos que un jugador es similar a otro?, pues podemos decir que dos jugadores son similares cuando están próximos en distancia entre ellos, por lo que, para aplicar este algoritmo de similitud, hay que calcular la distancia que queramos utilizar, en este caso, la distancia euclídea y distancia coseno.

¿Y qué diferencias hay entre distancia euclídea y distancia coseno?

DISTANCIA EUCLÍDEA

Podemos decir que la distancia euclídea es la distancia común, la que nos dice si dos jugadores son similares cuando los valores de sus métricas están próximos.

DISTANCIA COSENO

Debemos tener en cuenta que es posible que la distancia coseno nos diga que dos jugadores son semejantes aunque sus métricas no lo sean y, explicado un poco rápido sin entrar demasiado en profundidad, esto es así porque esta distancia coseno concluye que si el jugador A tuviera o dispusiese de las mismas oportunidades o los mismos minutos jugados que el jugador B, éste podría llegar a estar más próximo en distancia que un jugador que sí tiene unos valores de sus métricas más semejantes pero habiendo acumulado más participación.

Una vez calculadas las distancias y aplicado el algoritmo de similitud en R, es momento de ver qué dicen los resultados.

RESULTADOS JUGADORES

Para obtener el resultado con ambas distancias y, teniendo en cuenta las características del jugador que queremos analizar, he seleccionado diferentes métricas que engloban tanto las ofensivas como otras de índole defensivas y de posesión, todas estandarizadas por 90 minutos (no nombro cada una de las métricas por no alargar demasiado el artículo).

El Resultado con la distancia coseno nos muestra los 10 jugadores más similares:

Fuente: Elaboración propia.

El Resultado con la distancia euclídea nos muestra los 10 jugadores más similares:

Fuente: Elaboración propia.

Como se puede observar, en esta ocasión no hay grandes diferencias entre ambas distancias y Alexandre Lacazette, del Olympique de Lyon ocupa la primera posición con un índice de similitud de un 78,2% y 79,7% respectivamente.

Una vez tenemos estos resultados, vamos a repetir todo el proceso, pero esta vez tomando los datos de los equipos.

RESULTADOS EQUIPOS

Para obtener el resultado con ambas distancias y, teniendo en cuenta que lo que se pretende es obtener un índice de similitud de los equipos en el plano global, he seleccionado métricas que abarcan todos los aspectos del juego (no nombro cada una de las métricas por no alargar demasiado el artículo).

El Resultado con la distancia coseno nos muestra los 10 equipos más similares:

Fuente: Elaboración propia.

El Resultado con la distancia euclídea nos muestra los 10 equipos más similares:

Fuente: Elaboración propia.

Observamos también que el equipo más semejante al OM coincide en ambas medidas y el resto, a rasgos generales, solo sufre ligeras diferencias, subiendo o bajando algunos puestos.

Solo hay tres equipos que no repiten entre los diez primeros en ambas medidas: Milan, Toulouse y Bayern Múnich.

¿CUÁL FUE LA ELECCIÓN DEL OM?

La elección del OM para sustituir a Alexis Sánchez fue Pierre-Emerick Aubameyang, jugador gabonés del Chelsea que disputó un total de 563 minutos en solo 16 partidos.

Estas cifras hacen que comparar a ambos jugadores sea más complicado y, evidentemente, al haber hecho una elección de la muestra con jugadores que hubiesen jugado más de 2.500 minutos, este jugador no aparece, pero, si aplicásemos la distancia Coseno con él dentro (creo que en este caso es la única distancia que nos podría valer), estaría lejísimos de ser un jugador muy semejante a Alexis Sánchez (aparecería en el puesto 243 con un índice de similitud de un 34,4%).

Pero… ¿y su equipo?, al haber hecho los índices de similitud con todas las estadísticas globales de los equipos, aquí sí podemos comprobar dónde se sitúa el Chelsea con respecto al OM.

Si miramos la similitud Coseno, vemos que el Chelsea está en la posición 23 con un 67,6%, mientras que en la similitud Euclídea aparece en la posición 22 con un 43,6%.

La elección de un futbolista puede estar basada en muchos aspectos, quizá en este caso primó el aspecto económico (llegó libre al OM), pero, como este ejercicio está basado en encontrar a un jugador semejante a Alexis Sánchez (aunque no sepamos si en realidad esa fue la idea del OM a la hora de fichar), lo que queda claro es que el dato no respalda la elección de Aubameyang como un sustituto semejante a Alexis Sánchez.

Infografía: Elaboración propia.

CONCLUSIONES

  • Vemos como en primera posición en ambas distancias, el Olympique de Lyon es el equipo más semejante al OM, por lo que la elección de Lacazette como recambio de Alexis Sánchez estaría respaldada por ambas partes.
  • También podemos destacar al canadiense Jonathan David, que aparece muy arriba en el índice de similitud de jugadores (61% y 72,2% respectivamente) y, además, su equipo aparece en segundo lugar en el índice de similitud Coseno (con un 87,5%) y en cuarto lugar en el índice euclídeo (con un 62,7%).
  • Otra opción a explorar más en profundidad sería Folarin Balogun que, aunque no aparece dentro de los diez primeros en la distancia euclídea (aparece en la posición 16ª con un 61,6%), sí aparece bastante adelantado en la distancia coseno (sexta posición con un 53,7%). El Stade de Reims, club en el que jugó la temporada pasada (ha sido recientemente traspasado al Mónaco) no aparece entre los diez primeros en el índice Coseno (posición 18ª con un 73,7%) y aparece en décima posición en el índice euclídeo (con un 54,8%).
  • Jugadores como Rashford, Kane, Salah o Lewandowski no los valoro como posibles sustitutos ya que no están al alcance del OM.
  • Como conclusión final y volviendo a incidir en lo dicho en la introducción, aunque este ejercicio esté planteado con el cálculo de ambas distancias, para crear un índice de similitud debemos estudiar qué medida nos convence más y apostar solo por una de ellas.
Infografía: Elaboración propia.

VISUALIZACIONES JUGADORES

Fuente: Elaboración propia.
Fuente: Elaboración propia Inspirado en: StatsBomb / Rami Moghadam.

VISUALIZACIONES EQUIPOS

Fuente: Elaboración propia.
Fuente: Elaboración propia Inspirado en: StatsBomb / Rami Moghadam.

Índice de Similitud Coseno y Euclídea entre jugadores y equipos

¡Suscríbete ahora!

Recibe nuestro boletín de noticias y entérate de las nuevas publicaciones.

¡No enviamos spam! Lee nuestra política de privacidad para más información.


Share this post

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll hacia arriba