Aplicación de Clustering Jerárquico a
Estadísticas de Jugadores
de la NBA (temporada 2024–2025)
Autores:
Fabricio-Javier
Rivadeneira-Zambrano
Universidad Laica
Eloy Alfaro de Manabí, ULEAM
fabricio.rivadeneira@uleam.edu.ec
Manta, Ecuador
Silvia-Mercedes
Carvajal-Rivadeneira
Unidad Educativa
Julio Pierregrosse, UEJP
scarvajal@juliopierregrosse.edu.ec
Manta, Ecuador
Rodolfo-Andrés
Rivadeneira-Zambrano
Universidad Técnica
de Manabí, UTM
rodolfo.rivadeneira@utm.edu.ec
Portoviejo, Ecuador
Isaac-Fabricio
Rivadeneira-Carvajal
Universidad Laica
Eloy Alfaro de Manabí, ULEAM
e1316793783@live.uleam.edu.ec
Manta, Ecuador
Joshua-Javier
Rivadeneira-Carvajal
Universidad Laica
Eloy Alfaro de Manabí, ULEAM
e1316793775@live.uleam.edu.ec
Manta, Ecuador
DOI: https://doi.org/10.56124/encriptar.v9i17.010
Resumen
Se
aplicó el método de clustering jerárquico a un conjunto de datos con
estadísticas agregadas de 731 jugadores de la NBA correspondientes a la
temporada 2024–2025. El objetivo fue identificar perfiles de rendimiento sin
imponer etiquetas previas, utilizando una estrategia no supervisada basada en
distancias. Para ello, se seleccionaron variables cuantitativas de producción
(puntos, rebotes, asistencias), volumen de uso (minutos jugados, intentos de
tiro y tiros libres) y contribuciones defensivas (robos, tapones, pérdidas y
faltas). Tras un preprocesamiento orientado a hacer comparables las escalas
(normalización) se construyó una matriz de disimilaridad y se generó el
Dendrograma, evaluando el corte del diagrama mediante criterios de separación y
coherencia interna. El análisis condujo a una partición de tres grupos bien
diferenciados: un clúster de jugadores de alta carga ofensiva y gran volumen,
un clúster de rol/soporte con menor uso y aportes más equilibrados, y un
clúster intermedio que combina eficiencia con participación moderada. Estos
resultados facilitan comparaciones entre jugadores, resumen patrones dominantes
del torneo y aportan una base para análisis posteriores (segmentación y toma de
decisiones).
Palabras clave: agrupamiento jerárquico; NBA; medidas de disimilaridad; segmentación;
análisis no supervisado.
Application of Hierarchical Clustering to NBA Player Statistics
(2024–2025 Season)
ABSTRACT
Hierarchical
clustering was applied to a dataset containing aggregated statistics for 731
NBA players from the 2024–2025 season. The goal was to uncover performance
profiles without predefined labels, using an unsupervised, distance-based
approach. We considered quantitative variables capturing offensive output
(points, rebounds, assists), usage/volume (minutes played, field-goal and
free-throw attempts), and defensive contributions (steals, blocks), together
with indicators such as turnovers and personal fouls. After preprocessing to
make variables comparable across scales (normalization), a dissimilarity matrix
was computed and a dendrogram was constructed; the final partition was selected
by cutting the hierarchy using separation and internal consistency criteria.
The analysis yielded three clearly differentiated groups: a high-usage,
high-production cluster; a role/support cluster with lower usage and more
balanced contributions; and an intermediate cluster characterized by moderate
involvement paired with relatively efficient production. Overall, the resulting
segmentation supports player comparison, summarizes dominant season patterns,
and provides a practical baseline for downstream tasks such as roster
construction, and decision support.
Keywords: clustering; NBA;
dissimilarity measures; segmentation; unsupervised learning.
1. Introducción
El
presente trabajo aplica clustering jerárquico a estadísticas agregadas de 731
jugadores de la NBA correspondientes a la temporada 2024–2025, con el objetivo
de identificar perfiles de desempeño sin recurrir a etiquetas previas. En
analítica deportiva, la segmentación de jugadores permite sintetizar grandes
volúmenes de información (por ejemplo, volumen de uso, eficiencia y
contribuciones defensivas) en un conjunto reducido de “tipos” o perfiles
comparables. Esto resulta útil para apoyar procesos de exploración,
comparaciones de rol, evaluación de compatibilidad entre jugadores y generación
de hipótesis para análisis posteriores.
El
análisis se implementó en IBM SPSS Statistics versión 27, utilizando el
procedimiento de Hierarchical Cluster (IBM Corp., 2021). Esta elección ofrece
dos ventajas prácticas. Primero, permite definir explícitamente los componentes
esenciales del clústering basado en distancias: (i) la estandarización de
variables, (ii) la medida de disimilaridad y (iii) el criterio de vinculación
(o método de agregación). Segundo, entrega salidas orientadas a la
interpretación (matriz de proximidades, historial de aglomeración y
dendrograma), facilitando justificar el corte final del diagrama y
describir con claridad cómo se formaron los grupos (IBM Corp., s. f.).
2. Materiales y métodos
2.1. Datos,
variables y criterio de análisis
El
conjunto de datos se basa en estadísticas de temporada y considera variables de
volumen y participación (por ejemplo, partidos jugados, minutos jugados e
intentos de tiro), de producción (puntos, rebotes, asistencias) y de acciones
defensivas y disciplina (robos, tapones, pérdidas y faltas).
Al
tratarse de estadísticas agregadas, la lectura de un perfil debe entenderse
como un indicador general de rendimiento a lo largo de la temporada. En ese
sentido, el objetivo no es predecir un resultado, sino organizar los casos
(jugadores) en grupos relativamente homogéneos, de modo que los miembros de un
mismo clúster presenten patrones estadísticos similares y difieran, en
promedio, de los jugadores en otros clústeres.
En
clústering jerárquico aglomerativo, cada jugador inicia como un clúster propio
y el algoritmo va fusionando pares de clústeres sucesivamente hasta llegar a un
solo grupo. La estructura resultante es una jerarquía que puede “cortarse” en
diferentes niveles para obtener distintas particiones. En la práctica, esto
permite comparar alternativas: por ejemplo, una solución con 2 clústeres podría
separar “alto uso” vs. “bajo uso”, mientras que 3 o 4 clústeres pueden capturar
matices adicionales (Miyamoto, 2022).
3. Metodología y Obtención
de datos
Los datos corresponden a estadísticas de temporada de la NBA 2024–2025 y fueron extraídos de la tabla de totales de jugadores publicada en Basketball-Reference, en la página NBA (Basketball-Reference, 2025).
El análisis se
desarrolló en IBM SPSS Statistics versión 27 mediante
el procedimiento Hierarchical Cluster (IBM Corp., 2021). Para garantizar
comparabilidad entre variables, se aplicó estandarización por variable
(puntuaciones z ). La disimilaridad
entre jugadores se calculó con la Distancia Euclidiana Cuadrática y el criterio
de vinculación utilizado fue Complete Linkage. La solución
final se definió inspeccionando el dendrograma y el
historial de aglomeración, seleccionando un corte que produjo tres clústeres
interpretables.
3.1.
Estandarización por
variable
Dado que las variables de
entrada se expresan en escalas distintas (conteos, minutos y porcentajes), se
realizó una estandarización por variable (puntuaciones z). Sin este paso,
variables con rango numérico grande (como minutos jugados o puntos) tienden a
dominar la medida de distancia, reduciendo el aporte de indicadores de
eficiencia o defensa. La estandarización hace que cada variable tenga,
aproximadamente, media cero y desviación estándar unitaria, permitiendo que el clústering
refleje patrones multivariados y no sólo diferencias en magnitud. Asimismo,
esta decisión facilita interpretar los perfiles como combinaciones relativas de
fortalezas y debilidades, en lugar de niveles absolutos.
Adicionalmente, la
preparación de datos implicó verificar la coherencia de los tipos de variable, revisar
rangos plausibles y considerar el tratamiento de valores faltantes. En análisis
basados en distancia, la presencia de datos faltantes puede distorsionar la
matriz de proximidades si no se controla adecuadamente; por ello, se trabajó
con una configuración consistente con el cálculo de distancias en SPSS y con el
objetivo de preservar la comparabilidad entre casos (IBM Corp., 2021).
Inicialmente los datos cargados conforman una tabla compuesta de 569
filas por 31 variables, de las cuales se eliminaron variables categóricas y
algunas no relevantes para el estudio, por lo que se procede a seleccionar a
las variables numéricas para aplicar agrupamientos (ver Tabla1).
Tabla 1. Descripción y análisis de variables seleccionadas.
|
Nombre de Variable |
Descripción |
|
G |
Partidos jugados. |
|
GS |
Partidos como titular. |
|
MP |
Minutos jugados. |
|
FG |
Canastas de campo. |
|
FGA |
Intentos de tiro de
campo. |
|
3P |
Triples anotados. |
|
3PA |
Intentos de triple. |
|
2P |
Dobles anotados. |
|
2PA |
Intentos de doble. |
|
eFG% |
Porcentaje efectivo de tiro. Ajusta por el hecho de que un tiro de 3
puntos vale un punto más que uno de 2 puntos. |
|
FT |
Tiros libres anotados. |
|
FTA |
Intentos de tiro libre. |
|
ORB |
Rebotes ofensivos. |
|
DRB |
Rebotes defensivos. |
|
TRB |
Rebotes totales. |
|
AST |
Asistencias. |
|
STL |
Robos. |
|
BLK |
Tapones. |
|
TOV |
Pérdidas. |
|
PF |
Faltas personales. |
|
PTS |
Puntos. |
Fuente: (Basketball-Reference,
2025).
Se observa en la Tabla 1, que es necesario la estandarización de las variables a fin de evitar sesgos en el análisis final debido a sus diferentes unidades.
3.2 Medida
de disimilaridad: Distancia Euclidiana Cuadrática
Como medida de distancia se utilizó la Distancia Euclidiana Cuadrática. Conceptualmente, esta medida suma, a través de las variables estandarizadas, las diferencias al cuadrado entre dos jugadores.
Esto tiene dos implicaciones: primero, resalta discrepancias grandes (las penaliza más fuertemente) y segundo, mantiene una interpretación geométrica directa en el espacio de características. En un contexto deportivo, esta propiedad puede ser útil para separar con mayor nitidez a jugadores con roles muy distintos (por ejemplo, especialistas defensivos vs. principales generadores ofensivos). En SPSS, la elección de esta distancia define la matriz de proximidades sobre la cual opera el procedimiento jerárquico (IBM Corp., 2021)
Además,
como una estrategia de validación adicional, se replicó el cálculo de
disimilaridad con otra medida de distancia, la distancia euclidiana no
cuadrática, manteniendo la estandarización por variable y el mismo método de
vinculación que se detalla en el punto siguiente, y al comparar la partición en
clústeres no se observó diferencias grandes respecto a la solución original, indicando
posiblemente que la estructura de los datos está dominada por patrones robustos
de magnitud/volumen (como: minutos jugados y conteos acumulados) que permanecen
coherentes bajo transformaciones razonables de disimilaridad o debido a variables
altamente correlacionadas (MP con PTS, FGA o FG), por lo que distintas
distancias tienden a preservar el orden relativo de similitud entre jugadores,
generando dendrogramas y cortes comparables.
3.3 Método
de agrupamiento: Complete Linkage
El método jerárquico seleccionado fue Complete Linkage (vecino más lejano). Este criterio define la distancia entre dos clústeres como la máxima distancia entre cualquier par de jugadores pertenecientes a clústeres distintos. En comparación con otros esquemas de vinculación, complete linkage tiende a producir clústeres más compactos, ya que evita fusionar grupos si existe algún par de casos excesivamente distante. En aplicaciones con estadísticas de jugadores, esta característica favorece la interpretación: los grupos resultantes suelen tener menor dispersión interna y, por tanto, describirse con mayor claridad (IBM Corp., s. f.; Miyamoto, 2022).
Desde una perspectiva práctica, este método ayuda a mitigar el riesgo de formar clústeres “alargados” que mezclen perfiles muy diferentes. Por ejemplo, si un clúster agrupa a jugadores de rol con baja participación, complete linkage tiende a impedir que el grupo absorba a un anotador de alto uso cuya distancia máxima con algunos miembros del clúster sea grande. Esta propiedad puede
resultar especialmente valiosa cuando se busca construir tipologías de rol
3.4 Corte
del dendrograma y solución de tres clústeres
El algoritmo aglomerativo produce una jerarquía completa; por tanto, el
número final de clústeres se decide mediante un corte. En este trabajo se
inspeccionaron el dendrograma y el historial de aglomeración
para identificar saltos notables en el nivel de fusión (incrementos
pronunciados en la disimilaridad), los cuales suelen indicar
que, a partir de cierto punto, las fusiones comienzan a combinar grupos ya
bastante diferentes. Con base en esta evidencia se seleccionó una solución de tres
clústeres de casos/individuos. Este resultado ofrece un compromiso entre
simplicidad e interpretabilidad: permite distinguir perfiles generales (por
ejemplo, alto volumen ofensivo, rol/soporte y un grupo intermedio) sin perder
completamente la heterogeneidad natural de la liga.
Finalmente, es
importante destacar que los clústeres no deben interpretarse como “categorías verdaderas”
o inmutables, sino como una segmentación dependiente de las variables
incluidas, la estandarización, la distancia y el criterio de vinculación. Por
ello, el clústering jerárquico debe en-
tenderse como una herramienta
exploratoria: ayuda a organizar los datos y generar interpretaciones, pero sus
conclusiones deben contrastarse con conocimiento del dominio y, cuando sea
pertinente, con análisis complementarios. En términos metodológicos, la
posibilidad de evaluar alternativas (distintas distancias o vinculaciones) y
comparar la estabilidad de los grupos forma parte de las buenas prácticas en clústering jerárquico (Dhulipala
et al., 2021).
4. Resultados
Se presentan los siguientes resultados en bloxplots, para comparar de manera gráfica y práctica los diferentes grupos de jugadores acorde a las variables analizadas. Los gráficos no son de todas las variables para no alargar la extensión de este trabajo.
Figura 1. Bloxplot de los conglomerados, según variable G.
Fuente: Autor (2026).
De la figura 1, G (Partidos jugados). El clúster 1 presenta el mayor promedio de partidos jugados (71.65), seguido del clúster 2 (63.54), mientras que el clúster 3 registra una participación significativamente menor (28.03). Esto sugiere que el primer grupo agrupa jugadores con alta disponibilidad y rol
estable a lo largo de la temporada, el segundo a jugadores de rotación con presencia frecuente pero más variable, y el tercero a jugadores con participación esporádica (por ejemplo, contratos de corto plazo, lesiones o rol situacional)
Figura 2. Bloxplot de
los conglomerados, según variable MP.
Fuente: Autor (2026).
En la figura 2, MP
(Minutos jugados). La diferencia entre clústeres se amplifica en minutos:
clúster 1 promedia 2474.48 MP, clúster 2 1724.49 MP y clúster 3 428.67 MP. En
conjunto con G, esto indica que la separación principal de la segmentación está
asociada al volumen de participación (tiempo en cancha), lo que a su vez
impacta los totales acumulados en el resto de las variables.
Figura 3. Bloxplot de
los conglomerados, según variable FG.
Fuente:
Autor (2026).
De figura 3, FG (Canastas de campo). El
clúster 1 alcanza 610.91 FG en promedio, aproximadamente el doble del clúster 2
(306.77) y muy por encima del clúster 3 (58.95). Este patrón es consistente con
roles ofensivos más centrales en el clúster 1, una contribución ofensiva
intermedia en el clúster 2 y una producción limitada en el clúster 3, explicada
principalmente por el bajo tiempo de juego.
Figura 4.
Bloxplot de los conglomerados, según variable DosP.
Fuente:
Autor (2026).
De Figura 4, DosP (Dobles anotados). En
dobles, el clúster 1 (412.65) supera al clúster 2 (210.00) y al clúster 3
(38.82), lo cual sugiere que la anotación cerca del aro o en tiros de dos
puntos está fuertemente asociada al volumen general del jugador. La brecha
entre clústeres respalda la interpretación de que el clúster 1 concentra
perfiles con mayor carga ofensiva total.
Figura 5.
Bloxplot de los conglomerados, según variable PTS.
Fuente:
Autor (2026).
De la figura 5, PTS (Puntos). La variable PTS muestra la separación más
evidente: clúster 1 promedia 1768.96 puntos, clúster 2 831.54 y clúster 3
159.30. Este resultado confirma que los clústeres capturan diferencias
sustantivas en producción ofensiva acumulada, y que la variable de volumen
(MP) actúa como un determinante estructural de los totales
5. Discusión: normalización por minutos jugados
Dado que varias de las variables analizadas son
totales acumulados o variables basadas en el volumen (PTS, FG, FGA, TRB, AST),
una parte importante de las diferencias entre clústeres puede explicarse
simplemente
por el tiempo en cancha (MP).
Para complementar la interpretación basada en
volumen, se podría incorporar indicadores normalizados por minutos, típicamente
expresados por 36 minutos según la NBA (ej., PTS/36, FG/36, AST /36). Esta normalización
permite distinguir con mayor claridad entre (i) jugadores que producen mucho
porque juegan mucho y (ii) jugadores que, aun con
menor participación, muestran alta productividad relativa.
En el contexto de esta segmentación, la normalización por minutos
podría ajustar la lectura del clúster 3: aunque sus totales son bajos, algunos
casos podrían presentar tasas por minuto comparables a las de los clústeres 1 y
2, lo que sugeriría eficiencia en muestras de tiempo reducidas. De manera
similar, en el clúster 2 podrían identificarse perfiles con alta producción
relativa que no se reflejan plenamente en los totales acumulados. Ergo, analizar
simultáneamente variables basadas en volumen y variables normalizadas por
tiempo ayuda a separar rol de productividad o eficiencia, y puede mejorar la formación
de los conglomerados cuando existen grandes diferencias en minutos jugados.
6. Conclusiones
Los resultados del
clustering jerárquico (complete linkage) evidencian tres perfiles bien
diferenciados de jugadores en la temporada 2024–2025 a partir de variables de
volumen, producción y contribución defensiva.
El Clúster 1 concentra
a jugadores de alta disponibilidad y carga de minutos (G=71.65; MP=2474), con
altos volúmenes ofensivos (FGA=1294; PTS=1769) y elevada participación en la creación
de juego (AST=465). Este grupo puede interpretarse como el de principales
piezas de rotación y alto impacto, con producción sostenida y una eficiencia
(eFG%=0.549) similar a la del clúster intermedio.
El Clúster 2 refleja un
perfil de rotación con participación moderada (G=63.54; MP=1724) y una
producción ofensiva intermedia (PTS=832; FGA=650). A pesar de menor volumen que
el clúster 1, presenta valores competitivos en rebote (TRB=322) y una
eficiencia comparable (eFG%=0.548), sugiriendo jugadores de soporte que
contribuyen de forma equilibrada.
El Clúster 3 agrupa a
jugadores con baja participación o uso esporádico (G=28.03; MP=429; GS=4.73),
con producción y volumen reducidos (PTS=159; FGA=130) y menores contribuciones acumuladas
en asistencias, robos y tapones. La mayor variabilidad relativa (DE altas
respecto a la media) sugiere heterogeneidad interna asociada a jugadores con
pocos minutos, roles muy específicos o estancias parciales en la temporada.
En conjunto, la
segmentación obtenida respalda que las variables analizadas capturan
principalmente diferencias de volumen de participación y carga ofensiva,
mientras que la eficiencia (eFG%) muestra menor separación entre los dos
clústeres con mayor uso. Estos clústeres facilitan la comparación de perfiles,
la exploración de roles y la formulación de análisis posteriores (por ejemplo, caracterización
detallada por posición o normalización por minuto) para refinar la
interpretación del rendimiento.
6. Referencias
Basketball-Reference. (2025).
NBA player totals — 2024–25 season. Recuperado
el 3 de febrero de 2026, de https://www.basketball-reference.com/leagues/NBA_2025_totals.html
Dhulipala, L., Eisenstat, D.,
Lącki, J., Mirrokni, V., & Shi, J. (2021). Hierarchical agglomerative graph
clustering in nearly-linear time (arXiv:2106.05610).
IBM Corp. (2021). IBM SPSS
Statistics Algorithms (Version 27). IBM.
https://public.dhe.ibm.
com/software/analytics/spss/documentation/statistics/27.0/en/client/Manuals/IBM_
SPSS_Statistics_Algorithms.pdf
IBM Corp. (s. f.). Hierarchical
cluster analysis method. IBM Documentation. Recuperado el 3 de febrero de 2026, de https://www.ibm.com/docs/en/spss-statistics/cd?topic=analysis-hierarchical
Miyamoto, S. (2022). Theory of
agglomerative hierarchical clustering. Springer.