Warning: Invalid argument supplied for foreach() in /home/.gingersnap/frankpereiro/beisblogs.com/wp-content/themes/freshy-10/functions.php on line 278
Recta por la media » 2007 » Agosto

Peras vs. Manzanas (parte V)

12 08 2007

En la entrega anterior de esta serie hemos introducido el concepto de pesos para darle más importancia a algunas variables sobre otras, reflejando el deseo del experto con respecto a lo que se busca.

Todo lo que se ha presentado en esta metodología varía muy poco de lo que tradicionalmente se realiza con cualquier modelo estadístico habitual. La verdadera razón para que la serie de artículos se llame “Peras vs. Manzanas” tiene que ver con el hecho de que los modelos estadísticos tradicionales no pueden incorporar variables subjetivas, pero los borrosos viven y prosperan en base a éstas. La metodología que propongo recoge lo mejor de dos mundos en pugna, sobre todo en el béisbol actual, para obtener una visión más completa del jugador y su rendimiento.

Por lo tanto, y en base a una escala semántica, se le pide al experto su opinión subjetiva sobre un conjunto de variables previamente seleccionada para un individuo en particular. La escala semántica normalmente utilizada es la endecadaria (once valores):

Escala semántica endecadaria

Semático Numérico Semántico Numérico
El Mejor 1,0 Casi Malo 0,4
Excelente 0,9 Malo 0,3
Muy Bueno 0,8 Muy Malo 0,2
Bueno 0,7 Pésimo 0,1
Casi Bueno 0,6 El Peor 0
Regular 0,5    

Supongamos que tenemos el típico veterano que no se esfuerza mucho pero que no causa muchos problemas, mientras que la alternativa la constituye un novato hiperquinético y cabeza caliente. Tendríamos un conjunto de variables objetivas (estadísticas) que muestran el rendimiento de ambos, y otro conjunto de variables, esta vez subjetivas, que indican sus personalidades y otros aspectos. Por ejemplo, podríamos evaluar su capacidad de tomar decisiones en momentos críticos, su serenidad, su liderazgo, sus relaciones personales dentro y fuera del equipo, su compromiso a largo plazo, su capacidad de mejorar, y así sucesivamente, hasta modelar de manera adecuada el aspecto intangible o subjetivo que compone al pelotero. Mediante la asignación de valores a estas variables y la correspondiente ponderación del conjunto, se puede seleccionar uno u otro, dependiendo si lo que se busca es una bujía o un ancla, un líder o un seguidor, un arriesgado o un seguro.

Analizaremos los datos acumulados por todos los bateadores entre las temporadas del 2004 y el 2006, según 7 variables objetivas (: AVG, : OBP, : SLG, : SO/BB, : RC, : OUTS/RC, : PA ) y tres subjetivas (: Importancia defensiva, : Futuro Restante, : Esfuerzo).

Para obtener el jugador más adecuado, debe indicarse un jugador ideal, es decir, se tiene que valuar cada una de las variables con el valor mínimo que de cada una de ellas necesitamos. Para este ejemplo, he decidido colocar como jugador ideal el mejor posible, es decir, en cada una de las variables colocaremos el valor máximo de la escala endecadaria previamente presentada:
, , , , , , , , , .

A continuación daremos los pesos a cada una de las variables, siempre según criterio del experto, que para los efectos no es otro sino su servidor (a falta de alguno mejor, pero es cierto que esto no debe ser hecho sino por un verdadero experto):
, , , , , , , , , .

Finalmente, y para simplificar, utilizaremos la distancia relativa de Hamming como herramienta de selección:

donde es la valuación de la variable para el jugador .

Utilizando las variables objetivas, seleccionamos los 10 jugadores más cercanos al bateador ideal que consumieron al menos 600 apariciones legales entre 2004 y 2006. Presentamos primero sus estadísticas acumuladas y promediadas:

Estadísticas entre 2004 y 2006

  NAMELAST NAMEFIRST AVG OBP SLG SOBBRatio RC ORC PA
1006 Pujols Albert 0.331 0.425 0.645 0.61 427.97 2.88 2026
565 Helton Todd 0.323 0.439 0.544 0.67 374.51 3.03 1958
928 Ortiz David 0.296 0.397 0.614 1.26 404.19 3.18 2068
103 Berkman Lance 0.309 0.428 0.572 0.88 364.72 3.11 1898
123 Bonds Barry 0.315 0.534 0.679 0.28 276.51 2.01 1162
517 Guerrero Vladimir 0.328 0.389 0.572 1.17 359.65 3.46 1939
180 Cabrera Miguel 0.318 0.394 0.547 1.75 359.03 3.64 2046
1023 Ramirez Manny 0.306 0.406 0.608 1.32 360.87 3.23 1871
527 Hafner Travis 0.308 0.419 0.611 1.40 345.54 2.98 1714
4 Abreu Bobby 0.295 0.419 0.494 1.05 376.90 3.39 2118

He incluído una estadística de rendimiento que me parece muy útil, los outs consumidos por carrera creada (ORC). Siendo el out el reloj del juego, un equipo necesita crear tantas carreras como pueda por cada out consumido. Bonds domina todas las estadísticas de promedio, salvo el AVG, pero en esta estadística necesita casi un out menos que Pujols, quien está en segundo lugar, por cada carrera que produce. Es cierto que la ecuación de carreras creadas sobreestima la contribución individual de jugadores que como Bonds tienen un elevado porcentaje de embasado y de slugging, pero como todos en la lista presentan esta característica es una falla, a mi modo de ver, despreciable. Lo cierto es que tuve que incluir las carreras creadas totales y las apariciones al plato para dar un sentido real a la importancia de jugar todos los días. De nuevo, Bonds domina las estadísticas de promedio, pero en las acumuladas queda muy corto. Dos venezolanos están en la lista, Miguelito Cabrera y el “Comedulce” Bob Abreu, un verdadero orgullo que nos representen de tan buena manera. Cabrera tiene la más elevada tasa de ponches por boleto, lo que parece afectar su tasa de outs por carrera creada, ya que lo deja en último puesto. Las “sorpresas” son Lance Berkman , Todd Helton y Travis Hafner, ya que los tres están teniendo temporadas bastante peores de los que estos números presagiarían.

Los resultados de sus estadísticas fuzzyficadas (mediante la función de Derringer-Swich) y la distancia preliminar al ideal (DFP) son:

Valuaciones Objetivas y Distancia Preliminar

  NAMELAST NAMEFIRST X1 X2 X3 X4 X5 X6 X7 DFP
1006 Pujols Albert 0.98 0.61 0.91 0.95 1.00 0.92 0.86 0.127
565 Helton Todd 0.92 0.66 0.64 0.94 0.86 0.90 0.81 0.179
928 Ortiz David 0.71 0.51 0.83 0.86 0.94 0.89 0.88 0.193
103 Berkman Lance 0.81 0.62 0.71 0.91 0.84 0.90 0.78 0.200
123 Bonds Barry 0.86 1.00 1.00 1.00 0.61 1.00 0.31 0.207
517 Guerrero Vladimir 0.96 0.48 0.71 0.87 0.82 0.86 0.80 0.211
180 Cabrera Miguel 0.88 0.49 0.65 0.79 0.82 0.85 0.87 0.212
1023 Ramirez Manny 0.79 0.54 0.81 0.85 0.83 0.88 0.76 0.216
527 Hafner Travis 0.81 0.58 0.82 0.84 0.79 0.91 0.66 0.218
4 Abreu Bobby 0.71 0.58 0.51 0.89 0.87 0.87 0.92 0.223

De los resultados fuzzyficados observamos que salvo por Pujols, quien lidera con comodidad, y Helton (efecto Coors?), todos los demas son bastante parecidos. La falta de regularidad golpea a Bonds lo suficientemente fuerte como para mandarlo al 5to puesto, a pesar de sus inalcanzables promedios.

Agreguemos ahora las variables subjetivas y observemos en su influencia en la distancia final al ideal (DF2):

Variables Subjetivas y Distancia Final

  NAMELAST NAMEFIRST ImpDef Futuro Esfuerzo DF2
1006 Pujols Albert 0.5 0.9 0.8 0.101
180 Cabrera Miguel 0.7 1.0 0.4 0.229
527 Hafner Travis 0.0 0.6 0.4 0.23
103 Berkman Lance 0.5 0.7 0.6 0.236
517 Guerrero Vladimir 0.8 0.7 0.6 0.246
4 Abreu Bobby 0.9 0.6 0.7 0.251
928 Ortiz David 0.0 0.7 0.4 0.336
565 Helton Todd 0.5 0.4 0.6 0.355
1023 Ramirez Manny 0.6 0.5 0.3 0.403
123 Bonds Barry 0.6 0.0 0.2 0.438

Afrontemoslo, no se puede decir que alguno de estos jugadores haga un esfuerzo sobrehumano ni para mantenerse en forma, ni en el mismo terreno de juego, pero es obvio que Manny y Bonds son lo peor de lo peor. El futuro tampoco es demasiado promisorio, salvo para Pujols y Cabrera. Y defensivamente sólo se puede argumentar el caso de Abreu y Guerrero. Así que no me critiquen demasiado por las valuaciones y quédense con lo verdaderamente importante, la metodología, que, gracias a la juventud, impulsa aún más a Pujols al primer puesto y cuela a Cabrera al segundo puesto desde un lejano séptimo lugar. Creo que se aprecia con claridad la importancia de incluir variables subjetivas en los estudios, ya que permiten balancear el proceso de selección con la incierta certeza de las estadísticas.

Como conclusión adicional, podemos ver que el conjunto se dividió en cuatro grupos más o menos definidos:

1- Pujols.
2- Cabrera, Hafner, Berkman, Guerrero y Abreu.
3- Ortíz y Helton.
4- Ramírez y Bonds.

Esto es importante, porque puede definir grupos salariales cuando se establezcan negociaciones. Por ejemplo, Pujols puede pedir lo que quiera, ya que está sobrado, pero si sus espectativas no se ajustan al presupuesto, se puede seleccionar al que menos dinero solicite dentro de los miembros del segundo grupo sin afectar demasiado el futuro cercano. Son herramientas como esta las que permiten definir de manera científica la estrategia a seguir para cubrir las vacantes de un equipo o estudiar sustituciones posibles a través de los mercados de cambio o de agencia libre. Finalizo así esta introducción a la teoría de la borrosidad en la selección del personal de un equipo deportivo. Espero haber presentado de manera clara que la suma de peras y manzanas es más importante que la evaluación de cada grupo por separado. Sabermétrica y evaluación tradicional, cada una tiene su fortaleza y este método sólo potencia estas fortalezas al cubrir las inherentes debilidades de cada una.