Warning: Invalid argument supplied for foreach() in /home/.gingersnap/frankpereiro/beisblogs.com/wp-content/themes/freshy-10/functions.php on line 278
Recta por la media

Peras vs. Manzanas (parte V)

12 08 2007

En la entrega anterior de esta serie hemos introducido el concepto de pesos para darle más importancia a algunas variables sobre otras, reflejando el deseo del experto con respecto a lo que se busca.

Todo lo que se ha presentado en esta metodología varía muy poco de lo que tradicionalmente se realiza con cualquier modelo estadístico habitual. La verdadera razón para que la serie de artículos se llame “Peras vs. Manzanas” tiene que ver con el hecho de que los modelos estadísticos tradicionales no pueden incorporar variables subjetivas, pero los borrosos viven y prosperan en base a éstas. La metodología que propongo recoge lo mejor de dos mundos en pugna, sobre todo en el béisbol actual, para obtener una visión más completa del jugador y su rendimiento.

Por lo tanto, y en base a una escala semántica, se le pide al experto su opinión subjetiva sobre un conjunto de variables previamente seleccionada para un individuo en particular. La escala semántica normalmente utilizada es la endecadaria (once valores):

Escala semántica endecadaria

Semático Numérico Semántico Numérico
El Mejor 1,0 Casi Malo 0,4
Excelente 0,9 Malo 0,3
Muy Bueno 0,8 Muy Malo 0,2
Bueno 0,7 Pésimo 0,1
Casi Bueno 0,6 El Peor 0
Regular 0,5    

Supongamos que tenemos el típico veterano que no se esfuerza mucho pero que no causa muchos problemas, mientras que la alternativa la constituye un novato hiperquinético y cabeza caliente. Tendríamos un conjunto de variables objetivas (estadísticas) que muestran el rendimiento de ambos, y otro conjunto de variables, esta vez subjetivas, que indican sus personalidades y otros aspectos. Por ejemplo, podríamos evaluar su capacidad de tomar decisiones en momentos críticos, su serenidad, su liderazgo, sus relaciones personales dentro y fuera del equipo, su compromiso a largo plazo, su capacidad de mejorar, y así sucesivamente, hasta modelar de manera adecuada el aspecto intangible o subjetivo que compone al pelotero. Mediante la asignación de valores a estas variables y la correspondiente ponderación del conjunto, se puede seleccionar uno u otro, dependiendo si lo que se busca es una bujía o un ancla, un líder o un seguidor, un arriesgado o un seguro.

Analizaremos los datos acumulados por todos los bateadores entre las temporadas del 2004 y el 2006, según 7 variables objetivas (: AVG, : OBP, : SLG, : SO/BB, : RC, : OUTS/RC, : PA ) y tres subjetivas (: Importancia defensiva, : Futuro Restante, : Esfuerzo).

Para obtener el jugador más adecuado, debe indicarse un jugador ideal, es decir, se tiene que valuar cada una de las variables con el valor mínimo que de cada una de ellas necesitamos. Para este ejemplo, he decidido colocar como jugador ideal el mejor posible, es decir, en cada una de las variables colocaremos el valor máximo de la escala endecadaria previamente presentada:
, , , , , , , , , .

A continuación daremos los pesos a cada una de las variables, siempre según criterio del experto, que para los efectos no es otro sino su servidor (a falta de alguno mejor, pero es cierto que esto no debe ser hecho sino por un verdadero experto):
, , , , , , , , , .

Finalmente, y para simplificar, utilizaremos la distancia relativa de Hamming como herramienta de selección:

donde es la valuación de la variable para el jugador .

Utilizando las variables objetivas, seleccionamos los 10 jugadores más cercanos al bateador ideal que consumieron al menos 600 apariciones legales entre 2004 y 2006. Presentamos primero sus estadísticas acumuladas y promediadas:

Estadísticas entre 2004 y 2006

  NAMELAST NAMEFIRST AVG OBP SLG SOBBRatio RC ORC PA
1006 Pujols Albert 0.331 0.425 0.645 0.61 427.97 2.88 2026
565 Helton Todd 0.323 0.439 0.544 0.67 374.51 3.03 1958
928 Ortiz David 0.296 0.397 0.614 1.26 404.19 3.18 2068
103 Berkman Lance 0.309 0.428 0.572 0.88 364.72 3.11 1898
123 Bonds Barry 0.315 0.534 0.679 0.28 276.51 2.01 1162
517 Guerrero Vladimir 0.328 0.389 0.572 1.17 359.65 3.46 1939
180 Cabrera Miguel 0.318 0.394 0.547 1.75 359.03 3.64 2046
1023 Ramirez Manny 0.306 0.406 0.608 1.32 360.87 3.23 1871
527 Hafner Travis 0.308 0.419 0.611 1.40 345.54 2.98 1714
4 Abreu Bobby 0.295 0.419 0.494 1.05 376.90 3.39 2118

He incluído una estadística de rendimiento que me parece muy útil, los outs consumidos por carrera creada (ORC). Siendo el out el reloj del juego, un equipo necesita crear tantas carreras como pueda por cada out consumido. Bonds domina todas las estadísticas de promedio, salvo el AVG, pero en esta estadística necesita casi un out menos que Pujols, quien está en segundo lugar, por cada carrera que produce. Es cierto que la ecuación de carreras creadas sobreestima la contribución individual de jugadores que como Bonds tienen un elevado porcentaje de embasado y de slugging, pero como todos en la lista presentan esta característica es una falla, a mi modo de ver, despreciable. Lo cierto es que tuve que incluir las carreras creadas totales y las apariciones al plato para dar un sentido real a la importancia de jugar todos los días. De nuevo, Bonds domina las estadísticas de promedio, pero en las acumuladas queda muy corto. Dos venezolanos están en la lista, Miguelito Cabrera y el “Comedulce” Bob Abreu, un verdadero orgullo que nos representen de tan buena manera. Cabrera tiene la más elevada tasa de ponches por boleto, lo que parece afectar su tasa de outs por carrera creada, ya que lo deja en último puesto. Las “sorpresas” son Lance Berkman , Todd Helton y Travis Hafner, ya que los tres están teniendo temporadas bastante peores de los que estos números presagiarían.

Los resultados de sus estadísticas fuzzyficadas (mediante la función de Derringer-Swich) y la distancia preliminar al ideal (DFP) son:

Valuaciones Objetivas y Distancia Preliminar

  NAMELAST NAMEFIRST X1 X2 X3 X4 X5 X6 X7 DFP
1006 Pujols Albert 0.98 0.61 0.91 0.95 1.00 0.92 0.86 0.127
565 Helton Todd 0.92 0.66 0.64 0.94 0.86 0.90 0.81 0.179
928 Ortiz David 0.71 0.51 0.83 0.86 0.94 0.89 0.88 0.193
103 Berkman Lance 0.81 0.62 0.71 0.91 0.84 0.90 0.78 0.200
123 Bonds Barry 0.86 1.00 1.00 1.00 0.61 1.00 0.31 0.207
517 Guerrero Vladimir 0.96 0.48 0.71 0.87 0.82 0.86 0.80 0.211
180 Cabrera Miguel 0.88 0.49 0.65 0.79 0.82 0.85 0.87 0.212
1023 Ramirez Manny 0.79 0.54 0.81 0.85 0.83 0.88 0.76 0.216
527 Hafner Travis 0.81 0.58 0.82 0.84 0.79 0.91 0.66 0.218
4 Abreu Bobby 0.71 0.58 0.51 0.89 0.87 0.87 0.92 0.223

De los resultados fuzzyficados observamos que salvo por Pujols, quien lidera con comodidad, y Helton (efecto Coors?), todos los demas son bastante parecidos. La falta de regularidad golpea a Bonds lo suficientemente fuerte como para mandarlo al 5to puesto, a pesar de sus inalcanzables promedios.

Agreguemos ahora las variables subjetivas y observemos en su influencia en la distancia final al ideal (DF2):

Variables Subjetivas y Distancia Final

  NAMELAST NAMEFIRST ImpDef Futuro Esfuerzo DF2
1006 Pujols Albert 0.5 0.9 0.8 0.101
180 Cabrera Miguel 0.7 1.0 0.4 0.229
527 Hafner Travis 0.0 0.6 0.4 0.23
103 Berkman Lance 0.5 0.7 0.6 0.236
517 Guerrero Vladimir 0.8 0.7 0.6 0.246
4 Abreu Bobby 0.9 0.6 0.7 0.251
928 Ortiz David 0.0 0.7 0.4 0.336
565 Helton Todd 0.5 0.4 0.6 0.355
1023 Ramirez Manny 0.6 0.5 0.3 0.403
123 Bonds Barry 0.6 0.0 0.2 0.438

Afrontemoslo, no se puede decir que alguno de estos jugadores haga un esfuerzo sobrehumano ni para mantenerse en forma, ni en el mismo terreno de juego, pero es obvio que Manny y Bonds son lo peor de lo peor. El futuro tampoco es demasiado promisorio, salvo para Pujols y Cabrera. Y defensivamente sólo se puede argumentar el caso de Abreu y Guerrero. Así que no me critiquen demasiado por las valuaciones y quédense con lo verdaderamente importante, la metodología, que, gracias a la juventud, impulsa aún más a Pujols al primer puesto y cuela a Cabrera al segundo puesto desde un lejano séptimo lugar. Creo que se aprecia con claridad la importancia de incluir variables subjetivas en los estudios, ya que permiten balancear el proceso de selección con la incierta certeza de las estadísticas.

Como conclusión adicional, podemos ver que el conjunto se dividió en cuatro grupos más o menos definidos:

1- Pujols.
2- Cabrera, Hafner, Berkman, Guerrero y Abreu.
3- Ortíz y Helton.
4- Ramírez y Bonds.

Esto es importante, porque puede definir grupos salariales cuando se establezcan negociaciones. Por ejemplo, Pujols puede pedir lo que quiera, ya que está sobrado, pero si sus espectativas no se ajustan al presupuesto, se puede seleccionar al que menos dinero solicite dentro de los miembros del segundo grupo sin afectar demasiado el futuro cercano. Son herramientas como esta las que permiten definir de manera científica la estrategia a seguir para cubrir las vacantes de un equipo o estudiar sustituciones posibles a través de los mercados de cambio o de agencia libre. Finalizo así esta introducción a la teoría de la borrosidad en la selección del personal de un equipo deportivo. Espero haber presentado de manera clara que la suma de peras y manzanas es más importante que la evaluación de cada grupo por separado. Sabermétrica y evaluación tradicional, cada una tiene su fortaleza y este método sólo potencia estas fortalezas al cubrir las inherentes debilidades de cada una.



Peras vs. Manzanas (parte IV)

27 07 2007

De vuelta a la blogosfera, ya que estoy un poco más asentado en Caracas. Tengo que estirar un poco mis entumecidos dedos para darle forma a la cuarta entrega de esta serie.

En el artículo previo vimos un ejemplo en el que, a través de la distancia de Euclides, se realizó la comparación entre un grupo de lanzadores. El ejemplo no discriminaba entre las estadística utilizadas, se consideraban todas igualmente importante. Pero en la realidad, los factores evaluados difícilmente tienen este comportamiento.

En estadística, uno de los principales problemas es calcular los pesos del modelo utilizado, para poder minimizar el error cometido; ríos de tinta se ha derramado para obtener los mejores método de solucionar este problema. En la lógica borrosa este problema se confía, de nuevo, a los expertos, quienes mediante un criterio de ponderación, establecen la importancia absoluta de cada factor.

En el ejemplo que hemos venido utilizando, se usan cuatro variables de comparación: ERA, IP, OBP en contra y razón SO/BB. Al utilizar pesos iguales, descubrimos que la razón SO/BB era el factor decisorio más importante debido a su variabilidad inherente. Pero que pasaría si dejamos al experto (gerente general, manager, coach o scout) establecer importancias diferentes a cada una de estas medidas.

Lo único que tendríamos que decirle a nuestro hipotético experto es que asigne un peso a cada variable dentro del intervalo [0,1]. Este nos indica que prefiere un caballo come innings al que no se le embasen mucho, pero que las otras dos estadísticas (ERA y razón SO/BB) no le importan mucho. Por lo tanto, se obtiene del experto la siguiente escala de pesos:

1- ERA: 0.5
2- IP: 1
3- OBP en contra: 1
4- Razón SO/BB: 0.3

A continuación, se convierten los pesos absolutos para que tengan convexidad, es decir, sumen uno:

.

Por lo tanto, los pesos relativos serían:

1- ERA: 0.5/(0.5+1+1+0.3) = 0.5/2.8 = 0.18
2- IP: 1/2.8 = 0.36
3- OBP en contra: 1/2.8 = 0.36
4- Razón SO/BB: 0.3/2.8 = 0.1

La ecuación de la distancia de Minkowski cambiaría a:

.

Recordemos que en el caso de las distancias euclidianas k=2. Finalmente, la matriz que recoge las distancias euclidianas sería:

Distancias Euclidianas

  P1 P2 P3 P4
P1 0.000 0.096 0.033 0.046
P2 0.096 0.000 0.086 0.057
P3 0.033 0.086 0.000 0.035
P4 0.046 0.057 0.035 0.000

Una diferencia obvia al usar pesos convexos es que las distancias bajan en magnitud. Además, algunas de las distancias cambian radicalmente con respecto al resto de las distancias para ese mismo jugador. Por ejemplo, para P4: al no usar pesos la mayor distancia era con P3, la segunda mayor era con P2 y la menor era con P1. Al utilizar los pesos, la mayor distancia de P4 es ahora con P2, la segunda mayor es con P1 y la menor es con P3. También podemos apreciar que se rompe el empate que había entre P3 y P4 con respecto a P1, siendo ahora más parecido (tiene una distancia más corta) P3 a P1 que P4.

La definición de los pesos permite ser más específicos a la hora de establecer el perfil del jugador adecuado. Se puede ser tan detallado como se quiera, buscando identificar con precisión que jugadores se adaptan mejor a una situación en particular. En nuesto ejemplo, que pasa si el experto decide que los innings no son tan importantes pues su cuerpo de relevistas es el mejor de la liga. O que el factor más importante es la efectividad pues el equipo batea poco, aunque defensivamente es impecable. Es esta flexibilidad uno de los factores que más aleja metodológicamente a la lógica borrosa de la estadística, ya que en la estadística los pesos adoptan una sola forma según el modelo específico que utilicemos y sólo cambian con los datos utilizados para estimarlos. Les debo para la próxima entrega la inclusión de variables subjetivas y la obtención del jugador ideal.



Viaje

5 07 2007

Por ahora voy a tener el blog practicamente clausurado. Estoy preparando mi regreso a Venezuela y no tengo ni tiempo, ni acceso Internet permanente para hacer actualizaciones. En cuanto me desocupe un poco escribiré algo, así sea pequeño.

Gracias a todos los que me visitan por entender.



El draft de la “Guerra de los Blogs”

1 07 2007

Que desastre… Sólo eso puedo decir. Hice toda mi revisión de información sobre una base sabermétrica. Todo un error cuando el fantasy es un rottisserie clásico. Las estadísticas evaluadas en este tipo de torneos son de las que combatimos a diario, de las que quisiéramos fuesen sustituidas en todos los períodicos: AVG por OBP, HR por SLG, RBI por Runs Created. Además, creo que tendré que volver a publicar el artículo en el que se mostraba matemáticamente por qué las bases robadas (SB) no son efectivas.

Gracias a esta “confusión”, las selecciones ofensivas que realicé dejaron mucho que desear. Pero bueno, a lo hecho pecho. No voy a narrar todas las rondas de la selección, sólo las que considero más importantes.

En primera ronda seleccioné a Vladimir Guerrero, nada mal. Sin embargo, la diferencia en experiencia en este tipo de torneos se observa cuando P!t3x, en el puesto anterior al mío, selecciona a Carl Crawford. A Crawford no lo selecciona para su equipo ni la madre que lo parió. Pero con bastantes impulsadas, anotadas y, sobre todo, bases robadas, es una maravilla de selección.

Mi segunda selección fue una joya: B.J. Upton. La estaba destrozando, literalmente, con excelente promedio, impulsadas, anotadas y algunos robos. Además, contaba con elegibilidad en 3 posiciones, por lo que pensé que me la había comido. Pero había un pequeño problema… Estaba lesionadísmo!!! Y para largo!!!

En tercera ronda escogí al careta niuyorkino Jorge Posada. Creo que me adelanté al menos una ronda en esta escogencia. La cuarta y quinta fueron muy bien, con Jonathan Papelbon y J.J. Hardy. En la sexta ronda me ha caído Barry Bonds. Que mal estamos, cuando el casi, casi máximo jonronero de la historia cae hasta la sexta ronda. Quisiera darle una nota especial a los equipos Planeta Béisbol por escoger a Félix Hernández en la 4ta ronda y CaciquesFX por Andruw Jones en la 5ta. De alguien que va en último puesto, les puedo decir que fueron selecciones increíbles. ;)

En la 7ma ronda la boté de jonrón, seleccionando a Kelly Johnson cuando estaba Ben Sheets dando vueltas por ahí. Genial Julio, genial. Este error lo enmendé tomando a Brad Penny y Derek Lowe en las siguientes dos rondas y, “arriesgándome” con el viejito Roger Clemens. De aquí en adelante, sólo se puede destacar la selección de Kelvim Escobar en la 13ra.

Como ven, muy buen cuerpo de lanzadores, pero fatal ofensiva. Lo que me ha catapultado, hasta el día de hoy, al último puesto de la clasificación. Mi mejor selección es un empate entre Penny y Lowe. La peor, obviamente Upton en la segunda ronda. Creo que será mejor que me retire de esto de las ligas de fantasía, o mi reputación se verá fuértemente golpeada. Lo ideal sería que me quedara con lo que se me da mejor, eso de hablar tonterías con formulitas y numeritos.

Amanecerá y veremos…



Peras vs. Manzanas (parte III)

28 06 2007

Antes de comenzar: lo intentaré, RoRRo, lo intentaré!!!

Ahora sí, al grano. En la pasada entrega de esta serie habíamos visto diferentes funciones de fuzzificación que permiten pasar cualquier estadística al intervalo [0,1], resaltando alguna zona en particular.

Dos cosas que había olvidado incluir. La primera es que cuando queremos transformar estadísticas para las que un valor menor es mejor que un valor mayor, se debe restar 1 al valor obtenido con la función de fuzzificación. Por ejemplo, para el promedio de carreras limpias (ERA):

,

donde es el valor fuzzy para el ERA, obtenido a través de cualquier función de fuzzificación.

La segunda es introducir una función de fuzzificación, la logarítmica:

.

Aquí, si S>1 se da énfasis a la cola derecha y si S<1 se da énfasis a la izquierda. Con “énfasis” quiero decir que la pendiente en esa zona es más pronunciada que en el resto de la curva. Veamos una curva utilizando diferentes valores de S:

SBRatioF4.png

Una vez resueltos estos dos olvidos, finalizamos con la fuzzificación y comenzamos con la comparación entre jugadores. Para comparar jugadores introducimos el concepto de subconjunto borroso. Un subconjunto borroso es un conjunto de cualidades que define a un jugador. Cada una de esas cualidades viene definida por la posibilidad de ser el mejor en ella.

La distancia entre dos subconjuntos borrosos es, entonces, la distancia entre dos jugadores:

En esta distancia, llamada de Minkowski, la distancia entre el jugador 1 y el 2 es la suma de las diferencias que hay entre cada una de las características utilizadas. Las diferencias se toman en valor absoluto (ninguna distancia es negativa) y se elevan al exponente “k”, un número entero mayor igual que 1. Mientras más grande sea “k”, más grandes se hacen las diferencias grandes y más pequeñas las pequeñas. Cuando “k” es igual a 2, estamos en presencia de la distancia euclidiana.

Realicemos un ejemplo sencillo con el conjunto de datos que hemos venido utilizando (temporadas de lanzadores de más de 100 IP entre 2004 y 2006). De allí tomaremos cuatro características: ERA, Razón SO/BB, IP y OBP en contra. Seleccionamos 4 lanzadores que llamaremos P1, P2, P3 y P4 (los nombres para luego) y calculamos primero la versión difusa de sus estadísticas:

Estadísticas Borrosas

  ERA IP AOBP SBRat
P1 .86 .94 1 .60
P2 .86 .88 .76 .25
P3 .84 .88 .95 .77
P4 .83 .86 .91 .46

Ahora procedemos a calcular las distancias euclidianas entre los cuatro, utilizando como ejemplo la distancia entre P1 y P2:


En la siguiente tabla mostramos todas las distancias calculadas:

Distancias Euclidianas

  P1 P2 P3 P4
P1 0 .43 .19 .19
P2 .43 0 .55 .26
P3 .19 .55 0 .31
P4 .19 .26 .31 0

Dos características necesarias para este tipo de distancias se observan en la tabla. Es triangular, es decir, la distancia entre A y B es la misma que entre B y A. Además, la diagonal es cero, es decir, la distancia entre A y A es cero. Las distancias más pequeñas muestran jugadores similares, mientras que las más grandes muestran jugadores disimilares. Fácilmente podemos observar que P2 es el jugador más disimilar de los tres, mientras que P4 es el más similar a todos los demás. La distancia más corta es la que hay entre P1 y P3 o entre P1 y P4. Si quisiéramos sustituir a P3 por alguien el más parecido, tendríamos que escoger a P1.

Las temporadas seleccionadas para el ejemplo son las de:
P1: Randy Johnson, 2004.
P2: Dontrell Willis, 2005.
P3: Ben Sheets, 2004.
P4: Johan Santana, 2006.

Fíjense en como la razón SO/BB (SBRat) tuvo la mayor variabilidad entre los lanzadores y fue la que prácticamente decidió las distancias encontradas en temporadas, de otra manera, muy similares.

En la próxima entrega veremos como darle diferentes pesos a cada una de las variables y como incorporar a la ecuación variables cualitativas.



Beisbolisimo.com

19 06 2007

Nuestros amigos de Fantasy Baseball con Ñ, Jesús y Daniel, se han mudado a un nuevo sitio web: Beisbolisimo.com. Sin embargo, el cambio es sólo de forma, ya que en el fondo seguirán teniendo la misma calidad de información que los caracteriza. Mucha suerte en su nueva casa, muchachos!!!



Peras vs. Manzanas (parte II)

17 06 2007

En la primera parte de esta serie de artículos, habíamos explicado que los datos que comúnmente manejamos en la estadística del béisbol (o de cualquier otro deporte) deben ser transformados a una escala porcentual para facilitar su comparación. En esta entrega veremos que podemos utilizar diferentes funciones fuzzificadoras para obtener curvas que resalten alguna particularidad de los datos mientras que otras se atenúan.

La primera de la funciones de fuzzificación que estudiamos fue la Derringer-Suich, que traslada el eje Y de cualquier curva al intervalo [0,1], si realizar practicamente ninguna modificación estructural. La segunda de estas funciones es comúnmente llamada MS (Mean-Standard Deviation, Media-Desviación Estándar) y se basa en redistribuir los datos según su centro (promedio o mediana) y su dispersión (desviación estándar). La ecuación utilizada tiene la forma general:

En nuestro caso la mediana en vez del promedio, ya que para datos que no siguen una distribución normal, la mediana es un mejor estimador de la media que el promedio. En el caso de que los datos estén normalmente distribuidos la mediana coincide con el promedio. La dispersión corresponde a la desviación estándar. Veamos en primer lugar la gráfica correspondiente a la función de fuzzificación de Derringer-Suich
SBRatioF1.png
Ahora comparemosla con la obtenida a través de la función de fuzzificación MS:
SBRatioF2.png
Se observan dos diferencias clarar en la forma. La primera diferencia tiene que ver con la pendiente de las curvas. La pendiente en los extremos de la segunda gráfica es casi nula mientras que en la primera es muy grande. Al contrario, la pendiente en el centro de la gráfica se ve incrementada con respecto a la de la primera gráfica. La segunda diferencia tiene que ver con la simetría, ya que como se observa, la segunda gráfica es bastante simétrica, al contrario de la primera gráfica. Para el análisis de datos, la diferencia fundamental radica en la posibilidad de establecer un más claro punto de diferenciación entre los elementos que conforman la mayoría de los datos, los que están en la zona intermedia.

La última de las funciones de fuzzificación que presentaré hoy, es la denominada gaussiana, ya que la estructura de su ecuación es similar a la de la distribución normal centrada:

En este caso, se resta de los datos su media () y se dividen por su desviación estándar (), un procedimiento tradicional al normalizar datos que se distribuyen según una gaussiana. La curva que arroja esta función es:
SBRatioF3.png
Acá, los datos de la cola izquierda son prácticamente igualados, pero el resto de los datos tiene un progresión suavizada, casi logarítmica, que permite evaluarlos como un conjunto, sin establecer diferencias muy marcadas.

Así que luego de ver tres funciones de fuzzificación (Derringer-Suich, MS y gaussiana), podemos seleccionar la adecuada según el tipo de análisis que quisiéramos realizar. Un punto a resaltar de la función MS es que permite, de manera muy sencilla, establecer etiquetas lingüísticas para dividir en grupos la población estudiada. Así, en este ejemplo, podríamos establecer que los primeros 100 jugadores corresponden al nivel “BAJO” de SO/BB en una temporada. Los siguientes 100 están en el nivel “MEDIO-BAJO”, los 100 que le siguen son catalogados como “MEDIO-ALTO” y, finalmente, el resto de los lanzadores son asignados al grupo “ALTO”. La razón para hacer esto es que podemos seleccionar jugadores con perfiles similares, sobres los que no tendríamos preferencia, es decir, que consideraríamos iguales.

Por lo tanto, sería muy sencillo ubicar, entre las diferentes opciones, un camarero con porcentaje de embasado “MEDIO-ALTO”, slugging “BAJO”, efectividad en el robo “ALTO” y rango defensivo “ALTO”. Eso es lo que normalmente hacen los defensores del método tradicional de contratación, pero la diferencia está en que podemos incluir estadísticas que ayuden a soportar su decisión sin necesidad de colocarlos en un terreno incómodo. Les estaríamos colocando un muy útil puente que les ayudaría a pasar información de la muy complicada estadística a la muy familiar experiencia.

Finalizamos con esta entrega, en la que hemos mostrado diferentes formas de presentar los datos estadísticos utilizando una misma base de comparación, el intervalo [0,1]. También hemos visto como el uso de etiquetas lingüísticas para diferenciar grupos dentro de la población estudiada, ayuda a los gerentes deportivos tradicionales a utilizar las herramientas estadísticas de una manera más sencilla. En la próxima entrega veremos como hacer comparaciones entre jugadores cuando se considera más de una variable.



La formulita mágica

11 06 2007

Jeff Bennett, director senior de investigación de ESPN, estuvo recibiendo golpes de todos lados en un chat que mantuvo con los lectores del sitio web de esta cadena deportiva. El motivo? Una formulita mágica que su equipo ha desarrollado para hacer un ranking de los mejores peloteros de la gran carpa. Básicamente es una suerte de Win Shares o VORP, bastante más arbitrario y subjetivo. Una de las cosas que siempre he criticado de estas formulitas es que nunca se explica de donde se sacan los pesos utilizados, que otorgan la importancia a cada variable incluida en el cálculo.

Esta fórmula, sin embargo, creo que va más en la línea de la investigación que voy realizando en lógica difusa o borrosa. Obviamente, no se incluyen factores subjetivos, mi propuesta inicial, pero la metodología es bastante similar. Se supone que los pesos deben ser arbitrarios porque son expertos los que deciden su tamaño, conocedores de la magnitud que cada variable utilizada debe poseer. Esto requiere años de experiencia, o los resultados no serán confiables. Sólo así la arbitrariedad y la subjetividad tienen una razón de ser y justifican la ecuación desarrollada.

Obviamente, no se pretende que la fórmula en cuestión sea la panacea universal, ni que sea perfecta. Hay cuestiones que deben ser corregidas para no sobreestimar la labor, por ejemplo, de los relevistas o de los emergentes.

En el rating que llevan calculado para presentar, siempre según esta fórmula, los jugadores más destacados y merecedores de un lugar en el All-Star, encontramos en primer lugar a Magglio Ordoñez y en cuarto puesto a Miguel Cabrera. En medio de estos dos compatriotas, están Alex Rodríguez y Vladimir Guerrero, para completar el cuarteto líder compuesto de puros latinos.

En fin, una herramienta más para nuestro arsenal sabermétrico. Una que habrá que mirar con más detalle, ya que siempre que se mira el bosque se pierde el detalle de las hojas.



Fantasy Baseball con “Ñ”

11 06 2007

A través de RoRRo hemos descubierto a dos nuevos colegas sabermétricos, Jesús y Daniel. Su blog, Fantasy Baseball con “Ñ”, es el resultado de una ardua investigación en la profundidad de los númeritos del béisbol de grandes ligas. Jesús y Daniel colaboran de esta manera, con la comunidad que participa activamente en ligas de fantasy baseball.

Un abrazo a estos dos nuevos amigos. Sigan con su excelente trabajo!!!



Peras vs. Manzanas (parte I)

10 06 2007

En la escuela, cuando fuimos introducidos al álgebra, siempre se nos enseñó que las peras y las manzanas no se suman. En el béisbol es también complicado comparar directamente estadísticas tan distintas como los ponches y el porcentaje de embasado.

Sin embargo, hay un punto de encuentro en todos los números que se desprenden de las acciones en el béisbol. Generalmente, tenemos la impresión que los mejores en la mayor parte de las estadísticas tienden a ser los mejores de manera general. Ese no es un mal comienzo, pero es uno que debe ser mejorado, porque no podemos comparar de forma lineal datos que no tienen este comportamiento.

Supongamos que tenemos tres sluggers, cada uno con 48, 30 y 28 jonrones respectivamente, siendo estos resultados los tres mejores en su liga. Si utilizamos un criterio lineal la diferencia entre el primero y el segundo será de 1, la misma diferencia entre 2 y tercero. Pero como vemos, el líder es un 60% mejor que el segundo, mientras el segundo es apenas un 7% mejor que el tercero.

Tiene que entrar en juego una forma de convertir estos valores absolutos según la diferencia que hay con respecto al líder. En lógica difusa este proceso se realiza mediante una “función de fuzzificación” o “función de pertenencia”, es decir, mediante una función que permite transformar valores “crisp” (como las estadísticas de los jugadores) en valores borrosos en el intervalo [0,1].

Veamos como funciona esto mediante un ejemplo. He seleccionado todos los lanzadores que han tenido temporadas de al menos 100 IP entre 2004 y 2006, y de ellos he escogido la razón (ratio) entre ponches (SO) y boletos (BB). Al ordenarlos de menor (peor) a mayor (mejor) se obtiene la siguiente gráfica:

SBRatio.png

La forma de esta curva es recurrente en las estadística del beísbol, con dos pronunciadas pendientes al principio y al final de la misma, y una suave subida, casi lineal, en los datos del medio. En esta gráfica podemos ver que hay diferencias grandes entre el valor más alto y las demás, pero que tanto, sólo lo podemos decir en valor absoluto. Para fuzzyficar estos datos, vamos a utilizar una de mis favoritas por su sencillez y porque casi no transforma la curva original. Se trata de la función de fuzzyficación de Derringer-Suich:

Es decir, para cada elemento calculamos la distancia relativa al valor mínimo . De la ecuación se puede deducir que la distancia del valor mínimo a si mismo es cero, mientras que la distancia del valor máximo al valor mínimo es uno. Esta nuevo razón SO/BB fuzzyficada se aprecia en la siguiente gráfica:

SBRatioF1.png

Lo único que ha cambiado en las gráficas es la escala, ya que ahora el eje “Y” se mueve en el intervalo [0,1], lo que originalmente nos proponíamos hacer. Gracias a esto, podemos apreciar la diferencia relativa en los datos, siendo más clara esta en los extremos. Por ejemplo, entre el mejor de los datos y el segundo hay más de 20% de diferencia, lo que es simplemente brutal. Una conclusión clara de esta forma de representación de los datos, es lo apropiada que resulta para marcar diferencias entre los mejores, o entre los peores, las dos colas de la gráfica. En el medio, arroja diferencia, pero la gran mayoría se encuentra agrupado en el rango del 10 al 30 porciento de los resultados del mejor.

Veamos una tabla con los resultados de los 20 lanzadores que mejores temporadas han tenido al evaluar la razón SO/BB:

SO/BB Ratio

Año Apellido Nombre Equipo IP BB SO Razón Fuzzy
2006 Sheets Ben MIL 106.00 11 116 10.55 1.00
2004 Sheets Ben MIL 237.00 32 264 8.25 0.77
2005 Silva Carlos MIN 188.33 9 71 7.89 0.73
2004 Johnson Randy ARI 245.67 44 290 6.59 0.61
2006 Schilling Curt BOS 204.00 28 183 6.54 0.60
2005 Halladay Roy TOR 141.67 18 108 6.00 0.55
2004 Schilling Curt BOS 226.67 35 203 5.80 0.53
2004 Lieber Jon NYA 176.67 18 102 5.67 0.51
2005 Sheets Ben MIL 156.67 25 141 5.64 0.51
2004 Radke Brad MIN 219.67 26 143 5.50 0.50
2005 Santana Johan MIN 231.67 45 238 5.29 0.48
2006 Santana Johan MIN 233.67 47 245 5.21 0.47
2005 Wells David BOS 184.00 21 107 5.10 0.46
2005 Radke Brad MIN 200.67 23 117 5.09 0.45
2004 Wells David SDN 195.67 20 101 5.05 0.45
2006 Mussina Mike NYA 197.33 35 172 4.91 0.44
2004 Santana Johan MIN 228.00 54 265 4.91 0.44
2004 Maddux Greg CHN 212.67 33 151 4.58 0.40
2006 Liriano Francisco MIN 121.00 32 144 4.50 0.40
2005 Johnson Randy NYA 225.67 47 211 4.49 0.40

La temporada líder, la del 2006 de Ben Sheets, plagada de lesiones como fue, le permitió en apenas 106 IP amasar 10.55 ponches por boleto. Sin palabras. Podría tratarse de una temporada atípica, sobre todo si evaluamos la del 2007, en la que Sheets apenas ha conseguido 3.38 SO/BB en 81.33 IP. Pero realmente es este 2007 el atípico, ya que de las 10 mejores actuaciones en la tabla, tres corresponden al derecho lupuloso, incluyendo la que se encuentra en segundo lugar. Tal vez en esta zafra, la posible lesión inguinal que parece arrastrar Sheets sea más grave de lo que quiere mostrar.

La sorpresa en este ranking es la temporada 2005 de Carlos Silva, que con su preciso brazo apenas otorgó 9 boletos en 188.33 IP. Una temporada de ensueño para el criollo, tal vez una que no volvamos a ver más.

Para terminar, podemos apreciar claramente que los compañeros de Silva en Minnesotta acumulan 7 de estas 20 temporadas, un 35% de las mismas. Esto no es casualidad, sino fruto de una selección muy rigurosa de las características que se quieren en un cuerpo de lanzadores. Potencia controlada. Los ponches vienen solos, si se evitan los boletos. Aparte de la increible temporada de Silva, los gemelos obtuvieron 3 temporadas del tovareño Johan Santana, dos de Brad Radke y una (recortada) del dominicano Francisco Liriano. Muy bien por Terry Ryan y su excelente equipo de scouts.

Con esta análisis finalizamos esta entrega. En la segunda parte de esta introducción a la borrosidad en el béisbol, veremos otro tipo de funciones de fuzzyficación y como transforman los datos. Hasta entonces, gracias por acercarte a “Recta por la media” y siéntete libre de escribir tus comentarios y dudas.