Warning: Invalid argument supplied for foreach() in /home/.gingersnap/frankpereiro/beisblogs.com/wp-content/themes/freshy-10/functions.php on line 278
Recta por la media » 2007 » Junio

Peras vs. Manzanas (parte III)

28 06 2007

Antes de comenzar: lo intentaré, RoRRo, lo intentaré!!!

Ahora sí, al grano. En la pasada entrega de esta serie habíamos visto diferentes funciones de fuzzificación que permiten pasar cualquier estadística al intervalo [0,1], resaltando alguna zona en particular.

Dos cosas que había olvidado incluir. La primera es que cuando queremos transformar estadísticas para las que un valor menor es mejor que un valor mayor, se debe restar 1 al valor obtenido con la función de fuzzificación. Por ejemplo, para el promedio de carreras limpias (ERA):

,

donde es el valor fuzzy para el ERA, obtenido a través de cualquier función de fuzzificación.

La segunda es introducir una función de fuzzificación, la logarítmica:

.

Aquí, si S>1 se da énfasis a la cola derecha y si S<1 se da énfasis a la izquierda. Con “énfasis” quiero decir que la pendiente en esa zona es más pronunciada que en el resto de la curva. Veamos una curva utilizando diferentes valores de S:

SBRatioF4.png

Una vez resueltos estos dos olvidos, finalizamos con la fuzzificación y comenzamos con la comparación entre jugadores. Para comparar jugadores introducimos el concepto de subconjunto borroso. Un subconjunto borroso es un conjunto de cualidades que define a un jugador. Cada una de esas cualidades viene definida por la posibilidad de ser el mejor en ella.

La distancia entre dos subconjuntos borrosos es, entonces, la distancia entre dos jugadores:

En esta distancia, llamada de Minkowski, la distancia entre el jugador 1 y el 2 es la suma de las diferencias que hay entre cada una de las características utilizadas. Las diferencias se toman en valor absoluto (ninguna distancia es negativa) y se elevan al exponente “k”, un número entero mayor igual que 1. Mientras más grande sea “k”, más grandes se hacen las diferencias grandes y más pequeñas las pequeñas. Cuando “k” es igual a 2, estamos en presencia de la distancia euclidiana.

Realicemos un ejemplo sencillo con el conjunto de datos que hemos venido utilizando (temporadas de lanzadores de más de 100 IP entre 2004 y 2006). De allí tomaremos cuatro características: ERA, Razón SO/BB, IP y OBP en contra. Seleccionamos 4 lanzadores que llamaremos P1, P2, P3 y P4 (los nombres para luego) y calculamos primero la versión difusa de sus estadísticas:

Estadísticas Borrosas

  ERA IP AOBP SBRat
P1 .86 .94 1 .60
P2 .86 .88 .76 .25
P3 .84 .88 .95 .77
P4 .83 .86 .91 .46

Ahora procedemos a calcular las distancias euclidianas entre los cuatro, utilizando como ejemplo la distancia entre P1 y P2:


En la siguiente tabla mostramos todas las distancias calculadas:

Distancias Euclidianas

  P1 P2 P3 P4
P1 0 .43 .19 .19
P2 .43 0 .55 .26
P3 .19 .55 0 .31
P4 .19 .26 .31 0

Dos características necesarias para este tipo de distancias se observan en la tabla. Es triangular, es decir, la distancia entre A y B es la misma que entre B y A. Además, la diagonal es cero, es decir, la distancia entre A y A es cero. Las distancias más pequeñas muestran jugadores similares, mientras que las más grandes muestran jugadores disimilares. Fácilmente podemos observar que P2 es el jugador más disimilar de los tres, mientras que P4 es el más similar a todos los demás. La distancia más corta es la que hay entre P1 y P3 o entre P1 y P4. Si quisiéramos sustituir a P3 por alguien el más parecido, tendríamos que escoger a P1.

Las temporadas seleccionadas para el ejemplo son las de:
P1: Randy Johnson, 2004.
P2: Dontrell Willis, 2005.
P3: Ben Sheets, 2004.
P4: Johan Santana, 2006.

Fíjense en como la razón SO/BB (SBRat) tuvo la mayor variabilidad entre los lanzadores y fue la que prácticamente decidió las distancias encontradas en temporadas, de otra manera, muy similares.

En la próxima entrega veremos como darle diferentes pesos a cada una de las variables y como incorporar a la ecuación variables cualitativas.



Beisbolisimo.com

19 06 2007

Nuestros amigos de Fantasy Baseball con Ñ, Jesús y Daniel, se han mudado a un nuevo sitio web: Beisbolisimo.com. Sin embargo, el cambio es sólo de forma, ya que en el fondo seguirán teniendo la misma calidad de información que los caracteriza. Mucha suerte en su nueva casa, muchachos!!!



Peras vs. Manzanas (parte II)

17 06 2007

En la primera parte de esta serie de artículos, habíamos explicado que los datos que comúnmente manejamos en la estadística del béisbol (o de cualquier otro deporte) deben ser transformados a una escala porcentual para facilitar su comparación. En esta entrega veremos que podemos utilizar diferentes funciones fuzzificadoras para obtener curvas que resalten alguna particularidad de los datos mientras que otras se atenúan.

La primera de la funciones de fuzzificación que estudiamos fue la Derringer-Suich, que traslada el eje Y de cualquier curva al intervalo [0,1], si realizar practicamente ninguna modificación estructural. La segunda de estas funciones es comúnmente llamada MS (Mean-Standard Deviation, Media-Desviación Estándar) y se basa en redistribuir los datos según su centro (promedio o mediana) y su dispersión (desviación estándar). La ecuación utilizada tiene la forma general:

En nuestro caso la mediana en vez del promedio, ya que para datos que no siguen una distribución normal, la mediana es un mejor estimador de la media que el promedio. En el caso de que los datos estén normalmente distribuidos la mediana coincide con el promedio. La dispersión corresponde a la desviación estándar. Veamos en primer lugar la gráfica correspondiente a la función de fuzzificación de Derringer-Suich
SBRatioF1.png
Ahora comparemosla con la obtenida a través de la función de fuzzificación MS:
SBRatioF2.png
Se observan dos diferencias clarar en la forma. La primera diferencia tiene que ver con la pendiente de las curvas. La pendiente en los extremos de la segunda gráfica es casi nula mientras que en la primera es muy grande. Al contrario, la pendiente en el centro de la gráfica se ve incrementada con respecto a la de la primera gráfica. La segunda diferencia tiene que ver con la simetría, ya que como se observa, la segunda gráfica es bastante simétrica, al contrario de la primera gráfica. Para el análisis de datos, la diferencia fundamental radica en la posibilidad de establecer un más claro punto de diferenciación entre los elementos que conforman la mayoría de los datos, los que están en la zona intermedia.

La última de las funciones de fuzzificación que presentaré hoy, es la denominada gaussiana, ya que la estructura de su ecuación es similar a la de la distribución normal centrada:

En este caso, se resta de los datos su media () y se dividen por su desviación estándar (), un procedimiento tradicional al normalizar datos que se distribuyen según una gaussiana. La curva que arroja esta función es:
SBRatioF3.png
Acá, los datos de la cola izquierda son prácticamente igualados, pero el resto de los datos tiene un progresión suavizada, casi logarítmica, que permite evaluarlos como un conjunto, sin establecer diferencias muy marcadas.

Así que luego de ver tres funciones de fuzzificación (Derringer-Suich, MS y gaussiana), podemos seleccionar la adecuada según el tipo de análisis que quisiéramos realizar. Un punto a resaltar de la función MS es que permite, de manera muy sencilla, establecer etiquetas lingüísticas para dividir en grupos la población estudiada. Así, en este ejemplo, podríamos establecer que los primeros 100 jugadores corresponden al nivel “BAJO” de SO/BB en una temporada. Los siguientes 100 están en el nivel “MEDIO-BAJO”, los 100 que le siguen son catalogados como “MEDIO-ALTO” y, finalmente, el resto de los lanzadores son asignados al grupo “ALTO”. La razón para hacer esto es que podemos seleccionar jugadores con perfiles similares, sobres los que no tendríamos preferencia, es decir, que consideraríamos iguales.

Por lo tanto, sería muy sencillo ubicar, entre las diferentes opciones, un camarero con porcentaje de embasado “MEDIO-ALTO”, slugging “BAJO”, efectividad en el robo “ALTO” y rango defensivo “ALTO”. Eso es lo que normalmente hacen los defensores del método tradicional de contratación, pero la diferencia está en que podemos incluir estadísticas que ayuden a soportar su decisión sin necesidad de colocarlos en un terreno incómodo. Les estaríamos colocando un muy útil puente que les ayudaría a pasar información de la muy complicada estadística a la muy familiar experiencia.

Finalizamos con esta entrega, en la que hemos mostrado diferentes formas de presentar los datos estadísticos utilizando una misma base de comparación, el intervalo [0,1]. También hemos visto como el uso de etiquetas lingüísticas para diferenciar grupos dentro de la población estudiada, ayuda a los gerentes deportivos tradicionales a utilizar las herramientas estadísticas de una manera más sencilla. En la próxima entrega veremos como hacer comparaciones entre jugadores cuando se considera más de una variable.



La formulita mágica

11 06 2007

Jeff Bennett, director senior de investigación de ESPN, estuvo recibiendo golpes de todos lados en un chat que mantuvo con los lectores del sitio web de esta cadena deportiva. El motivo? Una formulita mágica que su equipo ha desarrollado para hacer un ranking de los mejores peloteros de la gran carpa. Básicamente es una suerte de Win Shares o VORP, bastante más arbitrario y subjetivo. Una de las cosas que siempre he criticado de estas formulitas es que nunca se explica de donde se sacan los pesos utilizados, que otorgan la importancia a cada variable incluida en el cálculo.

Esta fórmula, sin embargo, creo que va más en la línea de la investigación que voy realizando en lógica difusa o borrosa. Obviamente, no se incluyen factores subjetivos, mi propuesta inicial, pero la metodología es bastante similar. Se supone que los pesos deben ser arbitrarios porque son expertos los que deciden su tamaño, conocedores de la magnitud que cada variable utilizada debe poseer. Esto requiere años de experiencia, o los resultados no serán confiables. Sólo así la arbitrariedad y la subjetividad tienen una razón de ser y justifican la ecuación desarrollada.

Obviamente, no se pretende que la fórmula en cuestión sea la panacea universal, ni que sea perfecta. Hay cuestiones que deben ser corregidas para no sobreestimar la labor, por ejemplo, de los relevistas o de los emergentes.

En el rating que llevan calculado para presentar, siempre según esta fórmula, los jugadores más destacados y merecedores de un lugar en el All-Star, encontramos en primer lugar a Magglio Ordoñez y en cuarto puesto a Miguel Cabrera. En medio de estos dos compatriotas, están Alex Rodríguez y Vladimir Guerrero, para completar el cuarteto líder compuesto de puros latinos.

En fin, una herramienta más para nuestro arsenal sabermétrico. Una que habrá que mirar con más detalle, ya que siempre que se mira el bosque se pierde el detalle de las hojas.



Fantasy Baseball con “Ñ”

11 06 2007

A través de RoRRo hemos descubierto a dos nuevos colegas sabermétricos, Jesús y Daniel. Su blog, Fantasy Baseball con “Ñ”, es el resultado de una ardua investigación en la profundidad de los númeritos del béisbol de grandes ligas. Jesús y Daniel colaboran de esta manera, con la comunidad que participa activamente en ligas de fantasy baseball.

Un abrazo a estos dos nuevos amigos. Sigan con su excelente trabajo!!!



Peras vs. Manzanas (parte I)

10 06 2007

En la escuela, cuando fuimos introducidos al álgebra, siempre se nos enseñó que las peras y las manzanas no se suman. En el béisbol es también complicado comparar directamente estadísticas tan distintas como los ponches y el porcentaje de embasado.

Sin embargo, hay un punto de encuentro en todos los números que se desprenden de las acciones en el béisbol. Generalmente, tenemos la impresión que los mejores en la mayor parte de las estadísticas tienden a ser los mejores de manera general. Ese no es un mal comienzo, pero es uno que debe ser mejorado, porque no podemos comparar de forma lineal datos que no tienen este comportamiento.

Supongamos que tenemos tres sluggers, cada uno con 48, 30 y 28 jonrones respectivamente, siendo estos resultados los tres mejores en su liga. Si utilizamos un criterio lineal la diferencia entre el primero y el segundo será de 1, la misma diferencia entre 2 y tercero. Pero como vemos, el líder es un 60% mejor que el segundo, mientras el segundo es apenas un 7% mejor que el tercero.

Tiene que entrar en juego una forma de convertir estos valores absolutos según la diferencia que hay con respecto al líder. En lógica difusa este proceso se realiza mediante una “función de fuzzificación” o “función de pertenencia”, es decir, mediante una función que permite transformar valores “crisp” (como las estadísticas de los jugadores) en valores borrosos en el intervalo [0,1].

Veamos como funciona esto mediante un ejemplo. He seleccionado todos los lanzadores que han tenido temporadas de al menos 100 IP entre 2004 y 2006, y de ellos he escogido la razón (ratio) entre ponches (SO) y boletos (BB). Al ordenarlos de menor (peor) a mayor (mejor) se obtiene la siguiente gráfica:

SBRatio.png

La forma de esta curva es recurrente en las estadística del beísbol, con dos pronunciadas pendientes al principio y al final de la misma, y una suave subida, casi lineal, en los datos del medio. En esta gráfica podemos ver que hay diferencias grandes entre el valor más alto y las demás, pero que tanto, sólo lo podemos decir en valor absoluto. Para fuzzyficar estos datos, vamos a utilizar una de mis favoritas por su sencillez y porque casi no transforma la curva original. Se trata de la función de fuzzyficación de Derringer-Suich:

Es decir, para cada elemento calculamos la distancia relativa al valor mínimo . De la ecuación se puede deducir que la distancia del valor mínimo a si mismo es cero, mientras que la distancia del valor máximo al valor mínimo es uno. Esta nuevo razón SO/BB fuzzyficada se aprecia en la siguiente gráfica:

SBRatioF1.png

Lo único que ha cambiado en las gráficas es la escala, ya que ahora el eje “Y” se mueve en el intervalo [0,1], lo que originalmente nos proponíamos hacer. Gracias a esto, podemos apreciar la diferencia relativa en los datos, siendo más clara esta en los extremos. Por ejemplo, entre el mejor de los datos y el segundo hay más de 20% de diferencia, lo que es simplemente brutal. Una conclusión clara de esta forma de representación de los datos, es lo apropiada que resulta para marcar diferencias entre los mejores, o entre los peores, las dos colas de la gráfica. En el medio, arroja diferencia, pero la gran mayoría se encuentra agrupado en el rango del 10 al 30 porciento de los resultados del mejor.

Veamos una tabla con los resultados de los 20 lanzadores que mejores temporadas han tenido al evaluar la razón SO/BB:

SO/BB Ratio

Año Apellido Nombre Equipo IP BB SO Razón Fuzzy
2006 Sheets Ben MIL 106.00 11 116 10.55 1.00
2004 Sheets Ben MIL 237.00 32 264 8.25 0.77
2005 Silva Carlos MIN 188.33 9 71 7.89 0.73
2004 Johnson Randy ARI 245.67 44 290 6.59 0.61
2006 Schilling Curt BOS 204.00 28 183 6.54 0.60
2005 Halladay Roy TOR 141.67 18 108 6.00 0.55
2004 Schilling Curt BOS 226.67 35 203 5.80 0.53
2004 Lieber Jon NYA 176.67 18 102 5.67 0.51
2005 Sheets Ben MIL 156.67 25 141 5.64 0.51
2004 Radke Brad MIN 219.67 26 143 5.50 0.50
2005 Santana Johan MIN 231.67 45 238 5.29 0.48
2006 Santana Johan MIN 233.67 47 245 5.21 0.47
2005 Wells David BOS 184.00 21 107 5.10 0.46
2005 Radke Brad MIN 200.67 23 117 5.09 0.45
2004 Wells David SDN 195.67 20 101 5.05 0.45
2006 Mussina Mike NYA 197.33 35 172 4.91 0.44
2004 Santana Johan MIN 228.00 54 265 4.91 0.44
2004 Maddux Greg CHN 212.67 33 151 4.58 0.40
2006 Liriano Francisco MIN 121.00 32 144 4.50 0.40
2005 Johnson Randy NYA 225.67 47 211 4.49 0.40

La temporada líder, la del 2006 de Ben Sheets, plagada de lesiones como fue, le permitió en apenas 106 IP amasar 10.55 ponches por boleto. Sin palabras. Podría tratarse de una temporada atípica, sobre todo si evaluamos la del 2007, en la que Sheets apenas ha conseguido 3.38 SO/BB en 81.33 IP. Pero realmente es este 2007 el atípico, ya que de las 10 mejores actuaciones en la tabla, tres corresponden al derecho lupuloso, incluyendo la que se encuentra en segundo lugar. Tal vez en esta zafra, la posible lesión inguinal que parece arrastrar Sheets sea más grave de lo que quiere mostrar.

La sorpresa en este ranking es la temporada 2005 de Carlos Silva, que con su preciso brazo apenas otorgó 9 boletos en 188.33 IP. Una temporada de ensueño para el criollo, tal vez una que no volvamos a ver más.

Para terminar, podemos apreciar claramente que los compañeros de Silva en Minnesotta acumulan 7 de estas 20 temporadas, un 35% de las mismas. Esto no es casualidad, sino fruto de una selección muy rigurosa de las características que se quieren en un cuerpo de lanzadores. Potencia controlada. Los ponches vienen solos, si se evitan los boletos. Aparte de la increible temporada de Silva, los gemelos obtuvieron 3 temporadas del tovareño Johan Santana, dos de Brad Radke y una (recortada) del dominicano Francisco Liriano. Muy bien por Terry Ryan y su excelente equipo de scouts.

Con esta análisis finalizamos esta entrega. En la segunda parte de esta introducción a la borrosidad en el béisbol, veremos otro tipo de funciones de fuzzyficación y como transforman los datos. Hasta entonces, gracias por acercarte a “Recta por la media” y siéntete libre de escribir tus comentarios y dudas.



Doble rasero

4 06 2007

Cuando queda muy poco tiempo para que Barry Bonds rompa el record de cuadrangulares, el tema de su (presunto) uso de esteroides se utiliza como letra escarlata para invalidar sus logros. El problema es que quienes ahora se rasgan las vestiduras por tan poco ético comportamiento, son los mismos que hacían la vista gorda cuando sus bolsillos se llenaban de dinero proveniente de fans enardecidos con la fiebre jonronera. El viejo dicho “chicks dig the long ball” (a la chicas les gusta el jonrón) presenta al slugger como el chico que atrapa las miradas femeninas, pero no sólo eso, sino que también es el héroe de la fanaticada infantil y la envidia del manager de tribuna. Nike, ese gran abanderado de la limpieza en el deporte, realizó un spot publicitario que tuvo como “leit motiv” esta famosa frase.

Después de ver tan descarada exaltación del consumo de esteroides, cómo pueden venirnos ahora a decir que sus logros no tienen la validez de antaño porque fueron alcanzados con la ayuda de la ciencia médica? Este doble rasero es algo que debemos desechar de plano, porque en la época de las grandes gestas de los Bonds, McGwire y Sosa, ni siquiera estaba prohibido el uso de sustancias potenciadoras del rendimiento deportivo. Hay un principio legal, el de irretroactividad, que viene a decir que nadie puede ser juzgado por hechos realizado antes de la promulgación de la prohibición. Estos sluggers sólo se aprovecharon de agujeros jurídicos que los mismos dueños de equipos dejaron allí, para que sus estadios se llenaran de fanáticos del jonrón.

Por favor, no insulten nuestra inteligencia. Lo pasado, pasado. A partir de ahora, cero tolerancia sobre la base de la información y la educación de los atletas, pero sobre el currículo de estos magníficos jugadores no puede caer ninguna mácula.



El diablo sabe más por viejo que por diablo. O no?

3 06 2007

Cuando buscamos pareja solemos tener una idea aproximada de lo que deseamos: rostro, ojos, cabello, cuerpo, piernas, personalidad, intereses. Con esta descripción creamos un patrón contra el que comparamos a nuestras candidatas, observando las cosas que faltan y las que sobran, seleccionando a la que, finalmente, más se aproxima al ideal que tenemos en mente.

Este proceso de toma de decisiones se aplica en infinidad de situaciones, es la forma natural de hacerlo, ya que casi nunca disponemos de información objetiva o casi nunca la totalidad de la información que tenemos es objetiva. Es fundamental para el éxito de la decisión el controlar la subjetividad de manera que los objetivos se tengan claros. Esta capacidad sólo puede ser mejorada con la experiencia: tomamos una decisión con respecto a nuestros esquemas mentales subjetivos, evaluamos el resultado de esta decisión, comparándolos con los objetivos buscados, corregimos los esquemas mentales para reducir los errores cometidos y tomamos una nueva decisión. El diablo sabe más por viejo que por diablo.

Desde siempre, ésta ha sido la forma de tomar decisiones acerca de la conformación del roster de un equipo de béisbol profesional. El gerente general del equipo conversa con el manager y los coaches, quienes le indican las carencias del equipo. A los técnicos se les solicita describir las características que debe tener el jugador ideal a cubrir cada posición vacante. El gerente general, en base a su experiencia y a las disponibilidades del mercado, selecciona un conjunto de candidatos a cubrir alguno de los puestos. Encarga a sus scouts u ojeadores y a sus técnicos la tarea de evaluar el talento de los candidatos. De esta manera, el candidato que más se parezca al ideal descrito será el prioritario a contratar. Si éste no estuviera disponible, iría detrás del segundo más parecido, y así sucesivamente hasta conseguir cubrir la vacante.

Este proceso, llamado difuso, subjetivo o borroso, fue descrito matemáticamente hace más o menos 20 años por los profesores Arnold Kaufmann y Jaime Gil Aluja, para tratar la incertidumbre en la contratación del personal de una empresa. Sin embargo, no fue sino a comienzos de este siglo que el profesor Jaime Gil Lafuente lo aplicó al ámbito deportivo, para tratar la contratación de jugadores en el fútbol profesional. En el fútbol no hay estadísticas y casi todo el proceso de toma de decisión en el fichaje se realiza mediante información subjetiva (con la excepción de parámetros médicos).

La genialidad del modelo matemático utilizado radica en la posibilidad de repetir, con cierta certeza, el proceso que de manera heurística lleva a cabo el gerente general o deportivo del equipo, a quien de ahora en adelante llamaremos el “experto”.

Sin embargo, en el béisbol sucede algo que lo diferencia sustancialmente del fútbol: todo evento es reflejado en una estadística. Es así como nace el movimiento sabermétrico, que cuestiona el proceso de toma de decisión subjetivo, aduciendo que cuando se tiene información objetiva que refleja el rendimiento real de un jugador, la subjetividad pasa a un segundo plano. Según la sabermétrica, podemos establecer en todo momento quien es el mejor jugador de cada posición, sin necesidad de recoger una información que puede variar sustancialmente según el scout que la recoja.

Comienza aquí la guerra entre los defensores del sistema borroso tradicional y los del sistema objetivo sabermétrico. Sin embargo, mi trabajo consistirá en establecer un punto de encuentro en el que los partidarios de una y otra metodología se den cuenta que existen fortalezas y debilidades en sus teorías, y que ambas pueden ser complementarias en vez de rivales.



Dos meses…

2 06 2007

Soy un auténtico desastre para mantener mi blog. Desafortunadamente, a mi tutor le dio por ponerme a escribir artículos científicos y no he tenido oportunidad de escribir nada en este blog durante dos meses. Mañana le dedicaré un tiempito y sacaré algo, aunque sea sencillo.