Warning: Invalid argument supplied for foreach() in /home/.gingersnap/frankpereiro/beisblogs.com/wp-content/themes/freshy-10/functions.php on line 278
Recta por la media » Peras vs. Manzanas (parte I)

Peras vs. Manzanas (parte I)

10 06 2007

En la escuela, cuando fuimos introducidos al álgebra, siempre se nos enseñó que las peras y las manzanas no se suman. En el béisbol es también complicado comparar directamente estadísticas tan distintas como los ponches y el porcentaje de embasado.

Sin embargo, hay un punto de encuentro en todos los números que se desprenden de las acciones en el béisbol. Generalmente, tenemos la impresión que los mejores en la mayor parte de las estadísticas tienden a ser los mejores de manera general. Ese no es un mal comienzo, pero es uno que debe ser mejorado, porque no podemos comparar de forma lineal datos que no tienen este comportamiento.

Supongamos que tenemos tres sluggers, cada uno con 48, 30 y 28 jonrones respectivamente, siendo estos resultados los tres mejores en su liga. Si utilizamos un criterio lineal la diferencia entre el primero y el segundo será de 1, la misma diferencia entre 2 y tercero. Pero como vemos, el líder es un 60% mejor que el segundo, mientras el segundo es apenas un 7% mejor que el tercero.

Tiene que entrar en juego una forma de convertir estos valores absolutos según la diferencia que hay con respecto al líder. En lógica difusa este proceso se realiza mediante una “función de fuzzificación” o “función de pertenencia”, es decir, mediante una función que permite transformar valores “crisp” (como las estadísticas de los jugadores) en valores borrosos en el intervalo [0,1].

Veamos como funciona esto mediante un ejemplo. He seleccionado todos los lanzadores que han tenido temporadas de al menos 100 IP entre 2004 y 2006, y de ellos he escogido la razón (ratio) entre ponches (SO) y boletos (BB). Al ordenarlos de menor (peor) a mayor (mejor) se obtiene la siguiente gráfica:

SBRatio.png

La forma de esta curva es recurrente en las estadística del beísbol, con dos pronunciadas pendientes al principio y al final de la misma, y una suave subida, casi lineal, en los datos del medio. En esta gráfica podemos ver que hay diferencias grandes entre el valor más alto y las demás, pero que tanto, sólo lo podemos decir en valor absoluto. Para fuzzyficar estos datos, vamos a utilizar una de mis favoritas por su sencillez y porque casi no transforma la curva original. Se trata de la función de fuzzyficación de Derringer-Suich:

Es decir, para cada elemento calculamos la distancia relativa al valor mínimo . De la ecuación se puede deducir que la distancia del valor mínimo a si mismo es cero, mientras que la distancia del valor máximo al valor mínimo es uno. Esta nuevo razón SO/BB fuzzyficada se aprecia en la siguiente gráfica:

SBRatioF1.png

Lo único que ha cambiado en las gráficas es la escala, ya que ahora el eje “Y” se mueve en el intervalo [0,1], lo que originalmente nos proponíamos hacer. Gracias a esto, podemos apreciar la diferencia relativa en los datos, siendo más clara esta en los extremos. Por ejemplo, entre el mejor de los datos y el segundo hay más de 20% de diferencia, lo que es simplemente brutal. Una conclusión clara de esta forma de representación de los datos, es lo apropiada que resulta para marcar diferencias entre los mejores, o entre los peores, las dos colas de la gráfica. En el medio, arroja diferencia, pero la gran mayoría se encuentra agrupado en el rango del 10 al 30 porciento de los resultados del mejor.

Veamos una tabla con los resultados de los 20 lanzadores que mejores temporadas han tenido al evaluar la razón SO/BB:

SO/BB Ratio

Año Apellido Nombre Equipo IP BB SO Razón Fuzzy
2006 Sheets Ben MIL 106.00 11 116 10.55 1.00
2004 Sheets Ben MIL 237.00 32 264 8.25 0.77
2005 Silva Carlos MIN 188.33 9 71 7.89 0.73
2004 Johnson Randy ARI 245.67 44 290 6.59 0.61
2006 Schilling Curt BOS 204.00 28 183 6.54 0.60
2005 Halladay Roy TOR 141.67 18 108 6.00 0.55
2004 Schilling Curt BOS 226.67 35 203 5.80 0.53
2004 Lieber Jon NYA 176.67 18 102 5.67 0.51
2005 Sheets Ben MIL 156.67 25 141 5.64 0.51
2004 Radke Brad MIN 219.67 26 143 5.50 0.50
2005 Santana Johan MIN 231.67 45 238 5.29 0.48
2006 Santana Johan MIN 233.67 47 245 5.21 0.47
2005 Wells David BOS 184.00 21 107 5.10 0.46
2005 Radke Brad MIN 200.67 23 117 5.09 0.45
2004 Wells David SDN 195.67 20 101 5.05 0.45
2006 Mussina Mike NYA 197.33 35 172 4.91 0.44
2004 Santana Johan MIN 228.00 54 265 4.91 0.44
2004 Maddux Greg CHN 212.67 33 151 4.58 0.40
2006 Liriano Francisco MIN 121.00 32 144 4.50 0.40
2005 Johnson Randy NYA 225.67 47 211 4.49 0.40

La temporada líder, la del 2006 de Ben Sheets, plagada de lesiones como fue, le permitió en apenas 106 IP amasar 10.55 ponches por boleto. Sin palabras. Podría tratarse de una temporada atípica, sobre todo si evaluamos la del 2007, en la que Sheets apenas ha conseguido 3.38 SO/BB en 81.33 IP. Pero realmente es este 2007 el atípico, ya que de las 10 mejores actuaciones en la tabla, tres corresponden al derecho lupuloso, incluyendo la que se encuentra en segundo lugar. Tal vez en esta zafra, la posible lesión inguinal que parece arrastrar Sheets sea más grave de lo que quiere mostrar.

La sorpresa en este ranking es la temporada 2005 de Carlos Silva, que con su preciso brazo apenas otorgó 9 boletos en 188.33 IP. Una temporada de ensueño para el criollo, tal vez una que no volvamos a ver más.

Para terminar, podemos apreciar claramente que los compañeros de Silva en Minnesotta acumulan 7 de estas 20 temporadas, un 35% de las mismas. Esto no es casualidad, sino fruto de una selección muy rigurosa de las características que se quieren en un cuerpo de lanzadores. Potencia controlada. Los ponches vienen solos, si se evitan los boletos. Aparte de la increible temporada de Silva, los gemelos obtuvieron 3 temporadas del tovareño Johan Santana, dos de Brad Radke y una (recortada) del dominicano Francisco Liriano. Muy bien por Terry Ryan y su excelente equipo de scouts.

Con esta análisis finalizamos esta entrega. En la segunda parte de esta introducción a la borrosidad en el béisbol, veremos otro tipo de funciones de fuzzyficación y como transforman los datos. Hasta entonces, gracias por acercarte a “Recta por la media” y siéntete libre de escribir tus comentarios y dudas.


Acciones

Informacion

4 respuestas a “Peras vs. Manzanas (parte I)”

12 06 2007
Dragon Negro (20:26:39) :

Ese tipo de gráfica es común en cualquier tipo de intercomparación de mediciones. Yo trabajo en metrología y la he visto en todos los ejercicios de intercomparación que he revisado así que ya tienes otro ejemplo en el cual se observan esa distribuciones.

¿Con respecto a la fusificación, no es una simple renormalización con corrimiento de cero?

Porque si veo la gráfica original, el mejor tiene 10 y el segundo tiene 8, directamente se ve que la diferencia entre ambos es del 20%, se lograría lo mismo con una renormalización lineal?

No es que no este de acuerdo, solo me parece curioso la elección, debe ser porque no conozco mucho de fussy logic y me intriga.

Felicitaciones por la tónica sabermetrica, apenas ahora, gracias a Daniel y Gabriel es que estoy aprendiendo sobre las mismas.

Veo que respondes una pregunta sobre los pesos que yo le hacia a Daniel: esencialmente se los sacan de la manga los expertos y están basados en la experiencia? Siempre es así?

Cuando yo hago análisis de incertidumbre de las mediciones los pesos se basan en modelos físicos aunque muy de vez en cuando se agregan términos basados en el conocimiento de expertos internacionales. Existe en béisbol algo como expertos internacionales?

Perdón por las preguntas, pero como Físico soy algo curioso.

13 06 2007
Julio (06:11:54) :

Hola Dragón Negro (aún se me hace raro llamar a la gente por seudónimos).

Ya que trabajas en metrología y eres físico, seguro que manejas bien la estadística. Esa distribución de datos corresponde a una normal ordenando los datos. Mientras la “S” sea más pareja, es decir, mientras los extremos sean más parecidos, más cerca de la campana de Gauss tradicional estarán los datos. Por eso es que te la encuentras en todos lados.

En este caso la fuzzyficación corresponde a una renormalización a cero-uno, pero no siempre es así. Ya lo verás en la siguiente entrega. Esta función de fuzzyficación de Derringer-Suich no altera los datos (salvo un poco en los extremos), por lo que es muy adecuada para revisar la diferencia porcentual de los datos reales.

Renormalizar linealmente es una opción valida, pero que simplificaría en exceso la esructura interna de los datos. En estos casos (aunque todavía estoy investigando) siempre es preferible algún tipo de función no lineal que capture en detalle ciertas características inherentes de los datos. En este caso, aparte de no transformar (practicamente nada) los datos, no estoy haciendo nada más.

Los pesos, son generalmente obtenidos mediante regresiones lineales (mínimos cuadrados) simples y sencillos. Algo demasiado burdo como para aducir que puedan capturar la complejidad con algo de certeza. Los creadores de las fórmulas mágicas aducen que sus resultados tienen una buena correlación con una u otra variable importante, por lo que la gente se convence y no pregunta más. Por ejemplo, yo tengo Win Shares, el libro de Bill James donde se introduce el concepto homónimo. En ningún lugar del libro se explica el proceso para la obtención de los pesos, ni por qué unas variables se incluyen en unos cálculos y en otros no. Sólo es una receta de cocina con una tabla de resultados al final.

En lógica borrosa, difusa o fuzzy, siempre se confía en los expertos para poner escoger las variables y poner los pesos. Pero este hecho no se oculta, se establece a priori que el diseño del método es de esta manera y no de otra. En béisbol hay gran cantidad de expertos, como los mánagers, gerentes generales, scouts, coaches y médicos. El experto lo es porque se dedica desde hace un montón de años a lo mismo y rara vez se le escapa algo. Por qué fallan entonces? Porque no tienen coherencia en la realización de su tarea y su subjetividad y sus esquemas mentales los hace, a veces, tomar una decisión que normalmente no tomarían. Son las llamadas corazonadas. El método borroso lo que establece es un marco para garantizar que las corazonadas no tenga (mucha) cabida en la decisión. Es más difícil incluirlas cuando el análisis se hace sobre una base de muchas variables.

Un placer responder a tus preguntas!!!

13 06 2007
Dragon Negro (11:25:58) :

Me puedes llamar Carlos si te es mas fácil. :)

Exacto con lo de la distribución normal, no lo dije porque no sabia que tanto de estadística te era cómoda.

La función que escoges entonces la tomas no lineal y que trasforme de la manera apropiada para resaltar un rasgo o zona particular de la gráfica. Eso ya es respuesta para mi porque en física y metrología se usa también, total, es análisis de datos en el fondo. :)

En cambio lo de los pesos no me convence… Justificarlo solo por correlaciones con alguna variable (existiendo tantas) es pobre. Por regresión lineal tampoco me parece suficiente porque ya la naturaleza a demostrado que la linealidad existe, pero no es la mayoría de los casos para ajustes confiables.

En realidad muy interesante todo el asunto, has pensado en ver si existen otras teorías físicas que puedan ser aplicadas?

El caos a demostrado ser útil en casos de muchas variables, pero no se me ocurre como introducirla acá. Creo que es mas fácil introducir algunos términos no lineales y ya.

Has encontrado algo correlacionado (aparte del cansancio) con el hecho de que algunos jugadores les va excelente en algunos meses y fatal en otros?

Temperatura, luminosidad, humedad, solsticio? :)

Bueno, he hablado mucha gramínea, nos vemos luego que tengo unas termoresistencias de platino esperando por mí!
Bye!

13 06 2007
Julio (19:03:25) :

Bueno Carlos, la idea es incluir en el análisis tanto factores objetivos como subjetivos. Así que cualquiera de las variables que mencionas pueden ser usadas. Pero eso es adelantarme en mis artículos, así que cuando lleguemos a ese punto lo discutimos.

Con respecto a otras teorías físicas, pienso que el caos, a través de las teorías de movimiento browniano pudiera servir, ya que se utiliza para la predicción de diferencias de rendimientos diarios en la bolsa de valores, algo que puede asemejarse a la diferencia en porcentaje de embasado día a día en un bateador. Es una teoría interesante que no pude desarrollar porque cambié de tutor.

Deje un comentario

usted puede usar estos tags : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>


Para probar que eres una persona (no un script spam), escribe la palabra de seguridad que se muestra en la imagen.
Anti-Spam Image