Warning: Invalid argument supplied for foreach() in /home/.gingersnap/frankpereiro/beisblogs.com/wp-content/themes/freshy-10/functions.php on line 278
Recta por la media

Doble rasero

4 06 2007

Cuando queda muy poco tiempo para que Barry Bonds rompa el record de cuadrangulares, el tema de su (presunto) uso de esteroides se utiliza como letra escarlata para invalidar sus logros. El problema es que quienes ahora se rasgan las vestiduras por tan poco ético comportamiento, son los mismos que hacían la vista gorda cuando sus bolsillos se llenaban de dinero proveniente de fans enardecidos con la fiebre jonronera. El viejo dicho “chicks dig the long ball” (a la chicas les gusta el jonrón) presenta al slugger como el chico que atrapa las miradas femeninas, pero no sólo eso, sino que también es el héroe de la fanaticada infantil y la envidia del manager de tribuna. Nike, ese gran abanderado de la limpieza en el deporte, realizó un spot publicitario que tuvo como “leit motiv” esta famosa frase.

Después de ver tan descarada exaltación del consumo de esteroides, cómo pueden venirnos ahora a decir que sus logros no tienen la validez de antaño porque fueron alcanzados con la ayuda de la ciencia médica? Este doble rasero es algo que debemos desechar de plano, porque en la época de las grandes gestas de los Bonds, McGwire y Sosa, ni siquiera estaba prohibido el uso de sustancias potenciadoras del rendimiento deportivo. Hay un principio legal, el de irretroactividad, que viene a decir que nadie puede ser juzgado por hechos realizado antes de la promulgación de la prohibición. Estos sluggers sólo se aprovecharon de agujeros jurídicos que los mismos dueños de equipos dejaron allí, para que sus estadios se llenaran de fanáticos del jonrón.

Por favor, no insulten nuestra inteligencia. Lo pasado, pasado. A partir de ahora, cero tolerancia sobre la base de la información y la educación de los atletas, pero sobre el currículo de estos magníficos jugadores no puede caer ninguna mácula.



El diablo sabe más por viejo que por diablo. O no?

3 06 2007

Cuando buscamos pareja solemos tener una idea aproximada de lo que deseamos: rostro, ojos, cabello, cuerpo, piernas, personalidad, intereses. Con esta descripción creamos un patrón contra el que comparamos a nuestras candidatas, observando las cosas que faltan y las que sobran, seleccionando a la que, finalmente, más se aproxima al ideal que tenemos en mente.

Este proceso de toma de decisiones se aplica en infinidad de situaciones, es la forma natural de hacerlo, ya que casi nunca disponemos de información objetiva o casi nunca la totalidad de la información que tenemos es objetiva. Es fundamental para el éxito de la decisión el controlar la subjetividad de manera que los objetivos se tengan claros. Esta capacidad sólo puede ser mejorada con la experiencia: tomamos una decisión con respecto a nuestros esquemas mentales subjetivos, evaluamos el resultado de esta decisión, comparándolos con los objetivos buscados, corregimos los esquemas mentales para reducir los errores cometidos y tomamos una nueva decisión. El diablo sabe más por viejo que por diablo.

Desde siempre, ésta ha sido la forma de tomar decisiones acerca de la conformación del roster de un equipo de béisbol profesional. El gerente general del equipo conversa con el manager y los coaches, quienes le indican las carencias del equipo. A los técnicos se les solicita describir las características que debe tener el jugador ideal a cubrir cada posición vacante. El gerente general, en base a su experiencia y a las disponibilidades del mercado, selecciona un conjunto de candidatos a cubrir alguno de los puestos. Encarga a sus scouts u ojeadores y a sus técnicos la tarea de evaluar el talento de los candidatos. De esta manera, el candidato que más se parezca al ideal descrito será el prioritario a contratar. Si éste no estuviera disponible, iría detrás del segundo más parecido, y así sucesivamente hasta conseguir cubrir la vacante.

Este proceso, llamado difuso, subjetivo o borroso, fue descrito matemáticamente hace más o menos 20 años por los profesores Arnold Kaufmann y Jaime Gil Aluja, para tratar la incertidumbre en la contratación del personal de una empresa. Sin embargo, no fue sino a comienzos de este siglo que el profesor Jaime Gil Lafuente lo aplicó al ámbito deportivo, para tratar la contratación de jugadores en el fútbol profesional. En el fútbol no hay estadísticas y casi todo el proceso de toma de decisión en el fichaje se realiza mediante información subjetiva (con la excepción de parámetros médicos).

La genialidad del modelo matemático utilizado radica en la posibilidad de repetir, con cierta certeza, el proceso que de manera heurística lleva a cabo el gerente general o deportivo del equipo, a quien de ahora en adelante llamaremos el “experto”.

Sin embargo, en el béisbol sucede algo que lo diferencia sustancialmente del fútbol: todo evento es reflejado en una estadística. Es así como nace el movimiento sabermétrico, que cuestiona el proceso de toma de decisión subjetivo, aduciendo que cuando se tiene información objetiva que refleja el rendimiento real de un jugador, la subjetividad pasa a un segundo plano. Según la sabermétrica, podemos establecer en todo momento quien es el mejor jugador de cada posición, sin necesidad de recoger una información que puede variar sustancialmente según el scout que la recoja.

Comienza aquí la guerra entre los defensores del sistema borroso tradicional y los del sistema objetivo sabermétrico. Sin embargo, mi trabajo consistirá en establecer un punto de encuentro en el que los partidarios de una y otra metodología se den cuenta que existen fortalezas y debilidades en sus teorías, y que ambas pueden ser complementarias en vez de rivales.



Dos meses…

2 06 2007

Soy un auténtico desastre para mantener mi blog. Desafortunadamente, a mi tutor le dio por ponerme a escribir artículos científicos y no he tenido oportunidad de escribir nada en este blog durante dos meses. Mañana le dedicaré un tiempito y sacaré algo, aunque sea sencillo.



Disculpas…

31 03 2007

No he podido continuar con la publicación de mis predicciones debido a que debo terminar un trabajo para esta semana. Espero que no se alejen mucho, al no más terminar mis deberes, publicaré un macro artículo.

Saludos!!!



Predicciones: Miguel Cabrera

26 03 2007

Por fin he terminado de procesar los datos de la base de datos Lahman, para poder convertirla de modo que la edad sea un factor en mis cálculos. Un proceso lento, ya que por cada estadística analizada, tenía que sacar la carrera de cada jugador desde 1960 hasta 2006. Más de 45.000 temporadas, que finalmente arrojaron casi 8000 jugadores con datos utilizables. Para los que quieran saber de que trata el método utilizado, les recomiendo que revisen mi post anterior, dónde se describe el procedimiento.

En fin, la primera víctima seleccionada es Miguel Cabrera de los Marlins de Florida. A continuación, podemos ver dos tablas donde se muestran tanto el desempeño de Miguelito en las dos últimas zafras (2005 y 2006), como mis predicciones para el año que viene, acotadas entre un mínimo y un máximo.

AÑO EDAD AB R H H2 H3 HR RBI SB CS BB SO IBB
2005 22 613 106 198 43 2 33 116 1 0 64 125 12
2006 23 576 112 195 50 2 26 114 9 6 86 108 27
2007-Min 24 533 88 156 22 2 26 85 7 5 54 85 4
2007-Avg 24 540 99 161 28 2 29 98 11 5 62 105 10
2007-Max 24 568 111 172 35 4 31 112 15 6 67 132 14

AÑO EDAD HBP SH SF GIDP AVG OBP SLG OPS
2005 22 2 0 6 20 .323 .385 .561 .947
2006 23 10 0 4 18 .339 .430 .568 .998
2007-Min 24 5 0 2 4 .293 .362 .488 .850
2007-Avg 24 6 0 4 12 .298 .374 .519 .893
2007-Max 24 9 1 7 14 .303 .381 .542 .923

Cabrera es todavía muy joven, por lo que el algoritmo no cree que sus números sean sustentables en esta temporada. Para el algoritmo, y para la historia, Cabrera es un caso excepcional, porque a muy joven edad arroja resultados impresionantes. Los números que parecen agregar mayor variabilidad a la predicción son los dobletes, ya que viene de acumular 43 y 50 en las dos últimas temporadas, mientras que el algoritmo le pronostica un máximo de 31. Lo mismo pasa con la cantidad de hits conectados, con una predicción máxima de 172 a pesar de que ha conseguido 198 y 195 en los dos pasados años. Aquí pesa mucho más el rendimiento de jugadores parecidos a Miguel que lo mostrado hasta ahora. De hecho, según Baseball Reference, el jugador más parecido a Cabrera, por termino general y hasta los 23 años, es Hank Aaron, toda una referencia en excepciones estadísticas.

¿De que depende que Cabrera siga por el camino de super estrella? Básicamente de lograr que sus batazos sigan cayendo de hit, es decir, de la suerte. Cabrera aumentó su número de boletos la temporada pasada, pero sigue dependiendo de lograr muchos hits para mantener sus números. Sin embargo, con unos números decentes como los que en promedio podría lograr, un OPS de .900 no es nada despreciable para un joven de 24 años. Así que es posible que su desempeño esté entre un excelente bateador y la super estrella que hasta ahora ha sido.

Esta es una prueba dura para el método, pero quise iniciarlo de esta manera, porque es obvio que mi método pueda fallar al decir que Miguel Cabrera no repetirá las dos super temporadas que hasta ahora ha tenido. Históricamente los jugadores de 24 años de edad no lo logran y los que si lo hacen, llegan muy, muy lejos.



Predicciones: Introducción

22 03 2007

Para hacerle la competencia a RoRRo, he decidido seguir el camino de la predicción del rendimiento de nuestros compatriotas más famosos. Estoy diseñando un método que mediante redes neuronales y estimación funcional no paramétrica (los datos de predicción dependen no sólo de la carrera del jugador, sino de las carreras más parecidas de otros jugadores).

Para esto, voy a utilizar la increible base de datos de Lehman, limitando el espectro de jugadores a los que desarrollaron su carrera de 1970 en adelante. Los datos debieron ser procesados para desarrollar series de tiempo para cada jugador y estadística analizada. He desechado los jugadores que tienen menos de 100 turnos acumulados, porque la mayoría de los datos corresponden a jugadores que han tenido pocas oportunidades y que no colaborarían con el modelado.

A partir de acá, utilizando la estadística “s”, se seleccionan los “n” jugadores más cercanos al beisbolista del que se quiere hacer una predicción en el año “t”. La cercanía, en primer momento (y por falta de tiempo), se ha calculado con respecto a la norma L2. “n” se ha puesto a variar entre e-18 (”e” es la edad a la que se quiere hacer la predicción) y e+12. De esta manera obtenemos un conjunto considerable de jugadores cercanos, los “n” que tienen norma L2 más pequeña, y unas estimaciones parciales con las que obtener la estimación final (mientras menor sea la edad la edad del jugador, menos jugadores cercanos se usan para la predicción). Con los “n” jugadores más cercanos, y mediante redes neuronales, se hace una primera estimación del rendimiento en función del rendimiento de los últimos 3 años de carrera (obviamente, para jugadores con pocos años de carrera o muy jóvenes, la predicción será más sensible al error).

Esta predicción temporal se utiliza en una estimación no paramétrica con los “n” jugadores más cercanos, obteniendo un promedio ponderado en función de la distancia al jugador estudiado. Obviamente, la estimación inicial tendrá el mayor peso al estar a una distancia “0″ del jugador estudiado (es él mismo). Así, para cada grupo de “n” jugadores cercanos, se tendrá una predicción, de las que he tomado el promedio y los cuartiles 1ro. y 3ro para establecer la predicción definitiva y los márgenes de confianza inferior y superior, respectivamente.

El concepto puede resultar un poco engorroso (tarda mucho tiempo en hacer cada cálculo para cada jugador y estadística) y no he hecho los estudios de nivel de error correspondientes, pero tengo ganas de utilizarlo para ver que cosas arroja. Eso sí, a los fanáticos caraquistas les digo que Vizquel con 40 años no se ve muy bien según este método.

Un abrazo. Nos vemos con las predicciones.



Bienvenidos!!!

17 03 2007

Bienvenidos a “Recta por la Media”, un blog donde intentaremos realizar un análisis en profundidad de las estadísticas del béisbol de las grandes ligas. Desde hace algún tiempo resido en España, donde estoy llevando a cabo mis estudios de doctorado en estadística y lógica difusa, con el fin de encontrar un punto medio en el análisis del rendimiento deportivo mediante técnicas objetivas (estadística) y subjetivas (opiniones de scouts y entrenadores). Suena difícil, pero haré mi mejor esfuerzo por presentarlo de manera simple, con ejemplos extraídos de la temporada regular que nos pondrán en contexto.

Desde aquí quiero darle un saludo especial a mis amigos y colegas Frank Pereiro (creador de Béisbol Report y Béisblogs), Rodrigo Llamozas (creador de Los Hijos del Patón) y Manuel Tortolero (creador de Perdidos, porque no aparece por ningún lado).

Finalmente, espero, durante esta semana, poder poner al menos un artículo y empezar a darme vueltas por los distintos blogs que sobre béisbol se publican en Venezuela. Nos vemos!!!