Warning: Invalid argument supplied for foreach() in /home/.gingersnap/frankpereiro/beisblogs.com/wp-content/themes/freshy-10/functions.php on line 278
Recta por la media » 2007 » Marzo

Disculpas…

31 03 2007

No he podido continuar con la publicación de mis predicciones debido a que debo terminar un trabajo para esta semana. Espero que no se alejen mucho, al no más terminar mis deberes, publicaré un macro artículo.

Saludos!!!



Predicciones: Miguel Cabrera

26 03 2007

Por fin he terminado de procesar los datos de la base de datos Lahman, para poder convertirla de modo que la edad sea un factor en mis cálculos. Un proceso lento, ya que por cada estadística analizada, tenía que sacar la carrera de cada jugador desde 1960 hasta 2006. Más de 45.000 temporadas, que finalmente arrojaron casi 8000 jugadores con datos utilizables. Para los que quieran saber de que trata el método utilizado, les recomiendo que revisen mi post anterior, dónde se describe el procedimiento.

En fin, la primera víctima seleccionada es Miguel Cabrera de los Marlins de Florida. A continuación, podemos ver dos tablas donde se muestran tanto el desempeño de Miguelito en las dos últimas zafras (2005 y 2006), como mis predicciones para el año que viene, acotadas entre un mínimo y un máximo.

AÑO EDAD AB R H H2 H3 HR RBI SB CS BB SO IBB
2005 22 613 106 198 43 2 33 116 1 0 64 125 12
2006 23 576 112 195 50 2 26 114 9 6 86 108 27
2007-Min 24 533 88 156 22 2 26 85 7 5 54 85 4
2007-Avg 24 540 99 161 28 2 29 98 11 5 62 105 10
2007-Max 24 568 111 172 35 4 31 112 15 6 67 132 14

AÑO EDAD HBP SH SF GIDP AVG OBP SLG OPS
2005 22 2 0 6 20 .323 .385 .561 .947
2006 23 10 0 4 18 .339 .430 .568 .998
2007-Min 24 5 0 2 4 .293 .362 .488 .850
2007-Avg 24 6 0 4 12 .298 .374 .519 .893
2007-Max 24 9 1 7 14 .303 .381 .542 .923

Cabrera es todavía muy joven, por lo que el algoritmo no cree que sus números sean sustentables en esta temporada. Para el algoritmo, y para la historia, Cabrera es un caso excepcional, porque a muy joven edad arroja resultados impresionantes. Los números que parecen agregar mayor variabilidad a la predicción son los dobletes, ya que viene de acumular 43 y 50 en las dos últimas temporadas, mientras que el algoritmo le pronostica un máximo de 31. Lo mismo pasa con la cantidad de hits conectados, con una predicción máxima de 172 a pesar de que ha conseguido 198 y 195 en los dos pasados años. Aquí pesa mucho más el rendimiento de jugadores parecidos a Miguel que lo mostrado hasta ahora. De hecho, según Baseball Reference, el jugador más parecido a Cabrera, por termino general y hasta los 23 años, es Hank Aaron, toda una referencia en excepciones estadísticas.

¿De que depende que Cabrera siga por el camino de super estrella? Básicamente de lograr que sus batazos sigan cayendo de hit, es decir, de la suerte. Cabrera aumentó su número de boletos la temporada pasada, pero sigue dependiendo de lograr muchos hits para mantener sus números. Sin embargo, con unos números decentes como los que en promedio podría lograr, un OPS de .900 no es nada despreciable para un joven de 24 años. Así que es posible que su desempeño esté entre un excelente bateador y la super estrella que hasta ahora ha sido.

Esta es una prueba dura para el método, pero quise iniciarlo de esta manera, porque es obvio que mi método pueda fallar al decir que Miguel Cabrera no repetirá las dos super temporadas que hasta ahora ha tenido. Históricamente los jugadores de 24 años de edad no lo logran y los que si lo hacen, llegan muy, muy lejos.



Predicciones: Introducción

22 03 2007

Para hacerle la competencia a RoRRo, he decidido seguir el camino de la predicción del rendimiento de nuestros compatriotas más famosos. Estoy diseñando un método que mediante redes neuronales y estimación funcional no paramétrica (los datos de predicción dependen no sólo de la carrera del jugador, sino de las carreras más parecidas de otros jugadores).

Para esto, voy a utilizar la increible base de datos de Lehman, limitando el espectro de jugadores a los que desarrollaron su carrera de 1970 en adelante. Los datos debieron ser procesados para desarrollar series de tiempo para cada jugador y estadística analizada. He desechado los jugadores que tienen menos de 100 turnos acumulados, porque la mayoría de los datos corresponden a jugadores que han tenido pocas oportunidades y que no colaborarían con el modelado.

A partir de acá, utilizando la estadística “s”, se seleccionan los “n” jugadores más cercanos al beisbolista del que se quiere hacer una predicción en el año “t”. La cercanía, en primer momento (y por falta de tiempo), se ha calculado con respecto a la norma L2. “n” se ha puesto a variar entre e-18 (”e” es la edad a la que se quiere hacer la predicción) y e+12. De esta manera obtenemos un conjunto considerable de jugadores cercanos, los “n” que tienen norma L2 más pequeña, y unas estimaciones parciales con las que obtener la estimación final (mientras menor sea la edad la edad del jugador, menos jugadores cercanos se usan para la predicción). Con los “n” jugadores más cercanos, y mediante redes neuronales, se hace una primera estimación del rendimiento en función del rendimiento de los últimos 3 años de carrera (obviamente, para jugadores con pocos años de carrera o muy jóvenes, la predicción será más sensible al error).

Esta predicción temporal se utiliza en una estimación no paramétrica con los “n” jugadores más cercanos, obteniendo un promedio ponderado en función de la distancia al jugador estudiado. Obviamente, la estimación inicial tendrá el mayor peso al estar a una distancia “0″ del jugador estudiado (es él mismo). Así, para cada grupo de “n” jugadores cercanos, se tendrá una predicción, de las que he tomado el promedio y los cuartiles 1ro. y 3ro para establecer la predicción definitiva y los márgenes de confianza inferior y superior, respectivamente.

El concepto puede resultar un poco engorroso (tarda mucho tiempo en hacer cada cálculo para cada jugador y estadística) y no he hecho los estudios de nivel de error correspondientes, pero tengo ganas de utilizarlo para ver que cosas arroja. Eso sí, a los fanáticos caraquistas les digo que Vizquel con 40 años no se ve muy bien según este método.

Un abrazo. Nos vemos con las predicciones.



Bienvenidos!!!

17 03 2007

Bienvenidos a “Recta por la Media”, un blog donde intentaremos realizar un análisis en profundidad de las estadísticas del béisbol de las grandes ligas. Desde hace algún tiempo resido en España, donde estoy llevando a cabo mis estudios de doctorado en estadística y lógica difusa, con el fin de encontrar un punto medio en el análisis del rendimiento deportivo mediante técnicas objetivas (estadística) y subjetivas (opiniones de scouts y entrenadores). Suena difícil, pero haré mi mejor esfuerzo por presentarlo de manera simple, con ejemplos extraídos de la temporada regular que nos pondrán en contexto.

Desde aquí quiero darle un saludo especial a mis amigos y colegas Frank Pereiro (creador de Béisbol Report y Béisblogs), Rodrigo Llamozas (creador de Los Hijos del Patón) y Manuel Tortolero (creador de Perdidos, porque no aparece por ningún lado).

Finalmente, espero, durante esta semana, poder poner al menos un artículo y empezar a darme vueltas por los distintos blogs que sobre béisbol se publican en Venezuela. Nos vemos!!!