Predicciones: Introducción
22 03 2007Para hacerle la competencia a RoRRo, he decidido seguir el camino de la predicción del rendimiento de nuestros compatriotas más famosos. Estoy diseñando un método que mediante redes neuronales y estimación funcional no paramétrica (los datos de predicción dependen no sólo de la carrera del jugador, sino de las carreras más parecidas de otros jugadores).
Para esto, voy a utilizar la increible base de datos de Lehman, limitando el espectro de jugadores a los que desarrollaron su carrera de 1970 en adelante. Los datos debieron ser procesados para desarrollar series de tiempo para cada jugador y estadÃstica analizada. He desechado los jugadores que tienen menos de 100 turnos acumulados, porque la mayorÃa de los datos corresponden a jugadores que han tenido pocas oportunidades y que no colaborarÃan con el modelado.
A partir de acá, utilizando la estadÃstica “s”, se seleccionan los “n” jugadores más cercanos al beisbolista del que se quiere hacer una predicción en el año “t”. La cercanÃa, en primer momento (y por falta de tiempo), se ha calculado con respecto a la norma L2. “n” se ha puesto a variar entre e-18 (”e” es la edad a la que se quiere hacer la predicción) y e+12. De esta manera obtenemos un conjunto considerable de jugadores cercanos, los “n” que tienen norma L2 más pequeña, y unas estimaciones parciales con las que obtener la estimación final (mientras menor sea la edad la edad del jugador, menos jugadores cercanos se usan para la predicción). Con los “n” jugadores más cercanos, y mediante redes neuronales, se hace una primera estimación del rendimiento en función del rendimiento de los últimos 3 años de carrera (obviamente, para jugadores con pocos años de carrera o muy jóvenes, la predicción será más sensible al error).
Esta predicción temporal se utiliza en una estimación no paramétrica con los “n” jugadores más cercanos, obteniendo un promedio ponderado en función de la distancia al jugador estudiado. Obviamente, la estimación inicial tendrá el mayor peso al estar a una distancia “0″ del jugador estudiado (es él mismo). AsÃ, para cada grupo de “n” jugadores cercanos, se tendrá una predicción, de las que he tomado el promedio y los cuartiles 1ro. y 3ro para establecer la predicción definitiva y los márgenes de confianza inferior y superior, respectivamente.
El concepto puede resultar un poco engorroso (tarda mucho tiempo en hacer cada cálculo para cada jugador y estadÃstica) y no he hecho los estudios de nivel de error correspondientes, pero tengo ganas de utilizarlo para ver que cosas arroja. Eso sÃ, a los fanáticos caraquistas les digo que Vizquel con 40 años no se ve muy bien según este método.
Un abrazo. Nos vemos con las predicciones.
Espero con ansias los resultados de este estudio. Este fin de semana me tocará a mi realizar mi humilde estimación, que como sabes, está basada fuertemente en actuaciones recientes, ajustando por edad y ahora por liga (muy mamarrachamente, debo decir)…
Estaré muy pendiente!
[…] Para los que quieran saber de que trata el método utilizado, les recomiendo que revisen mi post anterior, dónde se describe el […]