Peras vs. Manzanas (parte IV)
27 07 2007De vuelta a la blogosfera, ya que estoy un poco más asentado en Caracas. Tengo que estirar un poco mis entumecidos dedos para darle forma a la cuarta entrega de esta serie.
En el artÃculo previo vimos un ejemplo en el que, a través de la distancia de Euclides, se realizó la comparación entre un grupo de lanzadores. El ejemplo no discriminaba entre las estadÃstica utilizadas, se consideraban todas igualmente importante. Pero en la realidad, los factores evaluados difÃcilmente tienen este comportamiento.
En estadÃstica, uno de los principales problemas es calcular los pesos del modelo utilizado, para poder minimizar el error cometido; rÃos de tinta se ha derramado para obtener los mejores método de solucionar este problema. En la lógica borrosa este problema se confÃa, de nuevo, a los expertos, quienes mediante un criterio de ponderación, establecen la importancia absoluta de cada factor.
En el ejemplo que hemos venido utilizando, se usan cuatro variables de comparación: ERA, IP, OBP en contra y razón SO/BB. Al utilizar pesos iguales, descubrimos que la razón SO/BB era el factor decisorio más importante debido a su variabilidad inherente. Pero que pasarÃa si dejamos al experto (gerente general, manager, coach o scout) establecer importancias diferentes a cada una de estas medidas.
Lo único que tendrÃamos que decirle a nuestro hipotético experto es que asigne un peso a cada variable dentro del intervalo [0,1]. Este nos indica que prefiere un caballo come innings al que no se le embasen mucho, pero que las otras dos estadÃsticas (ERA y razón SO/BB) no le importan mucho. Por lo tanto, se obtiene del experto la siguiente escala de pesos:
1- ERA: 0.5
2- IP: 1
3- OBP en contra: 1
4- Razón SO/BB: 0.3
A continuación, se convierten los pesos absolutos para que tengan convexidad, es decir, sumen uno:
.
Por lo tanto, los pesos relativos serÃan:
1- ERA: 0.5/(0.5+1+1+0.3) = 0.5/2.8 = 0.18
2- IP: 1/2.8 = 0.36
3- OBP en contra: 1/2.8 = 0.36
4- Razón SO/BB: 0.3/2.8 = 0.1
La ecuación de la distancia de Minkowski cambiarÃa a:
.
Recordemos que en el caso de las distancias euclidianas k=2. Finalmente, la matriz que recoge las distancias euclidianas serÃa:
Distancias Euclidianas
| P1 | P2 | P3 | P4 | |
|---|---|---|---|---|
| P1 | 0.000 | 0.096 | 0.033 | 0.046 |
| P2 | 0.096 | 0.000 | 0.086 | 0.057 |
| P3 | 0.033 | 0.086 | 0.000 | 0.035 |
| P4 | 0.046 | 0.057 | 0.035 | 0.000 |
Una diferencia obvia al usar pesos convexos es que las distancias bajan en magnitud. Además, algunas de las distancias cambian radicalmente con respecto al resto de las distancias para ese mismo jugador. Por ejemplo, para P4: al no usar pesos la mayor distancia era con P3, la segunda mayor era con P2 y la menor era con P1. Al utilizar los pesos, la mayor distancia de P4 es ahora con P2, la segunda mayor es con P1 y la menor es con P3. También podemos apreciar que se rompe el empate que habÃa entre P3 y P4 con respecto a P1, siendo ahora más parecido (tiene una distancia más corta) P3 a P1 que P4.
La definición de los pesos permite ser más especÃficos a la hora de establecer el perfil del jugador adecuado. Se puede ser tan detallado como se quiera, buscando identificar con precisión que jugadores se adaptan mejor a una situación en particular. En nuesto ejemplo, que pasa si el experto decide que los innings no son tan importantes pues su cuerpo de relevistas es el mejor de la liga. O que el factor más importante es la efectividad pues el equipo batea poco, aunque defensivamente es impecable. Es esta flexibilidad uno de los factores que más aleja metodológicamente a la lógica borrosa de la estadÃstica, ya que en la estadÃstica los pesos adoptan una sola forma según el modelo especÃfico que utilicemos y sólo cambian con los datos utilizados para estimarlos. Les debo para la próxima entrega la inclusión de variables subjetivas y la obtención del jugador ideal.
Wow Julio, tengo que leerme estos posts con calma y con un cuaderno al lado para seguir lo que dices. Me parece super interesante estos posts, muy educativos.
Jajaja de Pana, yo tuve que leer el anterior para entender este… Muy bueno panaa
jejejeje. Bueno, se supone que es una serie, gota a gota.