Warning: Invalid argument supplied for foreach() in /home/.gingersnap/frankpereiro/beisblogs.com/wp-content/themes/freshy-10/functions.php on line 278
Recta por la media » Peras vs. Manzanas (parte II)

Peras vs. Manzanas (parte II)

17 06 2007

En la primera parte de esta serie de artículos, habíamos explicado que los datos que comúnmente manejamos en la estadística del béisbol (o de cualquier otro deporte) deben ser transformados a una escala porcentual para facilitar su comparación. En esta entrega veremos que podemos utilizar diferentes funciones fuzzificadoras para obtener curvas que resalten alguna particularidad de los datos mientras que otras se atenúan.

La primera de la funciones de fuzzificación que estudiamos fue la Derringer-Suich, que traslada el eje Y de cualquier curva al intervalo [0,1], si realizar practicamente ninguna modificación estructural. La segunda de estas funciones es comúnmente llamada MS (Mean-Standard Deviation, Media-Desviación Estándar) y se basa en redistribuir los datos según su centro (promedio o mediana) y su dispersión (desviación estándar). La ecuación utilizada tiene la forma general:

En nuestro caso la mediana en vez del promedio, ya que para datos que no siguen una distribución normal, la mediana es un mejor estimador de la media que el promedio. En el caso de que los datos estén normalmente distribuidos la mediana coincide con el promedio. La dispersión corresponde a la desviación estándar. Veamos en primer lugar la gráfica correspondiente a la función de fuzzificación de Derringer-Suich
SBRatioF1.png
Ahora comparemosla con la obtenida a través de la función de fuzzificación MS:
SBRatioF2.png
Se observan dos diferencias clarar en la forma. La primera diferencia tiene que ver con la pendiente de las curvas. La pendiente en los extremos de la segunda gráfica es casi nula mientras que en la primera es muy grande. Al contrario, la pendiente en el centro de la gráfica se ve incrementada con respecto a la de la primera gráfica. La segunda diferencia tiene que ver con la simetría, ya que como se observa, la segunda gráfica es bastante simétrica, al contrario de la primera gráfica. Para el análisis de datos, la diferencia fundamental radica en la posibilidad de establecer un más claro punto de diferenciación entre los elementos que conforman la mayoría de los datos, los que están en la zona intermedia.

La última de las funciones de fuzzificación que presentaré hoy, es la denominada gaussiana, ya que la estructura de su ecuación es similar a la de la distribución normal centrada:

En este caso, se resta de los datos su media () y se dividen por su desviación estándar (), un procedimiento tradicional al normalizar datos que se distribuyen según una gaussiana. La curva que arroja esta función es:
SBRatioF3.png
Acá, los datos de la cola izquierda son prácticamente igualados, pero el resto de los datos tiene un progresión suavizada, casi logarítmica, que permite evaluarlos como un conjunto, sin establecer diferencias muy marcadas.

Así que luego de ver tres funciones de fuzzificación (Derringer-Suich, MS y gaussiana), podemos seleccionar la adecuada según el tipo de análisis que quisiéramos realizar. Un punto a resaltar de la función MS es que permite, de manera muy sencilla, establecer etiquetas lingüísticas para dividir en grupos la población estudiada. Así, en este ejemplo, podríamos establecer que los primeros 100 jugadores corresponden al nivel “BAJO” de SO/BB en una temporada. Los siguientes 100 están en el nivel “MEDIO-BAJO”, los 100 que le siguen son catalogados como “MEDIO-ALTO” y, finalmente, el resto de los lanzadores son asignados al grupo “ALTO”. La razón para hacer esto es que podemos seleccionar jugadores con perfiles similares, sobres los que no tendríamos preferencia, es decir, que consideraríamos iguales.

Por lo tanto, sería muy sencillo ubicar, entre las diferentes opciones, un camarero con porcentaje de embasado “MEDIO-ALTO”, slugging “BAJO”, efectividad en el robo “ALTO” y rango defensivo “ALTO”. Eso es lo que normalmente hacen los defensores del método tradicional de contratación, pero la diferencia está en que podemos incluir estadísticas que ayuden a soportar su decisión sin necesidad de colocarlos en un terreno incómodo. Les estaríamos colocando un muy útil puente que les ayudaría a pasar información de la muy complicada estadística a la muy familiar experiencia.

Finalizamos con esta entrega, en la que hemos mostrado diferentes formas de presentar los datos estadísticos utilizando una misma base de comparación, el intervalo [0,1]. También hemos visto como el uso de etiquetas lingüísticas para diferenciar grupos dentro de la población estudiada, ayuda a los gerentes deportivos tradicionales a utilizar las herramientas estadísticas de una manera más sencilla. En la próxima entrega veremos como hacer comparaciones entre jugadores cuando se considera más de una variable.


Acciones

Informacion

2 respuestas a “Peras vs. Manzanas (parte II)”

21 06 2007
Daniel (00:45:03) :

Excelentes articulos Julio, pero tengo algunas dudas. Veo que probaste las tres funciones, y me imagino que se puede aplicar para cualquier categoria, pero dude un poco en cual es la mas apropiada. Tu dices que depende del caso, pero cual seria un ejemplo?

21 06 2007
Julio (08:25:21) :

Muchas gracias Daniel. Cuándo usar una u otra? Depende del nivel que requieras de la estadística evaluada.

Por ejemplo, si quieres ver como se distribuyen exactamente todos los jugadores, porque prefieres observar claramente las diferencias relativas, escoges la de Derriger-Suich.

Si quieres contratar a alguien que esté en la zona media de la estadística, pues puedes seleccionar la MS.

Si quieres seleccionar a alguien evitando la cola izquierda, puedes escoger la gaussiana.

Una de las que no incluí por falta de tiempo es la logarítmica:

Aquí, si S>1 se da énfasis a la cola derecha y si S<1 se da énfasis a la izquierda. Con “énfasis” quiero decir que la pendiente en esa zona es más pronunciada que en el resto de la curva.

Para que sirve esto? Bueno, puede ser que quieras un jugador de poco sueldo (cola izquierda) pero que tenga un buen OPS (cola derecha). Utilizas las funciones adecuadas y esto dramatiza o atenúa las diferencias entre jugadores. Por lo general yo suelo utilizar la de Derringer-Suich, porque mantiene la esturctura de los datos, pero a veces se puede requerir información diferente.

En el próximo artículo les muestro las gráficas de la logarítimica y les introduzco a la comparación borrosa.

Ha quedado claro? ;)

Deje un comentario

usted puede usar estos tags : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>


Para probar que eres una persona (no un script spam), escribe la palabra de seguridad que se muestra en la imagen.
Anti-Spam Image