Peras vs. Manzanas (parte II)
17 06 2007En la primera parte de esta serie de artÃculos, habÃamos explicado que los datos que comúnmente manejamos en la estadÃstica del béisbol (o de cualquier otro deporte) deben ser transformados a una escala porcentual para facilitar su comparación. En esta entrega veremos que podemos utilizar diferentes funciones fuzzificadoras para obtener curvas que resalten alguna particularidad de los datos mientras que otras se atenúan.
La primera de la funciones de fuzzificación que estudiamos fue la Derringer-Suich, que traslada el eje Y de cualquier curva al intervalo [0,1], si realizar practicamente ninguna modificación estructural. La segunda de estas funciones es comúnmente llamada MS (Mean-Standard Deviation, Media-Desviación Estándar) y se basa en redistribuir los datos según su centro (promedio o mediana) y su dispersión (desviación estándar). La ecuación utilizada tiene la forma general:
En nuestro caso la mediana en vez del promedio, ya que para datos que no siguen una distribución normal, la mediana es un mejor estimador de la media que el promedio. En el caso de que los datos estén normalmente distribuidos la mediana coincide con el promedio. La dispersión
corresponde a la desviación estándar. Veamos en primer lugar la gráfica correspondiente a la función de fuzzificación de Derringer-Suich

Ahora comparemosla con la obtenida a través de la función de fuzzificación MS:

Se observan dos diferencias clarar en la forma. La primera diferencia tiene que ver con la pendiente de las curvas. La pendiente en los extremos de la segunda gráfica es casi nula mientras que en la primera es muy grande. Al contrario, la pendiente en el centro de la gráfica se ve incrementada con respecto a la de la primera gráfica. La segunda diferencia tiene que ver con la simetrÃa, ya que como se observa, la segunda gráfica es bastante simétrica, al contrario de la primera gráfica. Para el análisis de datos, la diferencia fundamental radica en la posibilidad de establecer un más claro punto de diferenciación entre los elementos que conforman la mayorÃa de los datos, los que están en la zona intermedia.
La última de las funciones de fuzzificación que presentaré hoy, es la denominada gaussiana, ya que la estructura de su ecuación es similar a la de la distribución normal centrada:
En este caso, se resta de los datos su media () y se dividen por su desviación estándar (
), un procedimiento tradicional al normalizar datos que se distribuyen según una gaussiana. La curva que arroja esta función es:

Acá, los datos de la cola izquierda son prácticamente igualados, pero el resto de los datos tiene un progresión suavizada, casi logarÃtmica, que permite evaluarlos como un conjunto, sin establecer diferencias muy marcadas.
Asà que luego de ver tres funciones de fuzzificación (Derringer-Suich, MS y gaussiana), podemos seleccionar la adecuada según el tipo de análisis que quisiéramos realizar. Un punto a resaltar de la función MS es que permite, de manera muy sencilla, establecer etiquetas lingüÃsticas para dividir en grupos la población estudiada. AsÃ, en este ejemplo, podrÃamos establecer que los primeros 100 jugadores corresponden al nivel “BAJO” de SO/BB en una temporada. Los siguientes 100 están en el nivel “MEDIO-BAJO”, los 100 que le siguen son catalogados como “MEDIO-ALTO” y, finalmente, el resto de los lanzadores son asignados al grupo “ALTO”. La razón para hacer esto es que podemos seleccionar jugadores con perfiles similares, sobres los que no tendrÃamos preferencia, es decir, que considerarÃamos iguales.
Por lo tanto, serÃa muy sencillo ubicar, entre las diferentes opciones, un camarero con porcentaje de embasado “MEDIO-ALTO”, slugging “BAJO”, efectividad en el robo “ALTO” y rango defensivo “ALTO”. Eso es lo que normalmente hacen los defensores del método tradicional de contratación, pero la diferencia está en que podemos incluir estadÃsticas que ayuden a soportar su decisión sin necesidad de colocarlos en un terreno incómodo. Les estarÃamos colocando un muy útil puente que les ayudarÃa a pasar información de la muy complicada estadÃstica a la muy familiar experiencia.
Finalizamos con esta entrega, en la que hemos mostrado diferentes formas de presentar los datos estadÃsticos utilizando una misma base de comparación, el intervalo [0,1]. También hemos visto como el uso de etiquetas lingüÃsticas para diferenciar grupos dentro de la población estudiada, ayuda a los gerentes deportivos tradicionales a utilizar las herramientas estadÃsticas de una manera más sencilla. En la próxima entrega veremos como hacer comparaciones entre jugadores cuando se considera más de una variable.
Excelentes articulos Julio, pero tengo algunas dudas. Veo que probaste las tres funciones, y me imagino que se puede aplicar para cualquier categoria, pero dude un poco en cual es la mas apropiada. Tu dices que depende del caso, pero cual seria un ejemplo?
Muchas gracias Daniel. Cuándo usar una u otra? Depende del nivel que requieras de la estadÃstica evaluada.
Por ejemplo, si quieres ver como se distribuyen exactamente todos los jugadores, porque prefieres observar claramente las diferencias relativas, escoges la de Derriger-Suich.
Si quieres contratar a alguien que esté en la zona media de la estadÃstica, pues puedes seleccionar la MS.
Si quieres seleccionar a alguien evitando la cola izquierda, puedes escoger la gaussiana.
Una de las que no incluà por falta de tiempo es la logarÃtmica:
AquÃ, si S>1 se da énfasis a la cola derecha y si S<1 se da énfasis a la izquierda. Con “énfasis” quiero decir que la pendiente en esa zona es más pronunciada que en el resto de la curva.
Para que sirve esto? Bueno, puede ser que quieras un jugador de poco sueldo (cola izquierda) pero que tenga un buen OPS (cola derecha). Utilizas las funciones adecuadas y esto dramatiza o atenúa las diferencias entre jugadores. Por lo general yo suelo utilizar la de Derringer-Suich, porque mantiene la esturctura de los datos, pero a veces se puede requerir información diferente.
En el próximo artÃculo les muestro las gráficas de la logarÃtimica y les introduzco a la comparación borrosa.
Ha quedado claro?