Peras vs. Manzanas (parte III)
28 06 2007Antes de comenzar: lo intentaré, RoRRo, lo intentaré!!!
Ahora sÃ, al grano. En la pasada entrega de esta serie habÃamos visto diferentes funciones de fuzzificación que permiten pasar cualquier estadÃstica al intervalo [0,1], resaltando alguna zona en particular.
Dos cosas que habÃa olvidado incluir. La primera es que cuando queremos transformar estadÃsticas para las que un valor menor es mejor que un valor mayor, se debe restar 1 al valor obtenido con la función de fuzzificación. Por ejemplo, para el promedio de carreras limpias (ERA):
,
donde es el valor fuzzy para el ERA, obtenido a través de cualquier función de fuzzificación.
La segunda es introducir una función de fuzzificación, la logarÃtmica:
.
AquÃ, si S>1 se da énfasis a la cola derecha y si S<1 se da énfasis a la izquierda. Con “énfasis” quiero decir que la pendiente en esa zona es más pronunciada que en el resto de la curva. Veamos una curva utilizando diferentes valores de S:
Una vez resueltos estos dos olvidos, finalizamos con la fuzzificación y comenzamos con la comparación entre jugadores. Para comparar jugadores introducimos el concepto de subconjunto borroso. Un subconjunto borroso es un conjunto de cualidades que define a un jugador. Cada una de esas cualidades viene definida por la posibilidad de ser el mejor en ella.
La distancia entre dos subconjuntos borrosos es, entonces, la distancia entre dos jugadores:
En esta distancia, llamada de Minkowski, la distancia entre el jugador 1 y el 2 es la suma de las diferencias que hay entre cada una de las caracterÃsticas utilizadas. Las diferencias se toman en valor absoluto (ninguna distancia es negativa) y se elevan al exponente “k”, un número entero mayor igual que 1. Mientras más grande sea “k”, más grandes se hacen las diferencias grandes y más pequeñas las pequeñas. Cuando “k” es igual a 2, estamos en presencia de la distancia euclidiana.
Realicemos un ejemplo sencillo con el conjunto de datos que hemos venido utilizando (temporadas de lanzadores de más de 100 IP entre 2004 y 2006). De allà tomaremos cuatro caracterÃsticas: ERA, Razón SO/BB, IP y OBP en contra. Seleccionamos 4 lanzadores que llamaremos P1, P2, P3 y P4 (los nombres para luego) y calculamos primero la versión difusa de sus estadÃsticas:
EstadÃsticas Borrosas
| ERA | IP | AOBP | SBRat | |
|---|---|---|---|---|
| P1 | .86 | .94 | 1 | .60 |
| P2 | .86 | .88 | .76 | .25 |
| P3 | .84 | .88 | .95 | .77 |
| P4 | .83 | .86 | .91 | .46 |
Ahora procedemos a calcular las distancias euclidianas entre los cuatro, utilizando como ejemplo la distancia entre P1 y P2:
En la siguiente tabla mostramos todas las distancias calculadas:
Distancias Euclidianas
| P1 | P2 | P3 | P4 | |
|---|---|---|---|---|
| P1 | 0 | .43 | .19 | .19 |
| P2 | .43 | 0 | .55 | .26 |
| P3 | .19 | .55 | 0 | .31 |
| P4 | .19 | .26 | .31 | 0 |
Dos caracterÃsticas necesarias para este tipo de distancias se observan en la tabla. Es triangular, es decir, la distancia entre A y B es la misma que entre B y A. Además, la diagonal es cero, es decir, la distancia entre A y A es cero. Las distancias más pequeñas muestran jugadores similares, mientras que las más grandes muestran jugadores disimilares. Fácilmente podemos observar que P2 es el jugador más disimilar de los tres, mientras que P4 es el más similar a todos los demás. La distancia más corta es la que hay entre P1 y P3 o entre P1 y P4. Si quisiéramos sustituir a P3 por alguien el más parecido, tendrÃamos que escoger a P1.
Las temporadas seleccionadas para el ejemplo son las de:
P1: Randy Johnson, 2004.
P2: Dontrell Willis, 2005.
P3: Ben Sheets, 2004.
P4: Johan Santana, 2006.
FÃjense en como la razón SO/BB (SBRat) tuvo la mayor variabilidad entre los lanzadores y fue la que prácticamente decidió las distancias encontradas en temporadas, de otra manera, muy similares.
En la próxima entrega veremos como darle diferentes pesos a cada una de las variables y como incorporar a la ecuación variables cualitativas.
Categorias : Lógica Borrosa




