Peras vs. Manzanas (parte III)
28 06 2007Antes de comenzar: lo intentaré, RoRRo, lo intentaré!!!
Ahora sÃ, al grano. En la pasada entrega de esta serie habÃamos visto diferentes funciones de fuzzificación que permiten pasar cualquier estadÃstica al intervalo [0,1], resaltando alguna zona en particular.
Dos cosas que habÃa olvidado incluir. La primera es que cuando queremos transformar estadÃsticas para las que un valor menor es mejor que un valor mayor, se debe restar 1 al valor obtenido con la función de fuzzificación. Por ejemplo, para el promedio de carreras limpias (ERA):
,
donde es el valor fuzzy para el ERA, obtenido a través de cualquier función de fuzzificación.
La segunda es introducir una función de fuzzificación, la logarÃtmica:
.
AquÃ, si S>1 se da énfasis a la cola derecha y si S<1 se da énfasis a la izquierda. Con “énfasis” quiero decir que la pendiente en esa zona es más pronunciada que en el resto de la curva. Veamos una curva utilizando diferentes valores de S:
Una vez resueltos estos dos olvidos, finalizamos con la fuzzificación y comenzamos con la comparación entre jugadores. Para comparar jugadores introducimos el concepto de subconjunto borroso. Un subconjunto borroso es un conjunto de cualidades que define a un jugador. Cada una de esas cualidades viene definida por la posibilidad de ser el mejor en ella.
La distancia entre dos subconjuntos borrosos es, entonces, la distancia entre dos jugadores:
En esta distancia, llamada de Minkowski, la distancia entre el jugador 1 y el 2 es la suma de las diferencias que hay entre cada una de las caracterÃsticas utilizadas. Las diferencias se toman en valor absoluto (ninguna distancia es negativa) y se elevan al exponente “k”, un número entero mayor igual que 1. Mientras más grande sea “k”, más grandes se hacen las diferencias grandes y más pequeñas las pequeñas. Cuando “k” es igual a 2, estamos en presencia de la distancia euclidiana.
Realicemos un ejemplo sencillo con el conjunto de datos que hemos venido utilizando (temporadas de lanzadores de más de 100 IP entre 2004 y 2006). De allà tomaremos cuatro caracterÃsticas: ERA, Razón SO/BB, IP y OBP en contra. Seleccionamos 4 lanzadores que llamaremos P1, P2, P3 y P4 (los nombres para luego) y calculamos primero la versión difusa de sus estadÃsticas:
EstadÃsticas Borrosas
| ERA | IP | AOBP | SBRat | |
|---|---|---|---|---|
| P1 | .86 | .94 | 1 | .60 |
| P2 | .86 | .88 | .76 | .25 |
| P3 | .84 | .88 | .95 | .77 |
| P4 | .83 | .86 | .91 | .46 |
Ahora procedemos a calcular las distancias euclidianas entre los cuatro, utilizando como ejemplo la distancia entre P1 y P2:
En la siguiente tabla mostramos todas las distancias calculadas:
Distancias Euclidianas
| P1 | P2 | P3 | P4 | |
|---|---|---|---|---|
| P1 | 0 | .43 | .19 | .19 |
| P2 | .43 | 0 | .55 | .26 |
| P3 | .19 | .55 | 0 | .31 |
| P4 | .19 | .26 | .31 | 0 |
Dos caracterÃsticas necesarias para este tipo de distancias se observan en la tabla. Es triangular, es decir, la distancia entre A y B es la misma que entre B y A. Además, la diagonal es cero, es decir, la distancia entre A y A es cero. Las distancias más pequeñas muestran jugadores similares, mientras que las más grandes muestran jugadores disimilares. Fácilmente podemos observar que P2 es el jugador más disimilar de los tres, mientras que P4 es el más similar a todos los demás. La distancia más corta es la que hay entre P1 y P3 o entre P1 y P4. Si quisiéramos sustituir a P3 por alguien el más parecido, tendrÃamos que escoger a P1.
Las temporadas seleccionadas para el ejemplo son las de:
P1: Randy Johnson, 2004.
P2: Dontrell Willis, 2005.
P3: Ben Sheets, 2004.
P4: Johan Santana, 2006.
FÃjense en como la razón SO/BB (SBRat) tuvo la mayor variabilidad entre los lanzadores y fue la que prácticamente decidió las distancias encontradas en temporadas, de otra manera, muy similares.
En la próxima entrega veremos como darle diferentes pesos a cada una de las variables y como incorporar a la ecuación variables cualitativas.

¿Entonces esa es la metodologÃa?
Defines un conjunto de factores, usas una métrica para definir distancia y calculas con la métrica que ¿mas te convenga? las distancias entre los factores.
Espero intrigado el ajuste de los parámetros o pesos, eso si me da curiosidad.
Bye!
Viejo, casi me pongo a llorar con este comentario!!!
¿Entonces esa es la metodologÃa?
¿mas te convenga?
Te ha defraudado? Requiero una explicación!!!
Ups! perdón si sonó a decepción… nada mas alejado de la realidad!!!
Mis disculpas si se malentendió, déjame explicarme mas ampliamente para que no queden dudas.
La pregunta de la metodologÃa viene porque me parece increÃble que se pueda definir alto simple y no un conjunto complicado de procedimientos que hacen que uno se pierda en le camino. Ya me he tenido que calar un par de cursos que sin con matrices DOFA, que si prospectiva tecnológica con encuestas y análisis de datos tediosos, que si……queseyo!!!!
Como fÃsico experimental me agrada la sencillez, asà que estoy elogiando.
Lo de ¿mas te convenga? viene porque también me parece bueno que la métrica pueda cambiar para poder escalar al asunto en cuestión, tal y como pusiste con la función de fuzzificacion que depende del parámetro S. Eso me parece muy bueno también!!!!!
Y lo de que espero con ansias saber como se ajustan los pesos en las funciones era para poder comparar con la forma en que yo lo hago cuando manejo modelos fÃsicos de fenómenos que aunque conocidos, no se tiene mucha explicación teórica sino experimental.
Espero que no te molestes conmigo, es que a veces me da fastidio escribir mucho y no doy la impresión de animo apropiado. Ademas me acabo de dar cuenta que no puse ni una sola carita, eso habrÃa ayudado….
Nuevamente mis disculpas y estaré esperando tu próximo post… amigos como antes?
JAJAJAJA
Bueno, entonces gracias!!! La idea del método es ser lo más sencillo posible, porque debe reflejar, de alguna manera, el proceso mental que utilizamos normalmente para tomar cualquier decisión: identificar variables, ponerles valor y compararlas (mediante una distancia) con un modelo.
Asà que lo de los pesos va por el mismo camino. Los pesos no tienen mayor secreto que confiar en la experiencia del experto. El experto decide la importancia de cada variable. Punto. Sin secretos.
Tranquilo chamo, me agrada la crÃtica. Un abrazo.
Que rata el Dragon Negro
Nop, en verdad soy gallo según el horóscopo chino.
Pero como mi esposa es rata, seguro que ya se me pegaron las malas mañas!!! jajajaja!
Y la aplicación del modelo me interesa porque soy fanático de un juego de miniaturas de piratas y los barcos valen puntos según las propiedades que poseen. Yo estaba tratando de encontrar una fórmula que defina el peso de cada habilidad y lo estoy haciendo al “ojo por ciento” y por deducción sobre barcos con todos los parámetros iguales menos uno (para poder calcular cuanto vale la diferencia).
Seria muy interesante aplicar tu método de jugadores de béisbol a barcos y ver que da, seguro que se obtiene algo interesante.