Warning: Invalid argument supplied for foreach() in /home/.gingersnap/frankpereiro/beisblogs.com/wp-content/themes/freshy-10/functions.php on line 278
Recta por la media » Peras vs. Manzanas (parte III)

Peras vs. Manzanas (parte III)

28 06 2007

Antes de comenzar: lo intentaré, RoRRo, lo intentaré!!!

Ahora sí, al grano. En la pasada entrega de esta serie habíamos visto diferentes funciones de fuzzificación que permiten pasar cualquier estadística al intervalo [0,1], resaltando alguna zona en particular.

Dos cosas que había olvidado incluir. La primera es que cuando queremos transformar estadísticas para las que un valor menor es mejor que un valor mayor, se debe restar 1 al valor obtenido con la función de fuzzificación. Por ejemplo, para el promedio de carreras limpias (ERA):

,

donde es el valor fuzzy para el ERA, obtenido a través de cualquier función de fuzzificación.

La segunda es introducir una función de fuzzificación, la logarítmica:

.

Aquí, si S>1 se da énfasis a la cola derecha y si S<1 se da énfasis a la izquierda. Con “énfasis” quiero decir que la pendiente en esa zona es más pronunciada que en el resto de la curva. Veamos una curva utilizando diferentes valores de S:

SBRatioF4.png

Una vez resueltos estos dos olvidos, finalizamos con la fuzzificación y comenzamos con la comparación entre jugadores. Para comparar jugadores introducimos el concepto de subconjunto borroso. Un subconjunto borroso es un conjunto de cualidades que define a un jugador. Cada una de esas cualidades viene definida por la posibilidad de ser el mejor en ella.

La distancia entre dos subconjuntos borrosos es, entonces, la distancia entre dos jugadores:

En esta distancia, llamada de Minkowski, la distancia entre el jugador 1 y el 2 es la suma de las diferencias que hay entre cada una de las características utilizadas. Las diferencias se toman en valor absoluto (ninguna distancia es negativa) y se elevan al exponente “k”, un número entero mayor igual que 1. Mientras más grande sea “k”, más grandes se hacen las diferencias grandes y más pequeñas las pequeñas. Cuando “k” es igual a 2, estamos en presencia de la distancia euclidiana.

Realicemos un ejemplo sencillo con el conjunto de datos que hemos venido utilizando (temporadas de lanzadores de más de 100 IP entre 2004 y 2006). De allí tomaremos cuatro características: ERA, Razón SO/BB, IP y OBP en contra. Seleccionamos 4 lanzadores que llamaremos P1, P2, P3 y P4 (los nombres para luego) y calculamos primero la versión difusa de sus estadísticas:

Estadísticas Borrosas

  ERA IP AOBP SBRat
P1 .86 .94 1 .60
P2 .86 .88 .76 .25
P3 .84 .88 .95 .77
P4 .83 .86 .91 .46

Ahora procedemos a calcular las distancias euclidianas entre los cuatro, utilizando como ejemplo la distancia entre P1 y P2:


En la siguiente tabla mostramos todas las distancias calculadas:

Distancias Euclidianas

  P1 P2 P3 P4
P1 0 .43 .19 .19
P2 .43 0 .55 .26
P3 .19 .55 0 .31
P4 .19 .26 .31 0

Dos características necesarias para este tipo de distancias se observan en la tabla. Es triangular, es decir, la distancia entre A y B es la misma que entre B y A. Además, la diagonal es cero, es decir, la distancia entre A y A es cero. Las distancias más pequeñas muestran jugadores similares, mientras que las más grandes muestran jugadores disimilares. Fácilmente podemos observar que P2 es el jugador más disimilar de los tres, mientras que P4 es el más similar a todos los demás. La distancia más corta es la que hay entre P1 y P3 o entre P1 y P4. Si quisiéramos sustituir a P3 por alguien el más parecido, tendríamos que escoger a P1.

Las temporadas seleccionadas para el ejemplo son las de:
P1: Randy Johnson, 2004.
P2: Dontrell Willis, 2005.
P3: Ben Sheets, 2004.
P4: Johan Santana, 2006.

Fíjense en como la razón SO/BB (SBRat) tuvo la mayor variabilidad entre los lanzadores y fue la que prácticamente decidió las distancias encontradas en temporadas, de otra manera, muy similares.

En la próxima entrega veremos como darle diferentes pesos a cada una de las variables y como incorporar a la ecuación variables cualitativas.


Acciones

Informacion

6 respuestas a “Peras vs. Manzanas (parte III)”

28 06 2007
Dragon Negro (15:50:26) :

¿Entonces esa es la metodología?

Defines un conjunto de factores, usas una métrica para definir distancia y calculas con la métrica que ¿mas te convenga? las distancias entre los factores.

Espero intrigado el ajuste de los parámetros o pesos, eso si me da curiosidad.

Bye!

28 06 2007
Julio (16:26:15) :

Viejo, casi me pongo a llorar con este comentario!!!

¿Entonces esa es la metodología?
¿mas te convenga?

Te ha defraudado? Requiero una explicación!!!

28 06 2007
Dragon Negro (19:45:57) :

Ups! perdón si sonó a decepción… nada mas alejado de la realidad!!!

Mis disculpas si se malentendió, déjame explicarme mas ampliamente para que no queden dudas.

La pregunta de la metodología viene porque me parece increíble que se pueda definir alto simple y no un conjunto complicado de procedimientos que hacen que uno se pierda en le camino. Ya me he tenido que calar un par de cursos que sin con matrices DOFA, que si prospectiva tecnológica con encuestas y análisis de datos tediosos, que si……queseyo!!!!

Como físico experimental me agrada la sencillez, así que estoy elogiando. :)

Lo de ¿mas te convenga? viene porque también me parece bueno que la métrica pueda cambiar para poder escalar al asunto en cuestión, tal y como pusiste con la función de fuzzificacion que depende del parámetro S. Eso me parece muy bueno también!!!!!

Y lo de que espero con ansias saber como se ajustan los pesos en las funciones era para poder comparar con la forma en que yo lo hago cuando manejo modelos físicos de fenómenos que aunque conocidos, no se tiene mucha explicación teórica sino experimental.

Espero que no te molestes conmigo, es que a veces me da fastidio escribir mucho y no doy la impresión de animo apropiado. Ademas me acabo de dar cuenta que no puse ni una sola carita, eso habría ayudado….

Nuevamente mis disculpas y estaré esperando tu próximo post… amigos como antes?

28 06 2007
Julio (20:19:37) :

JAJAJAJA

Bueno, entonces gracias!!! La idea del método es ser lo más sencillo posible, porque debe reflejar, de alguna manera, el proceso mental que utilizamos normalmente para tomar cualquier decisión: identificar variables, ponerles valor y compararlas (mediante una distancia) con un modelo.

Así que lo de los pesos va por el mismo camino. Los pesos no tienen mayor secreto que confiar en la experiencia del experto. El experto decide la importancia de cada variable. Punto. Sin secretos. :D

Tranquilo chamo, me agrada la crítica. Un abrazo.

28 06 2007
Daniel (22:17:57) :

Que rata el Dragon Negro :D

29 06 2007
Dragon Negro (12:09:55) :

Nop, en verdad soy gallo según el horóscopo chino. :)

Pero como mi esposa es rata, seguro que ya se me pegaron las malas mañas!!! jajajaja! :)

Y la aplicación del modelo me interesa porque soy fanático de un juego de miniaturas de piratas y los barcos valen puntos según las propiedades que poseen. Yo estaba tratando de encontrar una fórmula que defina el peso de cada habilidad y lo estoy haciendo al “ojo por ciento” y por deducción sobre barcos con todos los parámetros iguales menos uno (para poder calcular cuanto vale la diferencia).

Seria muy interesante aplicar tu método de jugadores de béisbol a barcos y ver que da, seguro que se obtiene algo interesante. ;)

Deje un comentario

usted puede usar estos tags : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>


Para probar que eres una persona (no un script spam), escribe la palabra de seguridad que se muestra en la imagen.
Anti-Spam Image