jueves, 18 de abril de 2013

4. Ejemplo

Dados los siguientes datos:


Calculamos entropía del conjunto:

H(S) = Entropia(S)=4/15 log (15/4) + 8/15 log(15/8) + 3/15 log (15/3) = 0.4384

Ahora elegimos el atributo test con máxima ganacia de información:

Género:




H(S,gender=F)=3/9 log(9/3) + 6/9 log (9/6) =0.2764
H(S,gender=M)=1/6 log(6/1) + 2/6 log (6/2) + 3/6 log(6/3)= 0.4392
por tanto la ganancia de información del género será:
Gain(S,gender) = 0.4384 – 9/15·0.2764 – 6/15·0.4392 = 0.09688
Altura: El algoritmo ID3 tiene como precondición que los datos sean discretos y como la altura es un valor continuo vamos a acotarlo en intervalos:
1: (0,1.6], 2: (1.6,1.7], 3: (1.7,1.8], 4: (1.8,1.9], 5: (1.9,2.0], 6: (2.0,∞)





H(S,height=1)=2/2 log(2/2)=0
H(S,heigth=2)=2/2 log(2/2)=0
H(S,height=3)=3/3 log(3/3)=0
H(S,height=4)=4/4 log(4/4)=0
H(S,height=5)=1/2 log 2 + 1/2 log 2 = 0.301
H(S,height=6)=2/2 log (2/2)=0

Gain(S,height) =0.4384 – 2/15 · 0.301 = 0.3983
Por lo tanto como la ganancia de información del atributo "altura" es mayor que la ganancia de información del atributo "género" se clasificará en base a la "altura"



No hay comentarios:

Publicar un comentario