Exemplo:
Estimar o atraso médio(RTT) da comunicação entre o computador A e B.
Quantos valores (amostras) devemos incluir em nossa amostra?
A determinação do tamanho de uma amostra é problema de grande importância, porque:
Amostras desnecessariamente grandes acarretam desperdício de tempo (Tenho que fazer mais simulações e/ experimento);
Amostras excessivamente pequenas podem levar a resultados não confiáveis.
Em muitos casos é possível determinar o tamanho mínimo de uma amostra para estimar um parâmetro estatístico, como por exemplo, a MÉDIA POPULACIONAL (µ) .
A fórmula para cálculo do tamanho da amostra para uma estimativa confiável da MÉDIA POPULACIONAL (µ) é dada por:
Equação 1
n=(Zα/2 . σ / E)^2
Onde:
n = Número de indivíduos na amostra (tamanho da amostra)
Zα/2 = Valor da tabela TStudent com grau de confiança desejado (Ex 90% ).
Grau de Liberdade (G.L.) = numero de amostras (n) - 1.
σ = Desvio-padrão populacional da variável estudada (no exemplo, RTT).
E = Margem de erro ou ERRO MÁXIMO DE ESTIMATIVA.
Identifica a diferença máxima entre a MÉDIA AMOSTRAL ( X ) e a verdadeira MÉDIA POPULACIONAL.
Tabela TStudent
Queremos determinar o numero de simulações necessárias n (a simulação gera uma amostra, média).
É pedido que o intervalo de confiança no resultado seja de 95% ⇒ α = 0,05.
É pedido que a média amostral esteja a menos de 0,01ms da verdadeira média populacional ⇒ E = 0,01
σ = 0,1ms. ( Caso não seja conhecido, substitui por S () e calcula-se com as amostras sempre que for usar com novo n)
n=(Zα/2 . σ / E)^2= ( 1,96 . 0,1 / 0,01 ) ˆ2 = 384,16 ==> **385 amostras serão necessárias.**
IMPORTANTE!
Como normalmente estamos simulando propostas, NÃO CONHECEMOS o
σ.
Precisamos usar o desvio padrão calculado das simulações (S) =⇒ calcular o
S.
Geramos n0 simulações Ex n0 = 10.
Calculamos o Desvio padrão destes resultados (amostras) que é o S.
usamos na formula o S no lugar do σ que não conhecemos.
Quando tivermos o valor de n, geramos as n simulações e voltamos a calcular o novo S com n simulações desta vez.
Assim teremos o novo n. Se o n for maior devemos complementar o numero de novas simulações (novas sementes) e recalcular o S até que novos cálculos tenham um n menor ou igual ao anterior.
A mesma Solução mas sem conhecer o σ. COM BASE NA ESTIMATIVA DA MÉDIA POPULACIONAL (Mundo da simulação)
Cacular o S.
simular e colher o resultado de n0 simulações. Ex n0 = 20.
simular 20 vezes e calcular o desvio padrão dos 20 resultados, Ex S = 0,1ms.
Apesar do valor ser igual ao σ, como não temos como saber disso (na vida real) pois o σ seria calculado com n = ∞.
Para resolver este problema falamos que nosso resultado tem Graus de Liberdade (G.L.) = 20 - 1 = 19.
Procurando na tabela TStudent temos o valor de 2,093 no lugar de 1,96 ( caso n = ∞).
Cacular o n.
n=(Zα/2 . S / E)^2= ( 2,093 . 0,1 / 0,01 ) ˆ2 = 438,06 ==> **439 amostras serão necessárias.**
Veja que aumentou o numero de simulações necessárias devido ao não conhecimento do σ.
Nesse caso usamos S calculado.
Observe que se for aceito um
Erro maior ex.:
E= 0,02
n=(Zα/2 . S / E)^2= ( 2,093 . 0,1 / 0,02 ) ˆ2 = 109,51 ==> **110 amostras serão necessárias. 25,05% do inicial**
Observe que se for aceito um Erro maior ainda ex.: E= 0,03
n=(Zα/2 . S / E)^2= ( 2,093 . 0,1 / 0,03 ) ˆ2 = 48,67 ==> **49 amostras serão necessárias. 11,16 do inicial**
Observe que se for aceito um
intervalo de confiança no resultado menor ex.: 90% =⇒
α = 0,10
n=(Zα/2 . S / E)^2= ( 1,729 . 0,1 / 0,01 ) ˆ2 = 298,944 ==> **299 amostras serão necessárias. 68,10% do inicial**
Observe que se for aceito um intervalo de confiança maior ainda ex.: 80% =⇒ α = 0,20
n=(Zα/2 . S / E)^2= ( 1,328 . 0,1 / 0,01 ) ˆ2 = 176,35 ==> **177 amostras serão necessárias. 40,31% do inicial**