Suponha que tenhamos um amostra aleatória de uma população de interesse. Podemos ter um modelo teórico para a maneira como o população é distribuído. No entanto, pode haver várias populações parâmetros dos quais não conhecemos os valores. A estimativa da máxima verossimilhança é uma maneira de determinar esses parâmetros desconhecidos.
A idéia básica por trás da estimativa da máxima probabilidade é que determinemos os valores desses parâmetros desconhecidos. Fazemos isso de forma a maximizar uma função de densidade de probabilidade conjunta associada ou função de massa de probabilidade. Veremos isso com mais detalhes a seguir. Em seguida, calcularemos alguns exemplos de estimativa de probabilidade máxima.
Etapas para a estimativa de máxima verossimilhança
A discussão acima pode ser resumida pelas seguintes etapas:
- Comece com uma amostra de variáveis aleatórias independentes X1, X2,... Xn de uma distribuição comum, cada uma com função de densidade de probabilidade f (x; θ1,.. .θk). Os thetas são parâmetros desconhecidos.
- Como nossa amostra é independente, a probabilidade de obter a amostra específica que observamos é encontrada pela multiplicação de nossas probabilidades. Isso nos dá uma função de probabilidade L (θ1,.. .θk) = f (x1 ;θ1,.. .θk) f (x2 ;θ1,.. .θk)... f (xn ;θ1,.. .θk) = Π f (xEu ;θ1,.. .θk).
- Em seguida, usamos Cálculo para encontrar os valores de teta que maximizam nossa função de probabilidade L.
- Mais especificamente, diferenciamos a função de probabilidade L em relação a θ se houver um único parâmetro. Se houver vários parâmetros, calculamos derivadas parciais de L em relação a cada um dos parâmetros teta.
- Para continuar o processo de maximização, defina a derivada de L (ou derivadas parciais) igual a zero e resolva para teta.
- Podemos então usar outras técnicas (como um segundo teste de derivada) para verificar se encontramos um máximo para nossa função de probabilidade.
Exemplo
Suponha que tenhamos um pacote de sementes, cada uma com uma probabilidade constante p de sucesso da germinação. Nós plantamos n destes e conte o número daqueles que brotam. Suponha que cada semente brote independentemente das outras. Como determinamos o estimador de probabilidade máxima do parâmetro p?
Começamos observando que cada semente é modelada por uma distribuição de Bernoulli com sucesso de p. Nós deixamos X seja 0 ou 1, e a função de massa de probabilidade para uma única semente é f(x; p ) = px(1 - p)1 - x.
Nossa amostra consiste em n diferente XEu, cada um dos com uma distribuição de Bernoulli. As sementes que brotam têm XEu = 1 e as sementes que não brotam têm XEu = 0.
A função de probabilidade é dada por:
EU ( p ) = Π pxEu(1 - p)1 - xEu
Vemos que é possível reescrever a função de probabilidade usando as leis dos expoentes.
EU ( p ) = pΣ xEu(1 - p)n - Σ xEu
Em seguida, diferenciamos essa função em relação a p. Assumimos que os valores para todos os XEu são conhecidos e, portanto, são constantes. Para diferenciar a função de probabilidade, precisamos usar o regra do produto junto com a regra de energia:
EU' ( p ) = Σ xEup-1 + Σ xEu (1 - p)n - Σ xEu- (n - Σ xEu ) pΣ xEu(1 - p)n-1 - Σ xEu
Reescrevemos alguns dos expoentes negativos e temos:
EU' ( p ) = (1/p) Σ xEupΣ xEu (1 - p)n - Σ xEu- 1/(1 - p) (n - Σ xEu ) pΣ xEu(1 - p)n - Σ xEu
= [(1/p) Σ xEu - 1/(1 - p) (n - Σ xEu)]EupΣ xEu (1 - p)n - Σ xEu
Agora, para continuar o processo de maximização, definimos essa derivada igual a zero e resolvemos p:
0 = [(1/p) Σ xEu - 1/(1 - p) (n - Σ xEu)]EupΣ xEu (1 - p)n - Σ xEu
Desde a p e 1- p) são diferentes de zero, temos que
0 = (1/p) Σ xEu - 1/(1 - p) (n - Σ xEu).
Multiplicando os dois lados da equação por p(1- p) nos dá:
0 = (1 - p) Σ xEu - p (n - Σ xEu).
Expandimos o lado direito e vemos:
0 = Σ xEu - p Σ xEu - pn + pΣ xEu = Σ xEu - pn.
Assim Σ xEu = pn e (1 / n) Σ xEu = p. Isso significa que o estimador de probabilidade máxima de p é uma média da amostra. Mais especificamente, essa é a proporção da amostra das sementes que germinaram. Isso está perfeitamente alinhado com o que a intuição nos diria. Para determinar a proporção de sementes que germinarão, primeiro considere uma amostra da população de interesse.
Modificações nas etapas
Existem algumas modificações na lista de etapas acima. Por exemplo, como vimos acima, normalmente vale a pena gastar algum tempo usando alguma álgebra para simplificar a expressão da função de probabilidade. A razão para isso é facilitar a diferenciação.
Outra alteração na lista de etapas acima é considerar logaritmos naturais. O máximo para a função L ocorrerá no mesmo ponto do logaritmo natural de L. Assim, maximizar ln L é equivalente a maximizar a função L.
Muitas vezes, devido à presença de funções exponenciais em L, assumir o logaritmo natural de L simplificará bastante parte de nosso trabalho.
Exemplo
Vemos como usar o logaritmo natural revisitando o exemplo acima. Começamos com a função de probabilidade:
EU ( p ) = pΣ xEu(1 - p)n - Σ xEu .
Em seguida, usamos nossas leis de logaritmo e vemos que:
R ( p ) = ln ( p ) = Σ xEu em p + (n - Σ xEu) ln (1 - p).
Já vimos que a derivada é muito mais fácil de calcular:
R '( p ) = (1/p) Σ xEu - 1/(1 - p)(n - Σ xEu) .
Agora, como antes, definimos essa derivada igual a zero e multiplicamos ambos os lados por p (1 - p):
0 = (1- p ) Σ xEu - p(n - Σ xEu) .
Nós resolvemos para p e encontre o mesmo resultado de antes.
O uso do logaritmo natural de L (p) é útil de outra maneira. É muito mais fácil calcular uma segunda derivada de R (p) para verificar se realmente temos um máximo no ponto (1 / n) Σ xEu = p.
Exemplo
Para outro exemplo, suponha que tenhamos uma amostra aleatória X1, X2,... Xn de uma população que estamos modelando com uma distribuição exponencial. A função densidade de probabilidade para uma variável aleatória tem a forma f( x ) = θ-1e -x/θ
A função de probabilidade é dada pela função de densidade de probabilidade conjunta. Este é um produto de várias dessas funções de densidade:
L (θ) = Π θ-1e -xEu/θ = θ-ne -ΣxEu/θ
Mais uma vez, é útil considerar o logaritmo natural da função de probabilidade. Diferenciar isso exigirá menos trabalho do que diferenciar a função de probabilidade:
R (θ) = ln L (θ) = ln [θ-ne -ΣxEu/θ]
Usamos nossas leis de logaritmos e obtemos:
R (θ) = ln L (θ) = - n ln θ + -ΣxEu/θ
Nós nos diferenciamos em relação a θ e temos:
R '(θ) = - n / θ + ΣxEu/θ2
Defina essa derivada igual a zero e vemos que:
0 = - n / θ + ΣxEu/θ2.
Multiplique ambos os lados por θ2 e o resultado é:
0 = - n θ + ΣxEu.
Agora use álgebra para resolver θ:
θ = (1 / n) ΣxEu.
Vemos a partir disso que a média da amostra é o que maximiza a função de probabilidade. O parâmetro θ para ajustar-se ao nosso modelo deve ser simplesmente a média de todas as nossas observações.
Conexões
Existem outros tipos de estimadores. Um tipo alternativo de estimativa é chamado de estimador imparcial. Para esse tipo, devemos calcular o valor esperado de nossa estatística e determinar se ela corresponde a um parâmetro correspondente.