A variância total é igual. Indicadores de variação: conceito, tipos, fórmulas para cálculos

.

Por outro lado, if é um não negativo a.e. funcionar tal que , então há uma medida de probabilidade absolutamente contínua tal que é sua densidade.

    Substituindo a medida na integral de Lebesgue:

,

onde é qualquer função de Borel que seja integrável em relação à medida de probabilidade.

Dispersão, tipos e propriedades de dispersão O conceito de dispersão

Dispersão nas estatísticasé encontrado como o desvio padrão dos valores individuais da característica ao quadrado da média aritmética. Dependendo dos dados iniciais, é determinado usando fórmulas de variância simples e ponderadas:

1. Variância simples(para dados não agrupados) é calculado usando a fórmula:

2. Variância ponderada (para séries de variação):

onde n é a frequência (repetibilidade do fator X)

Um exemplo de como encontrar variância

Esta página descreve um exemplo padrão de como encontrar a variância. Você também pode ver outros problemas para encontrá-la

Exemplo 1. Determinação do grupo, média do grupo, variância intergrupo e total

Exemplo 2. Encontrando a variância e o coeficiente de variação em uma tabela de agrupamento

Exemplo 3. Encontrando a variância em uma série discreta

Exemplo 4. Os dados a seguir estão disponíveis para um grupo de 20 alunos por correspondência. É necessário construir uma série intervalar da distribuição da característica, calcular o valor médio da característica e estudar sua dispersão

Vamos construir um agrupamento de intervalo. Vamos determinar o intervalo do intervalo usando a fórmula:

onde X max é o valor máximo da característica de agrupamento; X min – valor mínimo da característica de agrupamento; n – número de intervalos:

Aceitamos n=5. O passo é: h = (192 - 159)/ 5 = 6,6

Vamos criar um agrupamento de intervalo

Para cálculos posteriores, construiremos uma tabela auxiliar:

X"i – o meio do intervalo. (por exemplo, o meio do intervalo 159 – 165,6 = 162,3)

Determinamos a altura média dos alunos usando a fórmula da média aritmética ponderada:

Vamos determinar a variância usando a fórmula:

A fórmula pode ser transformada assim:

Desta fórmula segue-se que variância é igual a a diferença entre a média dos quadrados das opções e o quadrado e a média.

Dispersão em séries de variação com intervalos iguais utilizando o método dos momentos pode ser calculado da seguinte forma utilizando a segunda propriedade de dispersão (dividindo todas as opções pelo valor do intervalo). Determinando a variação, calculado usando o método dos momentos, usando a seguinte fórmula é menos trabalhoso:

onde i é o valor do intervalo; A é um zero convencional, para o qual é conveniente utilizar o meio do intervalo com maior frequência; m1 é o quadrado do momento de primeira ordem; m2 - momento de segunda ordem

Variância de característica alternativa (se em uma população estatística uma característica muda de tal forma que existem apenas duas opções mutuamente exclusivas, então tal variabilidade é chamada de alternativa) pode ser calculada usando a fórmula:

Substituindo q = 1- p nesta fórmula de dispersão, obtemos:

Tipos de variação

Variância total mede a variação de uma característica em toda a população como um todo sob a influência de todos os fatores que causam essa variação. É igual ao quadrado médio dos desvios dos valores individuais de uma característica x do valor médio geral de x e pode ser definido como variância simples ou variância ponderada.

Variância dentro do grupo caracteriza variação aleatória, ou seja, parte da variação que se deve à influência de fatores não contabilizados e não depende do fator-atributo que forma a base do grupo. Tal dispersão é igual ao quadrado médio dos desvios dos valores individuais do atributo dentro do grupo X da média aritmética do grupo e pode ser calculada como dispersão simples ou como dispersão ponderada.

Por isso, medidas de variação dentro do grupo variação de uma característica dentro de um grupo e é determinada pela fórmula:

onde xi é a média do grupo; ni é o número de unidades no grupo.

Por exemplo, as variações intragrupo que precisam de ser determinadas na tarefa de estudar a influência das qualificações dos trabalhadores no nível de produtividade do trabalho numa oficina mostram variações na produção em cada grupo causadas por todos os factores possíveis (condição técnica do equipamento, disponibilidade de ferramentas e materiais, idade dos trabalhadores, intensidade de trabalho, etc.), exceto diferenças na categoria de qualificação (dentro de um grupo todos os trabalhadores têm as mesmas qualificações).

A média das variâncias intragrupo reflete a variação aleatória, ou seja, aquela parte da variação que ocorreu sob a influência de todos os outros fatores, com exceção do fator de agrupamento. É calculado usando a fórmula:

Variância intergrupo caracteriza a variação sistemática da característica resultante, que se deve à influência do fator-atributo que forma a base do grupo. É igual ao quadrado médio dos desvios das médias do grupo em relação à média geral. A variância intergrupo é calculada usando a fórmula:

A variância de uma variável aleatória é uma medida da dispersão dos valores desta variável. Baixa variância significa que os valores estão agrupados próximos uns dos outros. Grande dispersão indica uma forte dispersão de valores. O conceito de variância de uma variável aleatória é usado em estatística. Por exemplo, se você comparar a variância de dois valores (como entre pacientes do sexo masculino e feminino), poderá testar a significância de uma variável. A variância também é usada na construção de modelos estatísticos, uma vez que a baixa variância pode ser um sinal de que você está superajustando os valores.

Passos

Cálculo da variação amostral

  1. Registre os valores da amostra. Na maioria dos casos, os estatísticos só têm acesso a amostras de populações específicas. Por exemplo, como regra, os estatísticos não analisam o custo de manutenção da totalidade de todos os carros na Rússia - eles analisam uma amostra aleatória de vários milhares de carros. Essa amostra ajudará a determinar o custo médio de um carro, mas, muito provavelmente, o valor resultante estará longe do real.

    • Por exemplo, vamos analisar o número de pães vendidos em um café durante 6 dias, ordem aleatória. A amostra fica assim: 17, 15, 23, 7, 9, 13. Esta é uma amostra, não uma população, porque não temos dados sobre os pães vendidos para cada dia em que o café está aberto.
    • Se você receber uma população em vez de uma amostra de valores, continue na próxima seção.
  2. Escreva uma fórmula para calcular a variância da amostra. A dispersão é uma medida da dispersão dos valores de uma determinada quantidade. Quanto mais próximo o valor da variância estiver de zero, mais próximos os valores serão agrupados. Ao trabalhar com uma amostra de valores, use a seguinte fórmula para calcular a variância:

    • s 2 (\estilo de exibição s^(2)) = ∑[(x eu (\estilo de exibição x_(i))-x̅) 2 (\estilo de exibição ^(2))] / (n-1)
    • s 2 (\estilo de exibição s^(2))– isso é dispersão. A dispersão é medida em unidades quadradas.
    • x eu (\estilo de exibição x_(i))– cada valor na amostra.
    • x eu (\estilo de exibição x_(i)) você precisa subtrair x̅, elevá-lo ao quadrado e depois adicionar os resultados.
    • x̅ – média amostral (média amostral).
    • n – número de valores na amostra.
  3. Calcule a média amostral.É denotado como x̅. A média amostral é calculada como uma média aritmética simples: some todos os valores da amostra e depois divida o resultado pelo número de valores da amostra.

    • No nosso exemplo, some os valores da amostra: 15 + 17 + 23 + 7 + 9 + 13 = 84
      Agora divida o resultado pelo número de valores da amostra (no nosso exemplo são 6): 84 ÷ 6 = 14.
      Média amostral x̅ = 14.
    • A média amostral é o valor central em torno do qual os valores da amostra são distribuídos. Se os valores na amostra se agruparem em torno da média amostral, então a variância é pequena; caso contrário, a variação é grande.
  4. Subtraia a média amostral de cada valor da amostra. Agora calcule a diferença x eu (\estilo de exibição x_(i))- x̅, onde x eu (\estilo de exibição x_(i))– cada valor na amostra. Cada resultado obtido indica o grau de desvio de um determinado valor da média amostral, ou seja, o quão distante esse valor está da média amostral.

    • No nosso exemplo:
      x 1 (\estilo de exibição x_(1))- x = 17 - 14 = 3
      x 2 (\estilo de exibição x_(2))- x̅ = 15 - 14 = 1
      x 3 (\estilo de exibição x_(3))- x = 23 - 14 = 9
      x 4 (\estilo de exibição x_(4))- x̅ = 7 - 14 = -7
      x 5 (\estilo de exibição x_(5))- x̅ = 9 - 14 = -5
      x 6 (\estilo de exibição x_(6))- x̅ = 13 - 14 = -1
    • A exatidão dos resultados obtidos é fácil de verificar, pois sua soma deve ser igual a zero. Isto está relacionado com a determinação do valor médio, uma vez que valores negativos(distâncias do valor médio aos valores menores) são totalmente compensadas pelos valores positivos (distâncias do valor médio aos valores grandes).
  5. Como observado acima, a soma das diferenças x eu (\estilo de exibição x_(i))- x̅ deve ser igual a zero. Isso significa que a variância média é sempre zero, o que não dá ideia da dispersão dos valores de uma determinada quantidade. Para resolver este problema, eleve ao quadrado cada diferença x eu (\estilo de exibição x_(i))-x̅. Isso resultará em você obter apenas números positivos, que quando adicionado nunca dará 0.

    • No nosso exemplo:
      (x 1 (\estilo de exibição x_(1))-x̅) 2 = 3 2 = 9 (\estilo de exibição ^(2)=3^(2)=9)
      (x 2 (\estilo de exibição (x_(2))-x̅) 2 = 1 2 = 1 (\estilo de exibição ^(2)=1^(2)=1)
      9 2 = 81
      (-7) 2 = 49
      (-5) 2 = 25
      (-1) 2 = 1
    • Você encontrou o quadrado da diferença - x̅) 2 (\estilo de exibição ^(2)) para cada valor na amostra.
  6. Calcule a soma dos quadrados das diferenças. Ou seja, encontre aquela parte da fórmula que está escrita assim: ∑[( x eu (\estilo de exibição x_(i))-x̅) 2 (\estilo de exibição ^(2))]. Aqui o sinal Σ significa a soma das diferenças quadradas para cada valor x eu (\estilo de exibição x_(i)) na amostra. Você já encontrou as diferenças quadradas (x eu (\ displaystyle (x_ (i))-x̅) 2 (\estilo de exibição ^(2)) para cada valor x eu (\estilo de exibição x_(i)) na amostra; agora basta adicionar esses quadrados.

    • No nosso exemplo: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  7. Divida o resultado por n - 1, onde n é o número de valores na amostra. Há algum tempo, para calcular a variância amostral, os estatísticos simplesmente dividiam o resultado por n; neste caso você obterá a média da variância quadrática, que é ideal para descrever a variância de uma determinada amostra. Mas lembre-se de que qualquer amostra é apenas uma pequena parte da população de valores. Se você pegar outra amostra e realizar os mesmos cálculos, obterá um resultado diferente. Acontece que dividir por n - 1 (em vez de apenas n) fornece uma estimativa mais precisa da variação da população, que é o que lhe interessa. A divisão por n – 1 tornou-se comum, por isso está incluída na fórmula de cálculo da variância amostral.

    • No nosso exemplo, a amostra inclui 6 valores, ou seja, n = 6.
      Variância da amostra = s 2 = 166 6 − 1 = (\estilo de exibição s^(2)=(\frac (166)(6-1))=) 33,2
  8. A diferença entre variância e desvio padrão. Observe que a fórmula contém um expoente, portanto a dispersão é medida em unidades quadradas do valor que está sendo analisado. Às vezes, esse valor é bastante difícil de operar; nesses casos, utilize o desvio padrão, que é igual à raiz quadrada da variância. É por isso que a variância da amostra é denotada como s 2 (\estilo de exibição s^(2)), A desvio padrão amostras - como s (\estilo de exibição s).

    • No nosso exemplo, o desvio padrão da amostra é: s = √33,2 = 5,76.

    Cálculo da Variância Populacional

    1. Analise algum conjunto de valores. O conjunto inclui todos os valores da quantidade em consideração. Por exemplo, se você estudar a idade dos residentes da região de Leningrado, a totalidade inclui a idade de todos os residentes desta região. Ao trabalhar com uma população, é recomendável criar uma tabela e inserir nela os valores da população. Considere o seguinte exemplo:

      • Em uma determinada sala existem 6 aquários. Cada aquário contém o seguinte número de peixes:
        x 1 = 5 (\estilo de exibição x_(1)=5)
        x 2 = 5 (\estilo de exibição x_(2)=5)
        x 3 = 8 (\estilo de exibição x_(3)=8)
        x 4 = 12 (\estilo de exibição x_(4)=12)
        x 5 = 15 (\estilo de exibição x_(5)=15)
        x 6 = 18 (\estilo de exibição x_(6)=18)
    2. Escreva uma fórmula para calcular a variância populacional. Como a totalidade inclui todos os valores de uma determinada quantidade, a fórmula abaixo nos permite obter valor exato variações populacionais. Para distinguir a variância populacional da variância amostral (que é apenas uma estimativa), os estatísticos usam várias variáveis:

      • σ 2 (\estilo de exibição ^(2)) = (∑(x eu (\estilo de exibição x_(i)) - μ) 2 (\estilo de exibição ^(2)))/n
      • σ 2 (\estilo de exibição ^(2))– dispersão populacional (leia-se “sigma ao quadrado”). A dispersão é medida em unidades quadradas.
      • x eu (\estilo de exibição x_(i))– cada valor na sua totalidade.
      • Σ – sinal de soma. Ou seja, de cada valor x eu (\estilo de exibição x_(i)) você precisa subtrair μ, elevar ao quadrado e depois adicionar os resultados.
      • μ – média populacional.
      • n – número de valores na população.
    3. Calcule a média da população. Ao trabalhar com uma população, sua média é denotada como μ (mu). A média populacional é calculada como uma média aritmética simples: some todos os valores da população e depois divida o resultado pelo número de valores da população.

      • Tenha em mente que as médias nem sempre são calculadas como média aritmética.
      • No nosso exemplo, a média da população: μ = 5 + 5 + 8 + 12 + 15 + 18 6 (\displaystyle (\frac (5+5+8+12+15+18)(6))) = 10,5
    4. Subtraia a média da população de cada valor da população. Quanto mais próximo o valor da diferença estiver de zero, mais próximo o valor específico estará da média da população. Encontre a diferença entre cada valor da população e sua média e você terá uma primeira ideia da distribuição dos valores.

      • No nosso exemplo:
        x 1 (\estilo de exibição x_(1))- μ = 5 - 10,5 = -5,5
        x 2 (\estilo de exibição x_(2))- μ = 5 - 10,5 = -5,5
        x 3 (\estilo de exibição x_(3))- μ = 8 - 10,5 = -2,5
        x 4 (\estilo de exibição x_(4))- μ = 12 - 10,5 = 1,5
        x 5 (\estilo de exibição x_(5))- μ = 15 - 10,5 = 4,5
        x 6 (\estilo de exibição x_(6))- μ = 18 - 10,5 = 7,5
    5. Eleve ao quadrado cada resultado obtido. Os valores das diferenças serão positivos e negativos; Se esses valores forem plotados em uma reta numérica, eles ficarão à direita e à esquerda da média populacional. Isto não é adequado para calcular a variância, uma vez que números negativos compensar um ao outro. Portanto, eleve ao quadrado cada diferença para obter números exclusivamente positivos.

      • No nosso exemplo:
        (x eu (\estilo de exibição x_(i)) - μ) 2 (\estilo de exibição ^(2)) para cada valor da população (de i = 1 a i = 6):
        (-5,5)2 (\estilo de exibição ^(2)) = 30,25
        (-5,5)2 (\estilo de exibição ^(2)), Onde x n (\estilo de exibição x_(n))– o último valor da população.
      • Para calcular o valor médio dos resultados obtidos, é necessário encontrar sua soma e dividi-la por n:(( x 1 (\estilo de exibição x_(1)) - μ) 2 (\estilo de exibição ^(2)) + (x 2 (\estilo de exibição x_(2)) - μ) 2 (\estilo de exibição ^(2)) + ... + (x n (\estilo de exibição x_(n)) - μ) 2 (\estilo de exibição ^(2)))/n
      • Agora vamos escrever a explicação acima usando variáveis: (∑( x eu (\estilo de exibição x_(i)) - μ) 2 (\estilo de exibição ^(2))) /n e obtenha uma fórmula para calcular a variância da população.

No anterior apresentamos uma série de fórmulas que nos permitem encontrar as características numéricas das funções quando são conhecidas as leis de distribuição dos argumentos. Porém, em muitos casos, para encontrar as características numéricas das funções, não é necessário sequer conhecer as leis de distribuição dos argumentos, mas basta conhecer apenas algumas de suas características numéricas; ao mesmo tempo, geralmente dispensamos quaisquer leis de distribuição. Determinar as características numéricas das funções a partir de determinadas características numéricas dos argumentos é amplamente utilizado na teoria das probabilidades e pode simplificar significativamente a solução de vários problemas. A maioria destes métodos simplificados refere-se a funções lineares; entretanto, algumas funções não lineares elementares também permitem uma abordagem semelhante.

No presente apresentaremos uma série de teoremas sobre as características numéricas das funções, que juntos representam um aparato muito simples para o cálculo dessas características, aplicáveis ​​em uma ampla gama de condições.

1. Expectativa matemática de um valor não aleatório

A propriedade formulada é bastante óbvia; pode ser comprovado considerando uma variável não aleatória como um tipo especial de aleatória, com um valor possível e probabilidade um; então, de acordo com a fórmula geral da expectativa matemática:

.

2. Dispersão de uma variável não aleatória

Se não valor aleatório, Que

3. Substituindo um valor não aleatório pelo sinal da expectativa matemática

, (10.2.1)

isto é, um valor não aleatório pode ser considerado um sinal da expectativa matemática.

Prova.

a) Para quantidades descontínuas

b) Para quantidades contínuas

.

4. Extraindo um valor não aleatório do sinal de dispersão e desvio padrão

Se é uma quantidade não aleatória e é aleatória, então

, (10.2.2)

isto é, um valor não aleatório pode ser retirado do sinal da dispersão elevando-o ao quadrado.

Prova. Por definição de variância

Consequência

,

isto é, um valor não aleatório pode ser retirado do sinal do desvio padrão pelo seu valor absoluto. Obtemos a prova extraindo a raiz quadrada da fórmula (10.2.2) e levando em consideração que o r.s.o. - um valor significativamente positivo.

5. Expectativa matemática da soma das variáveis ​​aleatórias

Vamos provar que para quaisquer duas variáveis ​​aleatórias e

ou seja valor esperado a soma de duas variáveis ​​aleatórias é igual à soma de suas expectativas matemáticas.

Esta propriedade é conhecida como teorema da adição de expectativas matemáticas.

Prova.

a) Seja um sistema de variáveis ​​aleatórias descontínuas. Apliquemos a fórmula geral (10.1.6) à soma de variáveis ​​aleatórias para a expectativa matemática de uma função de dois argumentos:

.

Ho representa nada mais do que a probabilidade total de que a quantidade assuma o valor:

;

por isso,

.

Da mesma forma provaremos que

,

e o teorema está provado.

b) Seja um sistema de variáveis ​​aleatórias contínuas. De acordo com a fórmula (10.1.7)

. (10.2.4)

Vamos transformar a primeira das integrais (10.2.4):

;

de forma similar

,

e o teorema está provado.

Deve-se notar especialmente que o teorema da adição de expectativas matemáticas é válido para quaisquer variáveis ​​​​aleatórias - tanto dependentes quanto independentes.

O teorema para adicionar expectativas matemáticas é generalizado para um número arbitrário de termos:

, (10.2.5)

isto é, a expectativa matemática da soma de diversas variáveis ​​aleatórias é igual à soma de suas expectativas matemáticas.

Para provar isso, basta utilizar o método da indução completa.

6. Expectativa matemática Função linear

Considere uma função linear de vários argumentos aleatórios:

onde estão os coeficientes não aleatórios. Vamos provar isso

, (10.2.6)

ou seja, a expectativa matemática de uma função linear é igual à mesma função linear das expectativas matemáticas dos argumentos.

Prova. Usando o teorema da adição de m.o. e a regra de colocar uma quantidade não aleatória fora do sinal do m.o., obtemos:

.

7. Disponibilizaçãoepisódioesta soma de variáveis ​​​​aleatórias

A variância da soma de duas variáveis ​​aleatórias é igual à soma de suas variâncias mais o dobro do momento de correlação:

Prova. Vamos denotar

De acordo com o teorema da adição de expectativas matemáticas

Vamos passar das variáveis ​​aleatórias para as variáveis ​​centralizadas correspondentes. Subtraindo a igualdade (10.2.9) termo a termo da igualdade (10.2.8), temos:

Por definição de variância

Q.E.D.

A fórmula (10.2.7) para a variância da soma pode ser generalizada para qualquer número de termos:

, (10.2.10)

onde está o momento de correlação das quantidades, o sinal sob a soma significa que a soma se estende a todas as combinações possíveis de variáveis ​​​​aleatórias aos pares .

A prova é semelhante à anterior e segue a fórmula do quadrado de um polinômio.

A fórmula (10.2.10) pode ser escrita de outra forma:

, (10.2.11)

onde a soma dupla se estende a todos os elementos da matriz de correlação do sistema de quantidades , contendo momentos de correlação e variâncias.

Se todas as variáveis ​​aleatórias , incluídos no sistema, não são correlacionados (ou seja, quando ), a fórmula (10.2.10) assume a forma:

, (10.2.12)

isto é, a variância da soma das variáveis ​​aleatórias não correlacionadas é igual à soma das variâncias dos termos.

Esta posição é conhecida como teorema da adição de variâncias.

8. Variância de uma função linear

Vamos considerar uma função linear de diversas variáveis ​​aleatórias.

onde estão quantidades não aleatórias.

Vamos provar que a dispersão desta função linear é expressa pela fórmula

, (10.2.13)

onde está o momento de correlação das quantidades , .

Prova. Vamos apresentar a notação:

. (10.2.14)

Aplicando a fórmula (10.2.10) para a dispersão da soma ao lado direito da expressão (10.2.14) e tendo em conta que , obtemos:

onde está o momento de correlação das quantidades:

.

Vamos calcular esse momento. Nós temos:

;

de forma similar

Substituindo esta expressão em (10.2.15), chegamos à fórmula (10.2.13).

No caso especial quando todas as quantidades não são correlacionados, a fórmula (10.2.13) assume a forma:

, (10.2.16)

isto é, a variância de uma função linear de variáveis ​​​​aleatórias não correlacionadas é igual à soma dos produtos dos quadrados dos coeficientes e das variâncias dos argumentos correspondentes.

9. Expectativa matemática de um produto de variáveis ​​aleatórias

A expectativa matemática do produto de duas variáveis ​​aleatórias é igual ao produto de suas expectativas matemáticas mais o momento de correlação:

Prova. Procederemos da definição do momento de correlação:

Vamos transformar esta expressão usando as propriedades da expectativa matemática:

o que é obviamente equivalente à fórmula (10.2.17).

Se as variáveis ​​​​aleatórias não estiverem correlacionadas, a fórmula (10.2.17) assume a forma:

isto é, a expectativa matemática do produto de duas variáveis ​​aleatórias não correlacionadas é igual ao produto das suas expectativas matemáticas.

Esta posição é conhecida como teorema da multiplicação das expectativas matemáticas.

A fórmula (10.2.17) nada mais é do que uma expressão do segundo momento central misto do sistema através do segundo momento inicial misto e das expectativas matemáticas:

. (10.2.19)

Esta expressão é frequentemente usada na prática ao calcular o momento de correlação da mesma forma que para uma variável aleatória a variância é frequentemente calculada através do segundo momento inicial e da expectativa matemática.

O teorema da multiplicação das expectativas matemáticas é generalizado para um número arbitrário de fatores, só que neste caso, para sua aplicação, não basta que as quantidades sejam não correlacionadas, mas é necessário que alguns momentos mistos superiores, cujo número depende no número de termos no produto, desaparece. Estas condições são certamente satisfeitas se as variáveis ​​aleatórias incluídas no produto forem independentes. Nesse caso

, (10.2.20)

isto é, a expectativa matemática do produto de variáveis ​​aleatórias independentes é igual ao produto de suas expectativas matemáticas.

Esta proposição pode ser facilmente comprovada por indução completa.

10. Variância do produto de variáveis ​​aleatórias independentes

Vamos provar que para quantidades independentes

Prova. Vamos denotar. Por definição de variância

Como as quantidades são independentes, e

Quando independentes, as quantidades também são independentes; por isso,

,

Mas nada mais é do que o segundo momento inicial de magnitude e, portanto, é expresso através da dispersão:

;

de forma similar

.

Substituindo essas expressões na fórmula (10.2.22) e trazendo termos semelhantes, chegamos à fórmula (10.2.21).

No caso de multiplicação de variáveis ​​aleatórias centradas (variáveis ​​com expectativas matemáticas iguais a zero), a fórmula (10.2.21) assume a forma:

, (10.2.23)

isto é, a variância do produto de variáveis ​​aleatórias centradas independentes é igual ao produto de suas variâncias.

11. Maiores momentos da soma das variáveis ​​aleatórias

Em alguns casos, é necessário calcular os momentos mais altos da soma das variáveis ​​aleatórias independentes. Vamos provar algumas relações relacionadas aqui.

1) Se as quantidades forem independentes, então

Prova.

de onde, de acordo com o teorema da multiplicação das expectativas matemáticas

Mas o primeiro momento central para qualquer quantidade é zero; os dois termos médios desaparecem e a fórmula (10.2.24) é provada.

A relação (10.2.24) é facilmente generalizada por indução a um número arbitrário de termos independentes:

. (10.2.25)

2) O quarto momento central da soma de duas variáveis ​​​​aleatórias independentes é expresso pela fórmula

onde estão as variações das quantidades e .

A prova é completamente semelhante à anterior.

Usando o método de indução completa, é fácil provar a generalização da fórmula (10.2.26) para um número arbitrário de termos independentes.

Vamos calcular emEMEXCELvariância amostral e desvio padrão. Também calcularemos a variância de uma variável aleatória se sua distribuição for conhecida.

Vamos primeiro considerar dispersão, então desvio padrão.

Variância da amostra

Variância da amostra (variância da amostra,amostravariação) caracteriza a dispersão de valores na matriz em relação a .

Todas as 3 fórmulas são matematicamente equivalentes.

Da primeira fórmula fica claro que variação amostralé a soma dos desvios quadrados de cada valor na matriz da média, dividido pelo tamanho da amostra menos 1.

variações amostras A função DISP() é usada, em inglês. o nome VAR, ou seja, VARIância. A partir da versão MS EXCEL 2010, recomenda-se utilizar seu analógico DISP.V(), inglês. o nome VARS, ou seja, Exemplo de VARIância. Além disso, a partir da versão MS EXCEL 2010, existe uma função DISP.Г(), em inglês. nome VARP, ou seja, Variância populacional, que calcula dispersão Para população. Toda a diferença se resume ao denominador: em vez de n-1 como DISP.V(), DISP.G() tem apenas n no denominador. Antes do MS EXCEL 2010, a função VAR() era usada para calcular a variância da população.

Variância da amostra
=QUADROTCL(Amostra)/(CONTAR(Amostra)-1)
=(SUM(Amostra)-CONTAR(Amostra)*MÉDIA(Amostra)^2)/ (CONTAR(Amostra)-1)– fórmula habitual
=SOMA((Amostra -MÉDIA(Amostra))^2)/ (CONTAR(Amostra)-1) –

Variância da amostraé igual a 0, somente se todos os valores forem iguais entre si e, portanto, iguais valor médio. Geralmente, quanto maior o valor variações, maior será a dispersão dos valores na matriz.

Variância da amostraé uma estimativa pontual variações distribuição da variável aleatória a partir da qual foi feita amostra. Sobre construção intervalos de confiança ao avaliar variações pode ser lido no artigo.

Variância de uma variável aleatória

Calcular dispersão variável aleatória, você precisa saber disso.

Para variações a variável aleatória X é frequentemente denotada como Var(X). Dispersão igual ao quadrado do desvio da média E(X): Var(X)=E[(X-E(X)) 2 ]

dispersão calculado pela fórmula:

onde x i é o valor que uma variável aleatória pode assumir, e μ é o valor médio (), p(x) é a probabilidade de a variável aleatória assumir o valor x.

Se uma variável aleatória tiver , então dispersão calculado pela fórmula:

Dimensão variações corresponde ao quadrado da unidade de medida valores iniciais. Por exemplo, se os valores na amostra representam medidas de peso da peça (em kg), então a dimensão de variância seria kg 2 . Isto pode ser difícil de interpretar, portanto, para caracterizar a dispersão dos valores, um valor igual à raiz quadrada de variaçõesdesvio padrão.

Algumas propriedades variações:

Var(X+a)=Var(X), onde X é uma variável aleatória e a é uma constante.

Var(aХ)=a 2 Var(X)

Var(X)=E[(X-E(X)) 2 ]=E=E(X 2)-E(2*X*E(X))+(E(X)) 2 =E(X 2)- 2*E(X)*E(X)+(E(X)) 2 =E(X 2)-(E(X)) 2

Esta propriedade de dispersão é usada em artigo sobre regressão linear.

Var(X+Y)=Var(X) + Var(Y) + 2*Cov(X;Y), onde X e Y são variáveis ​​aleatórias, Cov(X;Y) é a covariância dessas variáveis ​​aleatórias.

Se as variáveis ​​aleatórias são independentes, então elas covariânciaé igual a 0 e, portanto, Var(X+Y)=Var(X)+Var(Y). Esta propriedade de dispersão é usada na derivação.

Vamos mostrar que para quantidades independentes Var(X-Y)=Var(X+Y). Na verdade, Var(X-Y)= Var(X-Y)= Var(X+(-Y))= Var(X)+Var(-Y)= Var(X)+Var(-Y)= Var( X)+(- 1) 2 Var(Y)= Var(X)+Var(Y)= Var(X+Y). Esta propriedade de dispersão é usada para construir.

Desvio padrão da amostra

Desvio padrão da amostraé uma medida de quão dispersos os valores em uma amostra estão em relação aos seus.

A-priorado, desvio padrão igual à raiz quadrada de variações:

Desvio padrão não leva em consideração a magnitude dos valores em amostra, mas apenas o grau de dispersão dos valores ao seu redor média. Para ilustrar isso, vamos dar um exemplo.

Vamos calcular o desvio padrão para 2 amostras: (1; 5; 9) e (1001; 1005; 1009). Em ambos os casos, s=4. É óbvio que a razão entre o desvio padrão e os valores da matriz difere significativamente entre as amostras. Para tais casos é usado O coeficiente de variação(Coeficiente de Variação, CV) - razão Desvio padrão para a média aritmética, expresso em porcentagem.

No MS EXCEL 2007 e versões anteriores para cálculo Desvio padrão da amostra a função =STDEVAL() é usada, em inglês. nomeie STDEV, ou seja, Desvio padrão. A partir da versão do MS EXCEL 2010, recomenda-se utilizar seu análogo =STDEV.B() , inglês. nomeie STDEV.S, ou seja, Exemplo de desvio padrão.

Além disso, a partir da versão MS EXCEL 2010, existe uma função STANDARDEV.G(), em inglês. nomeie STDEV.P, ou seja, População STandard DEViation, que calcula desvio padrão Para população. Toda a diferença se resume ao denominador: em vez de n-1 como em STANDARDEV.V(), STANDARDEVAL.G() tem apenas n no denominador.

Desvio padrão também pode ser calculado diretamente usando as fórmulas abaixo (ver arquivo de exemplo)
=RAIZ(QUADROTCL(Amostra)/(CONTAR(Amostra)-1))
=RAIZ((SUM(Amostra)-CONTAR(Amostra)*MÉDIA(Amostra)^2)/(CONTAR(Amostra)-1))

Outras medidas de dispersão

A função SQUADROTCL() calcula com uma soma dos desvios quadrados dos valores de seus média. Esta função retornará o mesmo resultado da fórmula =DISP.G( Amostra)*VERIFICAR( Amostra) , Onde Amostra- uma referência a um intervalo contendo uma matriz de valores de amostra(). Os cálculos na função QUADROCL() são feitos de acordo com a fórmula:

A função SROTCL() também é uma medida da dispersão de um conjunto de dados. A função SROTCL() calcula a média dos valores absolutos dos desvios dos valores de média. Esta função retornará o mesmo resultado da fórmula =SOMAPRODUTO(ABS(Amostra-MÉDIA(Amostra)))/CONTAR(Amostra), Onde Amostra- um link para um intervalo contendo uma matriz de valores de amostra.

Os cálculos na função SROTCL() são feitos de acordo com a fórmula:

Dispersãovariável aleatória- medida da propagação de um determinado variável aleatória, isto é, ela desvios da expectativa matemática. Nas estatísticas, a notação (sigma ao quadrado) é frequentemente usada para denotar dispersão. A raiz quadrada da variância igual a é chamada desvio padrão ou spread padrão. O desvio padrão é medido nas mesmas unidades que a própria variável aleatória, e a variância é medida nos quadrados dessa unidade.

Embora seja muito conveniente usar apenas um valor (como a média ou moda e mediana) para estimar a amostra inteira, esta abordagem pode facilmente levar a conclusões incorretas. A razão para esta situação não reside no valor em si, mas no facto de um valor não reflectir de forma alguma a dispersão dos valores dos dados.

Por exemplo, na amostra:

o valor médio é 5.

No entanto, na própria amostra não existe um único elemento com valor 5. Talvez seja necessário saber o grau de proximidade de cada elemento da amostra com seu valor médio. Ou em outras palavras, você precisará saber a variação dos valores. Conhecendo o grau de mudança nos dados, você pode interpretar melhor valor médio, mediana E moda. O grau em que os valores da amostra mudam é determinado calculando sua variância e desvio padrão.



Variância e Raiz quadrada da variância, chamada de desvio padrão, caracteriza o desvio médio da média amostral. Entre essas duas quantidades valor mais alto Tem desvio padrão. Este valor pode ser pensado como a distância média que os elementos estão do elemento central da amostra.

A variação é difícil de interpretar de forma significativa. Contudo, a raiz quadrada deste valor é o desvio padrão e pode ser facilmente interpretado.

O desvio padrão é calculado determinando primeiro a variância e depois calculando a raiz quadrada da variância.

Por exemplo, para o array de dados mostrado na figura, serão obtidos os seguintes valores:

Imagem 1

Aqui, o valor médio das diferenças quadradas é 717,43. Para obter o desvio padrão, basta extrair a raiz quadrada desse número.

O resultado será de aproximadamente 26,78.

Lembre-se de que o desvio padrão é interpretado como a distância média que os itens estão da média amostral.

O desvio padrão mede quão bem a média descreve toda a amostra.

Digamos que você seja um gerente Departamento de Produção Montagem de PC. O relatório trimestral afirma que a produção no último trimestre foi de 2.500 PCs. Isso é bom ou ruim? Você solicitou (ou já existe esta coluna no relatório) para exibir o desvio padrão desses dados no relatório. O valor do desvio padrão, por exemplo, é 2.000. Fica claro para você, como chefe do departamento, que a linha de produção exige melhor gestão(desvios muito grandes no número de PCs montados).

Lembre-se de que quando o desvio padrão é grande, os dados estão amplamente dispersos em torno da média e, quando o desvio padrão é pequeno, eles se agrupam perto da média.

As quatro funções estatísticas VAR(), VAR(), STDEV() e STDEV() são projetadas para calcular a variância e o desvio padrão de números em um intervalo de células. Antes de poder calcular a variância e o desvio padrão de um conjunto de dados, é necessário determinar se os dados representam uma população ou uma amostra de uma população. No caso de uma amostra de uma população geral, devem ser utilizadas as funções VAR() e STDEV(), e no caso de uma população geral, as funções VAR() e STDEV():

População Função

DISPR()

STANDOTLONP()
Amostra

DISP()

DESVPAD()

A dispersão (assim como o desvio padrão), como observamos, indica até que ponto os valores incluídos no conjunto de dados estão espalhados em torno da média aritmética.

Um pequeno valor de variância ou desvio padrão indica que todos os dados estão concentrados em torno da média aritmética, e grande importância Esses valores indicam que os dados estão espalhados por uma ampla faixa de valores.

A dispersão é bastante difícil de interpretar de forma significativa (o que significa um valor pequeno, um valor grande?). Desempenho Tarefas 3 permitirá que você mostre visualmente, em um gráfico, o significado da variação de um conjunto de dados.

Tarefas

· Exercício 1.

· 2.1. Dê os conceitos: dispersão e desvio padrão; sua designação simbólica para processamento de dados estatísticos.

· 2.2. Preencha a planilha conforme Figura 1 e faça os cálculos necessários.

· 2.3. Dê as fórmulas básicas usadas nos cálculos

· 2.4. Explique todas as designações ( , , )

· 2.5. Explique o significado prático dos conceitos de dispersão e desvio padrão.

Tarefa 2.

1.1. Dê os conceitos: população geral e amostra; expectativa matemática e sua designação simbólica média aritmética para processamento de dados estatísticos.

1.2. De acordo com a Figura 2, prepare uma planilha e faça os cálculos.

1.3. Forneça as fórmulas básicas utilizadas nos cálculos (para população geral e amostra).

Figura 2

1.4. Explique por que é possível obter médias aritméticas em amostras como 46,43 e 48,78 (ver arquivo Apêndice). Tire conclusões.

Tarefa 3.

Existem duas amostras com conjuntos de dados diferentes, mas a média delas será a mesma:

Figura 3

3.1. Preencha a planilha conforme Figura 3 e faça os cálculos necessários.

3.2. Dê as fórmulas básicas de cálculo.

3.3. Construa gráficos de acordo com as Figuras 4, 5.

3.4. Explique as dependências obtidas.

3.5. Faça cálculos semelhantes para os dados de duas amostras.

Amostra original 11119999

Selecione os valores da segunda amostra para que a média aritmética da segunda amostra seja a mesma, por exemplo:

Selecione você mesmo os valores para a segunda amostra. Organize cálculos e gráficos semelhantes às Figuras 3, 4, 5. Mostre as fórmulas básicas que foram utilizadas nos cálculos.

Tire conclusões apropriadas.

Conclua todas as tarefas em forma de relatório com todos os desenhos, gráficos, fórmulas e breves explicações necessárias.

Nota: a construção dos gráficos deverá ser explicada com desenhos e breves explicações.



Publicações relacionadas