Dispersão nas estatísticas. Variância e desvio padrão no MS EXCEL

Dispersãovariável aleatória- medida da propagação de um determinado variável aleatória, isto é, ela desvios da expectativa matemática. Nas estatísticas, a notação (sigma ao quadrado) é frequentemente usada para denotar dispersão. A raiz quadrada da variância igual a é chamada desvio padrão ou spread padrão. O desvio padrão é medido nas mesmas unidades que a própria variável aleatória, e a variância é medida nos quadrados dessa unidade.

Embora seja muito conveniente usar apenas um valor (como a média ou moda e mediana) para estimar a amostra inteira, esta abordagem pode facilmente levar a conclusões incorretas. A razão para esta situação não reside no valor em si, mas no facto de um valor não reflectir de forma alguma a dispersão dos valores dos dados.

Por exemplo, na amostra:

o valor médio é 5.

No entanto, na própria amostra não existe um único elemento com valor 5. Talvez seja necessário saber o grau de proximidade de cada elemento na amostra com seu valor médio. Ou em outras palavras, você precisará saber a variação dos valores. Conhecendo o grau de mudança nos dados, você pode interpretar melhor valor médio, mediana E moda. O grau em que os valores amostrais mudam é determinado calculando sua variância e desvio padrão.



A variância e a raiz quadrada da variância, chamada de desvio padrão, caracterizam o desvio médio da média amostral. Entre essas duas quantidades valor mais alto Tem desvio padrão. Este valor pode ser pensado como a distância média que os elementos estão do elemento central da amostra.

A variação é difícil de interpretar de forma significativa. Contudo, a raiz quadrada deste valor é o desvio padrão e pode ser facilmente interpretado.

O desvio padrão é calculado primeiro determinando a variância e depois calculando raiz quadrada da dispersão.

Por exemplo, para o array de dados mostrado na figura, serão obtidos os seguintes valores:

Imagem 1

Aqui, o valor médio das diferenças quadradas é 717,43. Para obter o desvio padrão, basta extrair a raiz quadrada desse número.

O resultado será de aproximadamente 26,78.

Lembre-se de que o desvio padrão é interpretado como a distância média que os itens estão da média amostral.

O desvio padrão mede quão bem a média descreve toda a amostra.

Digamos que você seja um gerente Departamento de Produção Montagem de PC. O relatório trimestral afirma que a produção no último trimestre foi de 2.500 PCs. Isso é bom ou ruim? Você solicitou (ou já existe esta coluna no relatório) para exibir o desvio padrão desses dados no relatório. O valor do desvio padrão, por exemplo, é 2.000. Fica claro para você, como chefe do departamento, que a linha de produção exige melhor gestão(desvios muito grandes no número de PCs montados).

Lembre-se de que quando o desvio padrão é grande, os dados estão amplamente dispersos em torno da média e, quando o desvio padrão é pequeno, eles se agrupam perto da média.

As quatro funções estatísticas VAR(), VAR(), STDEV() e STDEV() são projetadas para calcular a variância e o desvio padrão de números em um intervalo de células. Antes de poder calcular a variância e o desvio padrão de um conjunto de dados, é necessário determinar se os dados representam uma população ou uma amostra de uma população. No caso de uma amostra de uma população geral, devem ser utilizadas as funções VAR() e STDEV(), e no caso de uma população geral, as funções VAR() e STDEV():

População Função

DISPR()

STANDOTLONP()
Amostra

DISP()

DESVPAD()

A dispersão (assim como o desvio padrão), como observamos, indica até que ponto os valores incluídos no conjunto de dados estão espalhados em torno da média aritmética.

Um pequeno valor de variância ou desvio padrão indica que todos os dados estão concentrados em torno da média aritmética, e um grande valor desses valores indica que os dados estão espalhados por uma ampla faixa de valores.

A variação é bastante difícil de interpretar de forma significativa (o que significa um valor pequeno, um valor grande?). Desempenho Tarefas 3 permitirá que você mostre visualmente, em um gráfico, o significado da variação de um conjunto de dados.

Tarefas

· Exercício 1.

· 2.1. Dê os conceitos: dispersão e desvio padrão; sua designação simbólica para processamento de dados estatísticos.

· 2.2. Preencha a planilha conforme Figura 1 e faça os cálculos necessários.

· 2.3. Dê as fórmulas básicas usadas nos cálculos

· 2.4. Explique todas as designações ( , , )

· 2.5. Explique o significado prático dos conceitos de dispersão e desvio padrão.

Tarefa 2.

1.1. Dê os conceitos: população geral e amostra; valor esperado e sua designação simbólica de média aritmética para processamento de dados estatísticos.

1.2. De acordo com a Figura 2, prepare uma planilha e faça os cálculos.

1.3. Fornecer as fórmulas básicas utilizadas nos cálculos (para a população geral e amostra).

Figura 2

1.4. Explique por que é possível obter médias aritméticas em amostras como 46,43 e 48,78 (ver arquivo Apêndice). Tire conclusões.

Tarefa 3.

Existem duas amostras com conjuntos de dados diferentes, mas a média delas será a mesma:

Figura 3

3.1. Preencha a planilha conforme Figura 3 e faça os cálculos necessários.

3.2. Dê as fórmulas básicas de cálculo.

3.3. Construa gráficos de acordo com as Figuras 4, 5.

3.4. Explique as dependências obtidas.

3.5. Faça cálculos semelhantes para os dados de duas amostras.

Amostra original 11119999

Selecione os valores da segunda amostra para que a média aritmética da segunda amostra seja a mesma, por exemplo:

Selecione você mesmo os valores para a segunda amostra. Organize cálculos e gráficos semelhantes às Figuras 3, 4, 5. Mostre as fórmulas básicas que foram utilizadas nos cálculos.

Tire conclusões apropriadas.

Conclua todas as tarefas em forma de relatório com todas as imagens, gráficos, fórmulas e breves explicações necessárias.

Nota: a construção dos gráficos deverá ser explicada com desenhos e breves explicações.

No anterior apresentamos uma série de fórmulas que nos permitem encontrar as características numéricas das funções quando são conhecidas as leis de distribuição dos argumentos. Porém, em muitos casos, para encontrar as características numéricas das funções, não é necessário sequer conhecer as leis de distribuição dos argumentos, mas basta conhecer apenas algumas de suas características numéricas; ao mesmo tempo, geralmente dispensamos quaisquer leis de distribuição. A determinação das características numéricas das funções a partir de determinadas características numéricas dos argumentos é amplamente utilizada na teoria das probabilidades e pode simplificar significativamente a solução de uma série de problemas. A maioria destes métodos simplificados refere-se a funções lineares; entretanto, algumas funções não lineares elementares também permitem uma abordagem semelhante.

No presente apresentaremos uma série de teoremas sobre as características numéricas das funções, que juntos representam um aparato muito simples para o cálculo dessas características, aplicáveis ​​em uma ampla gama de condições.

1. Expectativa matemática de um valor não aleatório

A propriedade formulada é bastante óbvia; pode ser comprovado considerando uma variável não aleatória como um tipo especial de aleatória, com um valor possível e probabilidade um; então, de acordo com a fórmula geral da expectativa matemática:

.

2. Variância de uma quantidade não aleatória

Se for um valor não aleatório, então

3. Substituindo um valor não aleatório pelo sinal da expectativa matemática

, (10.2.1)

isto é, um valor não aleatório pode ser retirado como um sinal da expectativa matemática.

Prova.

a) Para quantidades descontínuas

b) Para quantidades contínuas

.

4. Substituindo um valor não aleatório pelo sinal de dispersão e desvio padrão

Se é uma quantidade não aleatória e é aleatória, então

, (10.2.2)

isto é, um valor não aleatório pode ser retirado do sinal da dispersão elevando-o ao quadrado.

Prova. Por definição de variância

Consequência

,

isto é, um valor não aleatório pode ser retirado do sinal do desvio padrão pelo seu valor absoluto. Obtemos a prova extraindo a raiz quadrada da fórmula (10.2.2) e levando em consideração que o r.s.o. - um valor significativamente positivo.

5. Expectativa matemática do valor variáveis ​​aleatórias

Vamos provar que para quaisquer duas variáveis ​​aleatórias e

isto é, a expectativa matemática da soma de duas variáveis ​​aleatórias é igual à soma de suas expectativas matemáticas.

Esta propriedade é conhecida como teorema da adição de expectativas matemáticas.

Prova.

a) Seja um sistema de variáveis ​​aleatórias descontínuas. Apliquemos a fórmula geral (10.1.6) à soma de variáveis ​​aleatórias para a expectativa matemática de uma função de dois argumentos:

.

Ho representa nada mais do que a probabilidade total de que a quantidade assuma o valor:

;

por isso,

.

Da mesma forma provaremos que

,

e o teorema está provado.

b) Seja um sistema de variáveis ​​aleatórias contínuas. De acordo com a fórmula (10.1.7)

. (10.2.4)

Vamos transformar a primeira das integrais (10.2.4):

;

de forma similar

,

e o teorema está provado.

Deve-se notar especialmente que o teorema da adição de expectativas matemáticas é válido para quaisquer variáveis ​​​​aleatórias - tanto dependentes quanto independentes.

O teorema para adicionar expectativas matemáticas é generalizado para um número arbitrário de termos:

, (10.2.5)

isto é, a expectativa matemática da soma de diversas variáveis ​​aleatórias é igual à soma de suas expectativas matemáticas.

Para provar isso, basta utilizar o método da indução completa.

6. Expectativa matemática Função linear

Considere uma função linear de vários argumentos aleatórios:

onde estão os coeficientes não aleatórios. Vamos provar isso

, (10.2.6)

ou seja, a expectativa matemática de uma função linear é igual à mesma função linear das expectativas matemáticas dos argumentos.

Prova. Usando o teorema da adição de m.o. e a regra de colocar uma quantidade não aleatória fora do sinal do m.o., obtemos:

.

7. Disponibilizaçãoepisódioesta soma de variáveis ​​​​aleatórias

A variância da soma de duas variáveis ​​aleatórias é igual à soma de suas variâncias mais o dobro do momento de correlação:

Prova. Vamos denotar

De acordo com o teorema da adição de expectativas matemáticas

Vamos passar das variáveis ​​aleatórias para as variáveis ​​centralizadas correspondentes. Subtraindo a igualdade (10.2.9) termo a termo da igualdade (10.2.8), temos:

Por definição de variância

Q.E.D.

A fórmula (10.2.7) para a variância da soma pode ser generalizada para qualquer número de termos:

, (10.2.10)

onde está o momento de correlação das quantidades, o sinal sob a soma significa que a soma se estende a todas as combinações possíveis de variáveis ​​​​aleatórias aos pares .

A prova é semelhante à anterior e segue a fórmula do quadrado de um polinômio.

A fórmula (10.2.10) pode ser escrita de outra forma:

, (10.2.11)

onde a soma dupla se estende a todos os elementos da matriz de correlação do sistema de quantidades , contendo momentos de correlação e variâncias.

Se todas as variáveis ​​aleatórias , incluídos no sistema, não são correlacionados (ou seja, quando ), a fórmula (10.2.10) assume a forma:

, (10.2.12)

isto é, a variância da soma das variáveis ​​aleatórias não correlacionadas é igual à soma das variâncias dos termos.

Esta posição é conhecida como teorema da adição de variâncias.

8. Variância de uma função linear

Vamos considerar uma função linear de diversas variáveis ​​aleatórias.

onde estão quantidades não aleatórias.

Vamos provar que a dispersão desta função linear é expressa pela fórmula

, (10.2.13)

onde está o momento de correlação das quantidades , .

Prova. Vamos apresentar a notação:

. (10.2.14)

Aplicando a fórmula (10.2.10) para a dispersão da soma ao lado direito da expressão (10.2.14) e tendo em conta que, obtemos:

onde está o momento de correlação das quantidades:

.

Vamos calcular esse momento. Nós temos:

;

de forma similar

Substituindo esta expressão em (10.2.15), chegamos à fórmula (10.2.13).

No caso especial quando todas as quantidades não são correlacionados, a fórmula (10.2.13) assume a forma:

, (10.2.16)

isto é, a variância de uma função linear de variáveis ​​​​aleatórias não correlacionadas é igual à soma dos produtos dos quadrados dos coeficientes e das variâncias dos argumentos correspondentes.

9. Expectativa matemática de um produto de variáveis ​​aleatórias

A expectativa matemática do produto de duas variáveis ​​aleatórias é igual ao produto de suas expectativas matemáticas mais o momento de correlação:

Prova. Procederemos da definição do momento de correlação:

Vamos transformar esta expressão usando as propriedades da expectativa matemática:

o que é obviamente equivalente à fórmula (10.2.17).

Se as variáveis ​​​​aleatórias não estiverem correlacionadas, a fórmula (10.2.17) assume a forma:

isto é, a expectativa matemática do produto de duas variáveis ​​aleatórias não correlacionadas é igual ao produto das suas expectativas matemáticas.

Esta posição é conhecida como teorema da multiplicação das expectativas matemáticas.

A fórmula (10.2.17) nada mais é do que uma expressão do segundo momento central misto do sistema através do segundo momento inicial misto e das expectativas matemáticas:

. (10.2.19)

Esta expressão é frequentemente usada na prática ao calcular o momento de correlação da mesma forma que para uma variável aleatória a variância é frequentemente calculada através do segundo momento inicial e da expectativa matemática.

O teorema da multiplicação das expectativas matemáticas é generalizado para um número arbitrário de fatores, só que neste caso, para sua aplicação, não basta que as quantidades sejam não correlacionadas, mas é necessário que alguns momentos mistos superiores, cujo número depende no número de termos no produto, desaparece. Estas condições são certamente satisfeitas se as variáveis ​​aleatórias incluídas no produto forem independentes. Nesse caso

, (10.2.20)

isto é, a expectativa matemática do produto de variáveis ​​aleatórias independentes é igual ao produto de suas expectativas matemáticas.

Esta proposição pode ser facilmente comprovada por indução completa.

10. Variância do produto de variáveis ​​aleatórias independentes

Vamos provar que para quantidades independentes

Prova. Vamos denotar. Por definição de variância

Como as quantidades são independentes, e

Quando independentes, as quantidades também são independentes; por isso,

,

Mas nada mais é do que o segundo momento inicial de magnitude e, portanto, é expresso através da dispersão:

;

de forma similar

.

Substituindo essas expressões na fórmula (10.2.22) e trazendo termos semelhantes, chegamos à fórmula (10.2.21).

No caso de multiplicação de variáveis ​​aleatórias centradas (variáveis ​​com expectativas matemáticas iguais a zero), a fórmula (10.2.21) assume a forma:

, (10.2.23)

isto é, a variância do produto de variáveis ​​aleatórias centradas independentes é igual ao produto de suas variâncias.

11. Maiores momentos da soma das variáveis ​​aleatórias

Em alguns casos, é necessário calcular os momentos mais altos da soma das variáveis ​​aleatórias independentes. Vamos provar algumas relações relacionadas aqui.

1) Se as quantidades forem independentes, então

Prova.

de onde, de acordo com o teorema da multiplicação das expectativas matemáticas

Mas o primeiro momento central para qualquer quantidade é zero; os dois termos médios desaparecem e a fórmula (10.2.24) é provada.

A relação (10.2.24) é facilmente generalizada por indução a um número arbitrário de termos independentes:

. (10.2.25)

2) O quarto momento central da soma de duas variáveis ​​​​aleatórias independentes é expresso pela fórmula

onde estão as variações das quantidades e .

A prova é completamente semelhante à anterior.

Usando o método de indução completa, é fácil provar a generalização da fórmula (10.2.26) para um número arbitrário de termos independentes.

Faixa de variação (ou faixa de variação) - esta é a diferença entre os valores máximo e mínimo da característica:

No nosso exemplo, a amplitude de variação na produção por turnos dos trabalhadores é: na primeira brigada R = 105-95 = 10 crianças, na segunda brigada R = 125-75 = 50 crianças. (5 vezes mais). Isto sugere que a produção da 1ª brigada é mais “estável”, mas a segunda brigada tem mais reservas para aumentar a produção, porque Se todos os trabalhadores atingirem a produção máxima para esta brigada, ela poderá produzir 3 * 125 = 375 peças, e na 1ª brigada apenas 105 * 3 = 315 peças.
Se os valores extremos de uma característica não forem típicos da população, serão usados ​​​​intervalos de quartil ou decil. O intervalo quartil RQ= Q3-Q1 cobre 50% do volume populacional, o intervalo do primeiro decil RD1 = D9-D1 cobre 80% dos dados, o intervalo do segundo decil RD2= D8-D2 – 60%.
A desvantagem do indicador de faixa de variação é que seu valor não reflete todas as flutuações da característica.
O indicador geral mais simples que reflete todas as flutuações de uma característica é média desvio linear , que é a média aritmética dos desvios absolutos das opções individuais em relação ao seu valor médio:

,
para dados agrupados
,
onde xi é o valor do atributo em uma série discreta ou no meio do intervalo na distribuição de intervalo.
Nas fórmulas acima, as diferenças no numerador são tomadas módulo, caso contrário, de acordo com a propriedade da média aritmética, o numerador será sempre igual a zero. Portanto, o desvio linear médio raramente é utilizado na prática estatística, apenas nos casos em que a soma dos indicadores sem levar em conta o sinal faz sentido do ponto de vista econômico. Com sua ajuda, por exemplo, são analisadas a composição da força de trabalho, a rentabilidade da produção e o volume de negócios do comércio exterior.
Variância de uma característicaé o quadrado médio dos desvios de seu valor médio:
variação simples
,
variância ponderada
.
A fórmula para calcular a variância pode ser simplificada:

Assim, a variância é igual à diferença entre a média dos quadrados da opção e o quadrado da média da opção da população:
.
Porém, devido ao somatório dos desvios quadrados, a variância dá uma ideia distorcida dos desvios, então a média é calculada com base nela desvio padrão , que mostra o quanto, em média, variantes específicas de uma característica se desviam de seu valor médio. Calculado tirando a raiz quadrada da variância:
para dados desagrupados
,
para séries de variação

Como menos valor variância e desvio padrão, quanto mais homogênea for a população, mais confiável (típica) será a média.
Média linear e média desvio padrão- os números nomeados, ou seja, expressos em unidades de medida de uma característica, são idênticos em conteúdo e próximos em significado.
Calcular indicadores absolutos variações são recomendadas usando tabelas.
Tabela 3 - Cálculo das características de variação (usando o exemplo do período de dados sobre a produção por turnos dos tripulantes)


Número de trabalhadores

No meio do intervalo

Valores calculados

Total:

Produção média por turnos dos trabalhadores:

Desvio linear médio:

Variação de produção:

O desvio padrão da produção de trabalhadores individuais em relação à produção média:
.

1 Cálculo da dispersão pelo método dos momentos

O cálculo das variâncias envolve cálculos complicados (especialmente se o valor médio for expresso um grande número com múltiplas casas decimais). Os cálculos podem ser simplificados usando uma fórmula simplificada e propriedades de dispersão.
A dispersão tem as seguintes propriedades:

  1. Se todos os valores de uma característica forem reduzidos ou aumentados no mesmo valor A, então a dispersão não diminuirá:

,

, então ou
Utilizando as propriedades de dispersão e reduzindo primeiro todas as variantes da população pelo valor A, e depois dividindo pelo valor do intervalo h, obtemos uma fórmula para calcular a dispersão em séries de variação com intervalos iguais maneira de momentos:
,
onde está a dispersão calculada pelo método dos momentos;
h – o valor do intervalo da série de variação;
– opção de novos valores (transformados);
A é um valor constante, que é utilizado como meio do intervalo de maior frequência; ou a opção com maior frequência;
– quadrado do momento de primeira ordem;
– momento de segunda ordem.
Calculemos a dispersão pelo método dos momentos com base nos dados da produção por turnos dos trabalhadores da equipe.
Tabela 4 - Cálculo da variância pelo método dos momentos


Grupos de trabalhadores da produção, unid.

Número de trabalhadores

No meio do intervalo

Valores calculados

Procedimento de cálculo:


  1. Calculamos a variância:

2 Cálculo da variância de uma característica alternativa

Dentre as características estudadas pela estatística, há também aquelas que possuem apenas dois significados mutuamente exclusivos. Estes são sinais alternativos. São dados, respectivamente, dois valores quantitativos: opções 1 e 0. A frequência da opção 1, que é denotada por p, é a proporção de unidades que possuem esta característica. A diferença 1-р=q é a frequência das opções 0. Assim,


XI

Média aritmética do sinal alternativo
, porque p + q = 1.

Variância de característica alternativa
, porque 1-р=q
Assim, a variância de uma característica alternativa é igual ao produto da proporção de unidades que possuem esta característica e da proporção de unidades que não possuem esta característica.
Se os valores 1 e 0 ocorrerem com a mesma frequência, ou seja, p=q, a variância atinge seu máximo pq=0,25.
A variância de um atributo alternativo é usada em pesquisas por amostragem, por exemplo, de qualidade do produto.

3 Variância entre grupos. Regra de adição de variância

A dispersão, ao contrário de outras características de variação, é uma quantidade aditiva. Ou seja, no agregado, que é dividido em grupos de acordo com as características dos fatores X , variância da característica resultante sim pode ser decomposto na variância dentro de cada grupo (dentro dos grupos) e na variância entre grupos (entre grupos). Então, além de estudar a variação de uma característica em toda a população como um todo, torna-se possível estudar a variação em cada grupo, bem como entre esses grupos.

Variância total mede a variação em uma característica no na sua totalidade sob a influência de todos os fatores que provocaram esta variação (desvios). É igual ao desvio quadrático médio dos valores individuais do atributo no da média geral e pode ser calculada como variância simples ou ponderada.
Variância intergrupo caracteriza a variação da característica resultante no causado pela influência do sinal do fator X, que formou a base do agrupamento. Caracteriza a variação das médias dos grupos e é igual ao quadrado médio dos desvios das médias dos grupos em relação à média geral:
,
onde está a média aritmética do i-ésimo grupo;
– número de unidades do i-ésimo grupo (frequência do i-ésimo grupo);
– a média geral da população.
Variação dentro do grupo reflete a variação aleatória, ou seja, aquela parte da variação que é causada pela influência de fatores não contabilizados e não depende do atributo do fator que forma a base do agrupamento. Caracteriza a variação dos valores individuais em relação às médias do grupo e é igual ao desvio quadrático médio dos valores individuais do atributo no dentro de um grupo a partir da média aritmética deste grupo (média do grupo) e é calculada como uma variância simples ou ponderada para cada grupo:
ou ,
onde está o número de unidades no grupo.
Com base nas variações dentro do grupo para cada grupo, pode-se determinar média geral das variações dentro do grupo:
.
A relação entre as três dispersões é chamada regras para adicionar variações, segundo o qual a variância total é igual à soma da variância entre grupos e a média das variâncias dentro do grupo:

Exemplo. Ao estudar a influência da categoria tarifária (qualificação) dos trabalhadores no nível de produtividade do seu trabalho, foram obtidos os seguintes dados.
Tabela 5 – Distribuição dos trabalhadores por produção horária média.



p/p

Trabalhadores da 4ª categoria

Trabalhadores da 5ª categoria

Saída
trabalhador, unid.,

Saída
trabalhador, unid.,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

EM neste exemplo os trabalhadores são divididos em dois grupos de acordo com as características dos fatores X– qualificações, que são caracterizadas pela sua classificação. A característica resultante – produção – varia tanto sob sua influência (variação intergrupo) quanto devido a outros fatores aleatórios (variação intragrupo). O objetivo é medir essas variações usando três variações: total, entre grupos e dentro dos grupos. O coeficiente empírico de determinação mostra a proporção de variação na característica resultante no sob a influência de um sinal de fator X. O resto variação total no causada por alterações em outros fatores.
No exemplo, o coeficiente empírico de determinação é:
ou 66,7%,
Isto significa que 66,7% da variação da produtividade dos trabalhadores se deve a diferenças nas qualificações e 33,3% se deve à influência de outros factores.
Relação de correlação empírica mostra a estreita conexão entre agrupamento e características de desempenho. Calculado como a raiz quadrada do coeficiente de determinação empírico:

A razão de correlação empírica, assim como , pode assumir valores de 0 a 1.
Se não houver conexão, então =0. Neste caso =0, ou seja, as médias dos grupos são iguais entre si e não há variação intergrupos. Isso significa que a característica de agrupamento - fator não afeta a formação da variação geral.
Se a conexão estiver funcional, então =1. Neste caso, a variância das médias do grupo é igual à variância total (), ou seja, não há variação dentro do grupo. Isso significa que a característica de agrupamento determina completamente a variação da característica resultante que está sendo estudada.
Quanto mais próximo o valor do índice de correlação estiver da unidade, mais próxima, mais próxima da dependência funcional, estará a conexão entre as características.
Para avaliar qualitativamente a proximidade das conexões entre as características, são utilizadas as relações de Chaddock.

No exemplo , o que indica uma estreita ligação entre a produtividade dos trabalhadores e as suas qualificações.

Juntamente com o estudo da variação de uma característica em toda a população como um todo, muitas vezes é necessário rastrear mudanças quantitativas na característica entre os grupos em que a população está dividida, bem como entre grupos. Este estudo de variação é conseguido através de cálculo e análise Vários tipos variações.
Existem variações totais, intergrupos e intragrupos.
Variância total σ 2 mede a variação de uma característica em toda a população sob a influência de todos os fatores que causaram essa variação.

A variância intergrupo (δ) caracteriza a variação sistemática, ou seja, diferenças no valor da característica estudada que surgem sob a influência da característica fatorial que forma a base do grupo. É calculado usando a fórmula:
.

Variância dentro do grupo (σ) reflete a variação aleatória, ou seja, parte da variação que ocorre sob a influência de fatores não contabilizados e não depende do fator-atributo que forma a base do grupo. É calculado pela fórmula:
.

Média das variações dentro do grupo: .

Existe uma lei que conecta 3 tipos de dispersão. A variância total é igual à soma da média da variância dentro do grupo e entre grupos: .
Essa proporção é chamada regra para adicionar variações.

Um indicador amplamente utilizado na análise é a proporção da variância entre grupos na variância total. É chamado coeficiente empírico de determinação (η 2): .
A raiz quadrada do coeficiente empírico de determinação é chamada razão de correlação empírica (η):
.
Caracteriza a influência da característica que forma a base do grupo na variação da característica resultante. A razão de correlação empírica varia de 0 a 1.
Vamos demonstrar seu uso prático usando o exemplo a seguir (Tabela 1).

Exemplo nº 1. Tabela 1 - Produtividade do trabalho de dois grupos de trabalhadores em uma das oficinas da NPO Cyclone

Vamos calcular as médias e variações gerais e de grupo:




Os dados iniciais para cálculo da média da variância intragrupo e intergrupo são apresentados na tabela. 2.
mesa 2
Cálculo e δ 2 para dois grupos de trabalhadores.


Grupos de trabalhadores
Número de trabalhadores, pessoas Média, crianças/turno Dispersão

Treinamento técnico concluído

5 95 42,0

Aqueles que não concluíram o treinamento técnico

5 81 231,2

Todos os trabalhadores

10 88 185,6
Vamos calcular os indicadores. Média das variações dentro do grupo:
.
Variância intergrupo

Variância total:
Assim, a razão de correlação empírica: .

Junto com a variação nas características quantitativas, também pode ser observada variação nas características qualitativas. Este estudo de variação é conseguido calculando os seguintes tipos de variações:

A dispersão dentro do grupo da participação é determinada pela fórmula

Onde e eu– número de unidades em grupos separados.
A participação da característica estudada em toda a população, que é determinada pela fórmula:
Os três tipos de variação estão relacionados entre si da seguinte forma:
.

Essa relação de variâncias é chamada de teorema da adição de variâncias da parcela da característica.

A variância é uma medida de dispersão que descreve o desvio comparativo entre os valores dos dados e a média. É a medida de dispersão mais utilizada nas estatísticas, calculada pela soma e quadratura do desvio de cada valor dos dados em relação à média. A fórmula para cálculo da variância é fornecida abaixo:

s 2 – variância amostral;

x av—média amostral;

n tamanho da amostra (número de valores de dados),

(xi – x avg) é o desvio do valor médio para cada valor do conjunto de dados.

Para entender melhor a fórmula, vejamos um exemplo. Eu realmente não gosto de cozinhar, então raramente faço isso. Porém, para não passar fome, de vez em quando tenho que ir ao fogão para implementar o plano de saturar meu corpo com proteínas, gorduras e carboidratos. O conjunto de dados abaixo mostra quantas vezes Renat cozinha por mês:

O primeiro passo no cálculo da variância é determinar a média amostral, que em nosso exemplo é 7,8 vezes por mês. O restante dos cálculos pode ser facilitado usando a tabela a seguir.

A fase final do cálculo da variância é assim:

Para quem gosta de fazer todos os cálculos de uma só vez, a equação ficaria assim:

Usando o método de contagem bruta (exemplo de culinária)

Há mais método eficaz cálculo da variância, conhecido como método de "contagem bruta". Embora a equação possa parecer bastante complicada à primeira vista, na verdade não é tão assustadora. Você pode ter certeza disso e então decidir qual método você mais gosta.

é a soma de cada valor de dados após o quadrado,

é o quadrado da soma de todos os valores dos dados.

Não perca a cabeça agora. Vamos colocar tudo isso em uma tabela e você verá que há menos cálculos envolvidos do que no exemplo anterior.

Como você pode ver, o resultado foi o mesmo do método anterior. Vantagens este método tornam-se aparentes à medida que o tamanho da amostra (n) aumenta.

Cálculo de variação no Excel

Como você provavelmente já deve ter adivinhado, o Excel possui uma fórmula que permite calcular a variância. Além disso, começando com o Excel 2010, você pode encontrar 4 tipos de fórmulas de variância:

1) VARIANCE.V – Retorna a variância da amostra. Valores booleanos e texto são ignorados.

2) DISP.G – Retorna a variância da população. Valores booleanos e texto são ignorados.

3) VARIANCE - Retorna a variância da amostra, levando em consideração valores booleanos e de texto.

4) VARIANCE - Retorna a variância da população, levando em consideração valores lógicos e de texto.

Primeiro, vamos entender a diferença entre uma amostra e uma população. O objetivo das estatísticas descritivas é resumir ou exibir dados para que você obtenha rapidamente uma visão geral, por assim dizer, uma visão geral. A inferência estatística permite fazer inferências sobre uma população com base em uma amostra de dados dessa população. A população representa todos os resultados ou medidas possíveis que nos interessam. Uma amostra é um subconjunto de uma população.

Por exemplo, estamos interessados ​​em um grupo de estudantes de uma das universidades russas e precisamos determinar a pontuação média do grupo. Podemos calcular o desempenho médio dos alunos, e então o valor resultante servirá de parâmetro, pois toda a população estará envolvida em nossos cálculos. Porém, se quisermos calcular o GPA de todos os alunos do nosso país, então este grupo será a nossa amostra.

A diferença na fórmula de cálculo da variância entre uma amostra e uma população é o denominador. Onde para a amostra será igual a (n-1), e para a população geral apenas n.

Agora vamos dar uma olhada nas funções para calcular a variância com finais A, cuja descrição indica que o texto e os valores lógicos são levados em consideração no cálculo. Nesse caso, ao calcular a variância de um determinado conjunto de dados onde ocorrem valores não numéricos, o Excel interpretará o texto e os valores booleanos falsos como iguais a 0, e os valores booleanos verdadeiros como iguais a 1.

Portanto, se você tiver uma matriz de dados, não será difícil calcular sua variação usando uma das funções do Excel listadas acima.



Publicações relacionadas