ODERSON.CM

QUEM SOU

FALE COMIGO LA SIERRA UNIVERSITY

Dimell

Na Internet Em oderson.com

ODERSON.COM
Anuncie
Automóveis
Campinas
Compras
Computação
Dicionários
D i m e l l
Dinheiro
Direito
Educação
Energia
La Sierra
Meteorologia
Notícias
Oportunidades
Saúde
Serviços
Telefonia
Viajar

 

Dados discretos

graf3_3_1.GIF (1117 bytes)
Estes dados só podem tomar um número finito ou infinito numerável de valores distintos, apresentando vários valores repetidos - é o caso, por exemplo, do nº de filhos de uma família ou do nº de acidentes, por dia, em determinado cruzamento.
       
Como organizar
os dados ?

Os dados são organizados na forma de uma tabela de freqüências, análoga à que pode ser  construída para o caso dos dados qualitativos. No entanto, em vez das categorias apresentam-se os valores distintos da amostra, os quais vão constituir as classes.

 

Exemplo: Consideremos a amostra constituída pelo nº de irmãos dos 20 alunos de uma determinada turma:
1, 1, 2, 1, 0, 3, 4, 2, 3, 1, 0, 2, 1, 1, 0, 1, 1, 0, 3, 2
             
tabela de freqüências
classes freq. abs. freq. rel.
0 4 0.20
1 8 0.40
2 4 0.20
3 3 0.15
4 1 0.05

total

20 1.00
Diagrama de barras
ou
Distribuição de
freqüências
Representação gráfica que consiste em marcar num sistema de eixos coordenados, no eixo x  o valor das classes, e nesses pontos barras verticais de altura igual à freqüência absoluta ou à freqüência relativa.
Exemplo: Utilizando a tabela de freqüências abaixo construa o diagrama de barras e o polígono de freqüências (utilize freqüências relativas).
Tabela de frequências Diagrama de barras
Classes freq. abs. freq. rel.
12 4 0.20
13 8 0.40
14 4 0.20
15 3 0.15
16 1 0.05
Total 20 1.00
graf3_2_2.GIF (1058 bytes)

A linha tracejada, que une os extremos das barras, chama-se
Polígono de Freqüências

Algumas considerações sobre a metodologia a seguir
na construção do diagrama de barras:
            
1. Ordenar a amostra e considerar para classes os diferentes valores aí considerados.
Marcar essas classes no eixo x, num sistema de eixos coordenados.
            
2. Nos pontos onde se consideraram as classes, marcar barras de altura igual à freqüência absoluta ou relativa, da respectiva classe. De preferência utilizar as freqüências relativas, pois se pretendermos comparar diagramas de barras de amostras diferentes, temos a garantia de que a soma das barras em qualquer dos diagramas é igual a 1.

Dados contínuos

No caso de uma variável contínua, esta pode tomar todos os valores numéricos, inteiros ou não, compreendidos no seu intervalo de variação - temos por exemplo o peso, a altura, etc...
          
Como organizar os dados?
Enquanto que no caso de dados discretos, a construção da tabela de freqüências não apresenta qualquer dificuldade, no caso das variáveis contínuas o processo é um pouco mais elaborado, distinguindo-se certas etapas principais descritas a seguir.
Construção da tabela de freqüências, de uma amostra de dados contínuos
                   
Para exemplificar o processo, utilizaremos a amostra de notas obtidas em uma prova de Matemática de uma determinada turma:
12.1 8.9 16.2 8.2 9.8 15.1 14.5 13.4 14.7 7.5 8.8 12.4 16.1
15.2 13.5 14.6 15.5 7.8 12.5 13.2 11.0 10.5
1º Definição
das classes
  
a) Determinar a amplitude da amostra, isto é, a diferença entre o valor máximo e o valor mínimo
No caso da amostra considerada, amplitude = 16.2 - 7.5 = 8.7
b) Dividir essa amplitude pelo número k  Como calcular K ?  de classes pretendido; tomar para essa amplitude de classe h um valor aproximado por excesso do valor anteriormente obtido.
No caso da amostra considerada, escolhendo k=5,
h
= 8.7 / 5 = 1.74 1.8
        
c) Construir as classes de modo que tenham todas a mesma amplitude e cuja união contenha todos os elementos da amostra.

Uma metodologia a seguir para construir as classes Ci = [ci , ci+1[ poderá ser a seguinte:

As classes Ci serão
Ci = [ mín. amostra + ( i - 1) x h , mín. amostra + i x h [  
com i=1,2,...,k
  
No caso da amostra dada temos:

C1=[7.5, 9.3[ ;  C2=[9.3, 11.1[ ; C3=[11.1, 12.9[ ; C4=[12.9, 14.7[ ; C5=[14.7, 16.5[

2º Contagem do número de elementos de cada classe Conta-se o número de elementos da amostra, que pertencem a cada classe. Analogamente ao que foi considerado no caso dos dados discretos, esses valores serão as freqüências absolutas das classes. No caso da amostra dada
    
Classe Freq Absoluta
[7.5, 9.3[ 5
[9.3, 11.1[ 3
[11.1, 12.9[ 3
[12.9, 14.7[ 5
[14.7, 16.5[ 6
Quantas classes se devem considerar, para fazer a redução de um conjunto de dados?
          
Qual o valor de k ?
Existe uma regra empírica, que nos dá um valor aproximado para o número de classes que se devem considerar e que é a seguinte:
Para uma amostra de dimensão n, k é o menor inteiro tal que:    2k n
Exemplo:
Os dados seguintes (que se encontram ordenados) referem-se ao tempo de vida (em anos) de 50 pessoas que nasceram com uma certa doença rara:
0.8 1.7 2.5 4.8 9.7 16.2 23.5 28.1 33.2 45.0
0.9 1.9 2.6 6.3 13.5 18.2 23.6 29.7 36.6 45.1
1.0 2.0 2.6 6.9 13.5 18.2 23.7 30.9 36.7 61.7
1.1 2.0 3.2 7.6 14.4 20.7 27.1 31.2 38.0 66.4
1.1 2.4 3.5 9.0 15.5 21.8 27.6 31.7 40.2 67.4
       
Dimensão da amostra: 50
De acordo com a regra empírica apresentada anteriormente teríamos: form3_2_8.gif (3264 bytes)
Podemos escolher para amplitude da classe h=10 (é mais sugestivo considerar intervalos com amplitude de 10 anos do que um valor próximo do sugerido).
Por outro lado vamos começar por construir as classes, considerando para limite inferior da 1ª classe o valor 0, já que o mínimo da amostra está próximo desse valor. Com esta escolha obtemos 7 classes, em vez do valor 6 sugerido pela regra:
Tabela de Freqüências
Classes Freq. abs. Freq. rel.
[0, 10[ 21 0.42
[10, 20[ 7 0.14
[20, 30[ 9 0.18
[30, 40[ 7 0.14
[40, 50[ 3 0.06
[50, 60[ 0 0.00
[60, 70[ 3 0.06
Total 50 1.00
Nota: Para definir um conjunto de classes associado a um conjunto de dados, deve-se ter em conta que, de um modo geral, quanto mais elementos tiver a amostra, maior será o número de classes que se deve considerar (o que está de acordo com a regra indicada). No entanto, mesmo que a dimensão da amostra seja suficientemente grande, não é aconselhável considerar um número de classes superior a 15.
Representação gráfica de dados contínuos
      
Histograma
Para a representação gráfica de dados contínuos, usa-se um diagrama de áreas ou histograma, formado por uma sucessão de retângulos adjacentes, tendo cada um por base um intervalo de classe e por área a freqüência  relativa (ou a freqüência absoluta).
Deste modo a área total será igual a 1 (resp. igual a n, a dimensão da amostra).


A representação obtida terá o seguinte aspecto:

graf3_2_3.gif (825 bytes)
Para construir um histograma, quais as alturas que se devem considerar para os retângulos?
graf3_2_4.gif (1323 bytes) Se se pretende que a área do retângulo, correspondente à classe Ci seja ni, ou fi, respectivamente freqüência absoluta e freqüência relativa, então a altura desse retângulo deverá ser ni / h, ou fi / h, respectivamente, onde h representa a amplitude das classes.

Dê preferência para utilizar as freqüências relativas.

Qual a área total A, ocupada por um histograma?
   
Se se utilizarem as frequências absolutas: graf3_2_51.gif
A = n1 + n2 + .. + nk = n
Se se utilizarem as frequências relativas: graf3_2_52.gif
A = f1 + f2 + .. + fk = 1
Histograma
E se tomarmos para altura dos retângulos, que constituem o histograma, as freqüências, já as áreas desses retângulos não serão iguais às freqüências, mas sim proporcionais!

Haverá problema? Qual a constante de proporcionalidade?

graf3_2_7.gif (1554 bytes)
Não há problema quando as classes têm todas a mesma amplitude!

A constante de proporcionalidade é h, e a área total ocupada pelo histograma será h ou n*h, conforme se utilizarem as freqüências relativas ou absolutas.

Algumas considerações sobre a construção de histogramas
       
O aspecto apresentado pelo histograma, depende em grande parte do agrupamento que se tenha feito para os dados. Assim, a escolha de uma amplitude de classe muito pequena traduz-se num grande nº de classes, que não permitem que sobressaiam as características fundamentais dos dados, uma vez que se lhe poderá sobrepor o aspecto aleatório dos dados. Por outro lado um nº muito pequeno de classes, poderá não mostrar alguns aspectos importantes dos dados.
 
Então como proceder ?
A construção do histograma depende em grande parte da "habilidade" de quem faz a estatística, na medida em que a escolha da amplitude de classe deve ser feita de modo a estabelecer uma boa solução de compromisso entre um nº exagerado de classes (demasiado detalhe) e um nº pequeno de classes (pouco detalhe). É nesta perspectiva que deve ser entendida a regra empírica dada anteriormente, para o número de classes.
E se as classes da tabela têm amplitudes diferentes?

Como construir o Histograma?

Por vezes os dados surgem agrupados, sendo impossível construir um histograma com as classes todas com a mesma amplitude.
 
Para se construírem os retângulos correspondentes a cada classe, tem de se ter em atenção que a altura de cada um desses retângulos deve ser igual à freqüência relativa (ou absoluta) a dividir pela amplitude da classe correspondente. Só assim se obterá um histograma cuja área total seja igual a 1 (respectivamente n).
Exemplo

A tabela ao lado representa a população que era esperada no ano 2000, nos Estados Unidos, considerando diferentes classes etárias
.
Classe etária Popul. esperada (milhões)
menos de 5 anos 17.9
entre 5 e 13 anos 35.1
entre 14 e 17 anos 16.0
entre 18 e 24 anos 24.7
entre 25 e 34 anos 34.4
entre 35 e 44 anos 41.3
entre 45 e 54 anos 35.9
entre 55 e 64 anos 23.3
mais de 65 anos 31.8
total 260.4
Organizando a tabela anterior, de uma forma mais conveniente, temos a tabela de freqüências ao lado e o histograma abaixo.
           
graf3_2_15_2.gif (4538 bytes)
Classe
Cj
freq. rel.
fj
Amplitude
hj
Altura
fj/hj
[0,5[ 17.9/ 260.4 5 0.0138
[5,14[ 35.1/ 260.4 9 0.0150
[14,18[ 16.0/ 260.4 4 0.0154
[18,25[ 24.7/ 260.4 7 0.0136
[25,35[ 34.4/ 260.4 10 0.0132
[35,45[ 41.3/ 260.4 10 0.0158
[45,55[ 35.9/ 260.4 10 0.0138
[55,65[ 23.3/ 260.4 10 0.0089
[65,100[ 31.8/ 260.4 35 0.0035
total 1.0    
Função Cumulativa
Exemplo: Os dados seguintes (que se encontram ordenados) referem-se ao tempo de vida (em anos) de 50 doentes que nasceram com uma certa doença rara:
0.8 1.7 2.5 4.8 9.7 16.2 23.5 28.1 33.2 45.0
0.9 1.9 2.6 6.3 13.5 18.2 23.6 29.7 36.6 45.1
1.0 2.0 2.6 6.9 13.5 18.2 23.7 30.9 36.7 61.7
1.1 2.0 3.2 7.6 14.4 20.7 27.1 31.2 38.0 66.4
1.1 2.4 3.5 9.0 15.5 21.8 27.6 31.7 40.2 67.4
Tabela de Freqüências
Classes Freq. abs. Freq. rel.
[0, 10[ 21 0.42
[10, 20[ 7 0.14
[20, 30[ 9 0.18
[30, 40[ 7 0.14
[40, 50[ 3 0.06
[50, 60[ 0 0.00
[60, 70[ 3 0.06
Total 50 1.00
Para representar graficamente as freqüências acumuladas considera-se a função cumulativa cuja construção se exemplifica a seguir:
graf3_2_16_novo.gif (3797 bytes)
- Antes do limite inferior da 1ª classe, isto é o ponto 0, a freqüência acumulada é nula, pelo que se traça um segmento de reta sobre o eixo x até esse ponto.
- No limite inferior da 2ª classe, isto é o ponto 10, a freqüência acumulada é a freqüência da classe anterior, ou seja 0.42. Agora, admitindo que a freqüência se distribui uniformemente sobre o intervalo da classe, unimos o ponto (0,0) com o ponto (10, 0.42).
- No limite inferior da 3ª classe, a freqüência acumulada é a soma das freqüências das duas classes anteriores, sendo portanto 0.56. Então, unimos o ponto (10, 0.42) com o ponto 20, 0.56).
- Quando chegarmos à última classe, temos a garantia que a freqüência acumulada correspondente ao seu limite superior é igual a 1, pelo que nesse ponto marcamos 1 e continuamos com um segmento de reta paralelo ao eixo do x.
Pode-se chamar a atenção para algumas propriedades da função cumulativa, tal como foi construída:
- Está definida para todo o x real;
- É sempre não decrescente;
- Só muda de valores no intervalo [0, 1]
                
A partir da representação gráfica anterior é possível, por exemplo, saber qual o valor aproximado da variável tempo de vida a que corresponde uma freqüência relativa acumulada igual a 50%.
graf3_2_17_novo.gif (4104 bytes)
Uma vez que se admite que a freqüência se distribui uniformemente sobre a amplitude de classe, isto é, a freqüência 0.14 (=0.56-0.42) distribui-se uniformemente sobre o intervalo de amplitude 10, através da resolução de uma equação de proporcionalidade, obtém-se o ponto que andávamos à procura:
graf2_3_18_novo.gif (1367 bytes)
Então o valor procurado é 10 + 5.71 = 15.71
Ao valor obtido anteriormente, a que corresponde uma freqüência acumulada de 50%, chamamos mediana. A mediana divide a distribuição das freqüências em duas partes iguais, já que 50% dos dados são menores ou iguais a ela e os restantes 50% são maiores ou iguais a ela. Recordamos que a técnica utilizada permitiu-nos obter um valor aproximado para a mediana, e não o valor exato da mediana do conjunto de dados originais, antes de proceder ao agrupamento. Mais à frente, quando falarmos de medidas de localização, veremos como determinar a mediana a partir dos dados, sem estarem agrupados.
Nota:
Embora não tenha sentido construir um diagrama de barras quando temos uma amostra de dados contínuos, o mesmo não se passa em relação ao histograma e aos dados discretos.

Na verdade, podemos ter uma amostra de dados discretos, em que o número de valores distintos que surgem na amostra é demasiado grande, para que se considerem todos como classes, pelo que representamos graficamente essa amostra segundo a forma de um histograma!

Seguidamente apresentaremos outros tipos de representações gráficas, que podem ser utilizados, independentemente da amostra ser de dados discretos ou contínuos.

Diagrama de caule-e-folhas
     
cartoon1.gif (2336 bytes)
É um tipo de representação que se pode considerar entre a tabela e o gráfico, uma vez que são apresentados os verdadeiros valores da amostra, mas numa apresentação sugestiva, que faz lembrar um histograma. graf3_2_10.GIF (951 bytes)
Exemplo: Num determinado teste realizado a 50 estudantes, obtiveram-se as seguintes pontuações:
75 98 42 75 84 87 65 59 63 86 78 37 99 66 90 79 80 89 68 57
95 55 79 88 76 60 77 49 92 83 71 78 53 81 77 58 93 85 70 62
80 74 69 90 62 84 64 73 48 72                    
           
Fazer uma representação em caule-e-folhas destes dados.
graf3_2_11.gif (4236 bytes)
Por vezes, utiliza-se o "caule" horizontal, em vez de ser vertical. Este processo torna mais aparente a semelhança entre um histograma e uma representação em caule-e-folhas.
Caule
vertical
graf3_2_12.gif (1699 bytes)
Caule
horizontal
graf3_2_13.gif (1568 bytes)
Que característica é que se pretende realçar, quando se representa um conjunto de dados sob a forma de um histograma ou de um caule-e-folhas?
                            
Dada uma amostra, o aspecto do histograma reflete a forma da distribuição da População subjacente aos dados observados!
Este é um dos aspectos da redução dos dados, em que se perde alguma informação contida nesses dados, mas em contrapartida obtemos a estrutura da População que eles pretendem representar.
 
Quais os aspectos mais freqüentes apresentados por um histograma ?
Distribuições características
Alguns histogramas apresentam formas que, pela freqüência com que surgem, merecem referência especial. Assim, as distribuições mais comuns apresentadas pelos dados são:
a. Distribuições simétricas
b. Distribuições enviesadas
c. Distribuições com "caudas" longas
d. Distribuições com vários "picos" ou modas
a. Distribuições simétricas
A distribuição das freqüências faz-se de forma aproximadamente simétrica, relativamente a uma classe média:
            
graf3_2_14.gif (1110 bytes)
Caso especial de uma
distribuição simétrica
Um caso especial de uma distribuição simétrica é aquele que sugere a forma de um "sino" e que é apresentado por amostras provenientes de Populações "Normais".
  
graf3_2_15.gif
b. Distribuições enviesadas
A distribuição das freqüências faz-se de forma acentuadamente assimétrica, apresentando valores substancialmente mais pequenos num dos lados relativamente ao outro:
    
graf3_2_16.gif
c. Distribuições com "caudas" longas
A distribuição das freqüências faz-se de tal forma que existe um grande número de classes nos extremos, cujas freqüências são pequenas, relativamente às classes centrais:
     
graf3_2_17.gif (1482 bytes)
d. Distribuições com vários "picos" ou modas
A distribuição das freqüências apresenta 2 ou mais "picos" a que chamamos modas, sugerindo que os dados são constituídos por vários grupos distintos:
       
graf3_2_18.gif (1874 bytes)

Função distribuição empírica

graf3_2_20.gif (1256 bytes) Embora de uma representação gráfica como o histograma, ou o "caule e folhas", se possa extrair informação relevante para a caracterização dos dados, na medida em que nos mostra a forma como se encontram concentrados, essa representação pode não ser suficiente, quando se pretende outro tipo de informação, como a de saber qual a porcentagem de valores da amostra inferiores ou superiores a um determinado valor!

Assim, quando se pretende este tipo de informação, existe uma representação gráfica conveniente, que é a função distribuição empírica.

Função distribuição empírica

O que é ?

É uma função F(x) definida para todo o valor de x de R, e que para cada x dá a proporção de elementos da amostra menores ou iguais a x.
                

Como se constrói?

 

Para a sua construção, convém seguir as seguintes etapas:
1) Ordenar os n elementos da amostra, por ordem crescente.
2) Começar da esquerda para a direita, atribuindo o valor 0 à esquerda do mínimo, o valor 1/n entre o 1º mínimo e o 2º mínimo, o valor 2/n entre o 2º e 3º mínimos, e assim sucessivamente (em um valor da amostra que se repita d vezes, o salto da função será d/n)
Para x maior ou igual ao máximo da amostra, a função assume sempre o valor 1. Obtém-se uma função em escada, com saltos de amplitude 1/n.
Exemplo: Construa uma função distribuição empírica para os seguintes valores, que representam a taxa de crescimento populacional, nas seguintes regiões:

 

 

graf3_2_21.GIF (2555 bytes)
Suponhamos que se pretendem as seguintes informações:

- Qual a percentagem de taxas inferiores ou iguais a 1.3?
R: 57%

- Qual a percentagem de taxas inferiores ou iguais a 2.5?
R: 71%

graf3_2_22.gif (1963 bytes)

O que são percentis ou quantis?   

           
Como vimos, a função distribuição empírica permite obter a percentagem, ou proporção de elementos da amostra que são inferiores ou iguais (maiores ou iguais) a um valor qualquer.
Por outro lado, dado um valor p qualquer, entre 0 e 1, permite determinar um valor Qp, tal que a amostra fica dividida em duas partes:
100p% dos elementos da amostra são menores ou iguais a Qp e os restantes 100(1-p)% elementos, são maiores ou iguais a Qp

Ao valor Qp dá-se o nome de percentil ou quantil de ordem p ou porcentagem 100p%.

Mediana

É o percentil correspondente à porcentagem de 50%, o que significa que divide a amostra em duas partes com o mesmo número de elementos.
    

Quartis

 

O 1º quartil (ou quartil inferior) é o percentil correspondente à porcentagem de 25%, o que significa que 25% dos elementos da amostra são menores ou iguais a ele, e os restantes são maiores ou iguais.
O 3º quartil (ou quartil superior) é o percentil correspondente à porcentagem de 75%.
Diagrama de extremos e quartis
É um tipo de representação gráfica, em que se realçam algumas características da amostra. O conjunto dos valores da amostra compreendidos entre o 1º e o 3º QUARTIS, que vamos representar por Q1 e Q3 é representado por um retângulo (caixa) com a MEDIANA indicada por uma barra. A largura do retângulo não dá qualquer informação, podendo ser qualquer. Consideram-se seguidamente duas linhas que unem os meios dos lados do retângulo com os extremos da amostra. Para obter esta representação, começa por se recolher da amostra, informação sobre 5 números, que são: os 2 extremos (mínimo e máximo), a mediana e o 1º e 3º quartis. A representação do diagrama de extremos e quartis tem o seguinte aspecto:

graf3_2_41.gif (858 bytes)

O extremo inferior é o mínimo da amostra, enquanto que o extremo superior é o máximo da amostra.

Qual a importância deste tipo de representação?

Realça informação importante sobre os dados (a mediana, variabilidade, simetria). 

Repare-se que da forma como o diagrama se constrói, se pode retirar imediatamente a seguinte informação:
 

graf3_2_26.gif (1453 bytes)

Como é que se pode reconhecer a simetria ou o
enviesamento dos dados, a partir do Diagrama de extremos e quartis?

Existem fundamentalmente 3 características, que nos dão idéia da simetria ou enviesamento e da sua maior ou menor concentração:
- distância entre a linha indicadora da mediana e os lados do retângulo
- comprimento das linhas que saem dos lados dos retângulo
- comprimento da caixa.
Apresentamos seguidamente 3 exemplos de diagramas de extremos e quartis, correspondentes a tipos diferentes de distribuição de dados.
graf3_2_27.GIF (2342 bytes)
Diagrama Circular
  • Os ângulos dos setores são proporcionais às freqüências das classes.
  • Por exemplo uma classe com uma freqüência relativa igual a 0.20, terá no diagrama circular um sector com um ângulo igual a 360x0.20 = 72 graus.
  • É uma representação utilizada essencialmente para dados qualitativos.
            
Exemplo: Categoria profissional dos funcionários de uma faculdade.
Classes Freq. abs. Freq. rel.
AE (Área Educacional) 20 0.47
Ad (Área Administrativa) 12 0.29
AS (Área de Ação Social) 7 0.17
Op (Operários) 3 0.07
Total 42 1.00
Nesta representação, juntamente com a identificação da categoria, indica-se a freqüência relativa da respectiva classe.