Realmente não há regra para quantas classes deveriam existir. Há algumas coisas a considerar sobre o número de aulas. Se houvesse apenas uma classe, todos os dados cairiam nessa classe. Nosso histograma seria simplesmente um único retângulo com a altura fornecida pelo número de elementos em nosso conjunto de dados. Isso não seria muito útil ou histograma útil.
No outro extremo, poderíamos ter uma infinidade de classes. Isso resultaria em uma infinidade de barras, nenhuma das quais provavelmente seria muito alta. Seria muito difícil determinar quaisquer características distintivas dos dados usando esse tipo de histograma.
Para nos proteger desses dois extremos, temos uma regra de ouro a ser usada para determinar o número de classes de um histograma. Quando temos um conjunto de dados relativamente pequeno, normalmente usamos apenas cerca de cinco classes. Se o conjunto de dados for relativamente grande, usamos cerca de 20 classes.
Mais uma vez, enfatize-se que esta é uma regra de ouro, não um princípio estatístico absoluto. Pode haver bons motivos para ter um número diferente de classes para dados. Veremos um exemplo disso abaixo.
Antes de considerarmos alguns exemplos, veremos como determinar quais são realmente as classes. Começamos esse processo encontrando o alcance dos nossos dados. Em outras palavras, subtraímos o valor mais baixo dos dados do valor mais alto.
Quando o conjunto de dados é relativamente pequeno, dividimos o intervalo por cinco. O quociente é a largura das classes do nosso histograma. Provavelmente precisaremos fazer alguns arredondamentos nesse processo, o que significa que o número total de classes pode não acabar sendo cinco.
Quando o conjunto de dados é relativamente grande, dividimos o intervalo por 20. Assim como antes, esse problema de divisão nos dá a largura das classes para o nosso histograma. Além disso, como vimos anteriormente, nosso arredondamento pode resultar em um pouco mais ou um pouco menos de 20 classes.
Nos casos de conjuntos de dados grandes ou pequenos, fazemos com que a primeira classe comece em um ponto um pouco menor que o menor valor de dados. Devemos fazer isso de maneira que o primeiro valor dos dados caia na primeira classe. Outras classes subseqüentes são determinadas pela largura que foi definida quando dividimos o intervalo. Sabemos que estamos na última classe quando nosso maior valor de dados está contido nessa classe.
Por exemplo, determinaremos uma largura de classe apropriada e classes para o conjunto de dados: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.
Vemos que existem 27 pontos de dados em nosso conjunto. Este é um conjunto relativamente pequeno e, portanto, dividiremos o intervalo por cinco. O intervalo é 19,2 - 1,1 = 18,1. Dividimos 18,1 / 5 = 3,62. Isso significa que uma largura de classe de 4 seria apropriada. Como o menor valor de dados é 1.1, iniciamos a primeira classe em um ponto menor que isso. Como nossos dados consistem em números positivos, faria sentido fazer a primeira classe passar de 0 a 4.
Por um exemplo disso, suponha que exista um teste de múltipla escolha com 35 perguntas e 1000 alunos de uma escola secundária façam o teste. Desejamos formar um histograma mostrando o número de alunos que atingiram determinadas pontuações no teste. Vemos que 35/5 = 7 e que 35/20 = 1,75. Apesar de nossa regra geral nos dar as opções de classes de largura 2 ou 7 a serem usadas em nosso histograma, pode ser melhor ter classes de largura 1. Essas aulas corresponderiam a cada pergunta que um aluno respondeu corretamente no teste. O primeiro deles seria centrado em 0 e o último seria centralizado em 35.