[MÚSICA]
[MÚSICA] Olá!
Para completar a nossa vídeo-aula
sobre uso do Stata em análise de cluster está faltando mostrar para você
como é que a gente usa o método K-Means e como a gente padroniza variáveis.
Para isso vamos abrir de novo o Stata e carregar a mesma base de dados
do exercicio anterior, que é aquela base de dados de creme dentais.
Eu tô indo agora pouco mais rápido, uma vez que você já viu a solução
desse exercicio de uma maneira bastante detalhada.
Você se lembra que a gente aqui fez o nosso comando,
que a gente pode digitar aqui agora,
o comando de fazer clusters através do método de Ward.
A gente pode escrever aqui "cluster
wardslinkage (espaço)
V*"- para pegar todas as variáveis- ",
measure
[L2
squared]".
Quando a gente dá esse comando,
a gente já viu o comando anteriormente, na nossa base de dados é criada as
colunas com as
distâncias euclidianas medidas pelo método de Ward.
A partir daí a gente tem que dar aquele comando que vai nos
permitir gerar as 3 colunas e para isso eu vou deslocar o nosso cursor
de novo e clicar no comando de "Postclustering" que
é de "summary variables" que vai permitir
que eu volte a colocar as minhas,
eu vou colocar agora o nome de "cluster_3"
e dizer pro Stata que eu quero 3 grupos.
Note que da minha base de dados eu tenho agora os grupos definidos de 1 a 3.
Como é que a gente pode fazer esses mesmos 3 grupos usando o método K-Means?
Eu vou de novo aqui colocar o meu cursor mais para baixo
e clicar em "estatísticas", "análises multi variada",
"cluster", "cluster data" e agora eu venho aqui em "K-Means".
O método K-Means permite que eu coloque aqui as variáveis,
de novo "V*" e aqui é que eu tenho que definir o número de grupos.
É grupo, o número de grupos é definido na priori, como a gente já explicou na
vídeo-aula, a gente pode escolher 2, 3, 4, quantos grupos a gente quiser.
Eu vou definir como sendo 2 grupos, uma vez que, perdão,
3 grupos, uma vez que eu quero realmente comparar com a solução obtida
através da clusterização pelo método de Ward.
Agora eu vou colocar aqui já a distância euclidiana ao quadrado e eu posso dar o
nome para essa clusterização de "cluster_ k3",
k para lembrar que é do K-Means e 3 para lembrar que são 3 grupos.
De novo, eu vou agora na minha base de dados e
eu gostaria de pedir para você comparar esta solução com esta.
Olha só, o que era grupo 1 virou grupo3, o que era grupo 2 virou grupo 1,
o que era grupo 1 virou grupo 3, o que era grupo 3 virou grupo 2,
mas existe sim uma grande correspondência, tirando o nome do grupo.
Isso eu posso fazer agora uma tabela comparativa
com as variáveis "V*" agrupadas
tanto pela clusterização como 3 grupos e aquela mesma tabela
que vocês já viram, como eu posso fazer também a mesma tabela,
mas agora fazendo com a variável
agrupamento com o método de K-Means,
e vocês estão vendo aqui que, comparando a solução de
cima com a de baixo, elas são rigorosamente iguais,
a única diferença é que o grupo 1 virou grupo 3,
o grupo 2 virou grupo 1 e o grupo 3 virou o grupo número 2.
As conclusões de marketing são as mesmas e
agora você tem os mesmos clusters também feito pelo método K-Means.
Você se lembra naquele exercício que nos fizemos em Excel,
que quando a idade era medida em anos, a idade era medida em meses,
havia uma grande distorção no cálculo da distância euclidiana.
Nós precisamos sempre ter as variáveis medidas nas mesmas dimensões,
nas mesmas unidades, se não a análise de cluster fica distorcida.
O que fazer então quando você tem uma base de dados
onde se tem uma variável que é renda medida de milhares de reais por ano,
ou uma outra variável que é a idade, uma variável que pode ser o número de filhos?
Você tem que primeiro padronizar as variaveis.
Nesta base de dados eu não precisaria padronizar porque
as minhas variáveis estão todas na mesma escala, que é a escala Linkert,
mas mesmo assim eu quero mostrar para você o comando pra quando você precisar.
Você tem que vir aqui em "data", "create or change variables" e nesta
posição você clica 'create new variables extended'.
Você quer criar na verdade, vamos chamar a variável V1 e vamos colocar na frente dela
a letra Z para identificar que é o nosso Z score ou variável padronizada.
A variável padronizada aparece aqui neste comando 'standard
deviation' e neste lugar aqui de "expression" você clica e você
diz que o que você quer é que pegue a variável V1, clica na variável V1 e dá OK.
Nesse momento, o meu banco de dados vai criar uma variável
chamada zV1 que é a V1 padronizada com média igual a 0, desvio padrão igual a 1.
Dá OK, imediatamente o meu banco de dados agora tem uma nova
variável que é a variável zV1.
Se você duvida, você pode até colocar "sum
z V1" para ver se a média dá 0 e o desvio padrão dá 1.
Média praticamente 0, como você está vendo elevado a -08,
é número muito próximo de 0 e o desvio padrão é 1.
Portanto, toda a vez que você for
usar banco de dados que as variáveis tiverem medidas em unidades diferentes,
padronize, padronize antes, que assim a sua análise de cluster vai ser sucesso.
Até breve!