As duas faces do Machine Learning: Aprendizado supervisionado e não supervisionado

Community, Alejandro Balderas Elizalde

Oct 10, 2022 • 6 min read

Neste artigo, exploraremos brevemente os dois tipos de algoritmos usados em Machine Learning para entender suas aplicações, limitações e com um foco adicional no por que o uso não supervisionado geralmente é mais complexo.

Ao ouvir o conceito de Machine Learning ou Automated Learning, muitos conceitos vêm à mente: modelos avançados resolvendo problemas complexos em empresas como Google ou Amazon, inteligência artificial, os primórdios da indústria 4.0, etc.

Todos eles refletiriam que se trata de uma ferramenta de elite usada e compreendida apenas por alguns especialistas na área. Embora seja verdade que faz parte das tecnologias emergentes, o Machine Learning é mais fácil de entender do que você pensa. Consiste em modelos ou algoritmos que se adaptam ou aprendem com os dados que fornecemos. Um cientista de dados procura conhecer (de maneira geral) todos os modelos disponíveis para aplicá-los ao problema correto.

Antes de entrar em modelos detalhados é importante conhecer os grupos gerais de modelos: Modelos de aprendizagem supervisionada e não supervisionada.

Aprendizado Supervisionado

Anteriormente, falamos sobre Machine Learning e modelos que aprendem com os dados recebidos. Agora, o que queremos que eles aprendam? Isso dependerá de nossa aplicação de interesse, mas a primeira coisa que uma máquina deve aprender seria governada pelo seguinte: "Dado meu conjunto de dados x, ele prevê y".

Para aprender a resolver esse problema, as máquinas precisam de um pouco do nosso apoio na separação dos dados. Nesse sentido, eles recebem dados sobre os quais realizamos um tratamento para garantir os seguintes pontos.

Primeiro, o conjunto de dados contém informações suficientes para explicar um determinado item, enquanto fornecemos o material de estudo (conjunto de dados) e a resposta (variável de resposta) separadamente para informar o que aprender.

Tomemos como exemplo um caso de pacientes com Covid-19. Estaríamos interessados em prever se um paciente terá ou não complicações dadas suas características. Para isso, alimentamos o modelo com dados de saúde como altura, peso, nível de colesterol e oxigenação do sangue, que indicariam se tiveram ou não complicações. Com essas informações, o modelo utiliza diferentes métodos para encontrar o mais próximo de explicar a realidade (menor erro). Embora os métodos possam variar, todos os modelos que utilizam essa forma de aprendizado são conhecidos como modelos supervisionados.

Esses modelos são assim chamados porque o processo de treinamento do modelo com o objetivo de reduzir o erro se assemelha muito à nossa forma tradicional de aprender com um mentor e objetivo bem definidos. Estando muito alinhados à nossa forma de aprender, não deve surpreender que sejam os mais amigáveis de usar e, consequentemente, os mais populares. Estes modelos reúnem diferentes variantes de acordo com os pressupostos estatísticos e as metodologias utilizadas por cada um, mas as suas aplicações podem resumir-se em 3 aplicações principais.

Previsão: Este grupo de modelos busca prever o valor de uma variável no futuro, utilizando o comportamento do passado. Isso pode se aplicar aos ganhos de uma empresa, ao clima ou até mesmo ao preço de um ativo financeiro. Isso não significa que não podemos utilizar outros dados, mas a previsão é única devido ao foco central que a variável tempo possui. Embora no momento não tenhamos as variáveis do futuro, podemos usar dados do passado para simular uma previsão e validar o erro do modelo ali.

Classificação: concentra-se em prever a categoria à qual uma determinada observação pertence, com base na suposição de que já temos um conjunto de dados de fatores e rótulos de grupos. Um exemplo é o caso citado acima sobre o Covid. Lá, nossas categorias são graves ou menores. Esse modelo é um pouco mais direto em termos de validação, pois o erro por registro só pode ter 2 opções: você acertou ou falhou.

Regressão: Muito semelhante à previsão, só que ao invés de prever um valor para o futuro, pode ser independente do tempo. Como tal, a validação e a lógica do modelo permanecem bastante semelhantes.

Esses modelos possuem um grande número de aplicações e nos ajudam a resolver problemas complexos e relevantes, mas é muito importante ressaltar que para que funcionem, devemos ter uma forma de validar onde foi atingida a menor margem de erro possível. Então, existem casos em que não podemos calcular um erro? Infelizmente, há muitos onde o exposto acontece devido a limitações do fenômeno (casos de fraude) ou financeiro (exames médicos). Assim, deixa-nos apenas um conjunto de dados geral sem rótulos. A consequência repentina é que os modelos mencionados anteriormente não funcionam porque temos apenas o conjunto de dados e não um fenômeno que queremos prever.

Aprendizado não supervisionado

A outra face do Machine Learning. Seus modelos se opõem aos definidos acima porque não seguem uma estrutura de aprendizagem semelhante à nossa, fazendo com que pareçam contra-intuitivos e mais abstratos. Essa ramificação usa apenas um conjunto de dados não rotulado e seu principal objetivo é extrair mais informações dos dados, sejam relações complexas entre variáveis, agrupamentos ou algo mais complexo para nós, mas bastante interpretável para a máquina.

O acima é bastante valioso. No entanto, ainda não temos como validar a saída do modelo, ou pelo menos uma que não seja resolvida da maneira tradicional. O detalhe é que esses modelos podem ser validados, mas não é algo tão direto quanto nos casos anteriores. Existem muitos aspectos específicos que precisam ser revistos dependendo do subgrupo de modelo utilizado, bem como da aplicação específica que precisamos resolver.

Agrupamento

Tipo de modelo utilizado em problemas de segmentação. É usado principalmente para a identificação de grupos altamente compactos (os pontos de um grupo têm pouca distância uns dos outros) e bem definidos (os grupos estão distantes uns dos outros).

Uma vez treinado o modelo, temos como saída a qual grupo ou cluster cada observação de nossos dados pertence. Aí vem um dos maiores desafios dessa classe de modelos: a validação não tanto do ponto de vista do algoritmo, mas do ponto de vista da aplicação. Essa tarefa geralmente é delegada a uma pessoa com alto nível de expertise na aplicação de interesse, pois o que realmente vale é dar significado real aos clusters gerados no modelo.

Associação

Modelo usado para sistemas de recomendação. Encontre relações e semelhanças entre diferentes objetos (filmes, músicas, produtos). Com base em suas características ou compras de outros clientes, recomenda novas opções ao usuário. Essa validação é impossível de fazer. Por quê? A única maneira de validar se a recomendação funciona é enviá-la ao usuário. Para ter certeza de que o modelo funciona, devemos recorrer a uma pessoa com experiência e conhecimento da aplicação. Os filmes recomendados fazem sentido? Há algum novo aprendizado com as recomendações? Você pode explicar o motivo da recomendação?

Redução de dimensionalidade

Usado para reduzir a complexidade de um conjunto de dados. Dependendo da aplicação, podemos contar com muitas variáveis relevantes. Tomando como exemplo um caso da área da saúde, é possível coletar dados sobre altura, peso, porcentagem de gordura ou músculo, níveis de glicose e colesterol. Embora todas essas variáveis sejam importantes para o bem-estar de um indivíduo, algumas delas estão fortemente correlacionadas entre si.

Ao gerar a informação redundante acima entre as variáveis disponíveis, é possível aplicar diferentes modelos, escolhendo aquele que contém a maior quantidade de informação com o menor número de variáveis. Alguma desvantagem? Sim, perde-se a interpretabilidade das variáveis e uma pequena quantidade de informação (se eliminarmos as variáveis, é lógico que não guardamos 100% da informação).

Nesses três casos vemos porque esses modelos são percebidos como complexos. Não tanto porque um algoritmo é difícil de entender. Na verdade, muitos modelos não supervisionados têm fundamentos mais soltos do que os supervisionados. O problema surge ao validá-lo e tentar estimar um intervalo de erro. Ter conhecimento prévio suficiente para interpretar adequadamente o modelo e saber como fazer as perguntas certas é uma curva de aprendizado bastante íngreme, mas gerenciável, e entender seu aplicativo certamente ajudará muito na solução de problemas.

Este comentário não significa que um tipo de modelo seja melhor que o outro. Pelo contrário, é saber quais ferramentas temos disponíveis. Tanto o aprendizado supervisionado quanto o não supervisionado têm aplicações dependendo do problema, mas é importante entender os principais requisitos para o uso de cada um e conhecer suas limitações.

Modelos supervisionados podem ser validados diretamente, mas a complexidade do modelo pode crescer bastante e conhecer a métrica de erro cria o problema de querer reduzi-la ainda mais com outro modelo ou dados. É claro que os métodos não supervisionados são mais abstratos, altamente propensos a erros e exigem muito conhecimento prévio para encontrar uma interpretação. No entanto, esses modelos geram informações úteis. Conhecendo essas limitações, alguém pode definir os problemas com potencial para um modelo pertencente a um desses dois grupos, sabendo qual abordagem será dada à sua análise.

🛑

As opiniões e comentários expressos neste artigo são de propriedade exclusiva de seu autor e não representam necessariamente o ponto de vista da Revelo. A Revelo Content Network acolhe todas as raças, etnias, nacionalidades, credos, gêneros, orientações, pontos de vista e ideologias, desde que promovam diversidade, equidade, inclusão e crescimento na carreira dos profissionais de tecnologia.