Índice de conteúdo
A Inteligência Artificial está passando por uma mudança fundamental desde 2017. Após a apresentação do paper "Attention is all you need", começou a tomar forma uma mudança de paradigma que continua até hoje.
Nesta nova série de artigos, contaremos tudo o que você precisa saber sobre o assunto para entender a realidade pela qual a Inteligência Artificial está passando e para onde estamos indo.
O processo de mudança levou à criação de uma nova geração de modelos (como BERT, GPT-3, etc.) que possuem várias características em comum (e outras que os diferenciam). São todos modelos treinados em grandes quantidades de dados, geralmente utilizando um conceito chamado self-supervision em escala, e sua principal vantagem é que podem ser adaptados para outras tarefas e obter resultados cada vez melhores quando se trata de problemas estabelecidos no meio acadêmico para medir o estado da arte.
Esses modelos são atualmente conhecidos como "Foundation Models" e são os que estão impulsionando essa nova etapa da NLP (Natural Language Processing).
No entanto, como qualquer novo começo, existem oportunidades e riscos. É importante conhecer suas capacidades, suas características técnicas, em quais setores podem ser aplicados e que impacto moral geram.
A geração de empresas em torno desses modelos e sua presença no estado da arte em tantas tarefas gera muita tração, mas ao mesmo tempo exige cautela. Ainda precisamos entender como eles funcionam, quando falham e do que são capazes.
O objetivo desta série de artigos é poder explicar como chegamos onde estamos, para onde vamos, poder diferenciar "moda e marketing" de avanços reais na área.
Dito isso, nada melhor do que começar do começo:
O que é Machine Learning?
Os primórdios do machine learning remontam ao ano de 1990. Seu desenvolvimento significou uma mudança na forma de construir modelos de Inteligência Artificial, pois ao invés de especificar como resolver uma tarefa, a ideia era introduzir algoritmos capazes de aprender com dados. Embora esses algoritmos fossem um avanço, eles não tinham a capacidade de generalizar. Ou seja, eles eram capazes de "resolver" uma tarefa, mas não podiam ser aplicados na resolução de outra. Isso foi particularmente notável em NLP, onde tarefas de alta complexidade semântica ainda não podiam ser resolvidas por esse tipo de ML tradicional.
Artigo relacionado: Vantagens e desvantagens dos chatbots
O início do Deep Learning
Na década de 2010, as redes neurais profundas voltaram, principalmente porque tiveram um desempenho melhor em tarefas do que os algoritmos tradicionais de ML. Essa mudança, chamada de "Deep Learning", foi caracterizada pelo uso de redes neurais, grande quantidade de dados, aumento do uso computacional (uso de hardware especializado chamado GPUs) e obtenção de recursos hierárquicos a partir de dados brutos. Isso também significou uma mudança para a "generalização", pois em vez de ter um algoritmo para cada aplicativo, a mesma arquitetura poderia ser usada para várias tarefas.
Modelos fundamentais de IA
No final de 2018 é quando esta nova etapa começa. No início, seu fator mais importante era o uso de “transfer learning at scale”, ou seja, a possibilidade de pegar o conhecimento aprendido em uma tarefa e transferi-lo para a resolução de outra tarefa.
O uso dessa técnica é o que tornou possível o treinamento do novo tipo de modelos, mas a chave também está na escala: é justamente isso que os torna poderosos. A escala requer três ingredientes:
- Hardware→GPUs
- Desenvolvimento da arquitetura Transformer, que permite utilizar o paralelismo de GPUs e modelos de treinamento com um número crescente de parâmetros.
- Disponibilidade de grandes quantidades de dados. Este ponto é fundamental, uma vez que a disponibilidade de dados anotados corretamente para a resolução de tarefas é um custo não trivial e impõe limites ao aprendizado. No entanto, adicionando self-supervision, a tarefa de pre-training pode ser feita sem supervisão. Por exemplo, BERT é treinado usando uma tarefa de masked language modeling, cujo objetivo é prever uma palavra em uma frase dado seu contexto. Portanto, esta tarefa pode ser realizada com texto bruto (sem supervisão ou labels).
A aprendizagem Self-Supervised tem vários marcos de tempo:
1) Incorporação de palavras (Mikolov et al 2013)
2) Modelação de linguagem autoregressiva, prever a palavra seguinte dada as anteriores. (Dai e Le 2015).
3) Modelos de Linguagem Contextual as:
a) GPT (Radford 2018)
b) Elmo (Peters 2018)
c) ULMFiT (Howard e Ruder 2018)
4) BERT (Devlin et al 2019)
5) GPT-2 (Radford et al 2019)
6) RoBERTa (Liu et al 2019)
7) T5 (Raffel et al 2019)
8) BART (Lewis et al 2020)
Todos esses modelos incorporam os conceitos descritos acima, incorporam deep bidirectional encoders mais poderosos e escalam para arquiteturas e conjuntos de dados cada vez maiores.
Como já mencionamos, um dos grandes objetivos é a generalização: a utilização de um único modelo para diversas tarefas significou o início da etapa dos foundation models.
O risco dos modelos fundamentais de IA
Se olharmos para o SoTA (State of the Art) para todas as tarefas dentro da NLP, todos os modelos encontrados nas leaderboards vêm de um desses modelos fundamentais. Mas essa alta capacidade de generalização é uma faca de dois gumes. Qualquer melhoria nos modelos fundamentais traz benefícios imediatos para todas as tarefas de NLP, mas também é um risco, pois todos os sistemas que usam esses modelos podem herdar as falhas ou vieses que possuem.
A escala leva ao conceito de "emergence", por exemplo GPT-3, con sus 175 billones de parámetros (comparado a 1,5 billones de GPT-2), permite algo que se llama in-context learning, en donde un language model puede adaptarse a otra tarea al proporcionar un prompt (descripción en lenguaje natural de uma tarefa).
A generalização e a capacidade de "emergir" interagem de maneiras que ainda não entendemos. A generalização pode trazer grandes benefícios em domínios onde a disponibilidade de dados é muito limitada. Como a capacidade desses modelos vem de suas capacidades “emergentes”, isso nos coloca em um dilema, pois sabemos que eles também cometem erros graves.
Eliminar o risco é uma das chaves na construção e implementação deste tipo de modelo, e é algo que todas as empresas que utilizam estes modelos na produção devem ter em conta, o que na Aivo levamos muito a sério, especialmente pelo domínio em quais nossos bots respondem.
Saiba mais sobre a IA Conversacional da Aivo
Em artigos futuros, descreveremos com mais detalhes as características técnicas desses modelos, os benefícios que eles trazem para o campo, os riscos que eles implicam, para onde o campo está indo e como podemos mitigar os riscos.
Enquanto isso, você pode obter uma visão detalhada de como funciona a IA Conversacional do Aivo aqui.