Pontos Principais
-
Os agentes de software inteligentes devem usar o bom senso para raciocinar;
-
Para que os agentes de software inteligentes possam prever como as pessoas e o mundo físico reagem, o conhecimento de bom senso é necessário;
-
Atualmente, os modelos de deep learning não entendem o que produzem e não têm conhecimento de bom senso;
-
O projeto Commonsense Transformers (COMET) tenta treinar modelos com informações do mundo, semelhante a como um ser humano adquire esse conhecimento;
-
O projeto COMET e outras iniciativas semelhantes ainda estão em fase de pesquisa.
Os pesquisadores de inteligência artificial não têm tido sucesso em dar aos agentes inteligentes o conhecimento de bom senso que precisam para refletir sobre o mundo. Sem esse conhecimento, é impossível que interajam verdadeiramente com o mundo real. Tradicionalmente, houve duas abordagens malsucedidas para fazer os computadores raciocinarem igual aos seres humanos: Lógica simbólica e deep learning. Um novo projeto, denominado COMET, tenta aproximar essas duas abordagens. Embora ainda não tenha tido sucesso, o projeto oferece grandes chances de progresso.
O que é o bom senso?
Pergunte a si mesmo: Como um veículo automatizado saberia que um boneco de neve parado na beira da estrada não vai cair na via? Os humanos usam o bom senso para perceber se isso vai ou não acontecer.
Por que é tão difícil fornecer esse conhecimento de bom senso aos agentes de inteligência? Como ilustramos no exemplo anterior, usamos esse conhecimento intuitivamente, sem pensar muito. Além do mais, com certa frequência, nem percebemos que estamos fazendo isso.
Desde o início da inteligência artificial, reconheceu-se que esse problema precisava ser resolvido. Um dos primeiros artigos escritos neste novo campo da ciência da computação tinha como principal objetivo um software com bom senso.
O bom senso é todo o conhecimento prévio que temos sobre o mundo físico e social que interagimos e as informações dele que absorvemos ao longo de nossas vidas. Inclui coisas como a compreensão da física (causalidade, calor e frio), bem como as expectativas sobre como os humanos se comportam. Leora Morgenstern compara o bom senso a "O que aprendemos quando temos dois ou quatro anos de idade e nunca colocamos em um livro".
Por exemplo, alguém pode descobrir como dirigir do lado esquerdo da estrada na Inglaterra, mesmo que só tenha dirigido em países que usam o lado direito como padrão. Esse motorista podem inferir o que é igual e o que é diferente. Leora Morgenstern atualmente mantém uma coleção de problemas que precisam do bom senso para serem resolvidos.
Raciocínio Simbólico
A primeira tentativa de implementação foi em um software com regras para o bom senso. Hoje, essa tentativa é conhecida como Good Old Fashioned Artificial Intelligence, ou também pela sigla, GOFAI (Inteligência Artificial Boa e Antiquada, tradução livre no português). Embora os sistemas especialistas baseados em regras tenham tido algum sucesso, essa abordagem não conseguiu fornecer bom senso aos agentes. "A quantidade de conhecimento que pode ser convenientemente representada nos formalismos da lógica é, um tanto quanto limitada, a princípio", disse Michael Witbrock, pesquisador de IA da Universidade de Auckland na Nova Zelândia. "Acabou sendo uma tarefa realmente estressante."
Outra tentativa foi o Cyc. Iniciado em 1984, era originalmente um projeto para capturar o conhecimento do senso comum por meio de uma base de conhecimento e relações entre o mesmo. Atualmente, o projeto parece estar limitado a fornecer aplicações limitadas ao setor privado. Rodney A. Brooks comentou sobre o Cyc: "Embora tenhamos tido um esforço heróico, não conseguimos resultar em um sistema de IA capaz de poder ao menos dominar uma simples compreensão do mundo".
O problema fundamental é que a linguagem é confusa. Em primeiro lugar, deve haver milhões de regras e existem diversas exceções. Ellie Pavlick exemplifica: Se sair na chuva, vou me molhar, exceto se estiver debaixo de alguma coisa. Mesmo essa afirmação é insuficiente porque depende do ângulo e da força da chuva, bem como da largura do abrigo.
Além do número de regras e exceções, os próprios símbolos usados são ambíguos. Por exemplo, a palavra baixo pode significar um tom de baixa frequência, um tipo de instrumento ou nomes de lugares.
Redes Semanticas
As redes semânticas tentam resolver o problema da imprecisão. A Concept Net, um exemplo desse tipo de rede, usou o conhecimento crowdsourcing, em que as pessoas podem inserir o que consideram conhecimento de bom senso. Aqui temos um exemplo de rede Concept Net que gira em torno da palavra "bolo".
O problema é que as informações necessárias para ler a rede semântica não estão na rede. Por exemplo, a relação entre comer e engolir sempre se mantém, porém, outras relações não são mantidas. Um bolo pode ser um lanche assim como uma sobremesa, ou pode ou não saciar a fome. Podemos comer o bolo porque queremos algo doce. Não é provável, embora teoricamente possível, que uma pessoa coma um bolo no forno, especialmente se estiver quente. Neste exemplo, o termo "cook" parece ser usado tanto como substantivo quanto como verbo.
Deep Learning
As redes neurais obtiveram mais sucesso do que qualquer uma dessas abordagens. No entanto, os desenvolvedores não tiveram sucesso no raciocínio baseado no bom senso.
Alpha Go
O Alpha Go combina uma pesquisa de árvore de última geração com duas redes deep neural, cada uma com milhões de conexões. A política dessa rede prevê o próximo movimento e é usada para restringir a pesquisa de modo que apenas os movimentos com maior probabilidade de levar à vitória sejam considerados. A rede de valor reduz a profundidade da árvore de pesquisa, estimando o vencedor em cada posição, ao invés de fazer a pesquisa toda até o final.
O Alpha Go está muito mais próximo do raciocínio humano porque usa a pesquisa de árvore de Monte-Carlo para simular o restante do jogo da mesma forma que um humano jogaria o restante do jogo usando a imaginação. Uma vez que a rede de políticas sugere possíveis movimentos inteligentes e a rede de valor avalia a posição atual, o Alpha Go pode escolher o movimento com base na simulação mais bem-sucedida. Isso é diferente do algoritmo de xadrez Deep Blue que usava hardware paralelo de forma massiva para fazer uma pesquisa de força bruta.
No entanto, o Alpha Go e todas as abordagens semelhantes não exigem raciocínio de bom senso porque não há ambiguidades no jogo e o sucesso é bem definido. Eles são incapazes de lidar com imprevistos, como o carro autônomo do Uber que matou um pedestre porque não entendeu que o pedestre poderia simplesmente parar na rua.
Transformador generativo pré-treinado
Analisar a linguagem usando deep learning é uma tentativa de lidar com essa ambiguidade. Esses modelos são pré-treinados e usam um modelo estatístico de linguagem expressas em milhões ou bilhões de parâmetros em uma rede neural. Se forem ajustados para uma tarefa específica, como responder a perguntas ou parafrasear textos, podem dar a impressão de que parecem entender o que estão lendo.
O Transformador generativo pré-treinado (GPT)-3 é o maior modelo de linguagem treinado existente no momento. O modelo básico gera respostas em texto para textos de entrada. É possível pedir uma resposta para uma pergunta ou escrever um ensaio. O modelo deve ser treinado com exemplos antes de colocá-lo para funcionar em um determinado contexto.
Representações de codificação bidirecional para transformadores
Representações de codificação bidirecionais de transformadores (BERT) é uma rede neural que tenta entender a linguagem escrita. BERT é um algoritmo de processamento de linguagem natural (PNL) que usa uma rede neural para criar modelos pré-treinados que são modelos de propósito geral que podem ser refinados para tarefas específicas de PNL. Ao contrário de outros algoritmos, o BERT é bidirecional. O contexto que o algoritmo utiliza é baseado nas palavras da frase antes e depois da palavra que está sendo o pivô da questão. Por exemplo, na frase "Sentei-me às margens do Rio Tâmisa", utilizamos dois fragmentos "Sentei-me à margem" e "do Rio Tâmisa" para determinar o significado da palavra "margem". Um algoritmo unidirecional teria que adivinhar se o sujeito da frase estava sentado diante de uma instituição financeira ou de um corpo d'água, se considerarmos apenas a primeira parte da frase. O Google afirma que, com base na capacidade de passar em testes como o conjunto de respostas de perguntas de Stanford, podemos fornecer resultados de última geração para tarefas de PNL.
Sam Bowman explica que o BERT não é uma rede neural totalmente treinada, mas uma receita de open source cujo objetivo é o ajuste fino de redes neurais afim de realizar muitas tarefas de processamento de linguagem natural.
Problemas com abordagens da Deep Learning
A questão principal é se os modelos entendem o que lêem e escrevem, ou são apenas versões computacionais sofisticadas do Clever Hans? Ou, dito de outra forma, podemos confiar em qualquer programa que foi treinado para passar em um exame de licenciamento profissional para ser engenheiro, advogado ou médico?
Um novo conjunto de pesquisas de benchmark, denominado SuperGLUE, foi criado por Bowman e vários colaboradores para medir o quanto as máquinas melhoraram no entendimento da linguagem. Até agora, nenhuma máquina superou o desempenho humano nos benchmarks. No entanto, eles não indicam se houve ou não entendimento de alguma máquina.
Como inserir o bom senso em um modelo?
Colocar o bom senso no modelo é o objetivo do COMET (Commonsense Transformers). O projeto é uma tentativa de combinar as abordagens do raciocínio simbólico com o modelo de linguagem de redes neurais.
A ideia principal é introduzir o conhecimento do bom senso no ajuste do modelo. Semelhante aos modelos de deep learning, eles tentam gerar respostas plausíveis ao invés de fazer deduções a partir de uma base de conhecimento.
Quando Yejin Choi começou a trabalhar no Instituto Allen em 2019, pensou que as redes neurais poderiam avançar no campo onde a abordagem simbólica não teve sucesso. A ideia era dar ao modelo de linguagem um treinamento adicional a partir de uma base de conhecimento de bom senso. Este modelo poderia então gerar inferências baseadas no senso comum, assim como uma rede generativa poderia aprender a gerar textos.
Choi e seus colegas fizeram um ajuste fino em um modelo de linguagem neural com o conhecimento de bom senso de uma base de conhecimento chamada Atomic, esse processo teve como resultado o COMET, que pode ser usado por qualquer pessoa. Leora Morgenstern acredita que o COMET pode levar ao avanço das pesquisas ao conectar o deep learning e o bom senso.
A abordagem pregada pelo COMET tem futuro?
O COMET depende de padrões de superfície nos dados de treinamento, em vez de conceitos de compreensão. A ideia principal seria fornecer aos padrões de superfície mais informações fora da linguagem, como percepções visuais ou sensações incorporadas. As representações de primeira pessoa, não a linguagem, seriam a base para o bom senso.
Ellie Pavlick está tentando ensinar bom senso aos agentes de inteligência, fazendo-os interagir com a realidade virtual. Pavlick observa que o bom senso ainda existiria mesmo sem a capacidade de falar com outras pessoas, podemos deduzir que os humanos estavam usando o bom senso para entender o mundo antes de se comunicarem.
A ideia é ensinar agentes inteligentes a interagir com o mundo da mesma forma que uma criança. Ao invés de associar a ideia de comer a uma descrição literal, um agente inteligente seria informado: "Agora vamos comer" e, em seguida, veria as ações associadas, tais como, pegar comida na geladeira, preparar a refeição e então consumir. O conceito e ação estariam associados um ao outro. O modelo poderia então gerar palavras semelhantes ao ver ações semelhantes.
Nazneen Rajani está estudando a possibilidade dos modelos de linguagem raciocinarem usando conceitos básicos da física. Por exemplo, se uma bola estiver dentro de uma jarra, e a jarra tombar, a bola vai cair.
Choi e seus colegas estão tentando expandir o COMET com imagens rotuladas. A ideia é gerar inferências de bom senso sobre o que poderia acontecer antes e depois de um evento, bem como quais são as intenções presentes das pessoas.
Choi espera ter uma rede neural que possa aprender com bases de conhecimento sem supervisão humana. O COMET pode não ser bem-sucedido em última instância, mas é um exemplo de abordagem que pode eventualmente funcionar.
Sobre o autor
Michael Stiefel, diretor da Reliable Software, Inc. é consultor em arquitetura e desenvolvimento de software e no alinhamento da tecnologia da informação com os objetivos de negócios. Como membro de um comitê técnico da OASIS, ajudou a desenvolver um modelo de referência SOA e arquiteturas de referência relacionadas. Foi professor do Departamento de Aeronáutica e Astronáutica do Instituto de Tecnologia de Massachusetts, com foco em pesquisa e ensino tentou entender como as pessoas constroem modelos mentais para resolver problemas. Como professor adjunto, Stiefel ministrou cursos de graduação e pós-graduação em engenharia de software na Northeastern University e na Framingham State University. Explora seu interesse na interseção entre tecnologia e arte no blog Art and Software.