Coursera Learner working on a presentation with Coursera logo and

O que é IA Generativa?

Coursera Learner working on a presentation with Coursera logo and

A IA generativa permite aos usuários gerar rapidamente novos conteúdos com base em várias entradas. Essas entradas e saídas podem incluir texto, imagens, sons, animações, modelos 3D ou outros tipos de dados.

Imagem representando várias formas de conteúdo gerado por modelos de IA.

Como funciona a IA Generativa?

Os modelos de IA generativa utilizam redes neurais para identificar padrões e estruturas dentro dos dados existentes para gerar conteúdos novos e originais.

Um dos avanços dos modelos de IA generativa é a capacidade de aproveitar diferentes abordagens de aprendizado, incluindo aprendizado não supervisionado ou semi-supervisionado para o treinamento. Isso permite que as organizações aproveitem mais facilmente e rapidamente uma grande quantidade de dados não rotulados para criar modelos base. Os modelos base podem ser usados como base para sistemas de IA que realizam múltiplas tarefas.

Diagrama ilustrando o conceito de modelos base.

Exemplos de modelos base incluem GPT-3 e Stable Diffusion. Por exemplo, aplicações populares como o ChatGPT, que usa GPT-3, permitem que os usuários gerem um ensaio com base em uma solicitação de texto curto. Por outro lado, o Stable Diffusion permite que os usuários gerem imagens fotorrealistas a partir de uma entrada de texto.

Como Avaliar os Modelos de IA Generativa?

Os três requisitos principais de um modelo de IA generativa bem-sucedido são:

Qualidade: Saídas de geração de alta qualidade são cruciais, especialmente para aplicações que interagem diretamente com os usuários. Por exemplo, na geração de fala, uma qualidade de fala ruim é difícil de entender. Da mesma forma, na geração de imagens, as saídas desejadas devem ser visualmente indistinguíveis das imagens naturais.

Diversidade: Um bom modelo generativo captura os modos minoritários em sua distribuição de dados sem sacrificar a qualidade da geração. Isso ajuda a reduzir os vieses indesejados nos modelos aprendidos.

Velocidade: Muitas aplicações interativas requerem geração rápida, como a edição de imagens em tempo real para permitir o uso em fluxos de trabalho de criação de conteúdo.

Figura 1: Os três requisitos de um modelo de IA generativa bem-sucedido.

Como Desenvolver Modelos de IA Generativa?

Existem vários tipos de modelos generativos, e combinar seus atributos positivos resulta na capacidade de criar modelos ainda mais poderosos. Abaixo está uma análise:

Modelos de Difusão

Também conhecidos como modelos probabilísticos de difusão de redução de ruído (DDPM), os modelos de difusão são modelos generativos que determinam vetores no espaço latente através de um processo de duas etapas durante o treinamento. As duas etapas são a difusão para frente e a difusão reversa. O processo de difusão para frente adiciona lentamente ruído aleatório aos dados de treinamento, enquanto o processo reverso inverte o ruído para reconstruir as amostras de dados. Dados novos podem ser gerados executando o processo de redução de ruído reverso começando a partir de um ruído completamente aleatório.

Figura 2: O processo de difusão e redução de ruído.

Um modelo de difusão pode demorar mais para treinar do que um modelo de autoencoder variacional (VAE), mas graças a esse processo de duas etapas, centenas, senão um número infinito, de camadas podem ser treinadas. Isso significa que os modelos de difusão geralmente oferecem a saída de maior qualidade ao construir modelos de IA generativa. Além disso, os modelos de difusão também são categorizados como modelos base porque são de grande escala, oferecem saídas de alta qualidade, são flexíveis e são considerados os melhores para casos de uso generalizados. No entanto, devido ao processo de amostragem reversa, executar modelos base é um processo lento e demorado.

Saiba mais sobre a matemática dos modelos de difusão neste post de blog.

Autoencoders Variacionais (VAEs)

Os VAEs consistem em duas redes neurais geralmente denominadas codificador e decodificador. Quando recebe uma entrada, um codificador a converte em uma representação menor e mais densa dos dados. Essa representação comprimida preserva as informações necessárias para um decodificador reconstruir os dados de entrada originais enquanto descarta qualquer informação irrelevante. O codificador e o decodificador trabalham juntos para aprender uma representação latente de dados eficiente e simples. Isso permite ao usuário amostrar facilmente novas representações latentes que podem ser mapeadas através do decodificador para gerar novos dados. Embora os VAEs possam gerar saídas como imagens mais rapidamente, as imagens geradas por eles não são tão detalhadas quanto as dos modelos de difusão.

Redes Adversárias Generativas (GANs)

Descobertas em 2014, as GANs eram consideradas a metodologia mais comumente usada das três antes do recente sucesso dos modelos de difusão. As GANs colocam duas redes neurais uma contra a outra: um gerador que gera novos exemplos e um discriminador que aprende a distinguir o conteúdo gerado como real (do domínio) ou falso (gerado). Os dois modelos são treinados juntos e ficam mais inteligentes à medida que o gerador produz melhor conteúdo e o discriminador fica melhor em detectar o conteúdo gerado. Esse procedimento se repete, empurrando ambos a melhorar continuamente após cada iteração até que o conteúdo gerado seja indistinguível do conteúdo existente.

Embora as GANs possam fornecer amostras de alta qualidade e gerar saídas rapidamente, a diversidade das amostras é fraca, tornando as GANs mais adequadas para a geração de dados específicos de um domínio.

Redes de Transformadores

Outro fator no desenvolvimento de modelos generativos é a arquitetura subjacente. Uma das mais populares é a rede de transformadores. Semelhante às redes neurais recorrentes, os transformadores são projetados para processar dados de entrada sequenciais de forma não sequencial. Dois mecanismos tornam os transformadores particularmente aptos para aplicações de IA generativa baseadas em texto: autoatenção e codificações posicionais. Ambas as tecnologias ajudam a representar o tempo e permitem que o algoritmo se concentre em como as palavras se relacionam entre si ao longo de longas distâncias.

Uma camada de autoatenção atribui um peso a cada parte de uma entrada. O peso significa a importância dessa entrada no contexto do restante da entrada. A codificação posicional é uma representação da ordem em que as palavras de entrada ocorrem.

Um transformador é composto por múltiplos blocos de transformadores, também conhecidos como camadas. Por exemplo, um transformador possui camadas de autoatenção, camadas feed-forward e camadas de normalização, todas trabalhando juntas para decifrar e prever fluxos de dados tokenizados, que podem incluir texto, sequências de proteínas ou até mesmo fragmentos de imagens.

Quais são as aplicações da IA Generativa?

A IA generativa é uma ferramenta poderosa para agilizar o fluxo de trabalho de criativos, engenheiros, pesquisadores, cientistas e muito mais. Os casos de uso e as possibilidades abrangem todas as indústrias e indivíduos. Os modelos de IA generativa podem aceitar entradas como texto, imagem, áudio, vídeo e código e gerar novo conteúdo em qualquer uma das modalidades mencionadas. Por exemplo, pode transformar entradas de texto em uma imagem, transformar uma imagem em uma música ou transformar um vídeo em texto.

Aqui estão as aplicações mais populares da IA generativa:

Linguagem: O texto está na base de muitos modelos de IA generativa e é considerado o domínio mais avançado. Grandes modelos de linguagem estão sendo aproveitados para uma ampla variedade de tarefas, incluindo geração de ensaios, desenvolvimento de código, tradução e até compreensão de sequências genéticas.

Áudio: Música, áudio e fala também são campos emergentes dentro da IA generativa. Exemplos incluem modelos capazes de desenvolver músicas e trechos de clipes de áudio com entradas de texto, reconhecer objetos em vídeos e criar sons acompanhantes para diferentes filmagens de vídeo, e até mesmo criar música personalizada.

Visual: Uma das aplicações mais populares da IA generativa está no campo das imagens. Isso abrange a criação de imagens 3D, avatares, vídeos, gráficos e outras ilustrações. Os modelos de IA generativa podem criar gráficos mostrando novos compostos químicos e moléculas que auxiliam na descoberta de medicamentos, criar imagens realistas para realidade virtual ou aumentada, produzir modelos 3D para videogames, desenhar logotipos, aprimorar ou editar imagens existentes e muito mais.

Dados Sintéticos: Dados sintéticos são extremamente úteis para treinar modelos de IA quando os dados não existem, são restritos ou simplesmente não podem abordar casos específicos com a maior precisão. O desenvolvimento de dados sintéticos por meio de modelos generativos é talvez uma das soluções mais impactantes para superar os desafios de dados de muitas empresas. Abrange todas as modalidades e casos de uso e é possível através de um processo chamado aprendizado eficiente de rótulos.

Quais são os desafios da IA Generativa?

Como um espaço em evolução, os modelos generativos ainda estão em seus estágios iniciais, com espaço para crescer em várias áreas:

Escala da Infraestrutura de Computação: Os modelos de IA generativa podem contar com bilhões de parâmetros e requerem pipelines de dados rápidos e eficientes para o treinamento. É necessário um investimento significativo de capital, expertise técnica e infraestrutura de computação em grande escala para manter e desenvolver modelos generativos. Por exemplo, os modelos de difusão podem exigir milhões ou bilhões de imagens para o treinamento, necessitando de uma potência de computação massiva e centenas de GPUs.

Velocidade de Amostragem: Devido à escala dos modelos generativos, pode haver uma latência no tempo necessário para gerar uma instância. Particularmente para casos de uso interativos, como chatbots, assistentes de voz de IA ou aplicações de atendimento ao cliente, as conversas devem ocorrer de maneira imediata e precisa.

Falta de Dados de Alta Qualidade: Os modelos de IA generativa requerem dados de alta qualidade e não tendenciosos para operar. Alguns domínios carecem de dados suficientes para treinar um modelo, e ativos 3D de alta qualidade são caros de desenvolver.

Licenças de Dados: Muitas organizações têm dificuldades para obter uma licença comercial para usar conjuntos de dados existentes ou construir conjuntos de dados personalizados para treinar modelos generativos. Este processo é crucial para evitar problemas de violação de propriedade intelectual.

Diagrama ilustrando os desafios enfrentados pela IA generativa.

Quais são os benefícios da IA Generativa?

A IA generativa oferece inúmeras vantagens em diversos campos. Alguns dos principais benefícios incluem:

Criação de Conteúdo Novo e Original: Os algoritmos de IA generativa podem produzir conteúdo novo e único, como imagens, vídeos e texto, que são indiscerníveis do conteúdo criado por humanos. Isso é particularmente valioso para aplicações em entretenimento, publicidade e artes criativas.

Aprimoramento da Eficiência e Precisão: A IA generativa pode melhorar o desempenho dos sistemas de IA existentes, incluindo processamento de linguagem natural e visão computacional. Por exemplo, esses algoritmos podem gerar dados sintéticos para treinar e avaliar outros modelos de IA, melhorando assim sua precisão e eficiência.

Exploração e Análise de Dados: A IA generativa permite que empresas e pesquisadores explorem e analisem conjuntos de dados complexos de maneiras inovadoras. Essa capacidade ajuda a descobrir padrões e tendências ocultas que podem não ser visíveis nos dados brutos.

Automatização e Aceleração: Ao automatizar e acelerar várias tarefas e processos, a IA generativa economiza tempo e recursos para empresas e organizações, tornando as operações mais eficientes.

No geral, a IA generativa tem o potencial de revolucionar uma ampla gama de indústrias e aplicações. É uma área crítica de pesquisa e desenvolvimento em IA devido ao seu impacto e versatilidade.

línguas

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.