IA para todos: Google expande recursos do Gemini em diversos produtos

Na Google I/O 2023, a Google partilhou os seus planos para o Gemini, uma família de modelos de inteligência artificial que poderiam raciocinar em texto, imagens, vídeo, programação e muito mais.

Passado um ano, a empresa veio a público para apresentar, no palco do I/O 2024, as inovações de IA que visam tornar esta tecnologia útil para todos. Segundo a Google, todos os seus produtos com mais de dois milhões de utilizadores são desenvolvidos com o Gemini.

De seguida, damos-lhe a conhecer as novidades de inteligência artificial anunciadas pela Google no evento deste ano.

IA Generativa na Pesquisa

A pesquisa do Google agora utiliza um novo modelo Gemini personalizado. Ele reúne as capacidades avançadas do Gemini, incluindo raciocínio em várias etapas, planeamento e multimodalidade, para disponibilizar um resumo com todas as principais informações relacionadas com assunto pesquisado.

Alguns utilizadores já tiveram a oportunidade de utilizar os “Resumos de IA” em milhões de pesquisas através do programa Search Labs. Eles elogiaram o facto de poderem obter não só um resumo rápido sobre um determinado tópico, mas também links para saber mais detalhes. Segundo a Google, com os “Resumos de IA”, os utilizadores fazem mais uso da pesquisa e estão mais satisfeitos com os resultados.

A novidade está para já sendo disponibilizada para os utilizadores nos Estados Unidos e Reino Unido, estendendo-se, em breve, a outros países. A Google espera que o recurso alcance 1 bilião de pessoas até ao final do ano.

Novas formas de interagir com o Gemini no Workspace

Durante o evento, a Google também revelou que as capacidades do Gemini serão expandidas a mais utilizadores e integradas no painel lateral do Gmail, Docs, Drive, Slides e Sheets. A nova versão utilizará o modelo 1.5 Pro para responder a uma gama mais ampla de perguntas e facultar respostas mais esclarecedoras.

Com a nova experiência do painel lateral, poderá conversar com o Gemini para resumir, analisar e gerar conteúdo, aproveitando os assuntos dos seus e-mails, documentos e muito mais, tudo isto sem necessitar de sair da suite do Google em que está. A interface atualizada fornece um resumo automático da conversa ou do conteúdo em que está a trabalhar, bem como avisos relevantes para ajudá-lo a começar.

A Google afirma que o novo painel lateral foi construído para aproveitar os modelos mais poderosos de IA, incluindo o Gemini 1.5 Pro, com uma janela de contexto mais longa e raciocínios mais avançados. Isto permite fornecer respostas mais precisas com base em conjuntos de dados maiores. Por exemplo, pode pedir para resumir os e-mails da escola do seu filho ou até mesmo destacar os pontos principais de uma gravação de uma reunião.

A empresa também anunciou que o Gemini estará disponível no aplicativo do Gmail para smartphones. Foi destacado que a IA poderá analisar conversas de e-mail e fornecer uma visão resumida com os principais destaques diretamente na aplicação, assim como o poderá fazer no painel lateral. A função “Resumir” do Gmail estará disponível para o Workspace Labs este mês e chegará para todos os clientes do Gemini for Workspace e subscritores do Google One AI Premium no próximo mês.

Outra novidade é a “Resposta Inteligente Contextual”, que fornecerá sugestões mais longas e detalhadas para captar totalmente a intenção da sua mensagem. Agora, o Gemini vai levar em consideração todo o conteúdo do e-mail e fornecer opções bem pensadas para responder com um único toque. O recurso chegará ao Workspace Labs para dispositivos móveis e Web a partir de julho.

Gemini para Android

A Google pretende explorar a inteligência artificial no Android da melhor forma possível, oferecendo diversos recursos interessantes. Com a função “Circular para Pesquisar”, é possível pesquisar qualquer coisa que veja no seu telefone por meio de um simples gesto, sem necessitar de parar o que está a fazer ou mudar para uma aplicação diferente.

Desde o lançamento no Samsung Unpacked, a empresa adicionou novas capacidades à funcionalidade, como a tradução em ecrã inteiro, além da disponibilidade para mais dispositivos Pixel e Galaxy.

A função agora pode ajudar os estudantes nos seus trabalhos de casa. Por exemplo, quando eles circularem uma parte exata de um trabalho, receberão uma orientação detalhada para resolver problemas de física e matemática sem terem de sair da página. Ainda este ano, a funcionalidade “Circular para Pesquisar” vai conseguir resolver problemas ainda mais complexos que envolvam fórmulas simbólicas, diagramas, gráficos e muito mais.

O novo recurso já está disponível em mais de 100 milhões de dispositivos. Com planos para levar a experiência a mais aparelhos, a Google espera duplicar este número até ao final do ano.

Gemini vai melhorar a compreensão do texto para ajudar na realização de tarefas

O Gemini no Android também vai melhorar a compreensão do texto que está escrito no ecrã e na aplicação que estiver a utilizar. Em breve, vai ser possível sobrepor o Gemini na parte superior de qualquer aplicação. Por exemplo, poderá arrastar e largar imagens geradas pela IA no Gmail, Mensagens e em outros locais, ou clicar em “Perguntar a este vídeo” para obter informações específicas de um vídeo do YouTube.

Caso tenha o Gemini Advanced, o utilizador terá ainda a opção de “Perguntar a este PDF” para obter respostas, de forma rápida, sem ter de percorrer várias páginas. Esta atualização será lançada para milhões de dispositivos ao longo dos próximos meses.

Alertas para chamadas suspeitas

De acordo com um relatório recente, num período de 12 meses, as pessoas perderam mais de 1 bilião de dólares em fraudes. Por isso, a Google anunciou que tem vindo a testar uma nova funcionalidade que usa o Gemini Nano no Android para fornecer alertas em tempo real durante uma chamada, caso detecte padrões de conversa geralmente associados a fraudes bancárias.

Por exemplo, se o utilizador receber uma chamada de um “representante do seu banco” a pedir para transferir dinheiro ou até solicitando informações pessoais, como PINs ou passwords, um alerta de segurança será emitido para encerrar a chamada. A proteção ocorre no próprio dispositivo, por isso, a conversa permanece privada. A Google revelou que irá partilhar mais detalhes sobre a funcionalidade ainda este ano.

Gemini 1.5 Pro para assinantes do Gemini Advanced

A Google também anunciou que está a levar o Gemini 1.5 Pro para subscritores do Gemini Advanced em mais de 35 idiomas, juntamente com uma janela de contexto de 1 milhão de tokens, tornando o chatbot de consumo mais longo e amplamente disponível no mundo. Isso significa que a IA agora pode compreender mais informação do que nunca, incluindo um PDF de 1.500 páginas e, em breve, 30.000 linhas de código ou um vídeo de uma hora.

Em breve, os subscritores do Gemini Advanced também terão acesso ao Live, que deve proporcionar uma experiência de conversação totalmente inovadora. Com o Live, poderá conversar com o Gemini e escolher entre uma variedade de vozes naturais com as quais ele pode responder. Além disso, é possível até falar no seu próprio ritmo ou interromper no meio da resposta com perguntas esclarecedoras, como faria em qualquer conversa.

Gemini 1.5 Flash e Projeto Astra

A Google apresentou uma versão mais leve do Gemini. Chamada de 1.5 Flash, este é o mais recente modelo de IA adicionado à família de modelos Gemini, desenvolvida e otimizada para tarefas de alto volume e alta frequência em escala, tendo uma melhor relação preço/eficiência para cumprir e apresentar resultados eficientes.

O 1.5 Flash é excelente em resumos, aplicações de mensagens, legendas de imagens e vídeos, extração de dados de documentos e tabelas longas. Isso ocorre porque ele foi treinado pelo 1.5 Pro através de um processo chamado “destilação”, onde o conhecimento e competência de um modelo maior são transferidos para um modelo menor e mais eficiente.

A empresa também partilhou detalhes sobre o Projeto Astra (agente responsivo avançado que vê e fala). Segundo a Google, para ser verdadeiramente útil, um agente precisa compreender e responder ao mundo complexo e dinâmico tal como as pessoas fazem, além de ser proactivo, ensinável e pessoal, de modo a que os utilizadores possam conversar com ele naturalmente e sem atrasos.

Esta é a ideia do Projeto Astra, que visa melhorar a forma com que os modelos de IA da Google percebem, raciocinam e conversam, para tornar o ritmo e a qualidade da interação mais naturais. Os novos agentes foram construídos a partir do Gemini e de outros modelos específicos de tarefas, sendo projetados para processar informações mais rápidas, codificando continuamente frames de vídeo, combinando a entrada de vídeo e voz numa linha do tempo e armazenando as informações em cache para uma recuperação eficiente.

A Google espera que, no futuro, esta tecnologia cresça ao ponto das pessoas terem um assistente de IA especializado ao seu lado, seja em smartphones ou óculos inteligentes. Algumas das capacidades do Projeto Astra chegarão aos produtos da Google, como na aplicação Gemini, ainda este ano.