Grok-1. 5 vision preview: nova versão da ia analisará imagens, planilhas e documentos. Com a nova atualização, a ia de elon musk agora pode processar uma ampla variedade de informações visuais, incluindo documentos, diagramas, gráficos, capturas de tela e fotografias

Grok-1.5 Vision Preview: nova versão da IA analisará imagens, planilhas e documentos 3xi57

Avatar de alexandre marques
Com a nova atualização, a IA de Elon Musk agora pode processar uma ampla variedade de informações visuais, incluindo documentos, diagramas, gráficos, capturas de tela e fotografias

Criado para competir com o ChatGPT pela X.AI, empresa de Elon Musk, o Grok é um chatbot que sempre se destacou por seu senso de humor sarcástico e politicamente incorreto. Disponível para s do plano + do X (antigo Twitter), o Grok também é atualizado em tempo real a partir de dados da plataforma, oferecendo contexto sobre trending topics e posts em alta, além de oferecer recursos adicionais, como geração de imagens, navegação via Bing e análise de dados avançada. 4l2d59

Agora, X.AI, empresa de inteligência artificial de Elon Musk, anunciou o Grok-1.5 Vision Preview, uma nova versão da IA de Elon Musk que expandirá suas capacidades para análise de imagens, planilhas e documentos, permitindo não apenas o processamento texto, mas também a interpretação e extração de informações em imagens.

Novidades da versão 4m2s3w

Combinando seus recursos de processamento de texto com a capacidade de analisar uma ampla variedade de informações visuais, como documentos, diagramas, gráficos, capturas de tela e fotografias, o Grok-1.5V promete impressionar. Esta nova versão estará em breve disponível para os primeiros testadores e usuários existentes do Grok, porém, em testes prévios, o Grok-1.5V já demonstrou ser altamente competitivo com modelos multimodais em diversos domínios.

No entanto, o que mais impressiona são as capacidades do Grok-1.5V na compreensão do mundo físico, incluindo a interpretação de imagens de capturas de tela e fotografias. Esta habilidade abre novas possibilidades em termos de interação entre humanos e máquinas, bem como aplicações em áreas como visão computacional e assistência virtual.

A X.AI demonstrou a capacidade impressionante da nova versão do Grok em interpretar imagens, como exemplificado por sua habilidade em escrever código a partir de um diagrama específico. Como vemos abaixo, o diagrama descreve um jogo de adivinhação a partir de um fluxograma lógico e das interações do usuário. Ao ser questionado se poderia traduzir o diagrama para código Python, o Grok-1.5V respondeu com precisão, fornecendo um código que representa a lógica do jogo descrito no fluxograma.

Foto: Captura de Tela / Showmetech.

Já no exemplo a seguir, o Grok-1.5V demonstrou sua capacidade de calcular calorias a partir de informações nutricionais fornecidas em uma imagem. A imagem mostrava um close-up dda tabela nutricional em uma embalagem de alimento, listando diversos detalhes nutricionais, como o tamanho da porção e a quantidade de calorias por porção. Quando questionado sobre quantas calorias teriam 5 fatias do produto, o Grok respondeu com exatidão, explicando que, se uma porção é de 3 fatias e contém 60 calorias, então 5 fatias teriam aproximadamente 100 calorias.

Foto: Captura de Tela / Showmetech.

Com relação a outra demonstração (foto abaixo), o Grok usou sua capacidade de criar uma história para dormir a partir de um desenho feito por uma criança. O desenho mostrava um menino ao lado de um barco. Quando questionado se poderia contar uma história baseada no desenho, o Grok respondeu com uma narrativa envolvente sobre um menino corajoso chamado Timmy. Essa capacidade do Grok-1.5V de transformar um simples desenho em uma história cativante demonstra sua habilidade em interpretar e criar narrativas.

Foto: Captura de Tela / Showmetech.

A capacidade de interpretar e criar narrativas se repete no exemplo seguinte, com o Grok explicando um meme que satiriza as diferenças entre startups e grandes empresas. Na imagem, há dois painéis: à esquerda, intitulado “Startups”, um grupo de trabalhadores da construção civil está ativamente cavando um buraco; à direita, intitulado “Grandes empresas”, um grupo de pessoas observa um único homem cavar. A explicação do Grok destaca o contraste entre a colaboração intensa e a eficiência das startups, em comparação com a possível burocracia e falta de agilidade das grandes empresas.

Foto: Captura de Tela / Showmetech.


Já na imagem a seguir, o Grok-1.5V foi capaz de converter a tabela para o formato CSV utilizando suas habilidades de processamento de linguagem natural e interpretação de informações visuais. Ao analisar a tabela que mostra os vencedores de medalhas olímpicas do Marrocos nos Jogos Paralímpicos de Verão de 2016, o Grok identificou as colunas relevantes, como “medalha”, “nome”, “esporte”, “evento” e “data”. Em seguida, ele organizou essas informações em linhas separadas por vírgulas, conforme o padrão do formato CSV. Essa capacidade do Grok demonstra sua habilidade em extrair e reorganizar dados de forma precisa, útil para converter informações tabulares em formatos mais facilmente manipuláveis.

Foto: Captura de Tela / Showmetech.

A X.AI já está planejando melhorias significativas em suas capacidades multimodais nos próximos meses. Com foco em diversas modalidades, como imagens, áudio e vídeo, o objetivo é continuar avançando em direção a uma inteligência artificial geral (AGI) benéfica, capaz de compreender e interagir com o universo de forma cada vez mais sofisticada.

Compreensão do mundo real xj49

O Grok-1.5V também está se preparando para adquirir uma “compreensão espacial do mundo real”, permitindo uma melhor interpretação do mundo físico representado nas imagens enviadas por seus usuários. Essa melhoria é crucial para o desenvolvimento de assistentes de IA mais úteis para o mundo real. Para alcançar esse objetivo, está sendo introduzido um novo benchmark, o RealWorldQA, projetado especificamente para avaliar as capacidades de compreensão espacial de modelos multimodais como o Grok-1.5V.

Embora muitos dos exemplos presentes no benchmark possam parecer simples para os humanos, eles representam um desafio significativo para os modelos de IA atuais, destacando a necessidade de avanços nessa área para melhorar a capacidade das IAs de entender e interagir com o mundo físico de forma mais eficaz.

Em testes, Grok-1.5 Vision Preview se mostrou eficiente em interpretar fotos como essa. Foto: Grok / X.AI.

Na imagem acima, por exemplo, a inteligência artificial foi capaz de analisar e responder à pergunta “Qual objeto é maior: o cortador de pizza ou a tesoura?”. Essa capacidade de comparação de tamanhos requer uma compreensão espacial do mundo físico. A IA foi capaz de identificar os objetos na imagem, reconhecendo suas formas e tamanhos relativos. Com base em sua análise, a IA determinou que o cortador de pizza é maior do que a tesoura. Essa habilidade demonstra como a IA pode ser treinada para compreender e responder a perguntas sobre objetos físicos em imagens, o que é fundamental para seu desenvolvimento como assistente útil no mundo real.

Grok-1.5 Vision Preview oferece respostas a questionamentos sobre imagens. Foto: Grok / X.AI.

Já nesse outro exemplo (imagem acima), o Grok-1.5V determinou a direção cardeal na qual o dinossauro está voltado. A imagem não fornece referências visuais claras, como uma bússola ou pontos de referência no ambiente ao redor do dinossauro, mas, ainda sim, o Grok respondeu corretamente à pergunta, indicando que o dinossauro está voltado para o Leste.

Comparação com outras IAs 4q1b4n

Grok-1.5V mostrou desempenho equivalente ou superior em comparação com outras IAs. Foto: Captura de Tela / Showmetech.

O Grok-1.5 Vision Preview demonstrou um desempenho excepcional em comparação com outras inteligências artificiais em um novo benchmark denominado RealWorldQA, que avalia a compreensão espacial do mundo real. Este benchmark foi realizado em uma configuração de disparo zero, sem a necessidade de uma solicitação de cadeia de pensamento específica.

Ao analisar diferentes conjuntos de dados, o Grok-1.5V superou seus pares em várias áreas-chaves. No benchmark Multi-discipline (MMMU), que envolve uma variedade de disciplinas, o Grok-1.5V obteve uma pontuação de 53.6%, superando ligeiramente outras IAs como o GPT-4V e o Claude 3 Sonnet.

No Mathvista, que se concentra em questões matemáticas, o Grok-1.5V alcançou uma pontuação de 52.8%, mais uma vez superando seus concorrentes. Em AI2D, que avalia a compreensão de diagramas, o Grok-1.5V obteve uma pontuação impressionante de 88.3%, superando significativamente outras IAs como o GPT-4V e o Gemini Pro 1.5.

Em DocVQA, que envolve a compreensão de documentos, o Grok-1.5V teve um desempenho com uma pontuação de 85.6%, ficando atrás de GPT-4V, Claude 3 Sonnet e Claude 3 Opus. No benchmark RealWorldQA, que avalia a compreensão do mundo real, o Grok-1.5V obteve uma pontuação de 68.7%, demonstrando mais uma vez sua superioridade em relação às outras IAs avaliadas.

Esses resultados destacam a capacidade do Grok-1.5 Vision Preview de compreender uma variedade de tarefas complexas e contextualmente relevantes, o que o torna uma escolha promissora para uma ampla gama de aplicações de IA no mundo real. Entretanto, É importante ressaltar que, embora o Grok-1.5V tenha demonstrado um desempenho impressionante em comparação a outras inteligências artificiais no benchmark RealWorldQA, os resultados desses benchmarks não são necessariamente 100% seguros.

Eles são indicativos do desempenho relativo das diferentes IAs em diferentes conjuntos de dados e cenários, mas não devem ser considerados como uma medida definitiva da capacidade geral de uma IA. A interpretação precisa dos resultados depende de uma série de fatores, incluindo a natureza dos conjuntos de dados, a metodologia de avaliação e a complexidade das tarefas em questão.

Veja o vídeo 5h2t71

Veja também:

Fontes: Grok, Interesting Engineering e Mashable

Revisado por Glauco Vital em 15/4/24.

Deixe um comentário Cancelar resposta 5i3n3b
Posts Relacionados 4b1s66

Hisense mostra produtos que vão chegar ao Brasil em 2025 24b16

Além de uma nova linha de geladeiras conectadas, empresa mostrou projetor C2 Ultra, que exibe tela de até 300 polegadas com resolução 4K. Veja tudo o que foi anunciado
Avatar de victor pacheco
Leia Mais

Bespoke AI: Samsung mostra produtos de casa conectada no México 12724n

Casa inteligente da Samsung na Cidade do México mostra como a vida pode ser mais prática com Inteligência Artificial e o ecossistema SmartThings. Veja todos os produtos
Avatar de bruno martinez
Leia Mais

Confira os apps vencedores do Apple Design Awards 2025 q502i

Poucos dias antes da Worldwide Developers Conference 2025 (WWDC), a Apple anunciou os vencedores do seu Prêmio de Design, voltado para aplicativos de aparelhos Apple. Veja
Avatar de alexandre marques
Leia Mais