Capacidades Multimodais do Grok-1.5V
Grok-1.5V representa a primeira invasão da xAI em IA multimodal, expandindo além do texto para processar diversas informações visuais, incluindo documentos, diagramas, gráficos, capturas de tela e fotografias. O protótipo se destaca mormente na compreensão espacial do mundo real, superando concorrentes porquê GPT-4V, Claude 3 e Gemini Pro 1.5 com uma pontuação líder de 68,7% no benchmark RealWorldQA, desenvolvido especificamente para medir essa capacidade.
As aplicações práticas do processamento visual do Grok-1.5V são extensas, permitindo calcular calorias a partir de imagens de víveres, explicar memes, transmudar tabelas para o formato CSV, gerar histórias a partir de desenhos à mão, diagnosticar problemas porquê madeira podre e resolver desafios de programação. Essas capacidades tornam o Grok-1.5V particularmente valioso para tarefas que exigem raciocínio multíplice entre disciplinas, aproximando o mundo do dedo e físico de uma forma que se assemelha mais à percepção humana.
RealWorldQA Compreensão Espacial
RealWorldQA é um benchmark especificamente projetado para calcular o quão muito modelos de IA multimodais compreendem relações espaciais em ambientes físicos. Desenvolvido pela xAI e lançado juntamente com o Grok-1.5V, esse benchmark consiste em mais de 700 imagens de cenários do mundo real, cada uma acompanhada de uma pergunta e uma resposta verificável. Embora essas perguntas possam parecer simples para humanos, elas frequentemente desafiam até mesmo modelos de IA de ponta ao testar sua capacidade de compreender espaços físicos e relações entre objetos.
O benchmark revelou variações significativas de desempenho entre os principais modelos multimodais. O Grok-1.5V lidera com 68,7%, seguido pelo Gemini Pro 1.5 com 67,5% e o GPT-4V com 61,4%, enquanto os modelos Claude pontuam inferior de 52%. Essa diferença de desempenho destaca uma diferença sátira de capacidade em porquê esses modelos processam e raciocinam sobre informações espaciais em contextos do mundo real. Dissemelhante de outros benchmarks que focam em raciocínio espacial estático, o RealWorldQA enfatiza a compreensão espacial prática necessária para que assistentes de IA do mundo real funcionem de forma eficiente em ambientes físicos.
Estudo Visual Baseada em Câmera
O Grok Vision leva as capacidades multimodais da xAI além da estudo de imagens estáticas ao se integrar diretamente com as câmeras de smartphones, permitindo que os usuários apontem seus dispositivos para objetos e recebam análises em tempo real. Disponível no modo de voz do Grok para iOS (com suporte para Android pênsil), esse recurso permite que os usuários simplesmente perguntem “O que estou vendo?” enquanto apontam a câmera para produtos, placas, documentos ou elementos do envolvente. A implementação se assemelha bastante a recursos de estudo por câmera oferecidos por concorrentes porquê o ChatGPT e o Gemini do Google.
A funcionalidade da câmera representa uma emprego prática das capacidades de compreensão espacial do Grok-1.5V, trazendo seu poder de processamento visual para cenários do dia a dia. Essa integração faz segmento de uma expansão mais ampla de recursos que inclui suporte a áudio multilíngue e procura em tempo real no modo de voz, embora usuários de Android só possam acessar esses recursos adicionais por meio do projecto de assinatura premium SuperGrok da xAI, que custa US$ 30 por mês. Ao conectar o avançado processamento visual do Grok diretamente às câmeras móveis, a xAI criou uma interface mais alcançável para que os usuários aproveitem o potente desempenho do protótipo na compreensão espacial em situações do mundo real.
https://agoranoticiasbrasil.com.br/2025/04/a-visao-grok-permite-que-o-chatbot-da-xai-analise-imagens-do-mundo-real-em-celulares/ / Natividade/Créditos -> Agora Noticias Brasil