A visão Grok permite que o chatbot da xAI analise imagens do mundo real em celulares

Capacidades Multimodais do Grok-1.5V

Grok-1.5V representa a primeira invasão da xAI em IA multimodal, expandindo além do texto para processar diversas informações visuais, incluindo documentos, diagramas, gráficos, capturas de tela e fotografias. O protótipo se destaca mormente na compreensão espacial do mundo real, superando concorrentes porquê GPT-4V, Claude 3 e Gemini Pro 1.5 com uma pontuação líder de 68,7% no benchmark RealWorldQA, desenvolvido especificamente para medir essa capacidade.

As aplicações práticas do processamento visual do Grok-1.5V são extensas, permitindo calcular calorias a partir de imagens de víveres, explicar memes, transmudar tabelas para o formato CSV, gerar histórias a partir de desenhos à mão, diagnosticar problemas porquê madeira podre e resolver desafios de programação. Essas capacidades tornam o Grok-1.5V particularmente valioso para tarefas que exigem raciocínio multíplice entre disciplinas, aproximando o mundo do dedo e físico de uma forma que se assemelha mais à percepção humana.

RealWorldQA Compreensão Espacial

RealWorldQA é um benchmark especificamente projetado para calcular o quão muito modelos de IA multimodais compreendem relações espaciais em ambientes físicos. Desenvolvido pela xAI e lançado juntamente com o Grok-1.5V, esse benchmark consiste em mais de 700 imagens de cenários do mundo real, cada uma acompanhada de uma pergunta e uma resposta verificável. Embora essas perguntas possam parecer simples para humanos, elas frequentemente desafiam até mesmo modelos de IA de ponta ao testar sua capacidade de compreender espaços físicos e relações entre objetos.

O benchmark revelou variações significativas de desempenho entre os principais modelos multimodais. O Grok-1.5V lidera com 68,7%, seguido pelo Gemini Pro 1.5 com 67,5% e o GPT-4V com 61,4%, enquanto os modelos Claude pontuam inferior de 52%. Essa diferença de desempenho destaca uma diferença sátira de capacidade em porquê esses modelos processam e raciocinam sobre informações espaciais em contextos do mundo real. Dissemelhante de outros benchmarks que focam em raciocínio espacial estático, o RealWorldQA enfatiza a compreensão espacial prática necessária para que assistentes de IA do mundo real funcionem de forma eficiente em ambientes físicos.

Estudo Visual Baseada em Câmera

O Grok Vision leva as capacidades multimodais da xAI além da estudo de imagens estáticas ao se integrar diretamente com as câmeras de smartphones, permitindo que os usuários apontem seus dispositivos para objetos e recebam análises em tempo real. Disponível no modo de voz do Grok para iOS (com suporte para Android pênsil), esse recurso permite que os usuários simplesmente perguntem “O que estou vendo?” enquanto apontam a câmera para produtos, placas, documentos ou elementos do envolvente. A implementação se assemelha bastante a recursos de estudo por câmera oferecidos por concorrentes porquê o ChatGPT e o Gemini do Google.

A funcionalidade da câmera representa uma emprego prática das capacidades de compreensão espacial do Grok-1.5V, trazendo seu poder de processamento visual para cenários do dia a dia. Essa integração faz segmento de uma expansão mais ampla de recursos que inclui suporte a áudio multilíngue e procura em tempo real no modo de voz, embora usuários de Android só possam acessar esses recursos adicionais por meio do projecto de assinatura premium SuperGrok da xAI, que custa US$ 30 por mês. Ao conectar o avançado processamento visual do Grok diretamente às câmeras móveis, a xAI criou uma interface mais alcançável para que os usuários aproveitem o potente desempenho do protótipo na compreensão espacial em situações do mundo real.

https://agoranoticiasbrasil.com.br/2025/04/a-visao-grok-permite-que-o-chatbot-da-xai-analise-imagens-do-mundo-real-em-celulares/ / Natividade/Créditos -> Agora Noticias Brasil

A visão Grok permite que o chatbot da xAI analise imagens do mundo real em celulares

Capacidades Multimodais do Grok-1.5V

RealWorldQA Compreensão Espacial

Estudo Visual Baseada em Câmera

Últimas da Hora

🚨AO VIVO: NOVAS PROVAS CONTRA MORAES NO CELULAR DE VORCARO - PLANILHA EXPÔS NOMES SURPEENDENTES!

🚨 A CASA CAIU PARA MORAES! MINISTROS VEEM GRAVIDADE EM MENSAGENS COM VORCARO - ASSISTA E ENTENDA

🚨 O FIM DA “MURALHA”! JORNAL NACIONAL EXPÕE MORAES E VORCARO – GAYER REAGE! - ASSISTA AGORA

🚨URGENTE! SEBASTIÃO COELHO FAZ APELO URGENTE AO AMAPÁ: “ALCOLUMBRE É CÚMPLICE!” - ASSISTA E ENTENDA

🚨 PITTOLI FAZ ALERTA AO BRASIL: “TALVEZ ESSA SEJA NOSSA ÚLTIMA CHANCE!” - ASSISTA E ENTENDA

🚨 NIKOLAS RASGA O VERBO : “MINISTRO ESTÁ NU!” – ACUSAÇÃO GRAVÍSSIMA CONTRA MORAES- ASSISTA E ENTENDA

🚨AO VIVO: NOVAS PROVAS CONTRA MORAES NO CELULAR DE VORCARO - PLANILHA EXPÔS NOMES SURPEENDENTES!

🚨URGENTE! VORCARO MANDA MENSAGEM PARA MORAES NO DIA DE SUA PRISÃO. "AGORA TUDO FAZ SENTIDO"- ASSISTA

🚨BOMB4: MARCOS DO VAL EXPÔS PROVAS CONTRA MORAES, PLANILHA SECRETA COM NOME DE LULA E MINISTROS

🚨 AO VIVO: PRESIDENTE DA DATAPREV É CONFRONTADO NA CPMI DO ROUBO DO INSS, PODE ENTREGAR GOVERNO LULA

🚨AO VIVO: NOVAS PROVAS CONTRA MORAES NO CELULAR DE VORCARO - PLANILHA EXPÔS NOMES SURPEENDENTES!

🚨COLETIVA URGENTE: CARLOS VIANA AVALIA DESDOBRAMENTOS DE INVESTIGAÇÕES NO CONGRESSO - ASSISTA

🚨 BOMB4! MALU GASPAR REVELA LIGAÇÃO 3XPLOSIVA ENTRE VORCARO E MORAES - ASSISTA AGORA E ENTENDA

🚨 GIRÃO COLOCA ALCOLUMBRE NA PAREDE E O DESAFIA AO VIVO! -“O SENADO VAI DECIDIR OU NÃO?” - ASSISTA

🚨 BOMB4: MALU GASPAR REVELA QUE VOCARO TERIA INFLUÊNCIA NOS PROCESSOS DE MORAES APÓS INVESTIGAÇÃO!

🛑🔥BOMBA: PF EXPÔS TROCA DE MENSAGENS E REVELA ENCONTRO DE MORAES COM VOCARO!

🚨 SENADOR GIRÃO REVELA ACORDO DE ALCOLUMBRE E LULA PARA ENTERRAR INVESTIGAÇÕES - ASSISTA E ENTENDA

🚨 BOMB4: CELULAR DE VORCARO CITA ENCONTRO COM MORAES, DINO TENTA SALVAR LULINHA - ASSISTA AO VIVO

🚨 BOMB4 NA CÂMARA: CELULAR DE VORCARO CITA ENCONTRO COM MORAES E GAYER 3XPLODE!- ASSISTA E ENTENDA

🚨 AO VIVO NO PLENÁRIO DA CÂMARA: SESSÃO PARA VOTAÇÃO DE PROPOSTAS LEGISLATIVAS -GOVERNO ENCURRALADO