Qwen Lança Modelos de IA que Controlam PCs e telefones

A Alibaba está consolidando sua posição no mercado de inteligência artificial com o lançamento da família de modelos Qwen2.5-VL, projetada para combinar capacidades de visão e linguagem com controle direto de dispositivos. Este marco coloca a Qwen em competição direta com modelos como o GPT-4o, da OpenAI, e reforça a crescente presença da China no cenário global de IA.

Funcionalidades Avançadas

O modelo principal, Qwen2.5-VL-72B, oferece uma série de recursos inovadores:

  • Análise de Vídeos: Capaz de processar vídeos com horas de duração, identificando momentos específicos e extraindo informações relevantes.
  • Processamento de Documentos Complexos: Lida com faturas, formulários e outros documentos estruturados, superando benchmarks tradicionais.
  • Controle de Dispositivos: Um recurso que permite ao modelo interagir com aplicativos de smartphones e computadores, demonstrado em tarefas como:
    • Reserva de voos.
    • Edição de imagens.
    • Instalação de códigos.

As versões menores de 3B e 7B parâmetros estão disponíveis gratuitamente, enquanto o modelo de 72B parâmetros exige autorização para uso comercial em larga escala.

Comparação com Concorrentes

Nos testes, o Qwen2.5-VL-72B superou modelos de destaque como GPT-4o e Claude 3.5 Sonnet em tarefas de compreensão de vídeos e análise de documentos. Seu recurso de controle de dispositivos também o coloca em linha com o recente lançamento do Operator, da OpenAI, mostrando que a competição entre os dois países está cada vez mais acirrada.

Por que Isso Importa?

O lançamento do Qwen2.5-VL ocorre em um momento em que a indústria está observando a rápida evolução de modelos abertos e fechados. A integração de recursos multimodais com controle direto de dispositivos representa um avanço significativo, abrindo novas possibilidades para aplicações comerciais e industriais.

Com empresas como DeepSeek e Alibaba liderando a inovação, a diferença entre modelos de IA chineses e americanos está se tornando cada vez menos pronunciada.

Conclusão

O Qwen2.5-VL não é apenas um modelo avançado de visão-linguagem, mas também um passo em direção a uma nova era de agentes de IA com controle de dispositivos. A capacidade de combinar análise de dados complexos com ações práticas em dispositivos físicos reforça o potencial disruptivo da IA no mercado global.

Com este lançamento, a Alibaba não apenas consolida sua liderança na tecnologia de IA multimodal, mas também desafia os principais players globais, prometendo transformar a forma como dispositivos e sistemas interagem com inteligência artificial.

Compartilhe este artigo:

Sobre nós

Somos uma comunidade apaixonada por tecnologia e IA.

Siga nossas redes sociais

© 2025 Colonia da IA

plugins premium WordPress