DEV Community

Cover image for Китайские разработчики представили новое семейство ИИ-моделей Qwen2.5-VL
Anastasia Tereshkina for Arcane Gaming

Posted on

Китайские разработчики представили новое семейство ИИ-моделей Qwen2.5-VL

Китайская команда разработчиков Qwen, принадлежащая компании Alibaba, выпустила новое семейство ИИ-моделей Qwen2.5-VL. Инструменты могут выполнять различные задачи на основе текста, видео и изображений, а также служить в качестве ассистента на ПК и смартфонах.

Источник: GitHub

Модели умеют:

  • распознавать документы разного характера (печатный текст, сканы рукописей, нотные записи) на разных языках, извлекать из них данные;

  • выявлять, распознавать и подсчитывать объекты на изображениях или в видео;

  • понимать суть многочасовых видеороликов (в том числе определять первоисточник, по которому снят фильм или сериал), находить в них нужный сегмент или информацию за несколько секунд;

  • считывать и анализировать таблицы, диаграммы, графики, химические формулы;

  • выполнять различные действия на ПК и смартфонах в помощь пользователю.

По результатам проведённого командой сравнительного анализа, Qwen2.5-VL превосходит GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 2.0 Flash от Google по ряду бенчмарков, оценивающих возможности моделей в понимании видео, решении математических задач, анализе документов и генерации ответов на общие вопросы.

Источник: GitHub

Отличительной особенностью Qwen2.5-VL является способность взаимодействовать с программным обеспечением на ПК и мобильных устройствах. В демонстрационном видео, опубликованном в X, компания показала, как на смартфонах с Android инструмент запускает приложение для покупки билетов и бронирует места на авиарейс. В другом видео демонстрируется взаимодействие модели с ПК на Linux – но там инструмент только переключает между собой вкладки. Вероятно, модель ещё находится в процессе обучения работы на ПК, поскольку показывает низкие результаты по бенчмарку OSWorld, оценивающему эффективности модели в имитированной компьютерной среде.

Qwen2.5-VL выложена в открытый доступ в приложении Qwen Chat и на платформе Hugging Face.

Помимо флагманской модели, в семейство также вошли две упрощенные версии – Qwen2.5-VL-3B и Qwen2.5-VL-7B. Они характеризуются меньшим размером и более ограниченным функционалом.

Hostinger image

Get n8n VPS hosting 3x cheaper than a cloud solution

Get fast, easy, secure n8n VPS hosting from $4.99/mo at Hostinger. Automate any workflow using a pre-installed n8n application and no-code customization.

Start now

Top comments (0)

Billboard image

The Next Generation Developer Platform

Coherence is the first Platform-as-a-Service you can control. Unlike "black-box" platforms that are opinionated about the infra you can deploy, Coherence is powered by CNC, the open-source IaC framework, which offers limitless customization.

Learn more