DEV Community

Cover image for Китайские разработчики представили новое семейство ИИ-моделей Qwen2.5-VL
Anastasia Tereshkina for Arcane Gaming

Posted on

Китайские разработчики представили новое семейство ИИ-моделей Qwen2.5-VL

Китайская команда разработчиков Qwen, принадлежащая компании Alibaba, выпустила новое семейство ИИ-моделей Qwen2.5-VL. Инструменты могут выполнять различные задачи на основе текста, видео и изображений, а также служить в качестве ассистента на ПК и смартфонах.

Источник: GitHub

Модели умеют:

  • распознавать документы разного характера (печатный текст, сканы рукописей, нотные записи) на разных языках, извлекать из них данные;

  • выявлять, распознавать и подсчитывать объекты на изображениях или в видео;

  • понимать суть многочасовых видеороликов (в том числе определять первоисточник, по которому снят фильм или сериал), находить в них нужный сегмент или информацию за несколько секунд;

  • считывать и анализировать таблицы, диаграммы, графики, химические формулы;

  • выполнять различные действия на ПК и смартфонах в помощь пользователю.

По результатам проведённого командой сравнительного анализа, Qwen2.5-VL превосходит GPT-4o от OpenAI, Claude 3.5 Sonnet от Anthropic и Gemini 2.0 Flash от Google по ряду бенчмарков, оценивающих возможности моделей в понимании видео, решении математических задач, анализе документов и генерации ответов на общие вопросы.

Источник: GitHub

Отличительной особенностью Qwen2.5-VL является способность взаимодействовать с программным обеспечением на ПК и мобильных устройствах. В демонстрационном видео, опубликованном в X, компания показала, как на смартфонах с Android инструмент запускает приложение для покупки билетов и бронирует места на авиарейс. В другом видео демонстрируется взаимодействие модели с ПК на Linux – но там инструмент только переключает между собой вкладки. Вероятно, модель ещё находится в процессе обучения работы на ПК, поскольку показывает низкие результаты по бенчмарку OSWorld, оценивающему эффективности модели в имитированной компьютерной среде.

Qwen2.5-VL выложена в открытый доступ в приложении Qwen Chat и на платформе Hugging Face.

Помимо флагманской модели, в семейство также вошли две упрощенные версии – Qwen2.5-VL-3B и Qwen2.5-VL-7B. Они характеризуются меньшим размером и более ограниченным функционалом.

Sentry image

Hands-on debugging session: instrument, monitor, and fix

Join Lazar for a hands-on session where you’ll build it, break it, debug it, and fix it. You’ll set up Sentry, track errors, use Session Replay and Tracing, and leverage some good ol’ AI to find and fix issues fast.

RSVP here →

Top comments (0)

Billboard image

The Next Generation Developer Platform

Coherence is the first Platform-as-a-Service you can control. Unlike "black-box" platforms that are opinionated about the infra you can deploy, Coherence is powered by CNC, the open-source IaC framework, which offers limitless customization.

Learn more

👋 Kindness is contagious

Please leave a ❤️ or a friendly comment on this post if you found it helpful!

Okay