DEV Community

Cover image for Бесплатный парсер сайта 2GIS с помощью браузера Google Chrome.
Женя
Женя

Posted on • Edited on • Originally published at codeispoetry.ru

25

Бесплатный парсер сайта 2GIS с помощью браузера Google Chrome.

Представьте на минутку, как Вы (или любой другой человек) открывает браузер, «ходит» по сайтам и копирует с них данные (телефоны, адреса и т.п.). Парсинг — то же самое, только ходит не человек, а робот. Подобным образом поступают поисковые системы при индексации сайтов, или агрегаторы, которые обновляют и собирают тематическую информацию с разных источников в сети.

В этой статье мы рассмотрим бесплатную программу для парсинга известного сайта электронного справочника с картами городов от компании-разработчика ООО «ДубльГИС».

Сам по себе парсинг сайта, как и прочих открытых информационных ресурсов полностью законен, информация находится в открытом доступе и для её получения мы ничего не взламываем и ничего противозаконного не делаем. Мы просто аналогично человеческим действиям по копированию данных делаем тоже самое только при помощи программы.

На сайте 2ГИС есть интересный пункт:

3.4. Использование Платформы и (или) Сайта Администрации иными способами, в том числе путем копирования (воспроизведения) размещенного на Сайте Контента, а также входящих в состав Платформы и (или) Сайта Администрации элементов дизайна, программ для ЭВМ и баз данных, их декомпиляция и модификация, строго запрещены.

Этот пункт мы тоже никоем образом не нарушаем.

Встречайте! Бесплатный парсер — Parser2GIS

Официальный сайт проекта

Документация

Описание

Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России

Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России, Казахстана, Беларуси, Азербайджана, Киргизии, Узбекистана, Чехии, Египта, Италии, Саудовской Аравии, Кипра, Объединенных Арабских Эмиратов, Чили, Катара, Омана, Бахрейна, Кувейта .

💰 Абсолютно бесплатный
🤖 Успешно обходит анти-бот блокировки на территории РФ
🖥️ Работает под Windows, Linux и MacOS
📄 Три выходных формата: CSV таблица, XLSX таблица и JSON список
🔗 Наличие генератора ссылок по городам и рубрикам

Начало работы

Учтите, что для работы парсера необходимо установить браузер Google Chrome. С установкой «Гугл Хром» в MacOS можно ознакомиться в этом видео.

Шаг №1 Скачайте программу

Первым делом скачайте релиз программы для вашей операционной системы (Windows, MacOS или Linux)

Image description

Шаг №2 Извлеките из скаченного архива программу

Вот что из себя представляет скаченный файл. Это архив, внутри которого и находится сама программа.

Image description

После разархивирования (извлечения из архива) программы, нам требуется её запустить, но прежде давайте взглянем что из себя представляет этот файл на Рабочем столе в ОС Windows 11

Image description

Шаг №3 Запустите программу

Двойным кликом запустите программу.

Вероятнее всего вы увидите при запуске вот такое окно:

Image description

И в этом нет ничего удивительного. Просто дело в непроверенном издателе, так сказать. И естественно Защитник Windows или какой то другой антивирус может как то на это отреагировать 🙂

Нажимаем *Подробнее *и затем Выполняем запуск в любом случае:

Image description

Та-дам! Наш парсер запущен!

Image description

Вот так выглядит окно программы при запуске.

Что же умеет парсер? Parser2GIS способен автоматически собрать информацию о всех интересующих Вас предприятиях и организациях, опубликованных в онлайн-справочнике 2GIS. И сейчас мы в этом убедимся!

Вернемся к Главному окну программы. Перед нами GUI — графический интерфейс парсера, сделанный для простых людей, за что отдельное спасибо автору!

Шаг №4 Работа программы

Вначале нам необходимо сгенерировать, подготовить ссылки электронного справочника которые наш парсер будет разбирать для осуществления сбора данных.

Image description

Откроется дополнительное окно, в котором нам нужно кликнуть на кнопку Сгенерировать

Image description

Далее, мы увидим ещё одно окно поверх предыдущих. Здесь нам нужно указать, выбрать рубрику для парсинга. Нажимаем на троеточие, рядом с полем Рубрика

Image description

При выборе рубрик можно воспользоваться поисковым запросом, для исключения остальных рубрик в название которых не попадает ваш запрос, например, мы хотим найти Тату-салоны. При поиске ключевого слова «тату» видим, что есть данная рубрика и следовательно выбираем её.

Image description

Затем, кликаем ok

Image description

Далее, убедитесь что выбрана нужная рубрика и отметьте города в которых будет осуществляться поиск и парсинг Тату-салонов. Выбирать можно (как в примере ниже) выборочно, либо выбрать все города России, или другой страны.

После окончательной предустановки (настройки) нажмите ok

Image description

В следующем окне программы появятся ссылки для парсинга выбранных городов + рубрик. Нажимаем ok

Image description
Убедитесь, что ваши ссылки прописались в поле URL, что ничего не сбилось

Image description

Настройки программы

Кликнув на шестерёнку можно задать настройки для парсинга. Я оставляю всё по умолчанию. Обратите внимание, что скрытый режим отключён, а это значит мы увидим воочию работу парсера в браузере google Chrome (P.S. надеюсь вы не забыли его установить 🙂 )

Эта работа программы будет напоминать переход по ссылкам человеческими руками, но только с бешенной скоростью обработки информации.

Image description

Всё готово! Выберите нужный формат исходных данных (по умолчанию CSV) , далее, через кнопку Обзор выберите место на компьютере куда будет сохранён результат работы парсера и третим действием запустите работу программы.

Image description

Вот так выглядит окно выбора пути сохранения файла. На этом этапе нужно задать ему имя. Я назвал его по имени категории которую собираюсь парсить в северных городах России:

Image description

Запомните место сохранения файла. Перед запуском парсера проверьте еще раз путь в строке и запустите парсер:

Image description

В процессе работы отроется окно браузера а в Главном окне программы вы будите видеть последовательность событий (log) работы программы:

Image description

После успешного завершения работы программы вы должны увидеть в логах вот такое сообщение о завершении парсинга:

Image description

А в месте сохранения файла обнаружить непосредственно файл с результатами работы программы:

Image description

В файле будут находится «спарсеные» данные из справочника 2ГИС.

Что делать с данными?

Если вы владеете навыками работы с Excel, то вам не составит наверное труда разобрать эти данные по столбикам. Но учтите, если открыть файл в формате CSV при помощи Эксель, то мы обнаружим слитые в строках данные

Image description

Вот так это выглядит. Необходим разбор. На самом деле это не составит труда для человека имеющего даже небольшой опыт работы с Эксель

Image description

Но в качестве примера я продемонстрирую разбор и форматирование данных через бесплатную программу Google Таблицы

Создаём пустую таблицу и через главное меню программы импортируем данные из нашего файла (Файл -> Импортировать)

Image description

Затем, во вкладке *Добавить * через кнопку *Обзор * выбираем и подгружаем наш файл формата .CSV

Image description

Настройки я не меняю и оставляю по умолчанию

Image description

После импорта данных мы видим что они распределены строго по столбикам, как мы того и ожидали.

Image description

При желании мы можем работать с выборочными столбиками:

Image description

Ну вот и всё! Благодарю за внимание 🙂

Sentry image

See why 4M developers consider Sentry, “not bad.”

Fixing code doesn’t have to be the worst part of your day. Learn how Sentry can help.

Learn more

Top comments (0)

Heroku

Simplify your DevOps and maximize your time.

Since 2007, Heroku has been the go-to platform for developers as it monitors uptime, performance, and infrastructure concerns, allowing you to focus on writing code.

Learn More

👋 Kindness is contagious

Please leave a ❤️ or a friendly comment on this post if you found it helpful!

Okay