DEV Community

Cover image for Бесплатный парсер сайта 2GIS с помощью браузера Google Chrome.
Женя
Женя

Posted on

Бесплатный парсер сайта 2GIS с помощью браузера Google Chrome.

Представьте на минутку, как Вы (или любой другой человек) открывает браузер, «ходит» по сайтам и копирует с них данные (телефоны, адреса и т.п.). Парсинг — то же самое, только ходит не человек, а робот. Подобным образом поступают поисковые системы при индексации сайтов, или агрегаторы, которые обновляют и собирают тематическую информацию с разных источников в сети.

В этой статье мы рассмотрим бесплатную программу для парсинга известного сайта электронного справочника с картами городов от компании-разработчика ООО «ДубльГИС».

Сам по себе парсинг сайта, как и прочих открытых информационных ресурсов полностью законен, информация находится в открытом доступе и для её получения мы ничего не взламываем и ничего противозаконного не делаем. Мы просто аналогично человеческим действиям по копированию данных делаем тоже самое только при помощи программы.

На сайте 2ГИС есть интересный пункт:

3.4. Использование Платформы и (или) Сайта Администрации иными способами, в том числе путем копирования (воспроизведения) размещенного на Сайте Контента, а также входящих в состав Платформы и (или) Сайта Администрации элементов дизайна, программ для ЭВМ и баз данных, их декомпиляция и модификация, строго запрещены.

Этот пункт мы тоже никоем образом не нарушаем.

Встречайте! Бесплатный парсер — Parser2GIS

Официальный сайт проекта

Документация

Описание

Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России

Парсер для автоматического сбора базы адресов и контактов предприятий, которые работают на территории России, Казахстана, Беларуси, Азербайджана, Киргизии, Узбекистана, Чехии, Египта, Италии, Саудовской Аравии, Кипра, Объединенных Арабских Эмиратов, Чили, Катара, Омана, Бахрейна, Кувейта .

💰 Абсолютно бесплатный
🤖 Успешно обходит анти-бот блокировки на территории РФ
🖥️ Работает под Windows, Linux и MacOS
📄 Три выходных формата: CSV таблица, XLSX таблица и JSON список
🔗 Наличие генератора ссылок по городам и рубрикам

Начало работы

Учтите, что для работы парсера необходимо установить браузер Google Chrome. С установкой «Гугл Хром» в MacOS можно ознакомиться в этом видео.

Шаг №1 Скачайте программу

Первым делом скачайте релиз программы для вашей операционной системы (Windows, MacOS или Linux)

Image description

Шаг №2 Извлеките из скаченного архива программу

Вот что из себя представляет скаченный файл. Это архив, внутри которого и находится сама программа.

Image description

После разархивирования (извлечения из архива) программы, нам требуется её запустить, но прежде давайте взглянем что из себя представляет этот файл на Рабочем столе в ОС Windows 11

Image description

Шаг №3 Запустите программу

Двойным кликом запустите программу.

Вероятнее всего вы увидите при запуске вот такое окно:

Image description

И в этом нет ничего удивительного. Просто дело в непроверенном издателе, так сказать. И естественно Защитник Windows или какой то другой антивирус может как то на это отреагировать 🙂

Нажимаем *Подробнее *и затем Выполняем запуск в любом случае:

Image description

Та-дам! Наш парсер запущен!

Image description

Вот так выглядит окно программы при запуске.

Что же умеет парсер? Parser2GIS способен автоматически собрать информацию о всех интересующих Вас предприятиях и организациях, опубликованных в онлайн-справочнике 2GIS. И сейчас мы в этом убедимся!

Вернемся к Главному окну программы. Перед нами GUI — графический интерфейс парсера, сделанный для простых людей, за что отдельное спасибо автору!

Шаг №4 Работа программы

Вначале нам необходимо сгенерировать, подготовить ссылки электронного справочника которые наш парсер будет разбирать для осуществления сбора данных.

Image description

Откроется дополнительное окно, в котором нам нужно кликнуть на кнопку Сгенерировать

Image description

Далее, мы увидим ещё одно окно поверх предыдущих. Здесь нам нужно указать, выбрать рубрику для парсинга. Нажимаем на троеточие, рядом с полем Рубрика

Image description

При выборе рубрик можно воспользоваться поисковым запросом, для исключения остальных рубрик в название которых не попадает ваш запрос, например, мы хотим найти Тату-салоны. При поиске ключевого слова «тату» видим, что есть данная рубрика и следовательно выбираем её.

Image description

Затем, кликаем ok

Image description

Далее, убедитесь что выбрана нужная рубрика и отметьте города в которых будет осуществляться поиск и парсинг Тату-салонов. Выбирать можно (как в примере ниже) выборочно, либо выбрать все города России, или другой страны.

После окончательной предустановки (настройки) нажмите ok

Image description

В следующем окне программы появятся ссылки для парсинга выбранных городов + рубрик. Нажимаем ok

Image description
Убедитесь, что ваши ссылки прописались в поле URL, что ничего не сбилось

Image description

Настройки программы

Кликнув на шестерёнку можно задать настройки для парсинга. Я оставляю всё по умолчанию. Обратите внимание, что скрытый режим отключён, а это значит мы увидим воочию работу парсера в браузере google Chrome (P.S. надеюсь вы не забыли его установить 🙂 )

Эта работа программы будет напоминать переход по ссылкам человеческими руками, но только с бешенной скоростью обработки информации.

Image description

Всё готово! Выберите нужный формат исходных данных (по умолчанию CSV) , далее, через кнопку Обзор выберите место на компьютере куда будет сохранён результат работы парсера и третим действием запустите работу программы.

Image description

Вот так выглядит окно выбора пути сохранения файла. На этом этапе нужно задать ему имя. Я назвал его по имени категории которую собираюсь парсить в северных городах России:

Image description

Запомните место сохранения файла. Перед запуском парсера проверьте еще раз путь в строке и запустите парсер:

Image description

В процессе работы отроется окно браузера а в Главном окне программы вы будите видеть последовательность событий (log) работы программы:

Image description

После успешного завершения работы программы вы должны увидеть в логах вот такое сообщение о завершении парсинга:

Image description

А в месте сохранения файла обнаружить непосредственно файл с результатами работы программы:

Image description

В файле будут находится «спарсеные» данные из справочника 2ГИС.

Что делать с данными?

Если вы владеете навыками работы с Excel, то вам не составит наверное труда разобрать эти данные по столбикам. Но учтите, если открыть файл в формате CSV при помощи Эксель, то мы обнаружим слитые в строках данные

Image description

Вот так это выглядит. Необходим разбор. На самом деле это не составит труда для человека имеющего даже небольшой опыт работы с Эксель

Image description

Но в качестве примера я продемонстрирую разбор и форматирование данных через бесплатную программу Google Таблицы

Создаём пустую таблицу и через главное меню программы импортируем данные из нашего файла (Файл -> Импортировать)

Image description

Затем, во вкладке *Добавить * через кнопку *Обзор * выбираем и подгружаем наш файл формата .CSV

Image description

Настройки я не меняю и оставляю по умолчанию

Image description

После импорта данных мы видим что они распределены строго по столбикам, как мы того и ожидали.

Image description

При желании мы можем работать с выборочными столбиками:

Image description

Ну вот и всё! Благодарю за внимание 🙂

Top comments (0)