Sign in to follow this  
Azanir

Парсинг и обработка данных.

Recommended Posts

Перед тем как перейти к сути немного матчасти!

Что такое парсинг?

Парсинг сайтов – последовательный синтаксический анализ информации, размещённой на интернет-страницах. Что представляет из себя текст интернет-страниц? Иерархичный набор данных, структурированный с помощью человеческих и компьютерных языков. На человеческом языке предоставлена информация, знания, ради которых, собственно, люди и пользуются Интернетом.

Зачем нужен парсинг?

Создавая веб-сайт, его владелец неизбежно сталкивается с проблемой – где брать контент? Оптимальный вариант: найти информацию там где её очень много – в Интернете. Но при этом приходится решать такие задачи:

  • Большие объёмы. В эпоху бурного роста Сети и жесточайшей конкуренции уже всем ясно, что успешный веб-проект немыслим без размещения большого количества информации на сайте. Современные темпы жизни приводят к тому, что контента должно быть не просто много, а очень много, в количествах, намного превышающих пределы, возможные при ручном заполнении.
     
  • Частое обновление. Обслуживание огромного потока динамично меняющейся информации не в силах обеспечить один человек или даже слаженная команда операторов. Порой информация изменяется ежеминутно и в ручном режиме обновлять её вряд ли целесообразно.

По сравнению с человеком, компьютерная программа-парсер:

  1. быстро обойдёт тысячи веб-страниц;
  2. аккуратно отделит техническую информацию от «человеческой»;
  3. безошибочно отберёт нужное и отбросит лишнее;
  4. эффективно упакует конечные данные в необходимом виде.

Результат (будь то база данных или электронная таблица), конечно же, нуждается в дальнейшей обработке. Впрочем, последующие манипуляции с собранной информацией уже к теме парсинга не относятся.

Экспорт данных

Материал, полученный из распарсенного сайта, необходимо упаковать в виде, пригодном для дальнейшего использования. Конкретный формат зависит от того как в дальнейшем будет обрабатываться собранная информация.

Avito

Теперь о важном. Мне была поставлена задача получать данные из определенного раздела , доски объявлений , обработка этих объявлений и синхронизация данных с сайтом клиента Sitebill.

 

Проект на данный момент охватывает 6 городов , и собирает актуальную информацию по аренде недвижимости, собирает полную информацию по объявлению, телефон , фото , делает обрезку фото , и постит уже обработанную информацию на сайт клиента. Все работает на запросах , поэтому скорость высокая, на момент написания статьи скрипт на 1 город (2 категории) сверял 1500+ объектов, на актуальность и скорость работы составляла порядка 2,5 минут

Ig9pnP6.png.webp

Это при условии что работа производилась в 1 поток и в процессе парсинга происходит обработка контента и постинг на сайт клиента, без прокси , если использовать прокси , то скорость увеличивается пропорционально количеству прокси.

Проект на 6 городов по 2 категории каждый и на 15000+ объектов работает порядка 25 минут. Но как я выше писал если критична скорость то можно использовать прокси , для ускорения

oOhfgZY-1.png.webp

Сама синхронизация происходит практически мгновенно так как вся работа идет напрямую с базой сайта. Неактуальные объявления удаляются (это пожелание клиента ) , на другом проекте объявления архивируются. В принципе всё гибко настраивается под потребности клиента.

Сейчас в разработке еще 2 проекта по недвижимости это Юла и Домофонд. Хотя можно обработать любой сайт!

Если вам необходим такого рода проект обращайтесь в телеграмм.

Если ссылка не работает, ищите в телеграме по нику AzaniR

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Sign in to follow this