mykvartira

Загрузка объявлений через парсинг Я.недвижимость

Recommended Posts

Добрый день.

Подскажите как отключить "Не указан URL объявления" при парсинге объявлений через ХМЛ. Как я понимаю в модуле этот параметр обязателен, а вот в Я.недвижимость нет.

Попробовал в настройках парсера

 

Список полей игнорирования обязательности(apps.yandexrealty_parser.req_ignore)

указать "url"  и не сработало. Как правильно нужно указать имя поля?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
8 часов назад, rumantic сказал:

Покажите скриншот где вы эту ошибку получили?

И что нажимали?

Ошибка при запуске парсинга, а вернее в результате его.

Как я понимаю можно указать url или другое значение в (apps.yandexrealty_parser.req_ignore), в настройках парсера и все будет ок

Но как именно нужно указать? {url}, $url <url> не могу понять

2019-02-14_201607.jpg

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вот бы кто подсказал)))) Появилась бы еще одна площадка для ваших объявлений, где можно загружать бесплатно через РСС. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Включите

Использовать internal-id в качестве ID
(apps.yandexrealty_parser.use_internalids)

Потом в phpmyadmin в таблице data нужно удалить индекс

url_idx

drop index url_idx on re_data;

Еще у вас internal-id строчка, поэтому надо еще это включить

Использовать internal-id в качестве URL (если url в фиде не уникальный, а internal-id не INT)
(apps.yandexrealty_parser.internalid_as_url)

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
18 минут назад, rumantic сказал:

Включите


Использовать internal-id в качестве ID
(apps.yandexrealty_parser.use_internalids)

Потом в phpmyadmin в таблице data нужно удалить индекс

url_idx


drop index url_idx on re_data;

Еще у вас internal-id строчка, поэтому надо еще это включить


Использовать internal-id в качестве URL (если url в фиде не уникальный, а internal-id не INT)
(apps.yandexrealty_parser.internalid_as_url)

 

Спасибо, помогло! Только получается на данный момент к объявлениям присваивается Id со стороннего ресурса. Если у вас были объявления с id 50-60, то у новых получится 7575838 и т.д. Могут быть сложности. 

Получается, если при парсинге объявление имеет id занятый на вашем сайте, то объявление не публикуется, правильно?

Планирую использовать 10-20 сайтов для парсинга объявлений и получится, что будут сбои или я неправильно понимаю

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
2 минуты назад, ReatEstate сказал:

Пробуйте подставлять к разным источникам отдельную букву, напр   a-1256
b-325

Скорее всего это актуально, так и числа меньше будут и искать проще. А как это сделать?

27 минут назад, mykvartira сказал:

Использовать internal-id в качестве ID (apps.yandexrealty_parser.use_internalids)

Эту функцию я отключил и объявления начали добавляться исходя из id моего сайта. Парсинг работает.

Спасибо Дмитрий за помощь!

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Продолжается настройка модуля.

Тестирую (сторонний) хмл на работоспособность - все ок!

Через крон гружу, показывает 

Данные отсутствуют

Всего записей: 0
Добавлено: 0
Изменено: 0
Отклонено: 0

Где искать проблему?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Есть конечно вариант что это из-за разницы в валюте, но почему ошибки не выдают?!

Варианты

1. В фиде валюта указана в RUR, на сайте в RUB - хотя ошибку должна система выдать, типо не заполнена валюта, не та валюта или еще что....

2. В фиде присутствует урл, хотя привязку к нему отключал, сейчас привязка идет xthtp internal-id=""

3. ID в фиде такие же как и на сайте. Возможно, но чтобы все заняты))) Я же удаляю объявления, значит и айди освобождаются.

Но даже если так, должна ли система выдать ошибку. Типо айди занят?

Подскажите кто сталкивался с подобным или может разработчики подскажут.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
В 15.02.2019 в 13:31, ReatEstate сказал:

Пробуйте подставлять к разным источникам отдельную букву, напр   a-1256
b-325

Подскажите как это можно реализовать?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Сегодня при парсинге было замечены битые картинки, якобы парсер загрузил, но почему-то ссылка выдает 404. В результате чего страшно тормозит система.

В настройках стоят ограничения:

Загружать максим 3 картинки
Загружать за цикл 2

Возможно это вызвало ошибку, хотя подгрузил парсинг и при таких ограничениях объявления выставилось корректно. Возможно ошибка идет от источника.

Также возможно объем заливаемого изображения большой и система не справляется.

Может это связанно с чем то еще? Кто сталкивался с проблемой подобного характера?

P/S Был установлен лимит оперативной памяти сервера 1024мб

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
В 07.03.2019 в 17:38, mykvartira сказал:

Сегодня при парсинге было замечены битые картинки, якобы парсер загрузил, но почему-то ссылка выдает 404. В результате чего страшно тормозит система.

В настройках стоят ограничения:


Загружать максим 3 картинки
Загружать за цикл 2

Возможно это вызвало ошибку, хотя подгрузил парсинг и при таких ограничениях объявления выставилось корректно. Возможно ошибка идет от источника.

Также возможно объем заливаемого изображения большой и система не справляется.

Может это связанно с чем то еще? Кто сталкивался с проблемой подобного характера?

P/S Был установлен лимит оперативной памяти сервера 1024мб

Вы вручную скрипт парсинга картинок запустите и посмотрите что там выдает.

Бывает так что фотографии по URL недоступны и тогда может тормозить.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А реально вообще не грузить фото на свой сервер?
Пусть отображаются ссылками со стороннего сервера, т.е. из донора?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
11 час назад, ReatEstate сказал:

А реально вообще не грузить фото на свой сервер?
Пусть отображаются ссылками со стороннего сервера, т.е. из донора?

А чего-бы нет? Устроить из своего сайта линкопомойку на чужие сайты и бесплатно их пиарить :) Кликнул на ссылку и перешел на исходник объявления. Правильным путем идешь товарищ! :) :) :) Можно сразу на главной указать, мол если вам надо купить квартиру, то переходите сюда (ссылка), снять квартиру - то вам сюда (ссылка) и не заморачиваться с парсингом. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

а вообще смысл всей этой затеи можете подсказать? Лидогенерация  с таких объявлений будет тухлее некуда. куда вы их дальше собираетесь девать?

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
12 часа назад, ReatEstate сказал:

А реально вообще не грузить фото на свой сервер?
Пусть отображаются ссылками со стороннего сервера, т.е. из донора?

а шо, у Вас проблемы с размером хостинга/вычислительными возможностями сервера??

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

я просто к чему веду.

https://www.cian.ru/help/quality/37630/

рано или поздно к этому придут все, даже жлобский авито. и смысл во всех этих телодвижениях? такой квартиры нет но мы вам ща подберем?

репутации хана площадкам для выгрузки хана. лендосы и директ вместо реальных объектов? отзывы об агентствах никто не отменял. зачем мараться фейками?

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

я надеюсь, что никого не обидел, но по-моему тупо парсинг не выход. там ещё куча телодвижений присутствует и все не так просто. может это все ваще в отдельную ветку выделить - типа "парсеры - для чего и как." думаю было бы интересно всем.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Парсеры в наше время однозначно нужны. Даже для новичков стартонуть с чегото нужно.
По поводу не тянуть картинки на свой сервер, дабы не загружать его. Ресурсов хватает, но экономим) И в другом случае, можно например подумать в сторону размещения на других серверах, специализированных под картинки и другие объемы.
Важность затеи не в том, чтобы юзер переходил через картинку на автора, а получить обратную связь от заинтересованного клиента.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
В 12.04.2019 в 16:39, ReatEstate сказал:

А реально вообще не грузить фото на свой сервер?
Пусть отображаются ссылками со стороннего сервера, т.е. из донора?

Есть такое, пока в бете

apps.excel.image_cache_source

 

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Необходим совет.

На сайте https://vsevned.ru/ установлен Yandex.Realty Parser.

Начал принимать фиды от разных агентств России и публиковать их объекты на своём сайте. У некоторых фидов 200 объявлений, у некоторых 12 000. Короче набрал на сайте около 25 000 объявлений.

Но чем больше фидов, тем хуже стали они загружаться. При переходе по ссылке https://vsevned.ru/cron.php очень часто (практически всегда) начало выдавать ошибку 504 Gateway Time-out и фид не загрузить.

image.png.2971c2eb5e8a67b4da49f88f394b7827.png

Добавил задачу в планировщик

/usr/bin/wget -O /dev/null -q http://vsevned.ru/cron.php

и настроил на выполнение данной задачи каждый час. Но здесь CRON живёт своей жизнью. Может одно объявление за час обновить, а может и 100, а может и вообще сутки ничего не делать.

Прошу совета:

Возможно я зря охватил всю Россию, может стоит остановиться на одном регионе Российской Федерации.

Для большой доски объявлений подойдёт CMS Sitebill? Или для доски необходим мощный сервер? Сейчас у меня тариф Host-1 от https://www.reg.ru/hosting/#speed (может подскажите оптимальный тариф).

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
5 часов назад, VsevNed.ru сказал:

Необходим совет.

У вас было пару очень больших xml файлов на загрузке, хостинг не вытягивал.

Убрал большие файлы из загрузки, теперь работает.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас