DoobBY

Гадкие урлы (url, alias) в поиске

Recommended Posts

2 часа назад, abushyk сказал:

Если будет стоять запрет роботу на каталог img/data то картинки не будут индексироваться роботом ни с карточки, ни напрямую, так как есть запрет. а робот не идет "к картинке в карточке" а просто собирает все адреса на все ресурсы и обходит их обособлено.

ок предположим другой вариант
сейчас получается не закрыв доступ роботу к каталогу img/data (не написав dissalow) мы как бы даем роботу полный доступ просмотра и индексирования картинок причем всех , как активных объявлений, так и не активных 
фактически наверное робот пойдет 2 раза по одной картинке первый просто зайдя в каталог img/data и второй раз это когда он будет просматривать само объявление ? 
получается в 1 случае он просто "увидит картинку" но не поймет что на нем -не знай дом, не знай слон, не знай машина, а вот во втором случае он не только "увидит" что за картинка а как бы поймет что на ней изображено через атрибут ALT например "картинка розового слона" "картинка 5 этажного дома" и т.д не будет ли это плохо? робот не понизит ли рейтинг так как название у файлов-картинок одно и тоже а как бы "изображение на нем" не всегда одинаковые в 1случае "не известно" а во втором случае "розовый слон"

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
2 часа назад, doma сказал:

фактически же полуается что роботу доступно все что не запрещено командой dissalow

Роботу доступно все, что не запрещено каким-либо способом, в том числе и Disallow. Сайтмап ничем не запрещен "из коробки". Пример с разрешением на сайтмап я привел только потому, что мы добавили директиву запрета на адреса со знаком вопроса, которая автоматом закроет страницы сайтмапа. Если бы мы не добавляли ее, то и разрешать страницы сайтмапа не потребовалось бы.

 

2 часа назад, doma сказал:

следовательно "пока"  объявлений мало то писать allow как бы не обязательно

И опять в обход. Разрешение на сайтмап должно основываться не на количестве объектов в нем, а только на потребности это разрешение для робота выдавать и возможности наличия запрета обусловленного более глобальными правилами. Все, больше никаких извращений  быть не должно.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
2 часа назад, doma сказал:

ок предположим другой вариант

не-не. робот не пойдет просто шарить у вас по папкам. у него есть контент, где он находит ресурсы картинок и потом он идет по ним, как по обычным ссылкам. если вы положите на сервере папку "ффф" и в нее что-то и не закроете ее в роботс, но не вставите оттуда картинку на одну из индексируемых страниц в каком-либо виде, то он не пойдет за ней в тут папку. так же он не будет индексировать неиспользуемые на сайте изображения.

Робот отталкивается от ссылок и ресурсов на странице. Но он не работает как проводник в винде "открой папку, просмотри что внутри".

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас

  • Похожие публикации

    • Автор: Realtor
      необзодимо создать скрипт на наличие 404 ошибки на стороннем сайте по указанному url
      по такой логике и если удовлетворяет условию 404, то удаление из таблицы data , Id объявления
      цикл - выбора из таблицы data $id и ссылки $url , можно добавить условие where к примеру у определенной группы 
      while data $id, $url  where $group_id = [...]
      функция определения ошибки 404
      functionis_404($url) {.
      file_get_contents($url);
      $http_response_header[0];
      ..}
      условие по проверке на наличие 404 ошибки на стороннем сайте
       {if $url=404}
      del data where  $id=... 
      {/if}
       
    • Автор: АНМО
      Всем привет!
      Помогите пож решить вопрос.
      Подключила нестандартные алиасы.  Все вроде как формирует, но выяснилось что  формируются  дубли. Яндекс четко откидывает необходимые и индексирует то что не надо.
      http://sezon-z.ru/doma-i-kottedzhi/moskovskaya-oblast-petrushino-derevnya--/  - признал дублем
      http://sezon-z.ru/doma-i-kottedzhi/realty14/- запустил в индекс.
       
      Спасибо.
       
       
    • Автор: Владимир Смирнов
      Добрый день!
      1. В настройках страницы "Новости" заменили Заголовок страницы, но показывается старый "агентство недвижимости". 
      2. В статьях нет мета тега keywords.
      3. Для статьи изменяем url - указываем цифрами и страница отдает 404. 
      Если словами - то норм. 
    • Автор: DoobBY
      Доброго времени суток, подскажите, как реализовать такой момент. Заметил на сайтах урл на латинице и даже не похож, на тот, что отображается в поиске на русском.
       
      http://prntscr.com/a4rn18
       
      А по факту - такой dedededeg.by/rent/flat/minsk-bez-posrednikov (это первый сайт с картинки)