Konstantin Nikolaevich

Правильный robots.txt

Recommended Posts

User-Agent: *

Disallow: /admin

Disallow: /cache

Disallow: /cgi-bin

Disallow: /apps

Disallow: /css

Disallow: /inc

Disallow: /install

Disallow: /js

Disallow: /template

Disallow: /third

Disallow: /remind/

Disallow: /getrent/

Disallow: /contactus/

Disallow: /add/

Disallow: /mailbox/

Disallow: /ipotekaorder/

Host: сайт.ru

Sitemap: сайт.ru/sitemap.xml

 

Верно ли?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

мне нужно внести изменения в роботах яндекса и гугла. а я не помню где они у меня на сайте. подскажите пожалуйста каких найти.:(

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
В 07.01.2017 в 22:01, Helenblondi сказал:

мне нужно внести изменения в роботах яндекса и гугла. а я не помню где они у меня на сайте. подскажите пожалуйста каких найти.:(

Елена, сейчас Яша и Гугл уже сами соображают, что к чему. Дополнительные записи не требуются. Главное, укажи директивы host: и sitemap: + пропиши их в Яндекс Вебмастере и Гугл Аналитикс

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
11 час назад, Chernetskiy сказал:

Елена, сейчас Яша и Гугл уже сами соображают, что к чему. Дополнительные записи не требуются. Главное, укажи директивы host: и sitemap: + пропиши их в Яндекс Вебмастере и Гугл Аналитикс

где их там указать я не могу разобраться.

http://joxi.ru/Dr8dOlDs4kxPkr

вот яндекс мне прислал. иду на страницу добавить дерективу и не могу понять куда ее там добавить.

http://joxi.ru/xAeLOk7upY3Pv2

тоже самое и в гуглле. ерунда какая то написана. 53 заблокированных страницы

http://joxi.ru/BA09W78SJBGZbr

из за того что недоступен файл бутстрап

http://joxi.ru/52a5ZOxi4GLWE2

надо убрать его из робота. как его от туда убрать не знаю.

http://joxi.ru/82QZNgbhj1YpLA

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

1. Настройка индексирования - Файлы sitemap - Добавить свой в строку, типа https :// fazendabg.com/sitemap.xml , если его еще там нет в списке.

Директиву host надо прописать в файле robots.txt у тебя на хостинге, в корне сайта. Типа так:

User-Agent: * 

Disallow: /admin
Disallow: /apps
Disallow: /cache
Disallow: /cgi-bin
Disallow: /ckeditor
Disallow: /ckfinder
Disallow: /css
Disallow: /fotorama
Disallow: /inc
Disallow: /js
Disallow: /template
Disallow: /third
Disallow: /webstat
Disallow: /remind/
Disallow: /getrent/
Disallow: /contactus/
Disallow: /add/
Disallow: /mailbox/
Disallow: /ipotekaorder/
Disallow: *?*
Host: https://realty-centrum.com

Sitemap: https://realty-centrum.com/sitemap.xml

Затем вернуться в Яндекс вебмастер и в Инструментах - анализ robots.txt проверить загрузку.

А освободить доступ к бутстрапу для Гугла наверное будет проще директивой Allow: /template/frontend/realia/css/ в robots.txt (следом за Disallow: /template), чем открывать полностью доступ к шаблонам сайта. Но надо-ли это вообще? Директивой закрыт доступ к скриптам, бутстрапу, страницам шаблона и т.п., что в принципе Гуглу и не актуально. Главное, чтобы в Индексе находились страницы с твоими объектами и статьями. У меня тоже 190 страниц технического плана заблокированы, а зачем их выдавать в поиск?

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Наткнулся на проблему. Мой основной сайт заканчивается на .com, пристяжной к нему (дублер) заканчивается на .ru и уже год как он не основной. В настройках везде указан сайт .com, однако при запросе сайтмапа, все ссылки в нем выдаются как от сайта .ru, чё за фигня и где поменять? Плачевность ситуации в том, что мой основной сайт (.com) работает через https, и ссылки в сайтмапе прописываются тоже через https но realty-centrum.ru , только этот домен не имеет сертификата безопасности и ссылки расцениваются как не безопасные. :(

... 

Блин, пролазил всю базу, откуда он берет ссылки .ru, так и не нашел. Need help!

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
1 минуту назад, Helenblondi сказал:

я нашла этот вайл робот тхт. а он че и для яндекса и для гугла подходит?:D

Ну да, он универсальный для всех поисковиков и их роботов.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
1 минуту назад, Chernetskiy сказал:

Ну да, он универсальный для всех поисковиков и их роботов.

хахахаха. вот это новости! ну все. тогда проблема я надеюсь решена. спасибо большое за помощь.:D

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
3 минуты назад, Helenblondi сказал:

хахахаха. вот это новости! ну все. тогда проблема я надеюсь решена. спасибо большое за помощь.:D

Яндекс и Гугл видят по любому весь твой сайт и сами определяют, что выдавать посетителям на их запросы а что не выдавать, но тем не менее, ориентируются на твои инструкции в robots.txt, потому у тебя куча ссылок на твоих скриншотах и показывается как не индексируемые. Поисковики их видят, но в соответствии с инструкциями, никому их не показывают, за ненадобностью.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
8 минут назад, Chernetskiy сказал:

Яндекс и Гугл видят по любому весь твой сайт и сами определяют, что выдавать посетителям на их запросы а что не выдавать, но тем не менее, ориентируются на твои инструкции в robots.txt, потому у тебя куча ссылок на твоих скриншотах и показывается как не индексируемые. Поисковики их видят, но в соответствии с инструкциями, никому их не показывают, за ненадобностью.

я скопировала робота которого вы прислали. спасибо. я ндекс ответил что все гуд.:)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
1 минуту назад, Helenblondi сказал:

я скопировала робота которого вы прислали. спасибо. я ндекс ответил что все гуд.:)

Если ты обратила внимание, там хост и сайтмап у меня начинаются на https:// , поскольку я для Гугла и Яндекса указал явно защищенный протокол (продвигаемся в выдаче). Твой сайт, если он не адаптирован под https, будет выдавать ошибки из-за наличия смешанного контента. Либо убери в robots.txt в host и в sitemap протокол https:// и опускайся в выдаче, либо переводи сайт полностью на https, иначе будут проблемы. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
9 минут назад, Chernetskiy сказал:

Если ты обратила внимание, там хост и сайтмап у меня начинаются на https:// , поскольку я для Гугла и Яндекса указал явно защищенный протокол (продвигаемся в выдаче). Твой сайт, если он не адаптирован под https, будет выдавать ошибки из-за наличия смешанного контента. Либо убери в robots.txt в host и в sitemap протокол https:// и опускайся в выдаче, либо переводи сайт полностью на https, иначе будут проблемы. 

не ну я уже его проверила. все ок. и потом я же не настолько тук тук войдите. я поставила там все свое

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
12 минуты назад, Realtor сказал:

А в  robots.txt в  host:mysite.ru обязательно в site:https;//mysite.ru , если перешел на https?

ну да, чтобы не индексировалось по 2-м протоколам. К стати, в Яндекс достаточно указать в Инструментах переезд на https, а в Гугл надо добавить обе версии сайта - с https и без, их позже склеят. Вроде как туда еще надо добавить варианты с www и без www, с этой-же целью. Подробности здесь

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
15 минут назад, Realtor сказал:

Точно? вроде бы писали  robots.txt надо писать host:site.ru или host:www.site.ru , без никаких http и https

Это если сайт на http и доступен по https (раньше было не особо актуально). Теперь Гуглу надо именно https, потому надо указывать, чтобы было понятно, что сайт на https и никак иначе, а сайтмапу это надо, чтобы небыло ошибок при индексировании и обнулении индекса, поскольку читаться он у вас будет по http а ссылки в нем будут https. (то есть ошибочные)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
51 минуту назад, Realtor сказал:

Точно? вроде бы писали  robots.txt надо писать host:site.ru или host:www.site.ru , без никаких http и https

ответ от тех службы яндекса:

http://joxi.ru/a2X4G6LS1yNox2

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Только что, Helenblondi сказал:

ответ от тех службы яндекса:

http://joxi.ru/a2X4G6LS1yNox2

Похоже, что правила изменились. Теперь надо явно указывать протокол. Гугл сейчас тоже еще что-то мутит, видел сообщение о сервисных работах, после чего наша жизнь станет в шоколаде :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

протокол нужно явно указывать https:// - Host:https://www.site.ru

иначе поисковик будет считать что http главный домен, а https зеркало...

https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml

 

Цитата

 

Директива Host должна содержать:

  •  

    Указание на протокол HTTPS, если зеркало доступно только по защищенному каналу (Host: https://myhost.ru).

  •  

    Одно корректное доменное имя, соответствующего RFC 952 и не являющегося IP-адресом.

  •  

    Номер порта, если необходимо (Host: myhost.ru:8080).

 

  •  

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

У меня очень большая проблема с показом страниц в поисковике гугл из за робота тхт. сам робот:

User-Agent: * 


Disallow: /admin
Disallow: /apps
Disallow: /cache
Disallow: /cgi-bin
Disallow: /ckeditor
Disallow: /ckfinder
Disallow: /css
Disallow: /fotorama
Disallow: /inc
Disallow: /js
Disallow: /template
Disallow: /third
Disallow: /webstat
Disallow: /remind/
Disallow: /getrent/
Disallow: /contactus/
Disallow: /add/
Disallow: /mailbox/
Disallow: /ipotekaorder/
Disallow: *?*
Host: https://fazendabg.com

Sitemap: https://fazendabg.com/sitemap.xml

из за которого блокируются страницы шаблона в количестве 68 штук. и когда раскрываешь эти заблокираванные страницы шаблона там по стрелочке что заблокировано еще у каждой по 10 страниц минимум с целыми структурными разделами как например аренда, продажа домов, нормальными статьями и объектами ? для владельца сайта это катастрофа просто. помогите составить нормальный робот тхт чтобы он подходил не только для яндекса но и для гугла. 

 

страницы..jpg

стрелочка.jpg

заблокированные объекты.jpg

робот.jpg

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
12 часа назад, Helenblondi сказал:

У меня очень большая проблема с показом страниц в поисковике гугл из за робота тхт. сам робот:

User-Agent: * 


Disallow: /admin
Disallow: /apps
Disallow: /cache
Disallow: /cgi-bin
Disallow: /ckeditor
Disallow: /ckfinder
Disallow: /css
Disallow: /fotorama
Disallow: /inc
Disallow: /js
Disallow: /template
Disallow: /third
Disallow: /webstat
Disallow: /remind/
Disallow: /getrent/
Disallow: /contactus/
Disallow: /add/
Disallow: /mailbox/
Disallow: /ipotekaorder/
Disallow: *?*
Host: https://fazendabg.com

Sitemap: https://fazendabg.com/sitemap.xml

из за которого блокируются страницы шаблона в количестве 68 штук. и когда раскрываешь эти заблокираванные строницы шаблона там по стрелочке что заблокировано еще у каждой по 10 страниц минимум с целыми структурными разделами как например аренда, продажа домов, нормальными статьями и объектами ? для владельца сайта это катастрофа просто. помогите составить нормальный робот тхт чтобы он подходил не только для яндекса но и для гугла. 

 

 

У вас же это стоит

Disallow: /template
А то что есть ссылки на этот /template из других страниц, то это не страшно, ведь это служебыне подключения JS-файлов, не вижу повода для беспокойства.

По стрелочки ведь это не заблокированные ресуры, а только страницы которые ссылаются на заблокированные. Читайте внимательней.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
6 часов назад, rumantic сказал:

 

У вас же это стоит

Disallow: /template
А то что есть ссылки на этот /template из других страниц, то это не страшно, ведь это служебыне подключения JS-файлов, не вижу повода для беспокойства.

По стрелочки ведь это не заблокированные ресуры, а только страницы которые ссылаются на заблокированные. Читайте внимательней.

 а я вижу. из за Disallow: /template робот не корректно обрабатывает страницы и следовательно собственники сайтов на шаблонах смс сйт билл попадают на последние страницы в выдаче гугла. и это большая проблема для их бизнеса. посмотрите на файлы. там черным по белому пишет что робот некорректно обрабатывает страницу. в данном случае это целый раздел структуры. и таких по 10 страниц от каждого тех.значка, который закрыт от обработки. надо что то менять.

робот.jpg

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас