Вопрос по robots.txt, web-crawler – Что означает знак доллара в robots.txt

5

Мне интересно узнать о веб-сайте, и я хочу сделать несколько ползаний на веб-сайте/s дорожка.Его robots.txt:

User-Agent: *
Allow: /$
Allow: /debug/
Allow: /qa/
Allow: /wiki/
Allow: /cgi-bin/loginpage
Disallow: /

Мои вопросы:

Что означает знак доллара в этом случае?

И уместно ли сканировать URL/s? по отношению к файлу robots.txt?

Ваш Ответ

1   ответ
5

Если вы будете следоватьоригинальная спецификация robots.txt, $ не имеет особого значения, и нетAllow поле определено. Соответствующий бот должен игнорировать поля, которые он не знает, поэтому такой бот на самом деле будет видеть эту запись:

User-Agent: *
Disallow: /

Однако оригинальная спецификация robots.txt была расширена различными сторонами. Но поскольку авторы robots.txt, о которых идет речь, не предназначались для конкретного бота, мы не знаем, какое «расширение» они имели в виду.

типично (но нетобязательнокак это не указано формально),Allow перезаписывает правила, указанные вDisallow, а также$ представляет конец пути URL.

Следуя этой интерпретации (например,используется Google),Allow: /$ будет означать: вы можете ползти/, но вы не можете ползти/a, /b и так далее.

Поэтому сканирование URL-адресов, путь которых начинается с/s не будет разрешено (ни в соответствии с оригинальной спецификацией, благодаряDisallow: /ни согласно расширению Google).

Похожие вопросы