Лучшие robots.txt вопросы ИТ разработчиков

  • 55 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Игнорировать URL-адреса в robot.txt с конкретными параметрами?

Я хотел бы, чтобы Google игнорировал URL-адреса, как это: http://www.mydomain.com/new-printers?dir=asc&order=price&p=3 [http://www.mydomain.com/new-printers?dir=asc&order=price&p=3] Все URL, которые имеют параметры dir, order и price, должны ...

Задан 05 Feb 2012, 13:55 от Luis Valencia
  • 3 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Пользовательский агент (который включает сканеры) не обязан соблюдать ваш robots.txt. Лучшее, что вы можете сделать, - это попытаться выявить неправильные шаблоны доступа (через веб-журналы и т. Д.) И заблокировать соответствующий IP-адрес.

орошая идея?? http://browsers.garykeith.com/stream.asp?RobotsTXT [http://browsers.garykeith.com/stream.asp?RobotsTXT] Что значит оскорбительное ползание? Как это плохо для моего сайта?

Задан 12 Aug 2011, 20:04 от Ann
  • 13 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Но если вы можете поддерживать язык шаблонов, можно сохранить все в одном файле:

я есть dev.example.com и www.example.com, размещенные на разных поддоменах. Я хочу, чтобы сканеры сбросили все записиdev поддомен, но держать их наwww, Я использую git для хранения кода для обоих, поэтому в идеале я бы хотел, чтобы оба сайта ...

Задан 05 Feb 2011, 01:58 от Kirk Ouimet
  • 7 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

https://chrome.google.com/webstore/detail/seerobots/hnljoiodjfgpnddiekagpbblnjedcnfp?hl=de

етил в своих журналах, что Chrome запросилrobots.txt наряду со всем, что я ожидал. [...] 2017-09-17 15:22:35 - (sanic)[INFO]: Goin' Fast @ http://0.0.0.0:8080 2017-09-17 15:22:35 - (sanic)[INFO]: Starting worker [26704] 2017-09-17 15:22:39 - ...

Задан 17 Sep 2017, 13:48 от zython
  • 3 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Как запретить поиск страниц из robots.txt

Мне нужно запретитьhttp://example.com/startup?page=2 [http://example.com/startup?page=2]поиск страниц от индексации. я хочуhttp://example.com/startup [http://example.com/startup]быть проиндексированным, но ...

Задан 04 Oct 2009, 22:21 от pmarreddy
  • 9 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Файл Robots.txt в MVC.NET 4

Я прочитал статью об игнорировании роботов из некоторого URL в моем проекте ASP MVC.NET. В своей статье автор сказал, что мы должны добавить некоторые действ...

Задан 01 Jun 2015, 16:29 от Behzad Hassani
  • 7 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Я попробовал это, и это, кажется, работает на localhost, но не на производственном хостинге через firebase. Производство отображает пустую страницу

я есть SPA, построенный с использованиемcreate-react-app и хочу иметь robots.txt вот так: http://example.com/robots.txtЯ вижу наэта страница [https://github.com/ReactTraining/react-router/issues/3023]это: Вы должны убедиться, что ваш сервер ...

Задан 08 May 2018, 18:20 от WilliamKF
  • 15 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Папки Rails robots.txt

Я собираюсь запустить приложение Rails и в качестве последней задачи я не хочу устанавливать файл robots.txt. Я не смог найти информацию о том, как правильно писать пути для приложения Rails. Всегда ли начальный путь является корневым путем из ...

Задан 09 Sep 2013, 07:55 от Niko
  • 7 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как добавить маршрут к динамическому robots.txt в ASP.NET MVC?

У меня есть robots.txt, который не является статичным, но генерируется динамически. Моя проблема заключается в создании маршрута от root / robots.txt до моег...

Задан 18 Jun 2013, 02:49 от JSS
  • 30 голосов
  • 9 ответов
  • 0 просмотров
9 ответов

Этика robots.txt [закрыто]

У меня серьезный вопрос. Всегда ли этично игнорировать наличие файла robots.txt на веб-сайте? Вот некоторые из соображений, которые я имею в виду: Если кто-то раскроет веб-сайт, он ожидает некоторых посещений. Конечно, веб-сканеры используют ...

Задан 16 Jun 2009, 00:02 от 4 revs, 3 users 72%
  • 7 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

robots.txt парсер java

Я хочу знать, как разобрать robots.txt в Java.Уже есть какой-нибудь код?

Задан 29 Jun 2010, 13:24 от zahir hussain
  • 32 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Тогда, как сказал эйву, решение

могу заставить это работать, но это кажется очень простым. Я хочу, чтобы корень домена сканировался http://www.example.comНо больше нечего сканировать, и все подкаталоги являются динамическими http://www.example.com/*Я пытался User-agent: * ...

Задан 29 Aug 2011, 05:31 от cotopaxi
  • 7 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как добавить маршрут к динамическому robots.txt в ASP.NET MVC?

У меня есть robots.txt, который не является статичным, но генерируется динамически. Моя проблема заключается в создании маршрута от root / robots.txt до моего действия контроллера. Этотработает: routes.MapRoute( name: "Robots", url: "robots", ...

Задан 18 Jun 2013, 04:49 от JSS
  • 7 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Спасибо, именно то, что я искал. ура

ой вопрос Я хочу добавить: Disallow */*details-print/В основном блокирующие правила в виде/foo/bar/dynamic-details-print --- foo и bar в этом примере также могут быть полностью динамическими. Я думал, что это будет просто, но тогда на ...

Задан 28 Jan 2011, 21:53 от Bartek
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Robots.txt отрицать, для #! URL

Я пытаюсь добавить правило запрета в файл robots.txt, чтобы запретить доступ к одной странице. URL сайта работают следующим образом: http://example.com/#!/homepage [http://example.com/#!/homepage] http://example.com/#!/about-us ...

Задан 07 Jun 2013, 15:26 от Ferdia O'Brien
  • 3 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Является ли строка User-Agent в robots.txt точным совпадением или совпадением подстроки?

Когда сканер читает строку User-Agent файла robots.txt, он пытается точно сопоставить ее со своим собственным User-Agent или пытается сопоставить ее как подстроку своего User-Agent? Все, что я прочитал, явно не отвечает на этот вопрос. Согласно ...

Задан 02 Aug 2013, 21:42 от josephdpurcell
  • 23 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Как я могу запретить конкретную страницу из robots.txt

Я создаю на своем сайте две страницы, которые очень похожи, но служат разным целям. Один из них - поблагодарить пользователей за оставленный комментарий, а д...

Задан 15 Aug 2010, 06:29 от Daniel
  • 7 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

как запретить все динамические URL robots.txt [закрыто]

как запретить все динамические URL в robots.txt Disallow: /?q=admin/ Disallow: /?q=aggregator/ Disallow: /?q=comment/reply/ Disallow: /?q=contact/ Disallow: /?q=logout/ Disallow: /?q=node/add/ Disallow: /?q=search/ Disallow: /?q=user/password/ ...

Задан 29 Sep 2009, 22:49 от pmarreddy
  • 6 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

формат URL robots.txt

Согласно сэта страница [http://www.robotstxt.org/robotstxt.html] globbing и регулярное выражение не поддерживаются ни в User-agent, ни в Disallow Тем не менее, я заметил, чтоstackoverflow ...

Задан 26 Jan 2013, 16:22 от Dónal
  • 15 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Папки Rails robots.txt

Я собираюсь запустить приложение Rails и, как последнее задание, я хочуt установить файл robots.txt. Я не могНайти информацию о том, как правильно писать пут...

Задан 09 Sep 2013, 05:55 от Niko
  • 27 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

robots.txt, чтобы запретить все страницы, кроме одной? Они перекрывают и каскадируют?

Я хочу, чтобы одна страница моего сайта была просканирована, а другие нет.Кроме того, если этоЕсли какой-либо ответ отличается от приведенного выше, я также ...

Задан 08 Nov 2013, 20:41 от nouveau
  • 27 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

robots.txt, чтобы запретить все страницы, кроме одной? Они перекрывают и каскадируют?

Я хочу, чтобы одна страница моего сайта была просканирована, а другие нет. Кроме того, если он отличается от ответа выше, я также хотел бы знать синтаксис для запрета всего, кроме корня (индекса) сайта. # robots.txt for http://example.com/ ...

Задан 08 Nov 2013, 21:41 от nouveau
  • 12 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

django эффективно обслуживает robots.txt

Вот мой текущий метод подачи robots.txt url(r'^robots\.txt/$', TemplateView.as_view(template_name='robots.txt', content_type='text/plain')),Я не думаю, что это лучший способ. Я думаю, что было бы лучше, если бы это был просто статический ресурс ...

Задан 24 Aug 2013, 23:41 от Lucas Ou-Yang
  • 20 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

файл robots.txt для разных доменов одного сайта

У меня есть веб-приложение ASP.NET MVC 4, к которому можно получить доступ из разных доменов. Сайт полностью локализован на основе домена в запросе (аналогично по концепцииэтот ...

Задан 10 Jun 2013, 22:21 от amateur
  • 6 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

формат URL robots.txt

Задан 26 Jan 2013, 15:22 от Dónal
  • 3 голосов
  • 5 ответов
  • 0 просмотров
5 ответов

Google robots.txt тестер

спользовании файла Robots.txt должна ли строка пользовательского агента быть в точности такой, как она отображается в журналах моего сервера? Например, при попытке сопоставить GoogleBot, я могу просто использоватьgooglebot? Также будет ли ...

Задан 13 Jan 2011, 01:56 от Zero
  • 0 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как создать файл robots.txt, чтобы скрыть vew-страницу от поисковых систем в codeigniter

Как создать файл robots.txt в проекте codeigniter, чтобы скрыть страницу просмотра. где я должен поместить этот файл robots.txt в настоящее время я создал файл, как это User-agent: * Disallow: ...

Задан 04 Nov 2013, 04:39 от Juice
  • 0 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Должен ли я удалить мета-роботов (индекс, следовать), когда у меня есть robots.txt?

Я немного запутался, стоит ли мне удалять метатег robots, если я хочу, чтобы поисковые системы следовали моим правилам robots.txt.Если на странице существует...

Задан 24 Aug 2014, 21:39 от Cfrim
  • 5 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как заблокировать поисковые системы от индексации всех URL, начинающихся с origin.domainname.com

У меня есть www.domainname.com, origin.domainname.com, указывающее на ту же кодовую базу. Есть ли способ, я могу предотвратить индексацию всех URL базового и...

Задан 05 Oct 2010, 06:18 от Loveleen Kaur
  • 7 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Блокировка или удаление страниц с помощью файла robots.txt

аюсь настроить robots.txt, но я не уверен в регулярных выражениях. У меня есть четыре страницы на трех разных языках. Вместо того, чтобы перечислять каждую страницу раз 3, я решил использовать регулярное выражение. nav.aspx page.aspx / ...

Задан 10 Jun 2011, 13:05 от patad
  • 0 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как создать файл robots.txt, чтобы скрыть vew-страницу от поисковых систем в codeigniter

Как создать файл robots.txt в проекте codeigniter, чтобы скрыть страницу просмотра. где я должен поместить этот файл robots.txt в настоящее время я создал фа...

Задан 04 Nov 2013, 03:39 от Juice
  • 3 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Python, Mechanize - запрос запрещен robots.txt даже после set_handle_robots и add_headers

Я сделал веб-сканер, который получает все ссылки до 1-го уровня страницы, и от них он получает все ссылки и текст, а также ссылки на изображения и т. Д. вот целый код: import urllib import re import time from threading import Thread import ...

Задан 07 Aug 2013, 07:11 от dzordz
  • 3 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Является ли строка User-Agent в robots.txt точным совпадением или совпадением подстроки?

Когда сканер читает строку User-Agent файла robots.txt, он пытается точно сопоставить ее со своим собственным User-Agent или пытается сопоставить ее как подс...

Задан 02 Aug 2013, 19:42 от josephdpurcell