Лучшие web-crawler вопросы ИТ разработчиков

  • 6 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Сохранить все файлы изображений с веб-сайта

Я создаю небольшое приложение для себя, где я запускаю скрипт Ruby и сохраняю все изображения из моего блога. Я не могу понять, как сохранить файлы изображений после того, как я их определил. Любая помощь приветствуется. require 'rubygems' ...

Задан 28 Oct 2011, 08:10 от Zack Shapiro
  • 13 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Я бы не стал считать это сканером, поскольку он не компилирует последующие URI для сканирования. Он будет в основном загружать источник данного URL и вызывать обратный вызов по завершении. Потребитель должен определить логику для сканирования ссылок, представленных на этой странице, что не очень просто.

ли какой-нибудь фреймворк для JavaScript?

Задан 05 Apr 2011, 17:27 от saleh Hosseinkahni
  • 10 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Простой веб-сканер в C #

Я создал простой веб-сканер, но я хочу добавить функцию рекурсии, чтобы на каждой открытой странице я мог получить URL-адреса на этой странице, но я понятия ...

Задан 04 May 2012, 16:32 от Khaled Mohamed
  • 12 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Scrapy CrawlSpider не сканирует первую целевую страницу

Я новичок в Scrapy, я работаю над скребком и использую CrawlSpider. Несмотря на то, что платформа Scrapy прекрасно работает и работает по соответствующим ссылкам, я не могу заставить CrawlSpider очистить самую первую ссылку (домашняя страница / ...

Задан 05 Apr 2013, 14:07 от gpanterov
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Ошибки относительно Web Crawler в PHP

Я пытаюсь создать простой веб-сканер, использующий PHP, который способен сканировать домены .edu, при условии, что исходные URL родительского. Я использовал простой html dom для реализации сканера, в то время как некоторая основная логика ...

Задан 31 Dec 2011, 13:02 от Rafay
  • 0 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Проблема авторизации при вставке данных cron crawler в электронную таблицу Google с использованием Google API в Ruby

Мой проект состоит в том, чтобы сканировать определенные веб-данные и помещать их в мою таблицу Google каждое утро 9:00. И он должен получить разрешение на ч...

Задан 25 May 2015, 07:40 от ZHH
  • 0 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Спасибо @Vaviloff, что статья, на которую вы ссылались, была великолепна, и ваше понимание очень помогло.

то, может быть, я параноик. Я очищаю свою временную шкалу на Facebook для хобби-проекта с использованием PhantomJS. По сути, я написал программу, которая находит все мои объявления, запрашивая страницу для текстаSponsored с XPATH внутри ...

Задан 08 Dec 2017, 05:27 от Starcat
  • 25 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Слишком много кода для данного вопроса ...

оего сайта я хотел бы добавить новую функциональность.Я бы хотел, чтобы пользователь мог загружать файл резервной копии своих закладок (из любого браузера, е...

Задан 12 Dec 2010, 18:35 от Toni Michel Caubet
  • 196 голосов
  • 5 ответов
  • 0 просмотров
5 ответов

Как запросить у Google повторное сканирование моего сайта? [закрыто]

Кто-нибудь знает способ запросить Google повторно сканировать веб-сайт? Если возможно, это не должно длиться несколько месяцев. Мой сайт показывает старый заголовок в результатах поиска Google. Как я могу показать это с правильным названием и ...

Задан 27 Feb 2012, 14:09 от Manish Shrivastava
  • 1 голос
  • 4 ответа
  • 0 просмотров
4 ответа

База данных для веб-сканера в Python?

Привет, я пишу сканер в Python для извлечения новостных статей с новостных сайтов, таких как nytimes.com. Я хочу знать, что было бы хорошим БД для использования в качестве бэкэнда для этого проекта? Заранее спасибо!

Задан 27 Jan 2010, 00:16 от oktapodi
  • 4 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как сохранить исходный HTML-файл с Apache Nutch

Я новичок в поисковых системах и сканерах. Теперь я хочу сохранить все исходные страницы на определенном веб-сайте в виде HTML-файлов, но с помощью Apache Nutch я могу получить только двоичные файлы базы данных. Как я могу получить оригинальные ...

Задан 08 Apr 2013, 22:48 от İsmet AlkanFreedom
  • 0 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Найти текст внутри тега JavaScript с помощью PHP Simple HTML DOM Parser

Я пытаюсь найти текст изменения регулярно внутри тега JavaScript: <script type="text/javascript"> jwplayer("mediaplayer").setup({ flashplayer: "player.swf", file:"filename", provider: ...

Задан 19 Oct 2013, 21:20 от Tran
  • 14 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Есть ли список известных веб-сканеров? [закрыто]

Я пытаюсь получить точные номера для загрузки некоторых файлов на веб-сервере. Я смотрю на пользовательские агенты, и некоторые из них явно являются ботами или поисковыми роботами, но многие из них, я не уверен, могут или не могут ...

Задан 14 Nov 2009, 07:33 от pupeno
  • 1 голос
  • 2 ответа
  • 0 просмотров
2 ответа

Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орешка и использую основныеползатькоманда Nutch, чтобы получить их. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я ...

Задан 06 Feb 2012, 00:32 от Xiao
  • 0 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Scrapy начала ползать после входа

Отказ от ответственности: Сайт, который я сканирую, является корпоративной интрасетью, и я немного изменил URL для корпоративной конфиденциальности.Мне удало...

Задан 27 Jul 2015, 08:55 от yukclam9
  • 1 голос
  • 0 ответов
  • 0 просмотров
0 ответов

Scrapy Spider для JSON Response

Я пытаюсь написать паука, который сканирует следующий ответ JSON: http://gdata.youtube.com/feeds/api/standardfeeds/UK/most_popular?v=2&alt=json [http://gdata.youtube.com/feeds/api/standardfeeds/UK/most_popular?v=2&alt=json] Как будет выглядеть ...

Задан 05 Jan 2014, 10:38 от user3161215
  • 3 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Является ли строка User-Agent в robots.txt точным совпадением или совпадением подстроки?

Когда сканер читает строку User-Agent файла robots.txt, он пытается точно сопоставить ее со своим собственным User-Agent или пытается сопоставить ее как подстроку своего User-Agent? Все, что я прочитал, явно не отвечает на этот вопрос. Согласно ...

Задан 02 Aug 2013, 21:42 от josephdpurcell
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Возможно ли сканировать страницы ASP.NET?

Есть ли способ сканировать некоторые страницы ASP.NET, которые используют doPostBack в качестве вызова событий? Example: Page1.aspx: Содержит 1 LinkButton...

Задан 15 Jul 2009, 18:13 от Zanoni
  • 2 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Не все сайты имеют «If-Modified-Since». Посмотрите на «Last-Modified», чтобы помочь.

рабатываю систему, которая должна отслеживать содержимое нескольких порталов и проверять изменения каждую ночь (например, загружать и индексировать новые сайты, которые были добавлены в течение дня). Содержимое этих порталов ...

Задан 06 Jan 2011, 18:46 от Wojtek
  • 6 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Как остановить Outlook.com от следующих ссылок в электронной почте?

В рамках регистрации учетной записи я отправляю электронное письмо новому пользователю со ссылкой для одноразовой проверки, которая подтверждает существовани...

Задан 29 Sep 2015, 18:15 от MichaelRushton
  • 0 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Как игнорировать типы файлов в веб-сканере?

Я пишу сканер и хочу игнорировать URL-адреса, которые ссылаются на двоичные файлы: $exclude = %w(flv swf png jpg gif asx zip rar tar 7z gz jar js css dtd xsd ico raw mp3 mp4 wav wmv ape aac ac3 wma aiff mpg mpeg avi mov ogg mkv mka asx asf mp2 ...

Задан 17 Jan 2012, 00:28 от ctp
  • 65 голосов
  • 9 ответов
  • 0 просмотров
9 ответов

Измените URL, чтобы сканировать больше сайтов ...... удачи

лкивался с вопросом на собеседовании «Если бы вы разрабатывали веб-сканер, как бы вы не попали в бесконечные циклы?», И я пытаюсь на него ответить. Как все это начинается с самого начала. Скажем, Google начал с некоторых хаб-страниц, скажем, ...

Задан 29 Apr 2011, 16:37 от xyz
  • 8 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

 дурака! Если вы установите определенные версии панели инструментов Ask.com (по крайней мере, в IE), она изменит пользовательский агент, добавив в какой-либо форме «Ask», что приведет к ложным срабатываниям.

ал, почему Request.Browser.Crawler всегда ложен в C # (http://www.digcode.com/default.aspx?page=ed51cde3-d979-4daf-afae-fa6192562ea9&amp;article=bc3a7a4f-f53...

Задан 10 Jan 2009, 21:10 от Click Ok
  • 5 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Как правильно использовать правила, restrict_xpaths, чтобы сканировать и анализировать URL с помощью scrapy?

Я пытаюсь запрограммировать паука для сканирования RSS-каналов веб-сайта, а затем анализировать метатеги статьи.Первая страница RSS - это страница, которая о...

Задан 03 Mar 2013, 22:47 от Marc
  • 0 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

к тому времени, когда CrawlSpider достигает второго URL-адреса, правила больше не являются правильными, поскольку они основаны на первом URL-адресе.

у Scrapy Scrapper, который использует CrawlSpider для сканирования сайтов, просмотра их внутренних ссылок и очистки содержимого любых внешних ссылок (ссылок ...

Задан 02 Mar 2017, 14:32 от Simon
  • 4 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Если я делаю все на своей странице с Ajax, как я могу сделать поисковую оптимизацию?

Какова связь между сканерами и приложениями ajax? Считают ли веб-сканеры или браузеры динамически созданные метатеги? Я думал о: добавление якорей на страницусоздание постоянных ссылок на контентдинамически добавлять ...

Задан 10 Dec 2011, 14:09 от Uğur Gümüşhan
  • 24 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Scrapy Python Настроить пользовательский агент

Я попытался переопределить user-agent моего crawlspider, добавив в проект дополнительную строкуконфигурационный файл [http://doc.scrapy.org/en/latest/topics/settings.html#project-settings-module], Вот код: [settings] default = myproject.settings ...

Задан 20 Sep 2013, 15:52 от B.Mr.W.
  • 1 голос
  • 0 ответов
  • 0 просмотров
0 ответов

Не удалось отсканировать элемент определенного веб-сайта с помощью паука-скрапа

Я хочу получить адреса веб-сайтов для некоторых рабочих мест, поэтому я пишу паук-скрап, я хочу получить всю ценность с

Задан 26 Jun 2014, 05:57 от eric
  • 8 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Могу ли я использовать WGET для создания карты сайта с учетом его URL?

Мне нужен скрипт, который может сделать паук на сайте и вернуть список всех просканированных страниц в текстовом или аналогичном формате; который я представл...

Задан 16 Oct 2010, 12:47 от Salman A
  • 1 голос
  • 3 ответа
  • 0 просмотров
3 ответа

MySQL сервер исчез во время сканирования в Perl

Я использую библиотеку WWW :: Mechanize, чтобы получить содержимое URL-адресов и сохранить их данные в таблицах MySQL. Но когда содержание страницы слишком в...

Задан 02 May 2012, 13:55 от Konerakperloc
  • 1 голос
  • ответ
  • 0 просмотров
ответ

Crawler4j с аутентификацией

Я пытаюсь выполнить crawler4j в личном Redmine для целей тестирования. Я хочу аутентифицировать и сканировать несколько уровней глубины в приложении.я следую...

Задан 28 May 2015, 14:42 от Antonio J.
  • 12 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Выход:

ался извлечь текст таблицы сайта вместе с ее ссылкой из данной таблицы (которая находится на site1.com) на мою страницу php, используя веб-сканер.Но, к сожал...

Задан 09 Feb 2017, 13:10 от harishk
  • 112 голосов
  • 7 ответов
  • 0 просмотров
7 ответов

Разница между BeautifulSoup и Scrapy Crawler?

Я хочу сделать сайт, который показывает сравнение между Amazon и E-Bay цены продукта. Что из этого будет работать лучше и почему? Я немного знаком сBeautiful...

Задан 30 Oct 2013, 14:43 от Nishant Bhakta
Page 1 of 4
1 2 3 4