Лучшие scrapy вопросы ИТ разработчиков

  • 19 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Сканирование Scrapy из скрипта всегда блокирует выполнение скрипта после очистки

Я следую этому руководствуhttp://doc.scrapy.org/en/0.16/topics/practices.html#run-scrapy-from-a-script запустить scrap из моего сценария. Вот часть моего сце...

Задан 08 Feb 2013, 16:18 от Eugene Nagorny
  • 5 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Сохранение разрывов строк при разборе с Scrapy в Python

Я написал паука Scrapy, который извлекает текст со страницы. Паук анализирует и выводит правильно на многих страницах, но некоторые сбрасывают. Я пытаюсь сохранить разрывы строк и форматирование в документе. Страницы, такие ...

Задан 05 Jan 2012, 18:50 от user1074057
  • 8 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как собрать данные с нескольких страниц в единую структуру данных с помощью скрапа

Я пытаюсь очистить данные с сайта. Данные структурированы как несколько объектов, каждый из которых содержит набор данных. Например, люди с именами, возраста...

Задан 14 Feb 2013, 07:34 от user2071236
  • 14 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Я переписываю код, меняя, в thumb_path def, «ответ». по запросу.". Если нет, это не сработает, потому что «response установлен на None».

еняSCRAPY [http://doc.scrapy.org/index.html]Проект, который я в настоящее время используюImagesPipeline [http://doc.scrapy.org/topics/images.html#scrapy.contrib.pipeline.images.ImagesPipeline] , Загруженные изображенияхранится с хешем ...

Задан 31 May 2011, 21:57 от fortuneRice
  • 3 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как создать правила для сканера ползунков с помощью scrapy

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from manga.items import MangaItem class MangaHere(BaseSpider): name = "mangah" allowed_domains = ["mangahere.com"] start_urls ...

Задан 19 Jan 2013, 18:38 от gallly
  • 4 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

UnicodeEncodeError после установки настроек restrict_xpaths

м новичок в питоне и скрапе. После установки restrict_xpaths в «// таблица [@ класс =»lista "]" I 'Мы получили следующую трассировку. Какие&#39...

Задан 25 Oct 2013, 14:48 от mik.ro
  • 3 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Scrapy - Паук ползет повторяющиеся URL

m сканирует страницу результатов поиска и очищает заголовок и информацию о ссылках с той же страницы. Как и страница поиска, у меня также есть ссылки на след...

Задан 27 Feb 2013, 04:27 от Srikanth
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Снимок экрана Python Selen не получить всю страницу

Я пытаюсь создать общий веб-сканер, который перейдет на сайт и сделает снимок экрана. Я использую Python, Selnium и PhantomJS. Проблема в том, что скриншот н...

Задан 06 Oct 2014, 06:41 от Malcolm
  • 0 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Python логическая операция

я довольно новичок в питоне и яЯ работаю над проектом по соскобу с использованием библиотеки Scrapy. Я'я не использую встроенное ограничение домена, пото...

Задан 02 Dec 2013, 04:04 от bornytm
  • 8 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

PYTHON SCRAPY не может отправить информацию в формы,

Я думаю, что я попрошу очень большую услугу, поскольку я боролся с этой проблемой несколько дней. Я перепробовал все возможные (насколько мне известно) спосо...

Задан 01 Jul 2013, 09:38 от Vy.Iv
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как вырезать текст, включенный между различными тегами, используя scrapy

Я пытаюсь удалить описание продукта из этогоссылка [http://www.yebhi.com/94208/PD/puma-white-men-sneakers.htm], Но как мне удалить весь текст, включая текст между теги. Вот объект hxshxs.select('//div[@class="overview"]/div/text()').extract() но ...

Задан 01 Jul 2013, 14:33 от user2173955
  • 16 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Scrapy: передача элемента между методами

Предположим, у меня есть Bookitem, мне нужно добавить к нему информацию как на этапе анализа, так и на этапе детализации

Задан 18 Dec 2013, 15:18 от Dionysian
  • 6 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Scrap повтор или перенаправление промежуточного программного обеспечения

Во время сканирования сайта с помощью scrapy я перенаправляюсь на страницу, заблокированную пользователем, примерно в 1/5 времени. Я теряю страницы, которые я перенаправилиз когда это произойдет. Я не знаю, какое промежуточное программное ...

Задан 27 Dec 2013, 18:33 от Xodarap777
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Синтаксис функции scrapy и xpath 'соответствует'

Я бегу scrapy 0.20.2. $ scrapy shell "http://newyork.craigslist.org/ata/"Я хотел бы сделать список всех ссылок на рекламные страницы отдельно от index.html $ sel.xpath('//a[contains(@href,html)]') ... ...

Задан 04 Jan 2014, 11:52 от Michel Hua
  • 10 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Scrapy FormRequest отправка JSON

Я пытаюсь создать FormRequest, который может отправить тип контента: приложение / JSON. Вот что я пытаюсь:

Задан 28 Jun 2012, 01:03 от user1487186
  • 24 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Scrapy Python Настроить пользовательский агент

Я попытался переопределить user-agent моего crawlspider, добавив в проект дополнительную строкуконфигурационный файл [http://doc.scrapy.org/en/latest/topics/settings.html#project-settings-module], Вот код: [settings] default = myproject.settings ...

Задан 20 Sep 2013, 15:52 от B.Mr.W.
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

@JebaseelanRavi, не могли бы вы опубликовать полный трекбек на своего рода пастбине или открыть новый вопрос и вставить его туда? Я никогда не видел эту ошибку раньше :)

ользую scrapy для получения сообщения (url) из RabbitMQ, но когда я использую yield для вызова метода parse, передавая мой url в качестве параметров. Программа не входит в метод обратного вызова. Ниже приведен следующий код моего паук # -*- ...

Задан 10 Oct 2018, 04:37 от Jebaseelan Ravi
  • 127 голосов
  • 8 ответов
  • 0 просмотров
8 ответов

Можно ли использовать scrapy для удаления динамического контента с веб-сайтов, использующих AJAX?

Недавно я изучал Python и погружаюсь в создание веб-скребка. Ничего особенного; его единственная цель - получить данные с веб-сайта для ставок и поместить их в Excel. Большинство проблем решаемы, и у меня есть хороший маленький беспорядок ...

Задан 18 Dec 2011, 06:03 от Joseph
  • 16 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Scrapy: передача элемента между методами

Предположим, у меня есть Bookitem, мне нужно добавить к нему информацию как на этапе анализа, так и на этапе детализации def parse(self, response) data = json.loads(response) for book in data['result']: item = BookItem(); item['id'] = book['id'] ...

Задан 18 Dec 2013, 16:18 от Dionysian
  • 38 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Как отфильтровать повторяющиеся запросы на основе URL в scrapy

Я пишу сканер для веб-сайта, использующего скрапинг с CrawlSpider.Scrapy предоставляет встроенный фильтр повторяющихся запросов, который фильтрует повторяющи...

Задан 23 Sep 2012, 12:25 от nik-v
  • 23 голосов
  • 5 ответов
  • 0 просмотров
5 ответов

Scrapy получить URL запроса в разборе

Как я могу получить URL запроса в Scrapy'sparse() функционировать? У меня много URL вstart_urls и некоторые из них перенаправляют моего паука на домашнюю страницу, и в результате у меня есть пустой элемент. Так что мне нужно ...

Задан 19 Nov 2013, 20:07 от Goran
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

scrapy convert_image

Я использую Scrapy, чтобы сканировать некоторые изображения, изображения должны вырезать часть или добавить водяной знак. Я перезаписываю функциюconvert_image вpipelines.py но это не сработало. Код выглядит так: class ...

Задан 09 Mar 2012, 07:24 от kongkong
  • 27 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Запустите Scrapy Spider в сельдерее

Это больше не работаетAPI Scrapy изменился.Теперь в документации есть способ "Запустите Scrapy из сценария"но я получаю

Задан 01 Mar 2014, 15:46 от Juan Riaza
  • 10 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Символ не найден: _BIO_new_CMS

Я новичок в Mac, и я не понимаю, почему моя терапия больше не работает. Я подозреваю, что openssl недействителен в моем el capitan.Я старался:

Задан 01 Nov 2015, 13:43 от suwopa
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

, Вы должны попробовать это, я думаю. GL!

аюсь сломатьcaptcha в форме с веб-сайта, но эта капча является динамической, у нее нет URL, вместо этого она имеет что-то вроде этого src="captcha?accion=image"Какой лучший вариант здесь? Я читал что-то вроде использования промежуточного ...

Задан 13 Dec 2018, 19:18 от AngelLB
  • 6 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Соскоб с помощью Scrapy и Selenium

У меня есть паук-скрап, который сканирует сайт, который перезагружает контент через javascript на странице. Чтобы перейти к следующей странице, я использовал...

Задан 16 Sep 2013, 17:58 от puffin
  • 5 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как правильно использовать правила, restrict_xpaths, чтобы сканировать и анализировать URL с помощью scrapy?

Я пытаюсь запрограммировать паука для сканирования RSS-каналов веб-сайта, а затем анализировать метатеги статьи.Первая страница RSS - это страница, которая о...

Задан 03 Mar 2013, 22:47 от Marc
  • 50 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Я запускал кэшированные прогоны для изменений разработки и ежедневные cronjobs для обнаружения изменений на сайте.

ел бы реализовать некоторые модульные тесты в Scrapy (скребок экрана / веб-сканер). Поскольку проект запускается с помощью команды «scrapy crawl», я могу запустить его через что-то вроде носа. Так как Scrapy построен на основе витой, могу ли я ...

Задан 23 Jun 2011, 15:08 от ciferkey
  • 6 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как добавить заголовки в запросы Scrapy CrawlSpider?

Я работаю с классом CrawlSpider для сканирования веб-сайта, и я хотел бы изменить заголовки, которые отправляются в каждом запросе. В частности, я бы хотел д...

Задан 08 Jan 2013, 15:58 от CatShoes
  • 17 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Доступ к сессионному файлу cookie в паутинах

Я пытаюсь получить доступ к сессионному cookie внутри паука. Сначала я захожу в социальную сеть, используя паука: def parse(self, response): return [FormRequest.from_response(response, formname='login_form', formdata={'email': '...', ...

Задан 03 Jan 2012, 05:35 от mikolune
  • 2 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Как очистить куки в скрапе?

По умолчанию Scrapy хранит и передает файлы cookie по запросам. Но как мне получить доступ или очистить сохраненные куки в определенный момент в пауке? Спасибо?

Задан 21 Feb 2014, 02:40 от maxwell
  • 1 голос
  • 2 ответа
  • 0 просмотров
2 ответа

 вам нужен SDK, соответствующий используемой платформе (Windows 10 SDK для Windows 10 и т. д.).

но я узнал, что scrapy - это отличная библиотека для очистки, поэтому я попытался установить scrapy на свою машину, но когда я попытался это сделать

Задан 14 Apr 2017, 14:49 от P.hunter
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как избежать перенаправления

Я пытаюсь разобрать сайт (написанный на ASP), и сканер перенаправляется на основной сайт. Но то, что я хотел бы сделать, это проанализировать данный URL, а не перенаправленный. Есть ли способ сделать это?. Я попытался добавить "REDIRECT = False" ...

Задан 25 Sep 2011, 00:27 от mfalcon
  • 9 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

как получить оригинальный start_url в scrapy (до перенаправления)

Я использую Scrapy, чтобы сканировать некоторые страницы. Я получаю start_urls из листа Excel, и мне нужно сохранить URL-адрес в элементе. class abc_Spider(BaseSpider): name = 'abc' allowed_domains = ['abc.com'] wb = xlrd.open_workbook(path + ...

Задан 30 May 2013, 18:07 от user_2000
  • 5 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Scrapy с вложенным массивом

Я новичок в scrapy и хотел бы понять, как очистить объект для вывода во вложенный JSON. Прямо сейчас ям производства JSON, который выглядит

Задан 19 Mar 2013, 17:30 от Mittenchops
  • 5 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Отправка товаров и логов с помощью Scrapy по электронной почте

Я пытаюсь заставить Scrapy отправить мне электронное письмо, когда сканер заканчивает работу или ломается. Уже есть встроенное расширение для отправки статистики, но я хотел бы прикрепить ошибки паука как<spidername>-errors.log и царапаные ...

Задан 28 Apr 2013, 07:41 от Blender
  • 0 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Python логическая операция

Я довольно новичок в Python, и я работаю над проектом по очистке веб-страниц с использованием библиотеки Scrapy. Я не использую встроенное ограничение домена, потому что хочу проверить, не устарела ли какая-либо из ссылок на страницы за пределами ...

Задан 02 Dec 2013, 05:04 от bornytm
Page 1 of 7
1 2 3 4 5