Лучшие web-scraping вопросы ИТ разработчиков

  • 8голосов
  • 3ответа
  • 0просмотров

Захват HTTP-кодов состояния с помощью паука-скрапа

Я новичок в области терапии. Я пишу паука, предназначенного для проверки длинного списка URL-адресов для кодов состояния сервера и, при необходимости, на какие URL они перенаправлены. Важно отметить, что при наличии цепочки перенаправлений мне ...

ЗаданJun 13, 2012, 3:29 PMотreportingmonkey
  • 8голос
  • 1ответ
  • 0просмотров

Скачивание файла с помощью Python Mechanize

Я пытаюсь загрузить файл с веб-сайта, используя python и механизировать. Мой текущий код успешно заходит на сайт и открывает страницу, содержащую ссылку для скачивания. Ссылка для ...

ЗаданJun 12, 2012, 5:47 PMотuser1137778
  • 24голосов
  • 4ответа
  • 0просмотров

Отбор посетителей из Google Analytics в реальном времени

У меня много сайтов, и я хочу создать панель мониторинга, показывающую количество посетителей в режиме реального времени на каждом из них на одной странице. (кто-нибудь еще захочет этого?) Сейчас единственный способ просмотреть эту информацию - ...

ЗаданJun 21, 2012, 11:12 PMотKirk Ouimet
  • 4голосов
  • 2ответа
  • 0просмотров

Очистка динамически генерируемого HTML внутри приложения Android

В настоящее время я пишу приложение для Android, которое, помимо прочего, использует текстовую информацию с веб-сайтов, которые мне не принадлежат. Кроме того, некоторые страницы требуют аутентификации. Для некоторых страниц я смог войти в ...

ЗаданJun 21, 2012, 3:45 PMотbhekman
  • 7голосов
  • 2ответа
  • 0просмотров

PHP: strip_tags - удалить только определенные теги (и их содержимое)?

Я используюstrip_tags() функционировать, но мне нужноremoveнекоторые теги (и все их содержимое). например : <div> <p class="test"> Test A </p> <span> Test B </span> <div> Test C </div> </div>Допустим, мне нужно избавиться от тегов P и SPAN и ...

ЗаданJun 26, 2012, 11:36 PMотDylan
  • 35голосов
  • 2ответа
  • 0просмотров

Можно ли использовать Selenium WebDriver для управления PhantomJS?

Я просматриваю документацию для Selenium WebDriver, и он может работать, например, с Chrome. Я подумал, не будет ли это гораздо более эффективным, чем & # x2018; управлять автомобилем & # x2019; PhantomJS? Есть ли способ использовать Selenium с ...

ЗаданApr 20, 2016, 8:42 PMотdakabJoseph
  • 5голосов
  • 2ответа
  • 0просмотров

Очистить содержимое сайта с помощью безопасного входа

Я пытаюсь очистить содержимое сайта с защищенным логином но не в состоянии это сделать Вход на сайт имеет три варианта: имя пользователя, пароль, пароль вот код, который я использую <?php // HTTP authentication $url = ...

ЗаданApr 29, 2014, 5:12 PMотjsherkuser1447187
  • 1голосов
  • 2ответа
  • 0просмотров

Можно ли подключить движок JavaScript к Ruby и Nokogiri?

Я пишу приложение для сканирования некоторых веб-сайтов и сбора данных с них. Для этого я использую Ruby, Curl и Nokogiri. В большинстве случаев это просто, и мне нужно только пропинговать URL и анализировать данные HTML. Настройка работает ...

ЗаданApr 14, 2014, 7:38 PMотKaranutsiepully
  • 3голосов
  • 2ответа
  • 0просмотров

Как извлечь динамический AJAX-контент с веб-страницы

Мое требование - извлечь необходимый контент с веб-страницы. На странице есть раздел, который заполняется с помощью ajax. Когда я просматриваю исходный код страницы, он не показывает содержимое, загруженное с помощью ajax. Содержание раздела ...

ЗаданAug 24, 2012, 8:59 AMотMaddy
  • 2голосов
  • 2ответа
  • 0просмотров

Python - возобновить веб-сессию с urllib2 после ручного входа в браузер

Скажем, я захожу на веб-сайт (тоже в интрасети), для доступа к содержимому которого требуется логин. Я заполню обязательные поля ... например имя пользователя, пароль и любые капчи и т. д., необходимые для входа в систему из самого ...

ЗаданSep 12, 2012, 7:24 AMотMu Mindihightower
  • 4голосов
  • 2ответа
  • 0просмотров

Динамические селекторы CasperJS

Нужна помощь Я собираю данные с этого веб-сайта, который имеет форму, которая содержит три списка выбора, связанных друг с другом, то есть, если выбрана любая опция из первого списка выбора, эта функция ...

ЗаданOct 16, 2012, 7:10 AMотnaveed
  • 2голосов
  • 2ответа
  • 0просмотров

Python - возобновить веб-сессию с urllib2 после ручного входа в браузер

Скажем, я захожу на веб-сайт (тоже в интрасети), для доступа к содержимому которого требуется логин. Я заполню обязательные поля ... например имя пользователя, пароль и любые капчи и т. д., необходимые для входа в систему из самого ...

ЗаданSep 12, 2012, 4:27 AMотihightower
  • 4голосов
  • 2ответа
  • 0просмотров

Динамические селекторы CasperJS

Нужна помощь Я собираю данные с этого веб-сайта, который имеет форму, которая содержит три списка выбора, связанных друг с другом, то есть, если выбрана любая опция из первого списка выбора, эта функция ...

ЗаданOct 08, 2012, 8:39 AMотnaveed
  • -2голос
  • 1ответ
  • 0просмотров

php - самый быстрый способ проверить наличие текста во многих доменах (выше 1000)

У меня работает скрипт php, и я использую cURL для получения содержимого веб-страниц, на которых я хотел бы проверить наличие текста. Прямо сейчас это выглядит так: for( $i = 0; $i < $num_target; $i++ ) { $ch = curl_init(); $timeout = ...

ЗаданOct 15, 2012, 6:18 AMотIam Zesh
  • 5голос
  • 1ответ
  • 0просмотров

Python Selenium &#39;WebDriver&#39; объект не имеет ошибки атрибута

я пытаюсь почерпнуть сгенерированный javascript контент с сайта на китайском языке. Я'я использую Selenium (и Python), так как я могуt непосредственно очищать содержимое javascript. # -*- coding: utf-8 -*- from selenium import webdriver ...

ЗаданOct 16, 2012, 5:49 AMотDannyMatt
  • 28голосов
  • 3ответа
  • 0просмотров

Невозможно вызвать Firefox из селена в Python на машине AWS

Я пытаюсь использовать селен из Python, чтобы очистить некоторые динамические страницы с помощью JavaScript. Тем не менее, я не могу вызвать firefox после того, как я следовал инструкциям selenium на странице ...

ЗаданOct 23, 2012, 7:26 PMотDavid
  • 2голосов
  • 2ответа
  • 0просмотров

Определить и извлечь название / описание изображения (Data Scraping Pinterest)

Как можно использовать Javascript / jQuery для идентификации описания или заголовка, соответствующего изображению на веб-странице с несколькими изображениями и описаниями? Заголовок страницы может быть извлечен очень легко, но заголовок может ...

ЗаданDec 10, 2012, 6:46 AMотNyxynyx
  • 20голосов
  • 4ответа
  • 0просмотров

Чтение динамически генерируемых веб-страниц с использованием Python

Я пытаюсь очистить веб-сайт, используя python и красивый суп. Я сталкивался с тем, что на некоторых сайтах ссылки на изображения, хотя они видны в браузере, не видны в исходном коде. Однако при использовании Chrome Inspect или Fiddler мы можем ...

ЗаданDec 19, 2012, 7:23 PMотAjay Nair
  • 44голосов
  • 4ответа
  • 0просмотров

Простой селектор jQuery выбирает только первый элемент в Chrome ..?

Я немного новичок в jQuery, так что прости меня за то, что я плотный Я хочу выбрать всеэлементы на определенной странице через Chrome 'Консоль JS: $('td')Тем не менее, когда я делаю это, я получаю следующий вывод: ApplesIsn»t jQuery должен ...

ЗаданJan 13, 2013, 8:49 PMотfbonetti
  • 5голосов
  • 2ответа
  • 0просмотров

Защита от веб-соскабливания

В настоящее время я являюсь частью команды, разрабатывающей приложение, которое включает клиентский интерфейс. Через этого клиента мы отправляем пользовательские данные, у каждого пользователя есть идентификатор пользователя, и клиент общается с ...

ЗаданJan 17, 2013, 9:46 AMотBenjamin Gruenbaum
  • 2голос
  • 1ответ
  • 0просмотров

scrapy xpath селектор повторяет данные

Я пытаюсь извлечь название компании и адрес из каждого списка и экспортировать его в -csv, но у меня возникают проблемы с выходным CSV. Я думаю, что bizs = hxs.select ("// DIV [@ класс =»listing_content ']») может быть причиной ...

ЗаданJan 18, 2013, 3:03 AMотrtluckie
  • 22голосов
  • 7ответов
  • 0просмотров

Как обращаться с IncompleteRead: в Python

Я пытаюсь получить некоторые данные с веб-сайта. Однако это возвращает меняincomplete read, Данные, которые я пытаюсь получить, представляют собой огромный набор вложенных ссылок. Я провел некоторые исследования в Интернете и обнаружил, что это ...

ЗаданJan 21, 2013, 2:45 PMотuser1967046
  • 8голосов
  • 7ответов
  • 0просмотров

используя Perl для очистки сайта

Я заинтересован в написании сценария Perl, который идет по следующей ссылке и извлекает номер 1975: https://familysearch.org/search/collection/results#count=20&запрос =% 2Bevent_place_level_1% 3ACalifornia% 20% 2Bevent_place_level_2% 3A% ...

ЗаданFeb 01, 2013, 7:16 PMотuser1690130
  • 5голосов
  • 2ответа
  • 0просмотров

Выполнение очищенного JavaScript с помощью cheerio

У меня есть веб-страница, на которой есть некоторые JS API, которые неизменить дом, но вернуть некоторые цифры. Я'Я хотел бы написать приложение NodeJS, которое загружает такие страницы и выполняет эти функции в контексте загруженной страницы. Я ...

ЗаданFeb 22, 2013, 12:54 PMотTonyx
  • 6голосов
  • 6ответов
  • 0просмотров

Можно ли запустить jQuery на стороне сервера?

Я работаю над очисткой веб-страниц, имеет AJAX-нумерацию страниц 'Реализовано, поскольку веб-сайт разработан на странице asp, т.е. с расширением .aspx. Я пытался отправить формы для разбивки на страницы, чтобы получить данные с других страниц, ...

ЗаданFeb 27, 2013, 9:16 AMотSubodh Ghulaxe
  • 12голосов
  • 4ответа
  • 0просмотров

Используйте getElementById на HTMLElement вместо HTMLDocument

я играл с данными из веб-страниц, используя VBS / VBA. Если бы это был Javascript I 'Я буду далеко, как легко, но это не такВ VBS / VBA все выглядит не так просто. Это пример, который я сделал для ответа, он работает, но я планировал доступ ...

ЗаданMar 03, 2013, 9:46 PMотNickSlash
  • 9голосов
  • 2ответа
  • 0просмотров

HTML кодирование и разбор lxml

Я пытаюсь, наконец, решить некоторые проблемы с кодированием, которые возникают при попытке очистить HTML с помощью lxml. Вот три примера HTML-документов, которые ямы столкнулись с: 1. Unicode Chars: 은 —’2. Unicode Chars: 은 —’3. Unicode ...

ЗаданMar 08, 2013, 6:50 PMотbismark
  • 2голосов
  • 4ответа
  • 0просмотров

Получить частичную веб-страницу

Есть ли способ ограничения количества данных, которые CURL будет получать? Я'м скрининг данных со страницы размером 50 КБ, однако необходимые мне данные находятся в верхней четверти страницы, поэтому мне действительно нужно получить только первые ...

ЗаданOct 08, 2009, 2:29 PMотJames
  • 14голосов
  • 3ответа
  • 0просмотров

Как сделать так, чтобы блок do возвращался раньше?

Я пытаюсь найти веб-страницу с помощью Haskell и скомпилировать результаты в объект. Если по какой-либо причине я могуЧтобы получить все элементы со страниц, я хочу прекратить попытки обработать страницу и вернуться рано. Например: scrapePage ...

ЗаданMar 15, 2013, 7:56 PMотJoe Hillenbrand
  • 5голос
  • 1ответ
  • 0просмотров

Scrapy с вложенным массивом

Я новичок в scrapy и хотел бы понять, как очистить объект для вывода во вложенный JSON. Прямо сейчас ям производства JSON, который выглядит [ {'a' : 1, 'b' : '2', 'c' : 3}, ]И я'мне нравится больше так: [ { 'a' : '1', '_junk' : [ 'b' : 2, 'c' : ...

ЗаданMar 19, 2013, 5:30 PMотMittenchops
  • 3голос
  • 1ответ
  • 0просмотров

Как вы просматриваете заголовки запросов, которые использует механизация?

Я пытаюсь отправить некоторые данные в форму программно. Я'у меня небольшая проблема, из-за которой сервер "не нравится " что я'Я отправляю это. К сожалению, нет сообщений об ошибках или чего-либо, что могло бы помочь диагностировать проблему, ...

ЗаданMar 26, 2013, 9:05 PMотZack Yoshyaro
  • 2голосов
  • 2ответа
  • 0просмотров

Проверка URL для 404 ошибки Scrapy

я прохожу через ряд страниц, и яЯ не уверен, сколько их, но текущая страница представлена простым числом, присутствующим в URL (например, " http://www.website.com/page/1" ) [http://www.website.com/page/1] Я хотел бы использовать цикл for в ...

ЗаданApr 07, 2013, 3:43 PMотSlater Victoroff
  • 4голосов
  • 2ответа
  • 0просмотров

Как удалить пустое пространство в данных Scrapy Spider

Я пишу свой первый паук в Scrapy и пытаюсь следовать документации. Я реализовал ItemLoaders. Паук извлекает данные, но данные содержат много строк возврата. Я пробовал много способов их удалить, но, похоже, ничего не работает. ...

ЗаданApr 16, 2013, 1:34 PMотDan Walker
  • 1голос
  • 1ответ
  • 0просмотров

Форматирование текста в таблице в Python

У меня возникают проблемы при создании таблицы, которая динамически адаптируется к различным результатам. мы написали скребок для экранаhttp://finance.yahoo.com [http://finance.yahoo.com]и напечатать название компании, этосимвол, и этотекущая ...

ЗаданApr 19, 2013, 3:23 PMотBen Sailors
  • 8голосов
  • 2ответа
  • 0просмотров

Новичок: как преодолеть Javascript кнопку «onclick», чтобы очистить веб-страницу?

Это ссылка, которую я хочу очистить: http://www.prudential.com.hk/PruServlet?module=fund&Цель = searchHistFund &fundCd = MMFU_U [http://www.prudential.com.hk/PruServlet?module=fund&purpose=searchHistFund&fundCd=MMFU_U] "Английская версия" ...

ЗаданMay 07, 2013, 12:04 PMотTerence Ng
  • 46голосов
  • 4ответа
  • 0просмотров

Как прокрутить вниз с Phantomjs для загрузки динамического контента

Я пытаюсь очистить ссылки со страницы, которая динамически генерирует контент, когда пользователь прокручивает страницу вниз (бесконечная прокрутка). Я пытался делать разные вещи с Phantomjs, но не смог собрать ссылки за пределами ...

ЗаданMay 15, 2013, 7:36 AMотPuneet Saini
  • 4голосов
  • 3ответа
  • 0просмотров

Есть ли в скрипте Google Apps что-то вроде getElementById?

Я собираюсь использовать Google App Script для получения списка программ с сайта радиостанции. Как я могу выбрать указанные элементы на веб-странице, указав идентификатор элемента? Поэтому я могу получить программы на веб-странице.

ЗаданMay 22, 2013, 12:52 PMотbenleung
  • 9голос
  • 1ответ
  • 0просмотров

как получить оригинальный start_url в scrapy (до перенаправления)

Я использую Scrapy для сканирования некоторых страниц. Я получаю start_urls из листа Excel, и мне нужно сохранить URL-адрес в элементе. class abc_Spider(BaseSpider): name = 'abc' allowed_domains = ['abc.com'] wb = xlrd.open_workbook(path + ...

ЗаданMay 30, 2013, 4:07 PMотuser_2000
  • 1голос
  • 1ответ
  • 0просмотров

html div вложение? используя Google fetchurl

я пытаюсь взять таблицу со следующей веб-страницы http://www.bloomberg.com/markets/companies/country/hong-kong/ [http://www.bloomberg.com/markets/companies/country/hong-kong/] У меня есть пример кода, который был любезно предоставлен Филом ...

ЗаданMay 31, 2013, 11:42 AMотjason
  • 15голосов
  • 4ответа
  • 0просмотров

Ускорьте веб-скребок

Я очищаю 23770 веб-страниц с помощью довольно простого веб-скребка, используяscrapy, Я довольно новичок в scrapy и даже в python, но мне удалось написать паука, который делает эту работу. Это, однако, очень медленно (для сканирования 23770 ...

ЗаданJun 10, 2013, 3:42 PMотMace
  • 1голосов
  • 2ответа
  • 0просмотров

VBA разбивает результаты из импортированной HTML таблицы в Excel

Привет я импортирую всю таблицу с веб-сайта в строку Excel: Dim fST As String fST = Doc.getElementsByTagName("table")(0).innerTextпосле этого я хотел бы разделить таблицу внутри ячеек Excel и выполнить разбиение, используятеги из таблицы html, ...

ЗаданJun 13, 2013, 5:05 PMотJohn Malko
  • 3голос
  • 1ответ
  • 0просмотров

Очистка веб-страницы, ссылок на страницу и формирование таблицы с помощью R

Привет, я'Я новичок в использовании R для очистки данных из Интернета и, к сожалению, мало знаю о HTML и XML. Я пытаюсь почистить каждую ссылку на историю на следующей родительской ...

ЗаданJun 29, 2013, 9:57 PMотuser2535366
  • 4голосов
  • 3ответа
  • 0просмотров

Есть ли какой-нибудь метод использования отдельного конвейера для каждого паука?

Я хочу получить веб-страницы в другом домене, это означает, что я должен использовать другой паук под командой "Scrap Crawl MySpider ", Однако мне приходится использовать другую конвейерную логику для помещения данных в базу данных, поскольку ...

ЗаданJun 29, 2013, 12:29 PMотuuball
  • 25голос
  • 1ответ
  • 0просмотров

Android Web Scraping с помощью браузера без головы

Я потратил день на исследование библиотеки, которая может быть использована для достижения следующих целей: * Получить все содержимое веб-страницы, как в фоновом режиме, не отображая результат в представлении. * Библиотека должна ...

ЗаданJul 01, 2013, 5:06 AMотPierre
Пред123След