Лучшие screen-scraping вопросы ИТ разработчиков

  • 177 голосов
  • 13 ответов
  • 0 просмотров
13 ответов

Соскоб с помощью Python

Я хотел бы получать ежедневное время восхода / захода солнца с веб-сайта. Можно ли очистить веб-контент с помощью Python? какие модули используются? Есть ли доступный учебник?

Задан 17 Jan 2010, 16:06 от 3zzy
  • 5 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

 путь при поиске какого-либо слова, если речь идет об очень известном человеке или около того. :(

продолжить свой личный проект, я размышлял, как посчитать количество результатов для указанного пользователем слова вщебет [http://www.twitter.com], Я широко использовал их API, но не смог придумать эффективный или даже наполовину практичный ...

Задан 24 Feb 2009, 03:34 от Chris Ballance
  • 24 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Scrapy Python Настроить пользовательский агент

Я попытался переопределить user-agent моего crawlspider, добавив в проект дополнительную строкуконфигурационный файл [http://doc.scrapy.org/en/latest/topics/settings.html#project-settings-module], Вот код: [settings] default = myproject.settings ...

Задан 20 Sep 2013, 15:52 от B.Mr.W.
  • 6 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Извлечение определенных данных с веб-страницы с использованием PHP [дубликаты]

Possible Duplicate: HTML Scraping in Php Я хотел бы знать, есть ли способ получить с веб-страницы определенную строку текста, которая время от времен...

Задан 23 May 2017, 12:08 от CommunityDaniel Silva
  • 1 голос
  • 2 ответа
  • 0 просмотров
2 ответа

Оценить JavaScript на локальный HTML-файл (без браузера)

Это часть проекта, над которым я работаю.Я хочу автоматизировать сайт Sharepoint, особенно для извлечения данных из базы данных, к которой у меня и моих колл...

Задан 04 May 2013, 12:16 от araisbec
  • 7 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Python WWW макрос

мне нужно что-то вроде iMacros для Python. Было бы здорово иметь что-то подобное:

Задан 18 Aug 2009, 14:05 от Etam
  • 6 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Сохранить все файлы изображений с веб-сайта

Я создаю небольшое приложение для себя, где я запускаю скрипт Ruby и сохраняю все изображения из моего блога. Я не могу понять, как сохранить файлы изображений после того, как я их определил. Любая помощь приветствуется. require 'rubygems' ...

Задан 28 Oct 2011, 08:10 от Zack Shapiro
  • 0 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

как очистить это с помощью простого HTML DOM [закрыто]

Я пытаюсь использовать простой HTML-дом для извлечения элементов из файла, который выглядит следующим образом. Файл имеет несколько таблиц, которые выглядят одинаковоclass=sometable.Каждая таблица имеет несколько<tr class=sometr>.Тогда внутри ...

Задан 19 Sep 2011, 02:23 от sameold
  • 3 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Выскабливание флеш сайтов

Я готов создать сценарий, который берет информацию с веб-сайта, который делается во флэш-памяти. Я собирался начать кодировать приложение, делая что-то вроде: перемещение мыши в положение x, y.сделать щелчок мыши.подождите х ...

Задан 12 Jun 2009, 07:34 от Macarse
  • 24 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Scrapy Python Настроить пользовательский агент

Я попытался переопределить user-agent моего crawlspider, добавив в проект дополнительную строкуконфигурационный файл, Вот код:

Задан 20 Sep 2013, 13:52 от B.Mr.W.
  • 10 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Исключая нежелательные результаты findAll с использованием BeautifulSoup

Используя BeautifulSoup, я собираюсь очистить текст, связанный с этим HTML-хуком: <p class="review_comment">Итак, используя простой код следующим образом, content = page.read() soup = BeautifulSoup(content) results = ...

Задан 13 Oct 2013, 23:34 от Matt O'Brien
  • -2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Скрипинг экрана в php с использованием file_get_contents

Привет, я новичок в скрининге. Я пытаюсь отсканировать отзывы с веб-сайта бронирования отелей для отображения на моем .. Я получил это далеко, но немного за...

Задан 14 Aug 2012, 14:38 от Westfield Sandown
  • 1 голос
  • 1 ответ
  • 0 просмотров
1 ответ

Очистка страниц, которые, кажется, не имеют URL

Я пытаюсь очистить эти списки и предоставить больше информации об этих списках вакансий на сайте, который принадлежит моему клиенту. Проблема в том, что мне ...

Задан 28 Sep 2013, 13:25 от Nick Res
  • 24 голосов
  • 9 ответов
  • 0 просмотров
9 ответов

Есть ли PHP-эквивалент WWW :: Mechanize в Perl?

я ищу библиотеку, которая имеет функциональность, аналогичную Perl&#39;sWWW :: Mechanize, но для PHP. По сути, это должно позволить мне отправлять HTTP-запро...

Задан 13 Oct 2008, 19:12 от davr
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

C # WebClient - Просмотр исходного вопроса

Я использую C # WebClient, чтобы опубликовать данные для входа на страницу и прочитать все результаты.Страница, которую я пытаюсь загрузить, включает в себя ...

Задан 24 Sep 2009, 09:21 от BIDeveloper
  • 28 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Почему декодирование python заменяет больше, чем недопустимые байты из закодированной строки?

Попытка декодировать неверно закодированную HTML-страницу utf-8 дает разные результаты в python, firefox и chrome.Неверный закодированный фрагмент с тестовой...

Задан 30 Mar 2010, 17:33 от 19 revs
  • 1 голос
  • 3 ответа
  • 0 просмотров
3 ответа

OpenUri, вызывающий 401 несанкционированную ошибку с HTTPS URL

Я добавляю функциональность, которая очищает страницу XML из источника, который требует использования HTTPS-соединения с аутентификацией. Я пытаюсь использовать решение Райана Бейтса Railscast # 190, но у меня возникает ошибка ...

Задан 07 Dec 2012, 12:47 от acoustic_north
  • 24 голосов
  • 5 ответов
  • 0 просмотров
5 ответов

Как получить HTML в Java

Без использования какой-либо внешней библиотеки, какой самый простой способ извлечь HTML-контент веб-сайта в строку?

Задан 28 Aug 2008, 01:20 от pek
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Загрузите веб-страницу с изображениями и таблицами стилей и (опционально) отправьте по электронной почте

Мне нужно сделать снимки веб-страниц программно с использованием PHP и поместить их в электронную почту HTML.Я старался

Задан 29 Nov 2009, 12:51 от Pekka 웃
  • 16 голосов
  • 7 ответов
  • 0 просмотров
7 ответов

WebBrowsing в C # - библиотеки, инструменты и т. Д. - Что-нибудь вроде Mechanize в Perl? [закрыто]

Ищете что-то похожее на Mechanize для .NET ... Если вы не знаете, что такое Mechanize .. http://search.cpan.org/dist/WWW-Mechanize/ [http://search.cpan.org/dist/WWW-Mechanize/] Я буду вести список предложений здесь. Все для просмотра / ...

Задан 27 Jan 2010, 20:00 от 19 revs
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как читать чужой форум

У моего друга есть форум, который полон сообщений, содержащих информацию. Иногда она хочет просмотреть сообщения на своем форуме и прийти к выводам. В данный момент она просматривает сообщения, просматривая свой форум, и генерирует не обязательно ...

Задан 13 Jan 2010, 21:03 от Ziggy
  • 34 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Варианты очистки веб-страниц - только версия C ++

Я ищу хорошую библиотеку C ++ для просмотра веб-страниц. Этодолженбыть C / C ++ иничегоиначе, пожалуйста, не направляйте меня кВарианты соскоба HTML [https://stackoverflow.com/questions/2861/options-for-html-scraping]или другие вопросы / ответы ...

Задан 07 May 2009, 13:52 от Piotr Dobrogost
  • 4 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Может ли HTTP-запрос на основе cURL полностью имитировать браузерный запрос?

Это вопрос из двух частей. Q1: Может ли запрос на основе cURL на 100% имитировать запрос на основе браузера? Q2: Если да, то какие параметры должны быть установлены. Если нет, то что еще делает браузер, который не может быть имитирован ...

Задан 18 Dec 2009, 07:38 от gameover
  • 6 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Заполнение формы с использованием PyQt и QWebview

Я хотел бы использовать PyQt / QWebview для 1) загрузки определенного URL, 2) ввода информации в форму, 3) нажатия кнопок / ссылок. Механизация не работает, ...

Задан 16 Jun 2012, 03:02 от user1137778
  • 11 голосов
  • 7 ответов
  • 0 просмотров
7 ответов

Вы можете видеть, что pyparsing не только соответствует этим непредсказуемым вариантам, но и возвращает данные в объекте, что облегчает считывание отдельных атрибутов тега и их значений.

у получить значение скрытого поля ввода в HTML. <input type="hidden" name="fooId" value="12-3456789-1111111111" />Я хочу написать регулярное выражение в Python, которое будет возвращать значениеfooIdпри условии, что я знаю, что строка в HTML ...

Задан 10 Sep 2008, 21:49 от mshafrir
  • 14 голосов
  • 7 ответов
  • 0 просмотров
7 ответов

Программный браузер Python с JavaScript

Я хочу отсканировать сайт, который использует JavaScript.Естьмеханизировать, программный веб-браузер для Python. Тем не менее, это (по понятным причинам) неt...

Задан 16 Dec 2009, 17:37 от Claudiu
  • 6 голосов
  • 5 ответов
  • 0 просмотров
5 ответов

Как я могу получить CData из BeautifulSoup

У меня есть веб-сайт, который я очищаю, который имеет похожую структуру следующим образом. Я хотел бы иметь возможность получить информацию из блока CData. Я использую BeautifulSoup для извлечения другой информации со страницы, поэтому, если ...

Задан 09 Jan 2010, 02:53 от hary wilke
  • 3 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Я потратил много времени на то, чтобы выяснить это, поэтому подумал, что это может сэкономить время.

я есть веб-сайт, на котором мне нужно войти в систему с именем пользователя, паролем и капчей. Однажды у меня есть панель управления, которая имеет заказы. Для каждого бронирования есть ссылка на страницу с подробной информацией, которая ...

Задан 28 Feb 2011, 17:47 от ddd
  • 9 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как пользоваться Goutte

вопрос: Не могу полностью понять веб-скребок Гутта. Запрос: Может ли кто-нибудь помочь мне понять или предоставить код, который поможет мне лучше понять, как использовать Goutte веб-скребок? Я перечитал README.md Я ищу больше информации, чем то, ...

Задан 26 Mar 2013, 03:34 от scrfix
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Событие щелчка CasperJS с вызовом AJAX

Я пытаюсь получить данные с сайта, имитируя события, используя CasperJS с phantomJS 1.7.0. Я могу имитировать обычные события кликов и выбирать события. Но мой код не работает в следующем сценарии: Когда я нажимаю кнопку / привязку и т. Д. На ...

Задан 31 Dec 2012, 06:54 от Learn More
  • 4 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Кроссплатформенное решение для автоматизации сеансов telnet типа ncurses

Фон Часть моей работы в области сетей и телекоммуникаций связана с автоматизацией сеансов telnet, когда устаревшее оборудование не предлагает простых решений в других интерфейсах. Доступ ко многим более старым элементам оборудования возможен ...

Задан 13 Jan 2010, 21:30 от pokstad
  • 14 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Вы пробовали OutWit Hub? Это целая очищающая среда. Вы можете позволить ему попытаться угадать структуру или разработать свои собственные скребки. Я действительно предлагаю вам взглянуть на это. Это сделало мою жизнь намного проще. ZR

имаюсь разработкой проекта, для которого я хочу очистить содержимое веб-сайта в фоновом режиме и получить ограниченный контент с этого очищенного веб-сайта. Например, на моей странице есть поля «ИД пользователя» и «Пароль», с помощью которых я ...

Задан 25 Feb 2009, 05:37 от Sakthivel
  • 28 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Невозможно вызвать Firefox из селена в Python на машине AWS

Я пытаюсь использовать селен из Python, чтобы очистить некоторые динамические страницы с помощью JavaScript. Тем не менее, я не могу вызвать firefox после того, как я следовал инструкциям selenium на странице ...

Задан 23 Oct 2012, 21:26 от David
  • 9 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как пользоваться Goutte

Выпуск:Не могу полностью понять веб-скребок Гутта.Запрос:Может ли кто-нибудь помочь мне понять или предоставить код, который поможет мне лучше понять, как ис...

Задан 26 Mar 2013, 02:34 от scrfix
  • 14 голосов
  • 6 ответов
  • 0 просмотров
6 ответов

Каков наилучший способ разбора веб-страницы в Ruby?

Я искал библиотеки XML и HTML на rubyforge для простого способа извлечения данных с веб-страницы. Например, если я хочу проанализировать пользовательскую страницу в stackoverflow, как я могу получить данные в пригодном для использования ...

Задан 26 Sep 2008, 03:31 от Jeremy Mack
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как читать чужой форум

У моего друга есть форум, который полон сообщений, содержащих информацию. Иногда она хочет просмотреть сообщения на своем форуме и прийти к выводам. В данный...

Задан 13 Jan 2010, 20:03 от Ziggy
  • 24 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Отбор посетителей из Google Analytics в реальном времени

У меня много сайтов, и я хочу создать панель мониторинга, показывающую количество посетителей в режиме реального времени на каждом из них на одной странице. ...

Задан 21 Jun 2012, 23:12 от Kirk Ouimet
  • 28 голосов
  • 5 ответов
  • 0 просмотров
5 ответов

Как запустить несколько процессов Tor одновременно с разными IP-адресами выхода?

Я новичок в Tor и чувствую, что нужно рассмотреть несколько Tors. Множество торов, которые я здесь упомянул, являются не только несколькими экземплярами, но также используют разные прокси-порты для каждого, как это было сделано ...

Задан 14 Jan 2013, 15:18 от B.Mr.W.
  • 103 голосов
  • 9 ответов
  • 0 просмотров
9 ответов

Сетевой этикет этикеток [закрыто]

Я рассматриваю возможность написания простого веб-приложения для извлечения информации с веб-сайта, который, по-видимому, специально не запрещает это. Я проверил другие альтернативы (например, RSS, веб-сервис), чтобы получить эту информацию, но ...

Задан 07 Jan 2010, 16:56 от 20 revs, 3 users 62%
  • 2 голосов
  • 6 ответов
  • 0 просмотров
6 ответов

Чтение и публикация на веб-страницах с использованием C #

У меня есть проект на работе, который требует от меня возможности вводить информацию на веб-страницу, читать следующую страницу, на которую я перенаправлен, ...

Задан 25 Sep 2008, 16:48 от borktholamue
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Загрузите веб-страницу с изображениями и таблицами стилей и (опционально) отправьте по электронной почте

Мне нужно сделать снимки веб-страниц программно с использованием PHP и поместить их в электронную почту HTML. Я пыталсяwget --page-requisites, Он загружает все правильно, но не изменяет исходный код HTML-страницы, чтобы он указывал на ...

Задан 29 Nov 2009, 13:51 от Pekka 웃
Page 1 of 4
1 2 3 4