Вопрос по python, urllib, beautifulsoup – Разбор веб-страницы в python с использованием Beautiful Soup

8

У меня проблемы с получением данных с сайта. Источник сайта здесь:

view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO

вот так вот:

INFORMACJE O FILMIETytuł............................................: La mer à boire

Ocena.............................................: IMDB - 6.3/10 (24)

Produkcja.........................................: Francja

Gatunek...........................................: Dramat

Czas trwania......................................: 98 min.

Premiera..........................................: 22.02.2012 - Świat

Reżyseria........................................: Jacques Maillot

Scenariusz........................................: Pierre Chosson, Jacques Maillot

Aktorzy...........................................: Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel

И я хочу получить данные с этого сайта, чтобы иметь список строк Python:

[[Tytuł, "La mer à boire"]
[Ocena, "IMDB - 6.3/10 (24)"]
[Produkcja, Francja]
[Gatunek, Dramat]
[Czas trwania, 98 min.]
[Premiera, "22.02.2012 - Świat"]
[Reżyseria, "Jacques Maillot"]
[Scenariusz, "Pierre Chosson, Jacques Maillot"]
[Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]

Я написал некоторый код, используя BeautifulSoup, но я не могу идти дальше, я просто не знаю, что получить остальное из исходного кода сайта и как преобразовать это в строку ... Пожалуйста помоги!

Мой код:

    # -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib2
from bs4 import BeautifulSoup

try :
    web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
    soup = BeautifulSoup(web_page)
    c = soup.find('span', {'class':'vi'}).contents
    print(c)
except urllib2.HTTPError :
    print("HTTPERROR!")
except urllib2.URLError :
    print("URLERROR!")
HTML структурирован - если вы посмотрите на исходный код страницы, вы заметите шаблоны (ищите классы / или h2 после div и т. Д.), А затем попытаетесь выяснить, какую логику вам нужно извлечь данные, и если у вас есть проблемы с написанием кода, кто-то сможет помочь Jon Clements♦
Хороший вопрос :) Я написал вот так: || c = soup.find («span», «класс»: «vi»)). Contents || но он находит только первый «промежуток» элемент, но как насчет остальных из них? Как вывести их и преобразовать в строковое значение? mazix
Посмотри наsoup.findAll Jon Clements♦

Ваш Ответ

2   ответа
14

Секрет использования BeautifulSoup заключается в том, чтобы найти скрытые шаблоны вашего HTML-документа. Например, ваш цикл

for ul in soup.findAll('p') :
    print(ul)

в правильном направлении, но он вернет все абзацы, а не только те, которые вы ищете. Однако параграфы, которые вы ищете, имеют полезное свойство иметь классi, Внутри этих абзацев можно найти два пролета, один с классомi и еще один с классомvi, Нам повезло, потому что эти промежутки содержат данные, которые вы ищете:

<p class="i">
    <span class="i">Tytuł............................................</span>
    <span class="vi">: La mer à boire</span>
</p>

Итак, сначала получите все абзацы с данным классом:

>>> ps = soup.findAll('p', {'class': 'i'})
>>> ps
[<p class="i"><span class="i">Tytuł... <LOTS OF STUFF> ...pan></p>]

Теперь, используясписок пониманий, мы можем сгенерировать список пар, где каждая пара содержит первый и второй интервал из абзаца:

>>> spans = [(p.find('span', {'class': 'i'}), p.find('span', {'class': 'vi'})) for p in ps]
>>> spans
[(<span class="i">Tyt... ...</span>, <span class="vi">: La mer à boire</span>), 
 (<span class="i">Ocena... ...</span>, <span class="vi">: IMDB - 6.3/10 (24)</span>),
 (<span class="i">Produkcja.. ...</span>, <span class="vi">: Francja</span>),
 # and so on
]

Теперь, когда у нас есть промежутки, мы можем получить от них тексты:

>>> texts = [(span_i.text, span_vi.text) for span_i, span_vi in spans]
>>> texts
[(u'Tytu\u0142............................................', u': La mer \xe0 boire'),
 (u'Ocena.............................................', u': IMDB - 6.3/10 (24)'),
 (u'Produkcja.........................................', u': Francja'), 
  # and so on
]

Эти тексты все еще не в порядке, но их легко исправить. Чтобы удалить точки из первой, мы можем использоватьrstrip():

>>> u'Produkcja.........................................'.rstrip('.')
u'Produkcja'

: Строка может быть удалена сlstrip():

>>> u': Francja'.lstrip(': ')
u'Francja'

Чтобы применить его ко всему контенту, нам просто нужно другое понимание списка:

>>> result = [(text_i.rstrip('.'), text_vi.replace(': ', '')) for text_i, text_vi in texts]
>>> result
[(u'Tytu\u0142', u'La mer \xe0 boire'),
 (u'Ocena', u'IMDB - 6.3/10 (24)'),
 (u'Produkcja', u'Francja'),
 (u'Gatunek', u'Dramat'),
 (u'Czas trwania', u'98 min.'),
 (u'Premiera', u'22.02.2012 - \u015awiat'),
 (u'Re\u017cyseria', u'Jacques Maillot'),
 (u'Scenariusz', u'Pierre Chosson, Jacques Maillot'),
 (u'Aktorzy', u'Daniel Auteuil, Maud Wyler, Yann Tr&eacute;gou&euml;t, Alain Beigel'),
 (u'Wi\u0119cej na', u':'),
 (u'Trailer', u':Obejrzyj zwiastun')]

И это все. Я надеюсь, что этот пошаговый пример может сделать использование BeautifulSoup более понятным для вас.

Боже, спасибо тебе большое за объяснение :) Я сделаю еще несколько упражнений с этим. Я думаю, проблема решена. Спасибо вам всем:) mazix
+1 за хорошо объясненный пример
0

Это даст вам список, который вы хотите, чтобы вам пришлось написать некоторый код, чтобы избавиться от конечных символов .... и преобразовать строки символов.

    import urllib2
    from bs4 import BeautifulSoup

     try :
 web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
LIST = []
for p in soup.findAll('p'):
    s = p.find('span',{ "class" : 'i' })
    t = p.find('span',{ "class" : 'vi' })
    if s and t:
        p_list = [s.string,t.string]
        LIST.append(p_list)

кроме urllib2.HTTPError:     печать (& Quot;! HTTPERROR & Quot;) кроме urllib2.URLError:     печать (& Quot;! URLERROR & Quot;)

Похожие вопросы