Вопрос по dictionary, unicode, python – string.translate () с данными Юникода в Python

23

У меня есть 3 API, которые возвращают данные json 3 словарным переменным. Я беру некоторые значения из словаря для их обработки. Я читаю конкретные значения, которые я хочу, чтобы списокvaluelist, Одним из шагов является удаление пунктуации с них. Я обычно пользуюсьstring.translate(None, string.punctuation) для этого процесса, но так как данные словаря имеют юникод, я получаю ошибку:

    wordlist = [s.translate(None, string.punctuation)for s in valuelist]
TypeError: translate() takes exactly one argument (2 given)

Это можно обойти? Либо путем кодирования Unicode или замены дляstring.translate?

связанные с:Remove punctuation from Unicode formatted strings jfs
s.encode('utf-8').translate(None, string.punctuation) работал на меня. Suzana
@Suzana_K Спасибо! Это было самое простое решение для меня. asmaier

Ваш Ответ

5   ответов
3

def trans(to_translate):
    tabin = u'привет'
    tabout = u'тевирп'
    tabin = [ord(char) for char in tabin]
    translate_table = dict(zip(tabin, tabout))
    return to_translate.translate(translate_table)
32

чем с объектами байтовой строки:

>>> help(unicode.translate)

S.translate(table) -> unicode

Return a copy of the string S, where all characters have been mapped
through the given translation table, which must be a mapping of
Unicode ordinals to Unicode ordinals, Unicode strings or None.
Unmapped characters are left untouched. Characters mapped to None
are deleted.

Таким образом, ваш пример станет:

remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)
word_list = [s.translate(remove_punctuation_map) for s in value_list]

Обратите внимание, чтоstring.punctuation содержит только пунктуацию ASCII. Полный Юникод имеет гораздо больше знаков препинания, но все зависит от вашего варианта использования.

это, безусловно, лучший из всех ответов здесь. Благодарю.
1

и ответ Саймона помог мне решить мое дело, я подумал о том, чтобы показать более простой пример для пояснения:

from collections import defaultdict

А затем, для перевода, скажем, вы хотите удалить "@" и 'r'; персонажи:

remove_chars_map = defaultdict()
remove_chars_map['@'] = None
remove_chars_map['\r'] = None

new_string = old_string.translate(remove_chars_map)

И пример:

old_string = "[email protected]\r [email protected]\r [email protected]\r"

new_string = "word1 word2 word3"

'@' and '\r' removed

1

re модуль позволяет использоватьфункция в качестве аргумента замены, который должен занятьMatch возразить и вернуть подходящую замену. Мы можем использовать эту функцию для создания пользовательской функции перевода символов:

import re

def mk_replacer(oldchars, newchars):
    """A function to build a replacement function"""
    mapping = dict(zip(oldchars, newchars))
    def replacer(match):
        """A replacement function to pass to re.sub()"""
        return mapping.get(match.group(0), "")
    return replacer

Пример. Совпадение всех строчных букв ([a-z]), переведите «h» и 'i'; до "H"; и 'I'; соответственно удалите другие совпадения:

>>> re.sub("[a-z]", mk_replacer("hi", "HI"), "hail")
'HI'

Как видите, его можно использовать с короткими (неполными) наборами замещения, а также для удаления некоторых символов.

Пример Unicode:

>>> re.sub("[\W]", mk_replacer(u'\u0435\u0438\u043f\u0440\u0442\u0432', u"EIPRTV"), u'\u043f\u0440\u0438\u0432\u0435\u0442')
u'PRIVET'
6

что string.translate устарела. Поскольку вы удаляете знаки препинания, а не переводите символы, вы можете использовать функцию re.sub.

    >>> import re

    >>> s1="this.is a.string, with; (punctuation)."
    >>> s1
    'this.is a.string, with; (punctuation).'
    >>> re.sub("[\.\t\,\:;\(\)\.]", "", s1, 0, 0)
    'thisis astring with punctuation'
    >>>
Функция перевода прекрасно работает в Python 2.7 и вычислительно быстрее, чем REGEX. Возможно, у меня нет другого выбора. Спасибо adohertyd
Функция модуляstring.translate не рекомендуется в пользу методаstr.translate,translate метод (который использует OP) все еще можно использовать.

Похожие вопросы