Вопрос по fread, data.table, r – data.table :: fread and Unbalanced "

4

Когда я попытался прочитать CSV-файл с помощьюdata.table:fread(fn, sep='\t', header=T), он выдает «несбалансированную» наблюдаемую в этой строке ошибку «. Данные имеют 3 целочисленные переменные и 1 строковую переменную. Строки в файле csv не заключены в"и да, есть несколько строк, которые содержат" в строковой переменной и" символы не в парах.

Мне интересно, можно лиfread просто игнорировать непарный" в переменной и продолжить чтение данных? Благодарю.

Вот пример данных (только одна запись)

N_ID    VISIT_DATE  REQ_URL REQType
175931  2013-3-8 23:40:30   http://aaa.com/rest/api2.do?api=getSetMobileSession&data={"imei":"60893ZTE-CN13cd","appkey":"android_client","content":"Z0JiRA0qPFtWM3BYVltmcx5MWF9ZS0YLdW1ydXoqPycuJS8idXdlY3R0TGBtU   1
Можете ли вы добавить первые строки вашего файла к вопросу? Обратите внимание, что fread все еще находится в стадии разработки, и у встроенных кавычек ("\" "и" "" ") есть проблемы ... agstudy
без воспроизведения вашей ошибки мы мало что сможем помочь (если только не столкнулись с конкретной проблемой, с которой вы столкнулись). Arun
Я добавил образец записи. Пожалуйста, подтвердите. Спасибо baidao

Ваш Ответ

1   ответ
6

ОБНОВЛЕНИЕ: теперь реализовано в v1.8.11

Из новостей:

fread теперь принимает кавычки (и ', и ") в середине полей, независимо от того, начинается поле с" или нет, а не ошибка "несбалансированные кавычки", # 2694. Спасибо baidao за сообщение. Это было известно и задокументировано в верхней части? Fread (текст теперь удален). Если поле начинается с «оно должно заканчиваться» (необходимо, если сам разделитель полей находится в содержимом поля). Встроенные кавычки тоже могут быть в названиях столбцов. Символы новой строки (\ n) по-прежнему не могут быть в полях в кавычках или в именах столбцов в кавычках.

Да, как сказал @agstudy, встроенные кавычки - известная документированная проблема, еще не реализованнаяfread новый. Строго говоря, я предполагаю, что они не встроены, потому что строка в вашем примере не начинается с кавычки.

Во всяком случае, я подал это как отчет об ошибке, чтобы не забыть. Будет сделано в следующем выпуске. Спасибо за выделение.

# 2694: Строки, содержащие кавычки, но не начинающиеся с кавычек в fread

спасибо, Мэтью. Я буду следить за baidao
@ZacharyST Вы искали README и тестировали? Если проблема не устранена, найдите и +1 (или поднимите новую) проблему с GitHub. Matt Dowle
Это было исправлено? У меня похожая проблема при обработке твитов, я считаю, что в полях tweet_text есть символы \ n, которые следует игнорировать. ZacharyST

Похожие вопросы