Вопрос по compression, gzip, pdf – Все ли файлы PDF сжаты?

12

Таким образом, здесь есть некоторые темы о сжатии PDF, говорящие о том, что есть некоторая, но не большая, прибыль от сжатия PDF, так как PDF уже сжаты.

Мой вопрос: верно ли это для всех PDF-файлов, включая старую версию формата?

Кроме того, я уверен, что кто-то (возможно, идиот) может поместить растровые изображения в PDF, а не в JPEG и т. Д. Наша компания имеет много PDF-файлов в своих БД (возможно, в некоторых старых форматах). Мы рассматриваем возможность использования gzip для сжатия во время передачи, но не знаем, стоит ли это хлопот

Ваш Ответ

2   ответа
2

Вместо применения сжатия gzip вы получите гораздо больший выигрыш, используя утилиты PDF для применения сжатия к содержимому в формате, а также удаления таких вещей, как ненужные встроенные шрифты. Такие утилиты могут уменьшать выборку изображений и применять правильное сжатие изображений, которое будет гораздо более эффективным, чем gzip. JBIG2 может применяться к двухуровневым изображениям и является удивительно эффективным, а JPEG может применяться к естественным изображениям с уровнем качества, выбранным в соответствии с вашими потребностями. В Acrobat Pro вы можете использовать Advanced - & gt; Оптимизатор PDF, чтобы увидеть, где используется пространство и выборочно атаковать тех потребителей. Существует также общий документ - & gt; Уменьшите размер файла, чтобы автоматически применить эти сокращения.

Update:

Ответ Ika содержит ссылку на утилиту оптимизации PDF, которую можно использовать из Java. Вы можете посмотреть на ихобразец кода Java там, Этот код перечисляет именно то, что я упоминал:

  • Remove duplicated fonts, images, ICC profiles, and any other data stream.
  • Optionally convert high-quality or print-ready PDF files to small, efficient and web-ready PDF.
  • Optionally down-sample large images to a given resolution.
  • Optionally compress or recompress PDF images using JBIG2 and JPEG2000 compression formats.
  • Compress uncompressed streams and remove unused PDF objects.
Хотел разобраться в проблемах с использованием JPEG2000 в PDF. Эта опция обычно не используется. Есть ли проблемы с рендерингом на некоторых устройствах?
PDF 1.5, который включал JPEG2000, был представлен в апреле 2003 года. Пока ваш ридер поддерживает как минимум PDF 1.5, он будет работать.
Я не знаком с утилитами PDF. Существует ли для этого JAVA API, поскольку любое используемое нами решение должно иметь API, чтобы мы могли автоматизировать процесс на наших серверах? Я знаю об Apache PDFbox, но не уверен, насколько он хорош для сжатия уже созданного PDF Rob McFeely
11

PDF-файлыin general использовать внутреннее сжатие для объектов, которые они содержат. Но это сжатие ни в коем случае не является обязательным в соответствии со спецификациями формата файла. Все (или некоторые) объекты могут выглядеть совершенно несжатыми, и они все равно будут создавать действительный PDF.

Существуют инструменты командной строки, которые способны распаковывать большинство (если не все) внутренних потоков объектов (даже самых современных версий PDF-файлов) - и новая, несжатая версия файла будет отображаться точно так же на экране или на бумаге (если напечатано).

Итак, чтобы ответить на ваш вопрос: Нет, вы не можете предполагать, что сжатие gzip добавляет только хлопот и никакой выгоды. Вы должны проверить это с типичным набором образцов ваших файлов. Просто скопируйте их и запишите время и сэкономленное место.

Это также зависит от типа программного обеспечения для создания PDF, которое использовалось ...

@Steward: Да. :-)
Спасибо Пипитас. Хороший ответ Rob McFeely
@Stewart: встроенные шрифтыusually сжимаются (поскольку сами файлы шрифтов по умолчанию также сжимаются). См. Также ответ на вопрос «Как извлечь встроенные шрифты из PDF-файла как допустимые файлы шрифтов? ] (stackoverflow.com/a/3489099/359307) & Quot ;. Текстовый контент обычно внедряется так же, как и другой контент, и может быть сжат или не сжат, как описано в ответе ...
@KurtPfeifle Вы говорите, что разделы текста в PDF - это "объекты", точно так же, как изображения и тому подобное? Это не ясно людям, не знакомым с тем, как формат работает за кулисами.
Но сжимается ли текстовое содержимое? А как насчет встроенных шрифтов?

Похожие вопросы