Целью тестирования является сравнение бесплатных djvu-кодеров:
В тестировании использовались только черно-белые документы. Это позволило объективно сравнивать все программы, т.к. кодеры, входящие в состав DjVuLibre могут обрабатывать только монохромные или только цветные изображения. Автоматически разбивать изображения на участки, сжимаемые по разным алгоритмам, они пока не умеют. Если бы документы, содержащие цветные фрагменты обрабатывались кодером из состава DjVuLibre, созданном исключительно для цветных изображений, то он бы оказался в невыгодных условиях. При сохранении в виде черно-белого документа фору уже получил бы кодер DjVuLibre, т.к. информация о цвете была бы отброшена.
Большинство книг содержит только черно-белый текст и иллюстрации, поэтому такое ограничение вполне оправдано.
Если PDF документ не мог быть корректно преобразован в DjVu хотя бы одним из используемых кодеров, то он не учавствовал в тестировании. Подробнее об этом в следующем пункте.
В тестировании участвовали два типа документов: отсканированные и "чистые", сделанные непосредственно из текстового оригинала. Последние также могут содержать изображения, но в большинстве случаев они изначально созданы компьютерными методами, а не были получены в результате сканирования.
Для всех программ использовалось разрешение 300 dpi.
В пакете DjVuLibre за сжатие черно-белых изображений отвечает программа cjb2. При запуске без ключей осуществляется сжатие без потерь. Ключ -clean служит для очистки изображения от шумов и мелких дефектов, -loose позволяет одинакого кодировать символы, отличающиеся менее, чем на 6%. Результат работы сравнивался при различных параметрах запуска. Для автоматизации преобразования был написан скрипт pdf2djvu.pl.
Сервер Any2DjVu использует аналогичные способ работы, только входных форматов там больше, скрипты сложнее, а главное - используется коммерческая программа сжатия. Для преобразования PDF в графический формат также применяется Ghostscript, поэтому и проблемы возникали при обработке в основном тех же файлов. Незначительные отличия являются следствием использования различных версий Ghostscript. Я пробывал версии 6.52, 7.07 и 8.11. Остановился на использовании версии 7.07, т.к. 8.11 значительно чаще выдавала ошибки Segmentation fault.
DjVu Solo работал в паре с Adobe Acrobat 5.0. Полученные в Acrobat изображения открывались в Solo и сохранялись в режиме Bitonal.
|
|
*Книги с диска РХД содержат изображения, полученные из текстовых оригиналов, поэтому их объем близок к отсканированным книгам. |
Для отсканированых книг компрессор cjb2 из состава DjVuLibre уменьшает объем PDF приблизительно в 2 раза без потерь качества. Опции сохранения с потерями существенного увеличения в степени сжатия не дают. В целом cjb2 уступает в два раза DjVu Solo и Any2DjVu. Что интересно, этот разрыв сохраняется и на "чистых" изображениях, на которых сжатия с потерями, реализованное в DjVu Solo и Any2DjVu, не должно было бы принести значительное преимущество. Использование cjb2 может быть оправдано в случае, если требуется пакетная обработка множества документов, содержащих "чистое" изображение без текстового оригинала.
Коэффициент сжатия для всех отсканированных книг: Any2DjVu 109340 / 26751 = 4,09; DjVu Solo 109340 / 22480 = 4,86. Степень сжатия DjVu Solo больше, но нужно учитывать, что это сжатие с потерями и полученные документы не идентичны. Хотя оба выглядят весьма качественно. На мой субъективный взгляд на Any2DjVu изображения получаются более четкими.
Для "чистых" изображений, полученных непосредственно из текста коэффициент сжатия значительно меньше и перевод их в DjVu вряд ли имеет смысл. При таком переводе текст будет преобразован к изображению, хотя и возможно добавление отдельного текстового слоя. Совершенно другие результаты будут в случае, если у вас нет оригинального текста, а есть только его изображение. В этом случает достигается коэффициент сжатия 31735 / 1595 = 19,9. При сохранении в DjVu Solo "чистых" черно-белых изображений опции Bitonal и Clean дают одинаковые результаты.
Обcудить эту статью и программы для создания DjVu-файлов можно на форуме в теме "Преобразование PDF в DjVu".