Форум
» Назад на решение задач по физике и термеху
Регистрация | Профиль | Войти | Забытый пароль | Присутствующие | Справка | Поиск

» Добро пожаловать, Гость: Войти | Регистрация
    Форум
    Информационные технологии
        Распознование книг. DjVu OCR
Отметить все сообщения как прочитанные   [ Помощь ]
» Добро пожаловать на форум "Информационные технологии" «

Переход к теме
<< Назад Вперед >>
Одна страница
Модераторы: paradise, KMA
  

BakanovSE


Удален

Здравствуйте,
     Поражен, качеством книг на зеркале "Колхоз". Молодцы!
   Вопросы:
1. Есть ли шанс, что книга помещеная в DJVU в скором времени будет переведена в PDF и сколько времени это занимает
   И самое главное (можно ссылку на tutorial)
КАК И КАКИМ инструментом грамотно (какие шрифты использовать, как форматировать, насколько быть близко к оригиналу) распозновать и как грамотно (формат и настройки) сохранять. У меня почему-то все 300 dpi всегда идут шрифтами 5-10 pt и поэтому страницы Word какие-то маленькие получаются.
Как и в чем идет набор формул и графических рисунков (приведите по возможности наиболее профессиональные и реальные варианты)

Сам по себе программер - в железе и мягком разбираюсь - учить не надо.

Еще раз - потрясен - МОЛОДЦЫ!!!                              

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 31 авг. 2005 3:15 | IP
VF



Administrator


1. Есть ли шанс, что книга помещеная в DJVU в скором времени будет переведена в PDF и сколько времени это занимает

Если имеется в виду PDF в виде изображений страниц, то в этом нет смысла - DjVu обеспечивает бОльшую степень сжатия. Можно сконвертировать самостоятельно, предварительно экспортировав страницы книги из DjVu в какой-нибудь графический формат. Или использовать pdfFactory как написано здесь.

Текстовые PDF создавать слишком трудоемко, да и ошибок будет много. Поэтому имеет смысл самостоятельно переводить в текст только нужные фрагменты.

Вопрос по настройкам распозновальщика и созданию графики остается открытым

Всего сообщений: 3110 | Присоединился: май 2002 | Отправлено: 31 авг. 2005 14:53 | IP
BakanovSE


Удален

Нет, интересует именно PDF как полноценная -распознанная книга.
Вопрос, к примеру, в России ли переводились книги, к примеру, издательства Wiley и в чем,  набирались формулы?
Должен ли OCR'щик (для полноты проделанной работы) заново рисовать иллюстрации и в чем он это делает?
Как правильно придерживаться стиля и определять название и размер оригинального шрифта?
Очень все это интересует, для того, что-бы я, в роде бы не совсем с кривыми руками, мог соответствовать высоким стандартам OCR'щикам книг помещенных в "Колхоз"

Заранее спасибо за обсуждение, Баканов С.Е.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 2 сен. 2005 20:59 | IP
VF



Administrator

Формулы вероятно набирались в TeX. Переводчики/верстальщики получают электронные версии, а не тексты не на бумаге.

Всего сообщений: 3110 | Присоединился: май 2002 | Отправлено: 2 сен. 2005 21:54 | IP
Maximvpf


Удален

Чтобы сделать с ПДФ полноценно распознанную книгу, нужно сделать следующее:
1. Сканируем.
2. Распознаем.
3. По диагонали пробегаем по тексту, исправляем явные ляпы, правильно разделяем абзацы (ФР очень любит бить абзацы где ни попадя).
4. Формулы: я набираю формулы в MathType. Медленно, но уверенно. Сохраняю в графический формат (кажется, гиф. Давно делал, не помню). В принципе, может сохранять в EPS, но у меня не получалось открыть его, чтобы шрифты нормально отображались и чтобы их можно было перевести в кривые.
5. Иллюстрации. Растровые иллюстрации лучше сканировать и доводить в Фотошопе. Или искать оригинального художника Что-то похожее на чертежи не очень сложные можно и перерисовать, например, в Adobe Illustrator, сохраняем в EPS.
6. Ну, теперь, кажется, все готово. Текст есть, картинки есть, формулы есть. Определение гарнитуры шрифта. Очень просто. На глаз. На самом деле, используется не так уж и много гарнитур, каждая имеет свои особенности и подобрать похожий шрифт не составит труда. Вот только следует задаться вопросом: а нужно ли ПОЛНОСТЬЮ сохранять исходное форматирование? Я так не считаю. Мы же не факсимильное переиздание делаем
7. Теперь начинаем собирать все материалы воедино. Я сборку делаю в программе QuarkXPress. Можно еще делать в Adobe PageMaker, Adobe InDesign, Corel Ventura. Начинается этот процесс версткой. Перед этой процедурой читаем умные книжки по правилам русской верстки. Классика жанра - Гиленсон Справочник художественного и технического редактора, мне еще понравилась книжка Малышкина и др. Настольная книга издателя. Если нужно точное 8. ПЕЧАТАЕМ! Пункт обязательный!
9. Отдаем читать знакомому корректору. Если такого не наблюдается, найти. Обычный смертный вычитать качественно не в состоянии ввиду психологических особенностей - мы читаем текст слогами, словами. Корректоры - буквами. И делают это довольно быстро.
10. После получения корректуры долго смеемся над количеством ошибок. Вносим исправления.
11. Ну, кажется, все. Последний этап - вывод в ПДФ делается путем печати на принтер Acrobat Distiller. Очень желательно встроить используемые шрифты, сжатие графика настроить по собственному усмотрению.

Ну, и самое интересное: как это все выглядит, можно посмотреть здесь:
внешняя ссылка удалена
внешняя ссылка удалена
Книжки будут лежать до конца сентября, потом удалю, ибо оно когда-то было ДСП.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 16 сен. 2005 21:45 | IP

Отправка ответа:
Имя пользователя   Вы зарегистрировались?
Пароль   Забыли пароль?
Сообщение

Использование HTML запрещено

Использование IkonCode разрешено

Смайлики разрешены

Опции отправки

Добавить подпись?
Получать ответы по e-mail?
Разрешить смайлики в этом сообщении?
Просмотреть сообщение перед отправкой? Да   Нет
 

Переход к теме
<< Назад Вперед >>
Одна страница

Форум работает на скрипте © Ikonboard.com