Форум
» Назад на решение задач по физике и термеху
Регистрация | Профиль | Войти | Забытый пароль | Присутствующие | Справка | Поиск

» Добро пожаловать, Гость: Войти | Регистрация
    Форум
    Информационные технологии
        Зеркало и каталог any2djvu
Отметить все сообщения как прочитанные   [ Помощь ]
» Добро пожаловать на форум "Информационные технологии" «

Переход к теме
<< Назад Вперед >>
Несколько страниц [ 1 2 3 4 5 6 7 ]
Модераторы: paradise, KMA
  

castleofmusic


Удален

внесу свою лепту в обсуждение.

у меня в коллекции количество страниц в дежавю, пдф, ps.gz файлах определяется скриптом и затем умножается на 2, если имя файла содержит подстроку "(L)" (landscape). Это число реальных страниц в скане. Номинальное количество страниц в книге (по выходным данным) может отличаться от этого, но оно реально не нужно для идентификации книги, если уже есть год издания и точное заглавие книги. Для файлов дежавю я написал ещё один скрипт, который определяет, помечать ли файл "(L)". В некоторых исключительных случаях приходится делать это вручную.
Номер ISBN предлагается извлекать автоматически из распознанного текста книги. Однако не все сканы содержат форзац с этим номером. Да и далеко не все книги, кажется, его имеют.

Пока что я не занимался более подробным рубрикатором, бибтехизацией и прочими делами. Меня вполне устраивает сквозной поиск по book_index.html.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 1:31 | IP
pkfrance


Удален

Стал разбираться с засовыванием каталога в базу данных, и обнаружилась проблема кодировок. Поскольку она же всплывет неминуемо и со скриптом, имеет смысл ее сразу и поставить.

Коротко - если не пользоваться Unicode, то мы не сможем корректно отображать однвременно французские и русские названия (а французских книг по математике в кэше полно). Unicode боятся не надо, у него в Перле вроде вполне приличная поддержка. VF, если хочешь - я перекодирую твой скрипт, чтобы генерировал страницу в UTF-16 (китайщину не берем), и файлы сохранял бы в той же кодировке.

С базой данных хуже, UTF-16 в MySQL не поддерживается, есть только UCS-2 и UTF-8, и то только в версии 4.1.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 2:22 | IP
Guest



Новичок


Цитата: pkfrance написал 7 дек. 2003 2:22
Стал разбираться с засовыванием каталога в базу данных, и обнаружилась проблема кодировок. Поскольку она же всплывет неминуемо и со скриптом, имеет смысл ее сразу и поставить.

...
С базой данных хуже, UTF-16 в MySQL не поддерживается, есть только UCS-2 и UTF-8, и то только в версии 4.1.


А как насчёт XML?

Всего сообщений: Нет | Присоединился: Never | Отправлено: 7 дек. 2003 3:37 | IP
pkfrance


Удален

Guest

XML хорош, но не очень приспособлен к дописыванию (у нас тут с дописыванием и так не все в порядке, скрипт не thread-safe - станут два человека одновременно грузить с дежавюки файл, беда будет). Так что по хорошему - база данных, а пока - линейный файл с разделителями.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 3:59 | IP
Guest



Новичок

Позволь не согласиться -- XML как раз позволяет, насколько знаю, динаисчески расширять структуру, всё это закладывалось. То есть, DTD-файл переделывается, а можно сразу там азложить все необходимые поля, не все которые заполнять обязательно.

Всего сообщений: Нет | Присоединился: Never | Отправлено: 7 дек. 2003 4:04 | IP
Guest



Новичок

Поправляюсь. Виноват, не совсем правильно отвечал.

Так XML можно ведь преобразовывать в БД? Да и не думаю, что так уж трудно всё это дело развести!

Всего сообщений: Нет | Присоединился: Never | Отправлено: 7 дек. 2003 4:16 | IP
tot ra


Удален

Guest
да, xml можно внести в БД,  а нынешние линейные и в xml и в БД.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 16:14 | IP
VF



Administrator

neofit

Дефекты --  пометить из списка, плюс свободное поле?

Нет, только поле, т.к. вариантов может быть очень много (Вы сами привели пример).

gvk

Автор или редактор должны быть обязательны (помечены звездочкой). Существуют много кних с одинаковым названием. Но проверку этих полей не надо делать (если нет ни автора, ни редактора - for company's documentation).

А звездочку тогда зачем ставить? Она стоит в полях, без которых скрипт будет отказываться добавлять книгу.

И бывают книги, в которых не понятно (или не отсканировано ) кто автор/редактор.


Я бы также рекомендовал дать примеры заполнения и  несколько links на поисковые web sites для того чтобы делать просто copy-paste и избежать ошибок в заполнении.

Спасибо, учту.

pkfrance

VF, если хочешь - я перекодирую твой скрипт, чтобы генерировал страницу в UTF-16 (китайщину не берем), и файлы сохранял бы в той же кодировке.

Раньше я unicode не использовал, но сейчас посмотрел информацию и возникли некоторые вопросы и противоречия...

1. Почему не использовать UTF-8 ? Для поддержки вроде достаточно перекодировать текст в скриптах и добавить use utf8. См. http://www.perldoc.com/perl5.6.1/lib/utf8.html

2. В каком смысле "китайщину не берем"? Согласен, вряд ли кто-нибуть из посетителей будет читать иероглифы, но ведь все виды unicode поддерживают китайский http://www.unicode.org/faq/han_cjk.html

PS: неплохое описание unicode на русском: http://wdh.suncloud.ru/unicode.htm

Всего сообщений: 3109 | Присоединился: май 2002 | Отправлено: 7 дек. 2003 17:58 | IP
neofit


Удален

VF Если в примерах будут перечислены разные типы дефектов, то можно обойтись.  Мне кажется такие дефекты как например отсутствие номеров страниц не всем бросаются в глаза, зато когда начинаешь пользоватся книгой -- это становится очевидным.

Если автор и заглавие неизвестны -- можно писать 'unknown', но я  соглашусь с gvk, поле автора стоит сделать обязательным.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 18:24 | IP
pkfrance


Удален

VF
Да, utf-8 годится, в перле-5.8 поддержка к него нормальная. Только нужно не use utf-8 писать, а открывать файл с соответствующим атрибутом (способ с use считается устаревшим).

Про китайщину вопрос снимается, мне почему-то сначала показалось, что придется ucs-2 использовать.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 18:36 | IP

Эта тема закрыта, новые ответы не принимаются

Переход к теме
<< Назад Вперед >>
Несколько страниц [ 1 2 3 4 5 6 7 ]

Форум работает на скрипте © Ikonboard.com