castleofmusic
Удален
|
внесу свою лепту в обсуждение. у меня в коллекции количество страниц в дежавю, пдф, ps.gz файлах определяется скриптом и затем умножается на 2, если имя файла содержит подстроку "(L)" (landscape). Это число реальных страниц в скане. Номинальное количество страниц в книге (по выходным данным) может отличаться от этого, но оно реально не нужно для идентификации книги, если уже есть год издания и точное заглавие книги. Для файлов дежавю я написал ещё один скрипт, который определяет, помечать ли файл "(L)". В некоторых исключительных случаях приходится делать это вручную. Номер ISBN предлагается извлекать автоматически из распознанного текста книги. Однако не все сканы содержат форзац с этим номером. Да и далеко не все книги, кажется, его имеют. Пока что я не занимался более подробным рубрикатором, бибтехизацией и прочими делами. Меня вполне устраивает сквозной поиск по book_index.html.
|
Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 1:31 | IP
|
|
pkfrance
Удален
|
Стал разбираться с засовыванием каталога в базу данных, и обнаружилась проблема кодировок. Поскольку она же всплывет неминуемо и со скриптом, имеет смысл ее сразу и поставить. Коротко - если не пользоваться Unicode, то мы не сможем корректно отображать однвременно французские и русские названия (а французских книг по математике в кэше полно). Unicode боятся не надо, у него в Перле вроде вполне приличная поддержка. VF, если хочешь - я перекодирую твой скрипт, чтобы генерировал страницу в UTF-16 (китайщину не берем), и файлы сохранял бы в той же кодировке. С базой данных хуже, UTF-16 в MySQL не поддерживается, есть только UCS-2 и UTF-8, и то только в версии 4.1.
|
Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 2:22 | IP
|
|
Guest
Новичок
|
Цитата: pkfrance написал 7 дек. 2003 2:22 Стал разбираться с засовыванием каталога в базу данных, и обнаружилась проблема кодировок. Поскольку она же всплывет неминуемо и со скриптом, имеет смысл ее сразу и поставить. ... С базой данных хуже, UTF-16 в MySQL не поддерживается, есть только UCS-2 и UTF-8, и то только в версии 4.1.
А как насчёт XML?
|
Всего сообщений: Нет | Присоединился: Never | Отправлено: 7 дек. 2003 3:37 | IP
|
|
pkfrance
Удален
|
Guest XML хорош, но не очень приспособлен к дописыванию (у нас тут с дописыванием и так не все в порядке, скрипт не thread-safe - станут два человека одновременно грузить с дежавюки файл, беда будет). Так что по хорошему - база данных, а пока - линейный файл с разделителями.
|
Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 3:59 | IP
|
|
Guest
Новичок
|
Позволь не согласиться -- XML как раз позволяет, насколько знаю, динаисчески расширять структуру, всё это закладывалось. То есть, DTD-файл переделывается, а можно сразу там азложить все необходимые поля, не все которые заполнять обязательно.
|
Всего сообщений: Нет | Присоединился: Never | Отправлено: 7 дек. 2003 4:04 | IP
|
|
Guest
Новичок
|
Поправляюсь. Виноват, не совсем правильно отвечал. Так XML можно ведь преобразовывать в БД? Да и не думаю, что так уж трудно всё это дело развести!
|
Всего сообщений: Нет | Присоединился: Never | Отправлено: 7 дек. 2003 4:16 | IP
|
|
tot ra
Удален
|
Guest да, xml можно внести в БД, а нынешние линейные и в xml и в БД.
|
Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 16:14 | IP
|
|
VF
Administrator
|
neofit
Дефекты -- пометить из списка, плюс свободное поле?
Нет, только поле, т.к. вариантов может быть очень много (Вы сами привели пример). gvk
Автор или редактор должны быть обязательны (помечены звездочкой). Существуют много кних с одинаковым названием. Но проверку этих полей не надо делать (если нет ни автора, ни редактора - for company's documentation).
А звездочку тогда зачем ставить? Она стоит в полях, без которых скрипт будет отказываться добавлять книгу. И бывают книги, в которых не понятно (или не отсканировано ) кто автор/редактор.
Я бы также рекомендовал дать примеры заполнения и несколько links на поисковые web sites для того чтобы делать просто copy-paste и избежать ошибок в заполнении.
Спасибо, учту. pkfrance
VF, если хочешь - я перекодирую твой скрипт, чтобы генерировал страницу в UTF-16 (китайщину не берем), и файлы сохранял бы в той же кодировке.
Раньше я unicode не использовал, но сейчас посмотрел информацию и возникли некоторые вопросы и противоречия... 1. Почему не использовать UTF-8 ? Для поддержки вроде достаточно перекодировать текст в скриптах и добавить use utf8. См. внешняя ссылка удалена 2. В каком смысле "китайщину не берем"? Согласен, вряд ли кто-нибуть из посетителей будет читать иероглифы, но ведь все виды unicode поддерживают китайский внешняя ссылка удалена PS: неплохое описание unicode на русском: внешняя ссылка удалена
|
Всего сообщений: 3110 | Присоединился: май 2002 | Отправлено: 7 дек. 2003 17:58 | IP
|
|
neofit
Удален
|
VF Если в примерах будут перечислены разные типы дефектов, то можно обойтись. Мне кажется такие дефекты как например отсутствие номеров страниц не всем бросаются в глаза, зато когда начинаешь пользоватся книгой -- это становится очевидным. Если автор и заглавие неизвестны -- можно писать 'unknown', но я соглашусь с gvk, поле автора стоит сделать обязательным.
|
Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 18:24 | IP
|
|
pkfrance
Удален
|
VF Да, utf-8 годится, в перле-5.8 поддержка к него нормальная. Только нужно не use utf-8 писать, а открывать файл с соответствующим атрибутом (способ с use считается устаревшим). Про китайщину вопрос снимается, мне почему-то сначала показалось, что придется ucs-2 использовать.
|
Всего сообщений: N/A | Присоединился: N/A | Отправлено: 7 дек. 2003 18:36 | IP
|
|
|