Форум - Зеркало и каталог any2djvu [2]

Форум	» Назад на решение задач по физике и термеху
Регистрация \| Профиль \| Войти \| Забытый пароль \| Присутствующие \| Справка \| Поиск

» Добро пожаловать, Гость: Войти | Регистрация

	Форум Информационные технологии Зеркало и каталог any2djvu
	Отметить все сообщения как прочитанные [ Помощь ] » Добро пожаловать на форум "Информационные технологии" «

Переход к теме
<< Назад Вперед >>

Несколько страниц [ 1 2 3 4 5 6 7 ]
Модераторы: paradise, KMA

VF

Administrator
Теперь можно добавлять книги, удаленные с any2djvu напрямую в каталог. Для этого они должны находится на каком-нибудь сервере и его адрес должен быть включен в каталог допустимых адресов. Добавление происходит при запросе в этой теме или в PM. Уже добавлен сервер 0xcd.com

Скрипт называется other_servers.cgi, его текущий адрес
внешняя ссылка удалена

Всего сообщений: 3110 | Присоединился: май 2002 | Отправлено: 1 дек. 2003 16:09 | IP

gvk

Модератор
Если кто знаком с библиотечной системой на западе, тот знает что ISBN всегда должна быть (или ее кастрированный и умирающий эквивалент - УДК). Этот код (или собственный код библиотеки) часто используется для bar reader (не знаю как в России сейчас, а в US уже по крайней мере лет 10 как книги при сдаче-выдаче сканируются bar reader и на РС сразу появляется их название и т.п., до этого сканируется пластиковая катрочка читателя с его кодом, так что процесс выдачи 10-20 книг берет несколько секунд).
По уникальному ISBN на интернете
внешняя ссылка удалена
всегда можно найти нужную книгу не вводя всё остальное, что убыстряет весь процесс.
Поэтому это должно быть обязательно! Если этого нет, то надо УДК и присвоить уникальный номер(!).
Кроме того, придется как то стыковать разные каталоги и идентифицировать одну и ту же книгу.
Разные идеи этого дела не всегда надежно работают (кто-то неправильно напечатал букву и книга пропала и т.п.).
Уникальный номер книги едиственный надежный способ! Если его нет давайте его изобретем так чтобы скрипт автоматически его присваивал.
Потом он будет использоваться de facto.
О статьях спец. разговор.
И еще. Очень бы хотелось чтобы скипт выводил так-же BibTeX format. Вещь крайне полезная для нашего брата, (кстати, обычные программисты библиотек этого воспринимают). Не надо далеко ходить, по примеру
внешняя ссылка удалена
где и интерфайс весьма приятный.

Всего сообщений: 835 | Присоединился: октябрь 2003 | Отправлено: 1 дек. 2003 20:05 | IP

pkfrance

Удален
gvk
BibTeX хороший формат. Не уверен, что древний TeX-овский маркап адекватен, но сама структура вполне ничего. Можно то же самое в XML - парсить легче.

Про ISBN: не думаю, что это то, что нужно. Во первых, это совсем не УДК, у него совершенно другой принцип:
внешняя ссылка удалена
Главная задача этого кода - гарантировать уникальность, при этом задачи каталогизации совершенно не ставилось. Я вообще не знаю прямого аналога УДК в западной системе. У физиков имеется индекс PACS, у химиков - что-то свое, и т.д.

Отдельный вопрос - а нужен ли в планируемой схеме уникальный ключ? Я совсем в этом не уверен - система с распределенными ресурсами неизбежно приведет к появлению дубликатов, с ISBN или без. А если учесть, что масса изданий появилась на свет еще до всякого ISBN, то смысл уникального ключа совсем непонятен.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 1 дек. 2003 20:46 | IP

neofit

Удален
gvk спасибо за ценные линки!

ISBN конечно помог бы в поиске дубликатов, но поскольку никакой другой функции он не несет, людям будет лень его вводить. Хотя какой-то уникальный номер основанный на содержимом, а не на хеше бит или дате закачки на дежавю был бы полезен.
Библиотека конгресса использует ISBN (для уникальности) и UDC (для тематической классификации), см. любую западную книгу.

Другая альтернатива: Если бы хорошо работал robust image hashing -- это мог бы быть этот специальный хэш (см. в другой теме). Достоинство -- делается автоматически, а не руками человека.

VF как насчет закачки с домашних компьютеров?

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 2 дек. 2003 0:47 | IP

LZ

Удален
Во-первых, огромное спасибо VF, KOPCAP и всем, кто организовал и поддерживает это сверхважное и полезное дело.
Во-вторых, несколько соображений о формате представления информации о книгах.

1. Три поля для авторов; если n>3, то заполняются два первых, а в третьем отмечается et al.
2. Поле для названия книги (+ vol).
3. Редактор (опция).
4. Изд-во (опция).
5. Год издания.
6. Кол-во страниц.
7. Язык (опция).
8. Ключевые слова ( из стандартизованного списка ~100(?) английских слов с русскими эквивалентами в меню).
9. Информация об особенностях сканирования и формате.

Язык представления информации - язык оригинала. Для переводной книги в п.7 указывается ru.

Все книги сортируются по авторам и/или названиям (подряд).
Возможна и очень важна сортировка по набору ключевых слов.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 2 дек. 2003 4:08 | IP

VF

Administrator

как насчет закачки с домашних компьютеров?

На any2djvu выбираете DjVu Document (for verification or OCR), на следующей странице No OCR (или OCR если книга на английском и раньше не была распознана). Закачиваете книгу и отдаете полученную ссылку моему скрипту.

Это позволяет избежать загрузки "битых" файлов и файлов других форматов под видом djvu.

Если выбирать между УДК и ISBN, то я считаю тематическую классификацию более важной. Хотя может добавить и ISBN?..
ISBN состоит из 10 цифр, разделенных на 4 группы. Например, 5-357-12345-9. Первая группа - "групповой код", который можно понимать как код языка, страны или территории. Например, 0 - США и другие англоговорящие страны, 5 - Россия и русский язык. Вторая группа, от двух до семи цифр - код издательства. Третья - порядковый номер издания (до шести цифр). Последняя цифра - контрольная сумма.

Нужно определить, где записывать номер тома/части если книга многотомная / состоит из нескольких частей. В названии?

Ключевые слова на мой взгляд уже перебор... Указание авторов в одном поле с разделителями думаю более удобно.

Как будем ставить инициалы - до фамилии или после?

Всего сообщений: 3110 | Присоединился: май 2002 | Отправлено: 2 дек. 2003 16:03 | IP

pkfrance

Удален
VF
Извини, я в аське сегодня до вечера не буду - единственный хвост с DHCP занял компьютер GrayMan, которому я сливаю кэш, а под линухом у меня licq глючит.

Про том, наверное, в названии. Причина - иногда это назавается том, иногда - выпуск и т.д. Нумерация не всегда линейна, бывает так, что первый том есть, а остальных нет и никогда не будет. Раз формализации не поддается - значит, часть названия.

Инициалы мы до сих пор ставили так, как на обложке. Но может, стоит посмотреть стандарт какой-либо. ISBN можно добавить в качестве опционального поля - все равно мало кто будет заполнять.

Может, еще до модификации скрипта, просто статическую HTML рыбу повесить куда, чтоб народ обсудил?

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 2 дек. 2003 17:02 | IP

gvk

Модератор
Не мог бы кто-то (VF?), кто имеет общее видение того, что мы пытаемся делать, очертить весь круг задач и проблем, по-возможности, языком понятным пользователям. Тогда советы и предложения будут более точные и конкретные.
Если ставится задача: сделать электронный каталог
книг переносимых в djvu format, а потом использовать этот каталог для поиска какой-то книги другими людьми, то нужно просто посмотреть как люди ищут книги.
С моей точки зрения, здесь есть два типа поиска (условно, конечно):
1. люди знают что ищут
2. люди не знают что ищут
К первой категории относятся профессионалы (а так же некоторые любители, которым сказали что им надо). Они знают автора и название книги, может быть и не совсем точные.
Для этой категории ничего более лучшего, простого и удобного чем MRLookup на интернете я не видел.
Это сделано профессиональными математиками для профессионалов-математиков American Mathematical Society.
Если ограничится этим, что на первых порах вполне достаточно на мой взляд, то надо к этому только добавить русский язык (ну и удобства для професионалов, там LaTeX, ISBN... и пр. необходимые для написания статей и составления home Library).

Ко второй категории относятся поиски, когда люди имеют только представление о теме (тематический поиск). Здесь можно спорить до хрипоты. кто чего знает о теме и чья кодировка лучше (ключевые слова, УДК, PACs, UDC и т.п. темат. кодировки и классификации). Я предпочитаю ключевые слова, поскольку считаю, что никто на память не может помнить цифр, а если и помнит то это временное явление.
Для книг на практике я использую внешняя ссылка удалена или внешняя ссылка удалена
Это коммерческие системы и там все продуманно, чтобы люди находили книжки.

Самой лучшей такой системой на интернете является, ... конечно же google, но нам такую штуку не потянуть.

Еще раз, очертите ваши цели и задачи.

Всего сообщений: 835 | Присоединился: октябрь 2003 | Отправлено: 2 дек. 2003 19:33 | IP

VF

Administrator
Еще вопрос по полям - вводить общее число страниц в печатной книге (обычно его пишут на первых страницах) или число страниц в электронном документе? Думаю, логичней будет указывать значение для оригинала. Только если в электронной версии их меньше, остальные страницы считать отсутствующими и заносить в соответствующее поле? Иногда их не сканируют, т.к. они не содержат полезной информации.

pkfrance
Да мы в аське уже почти все обсудили

Перед реализацией в скрипте сначало напишу здесь текстовой список полей для окончательного согласования. Потом сделаю html-ку для всеобщего обозрения.

gvk
Не мог бы кто-то (VF?), кто имеет общее видение того, что мы пытаемся делать, очертить весь круг задач и проблем, по-возможности, языком понятным пользователям.

Вообще я хотел сделать архив и каталог книг any2djvu. Текущее состояние моего скрипта вполне соответствует этому плану. Но pkfrance убедил меня, что не стоит ограничиватся 3 полями и в базу нужно занести как можно больше информации. Он же сам предлагает пойти дальше и добавлять эту информацию в сам djvu файл. В результате получится распределенный каталог, который можно воссоздать из отдельных частей. Тут я вижу проблему в достоверности описаний книг из распределенного каталога - описания могут быть изменены и тогда при сборе в единое целое их придется проверять в ручную...

Но одно другому не мешает - сейчас главное создать каталог с описаниями, а добавить мета-информацию из него в книги можно в будущем.

никто на память не может помнить цифр, а если и помнит то это временное явление

Не надо все это помнить - в УДК есть однозначное соответствие между номером и разделом. Открыли список разделов УДК и посмотрели. Можно подумать, как сделать это более удобным, чтобы и открывать ничего дополнительно не нужно было.

Самой лучшей такой системой на интернете является, ... конечно же google, но нам такую штуку не потянуть.

Поиск по всему Интернету вроде никто делать не собирается... К тому же google и не специализируется на книгах.

Всего сообщений: 3110 | Присоединился: май 2002 | Отправлено: 2 дек. 2003 20:38 | IP

pkfrance

Удален
gvk
Согласен со сказанным VF. Могу только добавить - УДК нужен не для поиска, а для автоматического разбиения на разделы, при генерировании ветвящейся структуры данных из линейной. Тут есть большие проблемы, потому что УДК устарел, но лучше мы ничего пока не придумали.

VF
Число страниц в электронной книге доступно из самого djvu файла, хотя бы с помощью djvuinfo. Поэтому вводить его вручную не надо.

Всего сообщений: N/A | Присоединился: N/A | Отправлено: 2 дек. 2003 21:11 | IP

Отправка ответа:

Имя пользователя Вы зарегистрировались?
Пароль Забыли пароль?
Сообщение
Использование HTML запрещено
Использование IkonCode разрешено
Смайлики разрешены

Опции отправки
Добавить подпись?
Получать ответы по e-mail?
Разрешить смайлики в этом сообщении?
Просмотреть сообщение перед отправкой? Да Нет

Переход к теме
<< Назад Вперед >> Несколько страниц [ 1 2 3 4 5 6 7 ]