Решение некоторых проблем, возникающих при сканировании
Как сканировать книгу
Есть два основных способа:
1) Сканировать в Файнридер через его же интерфейс. Плюсы – хорошая скорость работы, не требуется кликать для следующего скана. Минусы –двухцветное изображение, не всегда получается место сгиба, лезет мусор на пустых участках, на некоторых типах бумаги (серой) сканить практически нельзя. Скорость для ЛТП сканера на компьютерах с частотой 400 и 1400 Мгц примерно 200 страниц в час. Задаются опции: альбомная ориентация страницы, размер для обычного формата – отступы по 5 мм, высота 185, ширина 245, не делить разворот книги (это чтоб можно было при сканировании следить за качеством обеих станиц с разворота). Для разделения разворота на страницы делаем новый пакет, включаем там деление разворота и открываем из него то, что насканировано.
2) Сканировать через программу типа ACDSee и интерфейс сканера в ч/б ТИФФ, а потом открыть сканы Файнридером. Плюсы – ч/б или цветное изображение (не надо дополнительно сканить рисунки), скорость на быстрых компьютерах больше (на 1,4 Ггц – 220 стр./ч), нетребовательность к качеству бумаги, для улучшения качества можно все сканы подправить через Фотошоп, пауза позволяет всяко крутить книжку при перевороте страницы. Минусы – на медленных компьютерах скорость значительно меньше, требуется постоянно кликать мышкой. Требуется места на диске из расчета 6-7 мб на разворот. Отдельно про ACDSee – она при сканировании может автоматом нумеровать сканы и сохранять их в выбранную папку.
В Файнридере
Для начала в пакете нумерация страниц приводятся в соответствие бумажной книжке. Если какая-то страница не захотела делиться – делается дубль и лишнее удаляется ластиком. Делается проверка через 10-20 страниц на совпадение нумерации. Для начинающих и/или чужих книжек лучше через 10 стр. Вкладки с фото перенумеруются куда-нибудь на 800-е номера или дальше.
Потом делается разбивка блоков и проверка их.
Для распознавания советую установить мой словарь – он обучен всяким авиа и военным словам, названиям и фамилиям. Так что в тексте не будет горящих юнкеров. Небольшой хинт – если есть фотовкладка, то ее распознать в первую очередь и незнакомые фамилии добавить в словарь.
После распознавания всего текста в Фанридере следует проверить следующие сочетания символов (в скобках): (-^l) – перенос+разрыв строки; (•) – жирная точка; (') – апостроф, если книжка иностранная и много имен с апострофами, то проверить сочетания пробел+апостроф и апостроф+пробел; ( .) – пробел+точка, ( ,) – пробел+запятая. После проверки вы разберетесь, почему это надо проверять и почему именно в Файнридере.
Сохранение нумерации страниц
Если есть желание оставить в тексте номера страниц, то для этого есть несколько способов.
1) Поправить их вручную. Работает, если в книге 16 страниц или около того.
2) Оставить номера при распознавании, а потом специальным макросом "AM_plus_one_for_Hoaxer" увеличить на единицу. Как понимаете, придется следить за правильностью распознавания страниц и ни с чем их не путать, да еще и не работает, если кое-где номеров нет, или они чем-нибудь изукрашены.
3) Оставить в тексте разрывы страниц, а потом при помощи макроса "AM_numer_ssylok" перевести их в номера. Должно сработать – но макрос мне сейчас переписывать лень к тому же нельзя делать пропуски страниц, а в начало надо их добавлять.
4) Мой любимый способ: текст сохранятся в режиме одна страница – один файл, а потом собирается макросом "Файлообьединялка". На выходе имеем текст с четко различимыми номерами физических страниц. Можно работать с разрозненными страницами, легко автоматизируется дальнейшая обработка. Минусы – сборка довольно медленно идет.
Работа в Ворде
1. Первым делом запускается макрос "AM_Spaces_to_Tab". Он нужен для текстов из шестого Файнридера – там временами делается табуляция большим количеством пробелов. Макрос их отлавливает и меняет на знак табуляции. Это надо отловить по всему тексту.
2. Делается поиск комбинации запятая+знак абзаца. Это отлавливаются строки, в которых неверно были распознаны точки в конце строки.
3. Макрос "AM_enter_small" – отлавливает строки, начинающиеся с маленькой буквы. Запускать до полного отлова всех ошибок. Если же строка должна начинаться со строчной буквы, то можно в начало подставить пробел, а потом убрать заменой.
4. Макрос "Bad_words" – отлавливает частые ошибки Файнридера. Конечно, в тексте вполне могут быть нарты и тапки – но обычно это ошибки. Этот и следующий макрос красят текст в розовый цвет, по которому и идет поиск. После отработки макроса надо все закрасить обратно в черный.
5. Макрос "AM_bad_enter" – ловит неправильные концы строк. Если идет переизбыток кавычек в конце – их можно перекрасить черным. В качестве бонуса макрос отлавливает большинство заголовков.
Приложения
1. AM_FRdic.pmd - Словарь к Файнридеру
2. Макрос «AM_plus_one_for_Hoaxer». Увеличивает на единицу число вида [123], т.е. все заключенное в квадратные скобки. При работе перекрашивается текст. Обрабатываются максимум трехзначные числа.
3. Макрос «AM_numer_ssylok». Вообще-то он предназначен для перенумерации ссылок. Все числа, заключенные в фигурные скобки вида {123}, нумеруются последовательно. Обрабатываются от пустых скобок до пятизначных чисел. Может и что еще перенумеровать. Например, разрывы страниц переделать в {}, добавить недостающие – если с первой страницы сохраняли, то одну пару скобок, запустить макрос и получить нумерацию страниц.
4. Макрос «Файлообъединялка». Написан не мной. Указывается каталог и нужное расширение файлов, а макрос собирает их в один. Вставляет название файла, поэтому удобен для написания нумерации страниц. Или, к примеру, книжки, скачанные с Милитеры, можно собирать в один файл.
5. Макрос «AM_Spaces_to_Tab». Табуляцию пробелами меняет на знак табуляции. Для Файнридера 6 и выше.
6. Макрос «AM_enter_small». Ловит строки, начинающиеся со строчных русских букв. Запускать надо много раз, поэтому его надо вешать на кнопку.
7. Макрос «Bad_words». Сомнительные слова, в которых Файнридер часто ошибается, красит в розовый цвет. Ищет по розовому цвету.
8. Макрос «AM_bad_enter». Ловит сомнительные окончания строк. Красит их в розовый цвет и по нему ищет. Позволяет найти большинство заголовков.
Запуск и работа макросов не гарантируется.
Кроме того, у меня имеется комбинация макросов, позволяющих в более-менее автоматическом режиме собрать книгу с учетом номеров страниц и т.п. Но это все регулярно глючит даже у меня, так что для общего пользования не предлагаю.