Обработка скана

Всем привет. Долго думал что написать в сегодняшнем посте ? Ведь предновогоднюю статистику по моему эксперименту я расскажу только 31 декабря, а до него ещё 6 дней… я так подумал и решил что пауза получиться сильная большая. Поэтому решил написать небольшой пост о том как же правильно оцифровать книгу.

Пойду я налью себе кофе, и начну писать…

Спустя 7 минут я вернулся за компьютер… точнее сейчас свое теплое, любимое рабочее место. Ну так вот теперь ближе к теме.

Сам процесс сканирования я наверное затрагивать не буду, но вот процесс распознавания текста я всё же немного зацеплю. Итак наверное каждый знает что сканированную книгу нужно распознавать только программой Adobe FineReader 9.0 (ну или 8.0 на крайний случай), потому что только эта программа имеет высокий уровень OCR. Дам вам один совет. Если вы сканируете ровную книгу то в настройках автоматически оставьте авто распознавание, а если вы сканируете какой нибудь журнал то делайте разметку вручную. Т.е. каждый блок текста сами вручную выделяйте зеленым блоком. Это продлит время распознавания. но зато качество полученного текста будет значительно выше. После разметки страниц, запустите распознавание.

Спустя несколько секунд, минут, часов, дней :) (в зависимости от объема контента и мощности компа) вы получите от сканированный текст. Вы увидите там много ошибок и ужаснетесь… но не волнуйтесь, самое страшное ещё впереди :)

Справа вы увидите значек Word. Нажмите на стрелочку рядом с ним и выберите в меню опции. В открывшимся окне, снимите все галочки с раздела “Текст”, вкладки RTF/DOC… . А в блоке “качество картинок”, установите “Без картинок”. Нажмите ок. Теперь кляпните на кнопку со значком Ворда, и сохраните все страницы в один единый DOC файл.

Следующим шагом нам нужно избавиться от этого противного символа “¬”. для начала поясню что это за символ. На самом деле этот символ обозначает клавишу “Enter”, а она делает переход на новую строку. Собственно и в журнале каждый переход на новую строку сопровождается таким символом. Вообще лубая другая программа этот символ не видит и просто напросто делает переход на следующую строку, но FineReader видит символ таким как я написал выше. Следовательно в нашем тексте этот символ не виден, но как только мы вставим этот текст в наш сателлит, то мы сразу увидем этот символ. Обычно он размещается по середине некоторых слов.

Избавиться от этого символа можно следующим образом:

  1. Скопируйте весь текст из DOC файла в Блокнот (или Блокнот ++ или прочий текстовый редактор).
  2. Нажмите сочетание клавишь ctrl+H
  3. В поле “что” вставьте символ “¬” (без кавычек)
  4. Нажмите кнопку Заменить все.

Вот и все! Проблема с этим противным символом решена. теперь копируем весь текст из блокнота и вставляем его обратно в наш DOC документ, и заменяем им старый текст. не забудьте сохранить ваш документик.

Следующей проблемой является слова типа “(рис.1)” или (изоб. 15) ну или что то в этом роде. Чаще встречается первый вариант. Так вот, зачем нам в сателлите нужны ти противные намеки на то что контент отсканированный. Предлагаю решить эту проблему одним из двух способов:

  • Изменить слово “рис.” на “см. статью”
  • Полностью убрать слово “рис. 1″

Описание первого способа:

Спомощью автозамены замените слово “рис.” на “см. статью”. В итоге по всему тексту у вас получиться что то типа этого “см. статью 7″, или “см. статью 3″. Это делает наш контент более похоим на реальный рерайт или копирайт.

Описание второго способа:

С помощью автозамены замените слово (рис. на пустое место. И замените каждую цифру с закрывающей скобкой так же на пустое место. пример: 1) или 4) . Т.е. нужно заменить каждую цифру со скобкой от 0 до 9. это позволит нам полностью искоренить слова (рис.1) из всего текста.

Такс, от противных слов мы избавились, теперь нам надо исправить всякие недочеты во всем тексте. Прелестнице прокрутку на начало документа и начните просматривать текст с самого начала. Убирайте все лишнее что вам может показаться. например лишние пробелы, лишние символы, плохо распознанные символы и т.д. В общем все что вам кажется подозрительный – убирайте.

После этого наш текст уже стал более похож на качественный, но у нас осталось море ошибок. для этого нажмите F7 и решайте проблемы с ошибками.

Как только все ошибки будут исправлены, все абзацы будут отмечены, все лишние символы будут убраны, все недочеты будут закрыты – надо заняться разделением контента.Для этого сначала прикиньте сколько всего символов текста без пробелов вы имеете. Для этого щелкните в ворде в нижнем левом углу по фразе “Число слов”, и дальше вы все увидите.

Расчет текста такой: 1000 символов без пробелов = 1 статья. т.е. если документ состоит из 189 000 символов без пробелов, у вас должно получиться 189 статей, но не меньше. Это не значит что в каждой статье должно быть ровно 1000 символов. постарайтесь разделить контент так чтобы мысль каждой статьи была максимально понятной и законченной. не обрывайте статью на пол предложения. У вас может быть одна статья 1400 символов, а другая 600 символов, но главное не вылазите за эти пределы: мин – 500 символов, макс – 3000 символов (ведь Яша не любит сильно маленькие и сильно большие статьи).

Разделять статьи я вам советую прямо в документе. перед началом новой статьи напишите “Статья n”, где n – номер статьи. Обязательно выделите эту фразу жирным шрифтом, чтобы вы видели разделение статей.

Фух… на часах уже 0:17… увлекся я написанием этой месагги, но ничего, главное чтобы вам было полезно. Впринципе в этой статье ничего нового не раскрыл но все же два часа я убил :)

Всем спасибо за внимание! Жду ваших комментариев.

Комментарии

  1. Во-первых, знак переноса можно вообще не переносить в Word – см. настройки в FineReader.
    Во-вторых, в самом ворде есть функция замены – Правка|Заменить, кнопка Дополнительно, в этом меню выбрать Мягкий перенос.

    > перед началом новой статьи напишите “Статья n”

    Лучше потрудиться, потратить немного больше времени, но придумать для статьи вменяемый заголовок.

  2. делаю так. текст после скана в ворд, потом виндоус лайв райтер -дабы очистить от мусора потом снова в ворд, а дальше можно парсить.

Оставить комментарий