Автор | Сообщение |
Strike
Фанат форума
Сообщения: 3812
|
Здравствуйте.
Возник вопрос.
Существуют-ли программы оцифровки изображений в документы PDF с возможностью распознавания-поиска текста , подобно "Fine Rider"-у.
Есть некоторые PDF схемы сохраненные в формате "картинки" или JPEG-JPG.
Интересует способ их оцифровки.
Например этот:
Пример.zip 224.79 КБ Скачано: 416 раз(а)
|
|
m.ix
Master Mixa
Сообщения: 1972+
|
думаю что такого ПО не придамали
картинка будет картинкой а текст текстом
представим лишь строку
текст - часть картинки - текст 12pin I IRQ
часть картинки будет распознана как некий знак в данном случае как буква И
Или с картинки весь текст будет как собранная в строку мешура. |
|
Sergej
Передовик
Сообщения: 2674
|
Strike, очень не уверен, что такое есть. Сам для подобных вырезок использую PDF Creator, легкий и неплохой вирт. принтер.
И то не уверен, что он сохраняет с возможностью поиска. |
|
m.ix
Master Mixa
Сообщения: 1972+
|
картинка-это картинка
после распознования - это набор абракадабры
текст в таблице на картинке - распознаётся как экселевская нормальная таблица
а поиск слов на картинке в PDF - занятие явно не для ПО а на сообразительность пользователя.
Да к стати
Встречаются довольно таки странные PDF
Вроде нормально родной док
Даже выделить можно
И поиск работает
Но в доке есть места где оно вроде и выделяется но не ищется и при этом не картинка. |
|
Mikkey
Старший модератор
Сообщения: 3655
|
Так файнридером распозновай, а потом делай pdf, хоть тем же виртуальным принтером. |
|
Strike
Фанат форума
Сообщения: 3812
|
Sergej, Mikkey, Попробую, спасибо. |
|
Strike
Фанат форума
Сообщения: 3812
|
Файнридер действительно может сканировать различные документы и рисунки, распознавать и снова преобразовывать в различные форматы и PDF в.т.ч.
Однако качество оставляет желать лучшего..
В рисунках как в "Примере" значительные ошибки из-за линий касающихся букв., в итоге чать текста не распознается,( выделено )
Обучать редактировать - уйма времени, с неизвестным пока результатом, нужен более качественный источник.
.
tmp248.zip 308.15 КБ Скачано: 316 раз(а)
|
|
m.ix
Master Mixa
Сообщения: 1972+
|
нужен более качественный источник
===============
А это в любом OCR так дело обстоит.
Чем качественней исходник тем соответствующий станет результат. |
|