ESpec - мир электроники для профессионалов


Оцифровка - распознование в PDF?

  Список форумов » Программное обеспечение

Следующая тема · Предыдущая тема
АвторСообщение
Strike 
Фанат форума
Сообщения: 3812
Strike
 
Сообщение #1 от 19/10/2011 23:54 цитата  

Здравствуйте.
Возник вопрос.
Существуют-ли программы оцифровки изображений в документы PDF с возможностью распознавания-поиска текста , подобно "Fine Rider"-у.
Есть некоторые PDF схемы сохраненные в формате "картинки" или JPEG-JPG.
Интересует способ их оцифровки.
Например этот:

  Пример.zip  224.79 КБ  Скачано: 399 раз(а)
m.ix 
Master Mixa
Сообщения: 1972+
m.ix
 
Сообщение #2 от 20/10/2011 00:55 цитата  

думаю что такого ПО не придамали
картинка будет картинкой а текст текстом

представим лишь строку
текст - часть картинки - текст 12pin I IRQ

часть картинки будет распознана как некий знак в данном случае как буква И

Или с картинки весь текст будет как собранная в строку мешура.
Sergej 
Передовик
Сообщения: 2672
Sergej
 
Сообщение #3 от 20/10/2011 10:42 цитата  

Strike, очень не уверен, что такое есть. Сам для подобных вырезок использую PDF Creator, легкий и неплохой вирт. принтер.
И то не уверен, что он сохраняет с возможностью поиска.
m.ix 
Master Mixa
Сообщения: 1972+
m.ix
 
Сообщение #4 от 20/10/2011 10:52 цитата  

картинка-это картинка
после распознования - это набор абракадабры
текст в таблице на картинке - распознаётся как экселевская нормальная таблица

а поиск слов на картинке в PDF - занятие явно не для ПО а на сообразительность пользователя.
Да к стати
Встречаются довольно таки странные PDF
Вроде нормально родной док
Даже выделить можно
И поиск работает
Но в доке есть места где оно вроде и выделяется но не ищется и при этом не картинка.
Mikkey 
Старший модератор
<B>Старший модератор</B>
Сообщения: 3652
Mikkey
 
Сообщение #5 от 20/10/2011 12:03 цитата  

Так файнридером распозновай, а потом делай pdf, хоть тем же виртуальным принтером.
Strike 
Фанат форума
Сообщения: 3812
Strike
 
Сообщение #6 от 20/10/2011 12:16 цитата  

Sergej, Mikkey, Попробую, спасибо.
Strike 
Фанат форума
Сообщения: 3812
Strike
 
Сообщение #7 от 20/10/2011 22:19 цитата  

Файнридер действительно может сканировать различные документы и рисунки, распознавать и снова преобразовывать в различные форматы и PDF в.т.ч.
Однако качество оставляет желать лучшего..
В рисунках как в "Примере" значительные ошибки из-за линий касающихся букв., в итоге чать текста не распознается,( выделено )
Обучать редактировать - уйма времени, с неизвестным пока результатом, нужен более качественный источник.

.




  tmp248.zip  308.15 КБ  Скачано: 295 раз(а)
m.ix 
Master Mixa
Сообщения: 1972+
m.ix
 
Сообщение #8 от 21/10/2011 01:28 цитата  

нужен более качественный источник
===============
А это в любом OCR так дело обстоит.
Чем качественней исходник тем соответствующий станет результат.

Перейти: 
Следующая тема · Предыдущая тема
Показать/скрыть Ваши права в разделе

Интересное от ESpec


Другие темы раздела Программное обеспечение



Rambler's Top100 Рейтинг@Mail.ru liveinternet.ru RadioTOP