argon bulletin board

Експертно търсене  

Новини:

Регистрирането на нови потребители е временно деактивирано.

Автор Тема: PDF OCR  (Прочетена 2851 пъти)

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
PDF OCR
« -: 18.06.2006, 23:41:38 »

Здравейте,

Някой да знае дали съществува софтуер за извличане на текста от снимани ПДФ файлове написани на английски? Дали би работил добре, ако снимките са с лошо качество/повредени?

Предложения, мнения?

Благодаря предварително!

поздрави:
а.
Активен

Stilgar

  • Неактивен Неактивен
  • Публикации: 843
Re: PDF OCR
« Отговор #1 -: 19.06.2006, 02:53:06 »

purvo kato shte e ocr kvo znachenie ima dali e pdf ili kvoto i da e?
vtoro naistina li iskash li da google-na za teb aide onia algoritum da rechem beshe po-zabit za otkrivane ama na tva kvo mu e slojnoto?
Активен
"Човек винаги трябва да си прави background" - Lia

OpenBSD

  • Гост
Re: PDF OCR
« Отговор #2 -: 19.06.2006, 16:08:11 »

Незнам какво ще каже google, но може да пробваш това или www.OmniPage.de. Случайно попаднах на него когато четох инфо за комп. графика от един сайт. Втория линк може вече да не работи, но опитай. Според коментарите това е най-доброто за момента, но и цената си му е доста добра...
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: PDF OCR
« Отговор #3 -: 22.06.2006, 07:17:16 »

Okay,

Stilgar,

1) С този пост исках да предизвикам дискусия, а не да си търся нещо в гуугъл. Все едно да пусна търсене в гуугъл дали е по-добре да ядеш спагети или пица. За всеки е различно. Надявах се някой от вас да има опит в тези неща. Трябваше ми за нещо 'много просто'. В МакОс има функция за четене от пдф файлове. Често я ползвам когато трябва да прочета нещо, а ме болят очите, само за да знам, че някакъв проблем съществува и някой прави нещо по въпроса. Тази функция обаче не работи с лоши файлове.

Обикновено под OCR се разбира разпознаване когато документите са на хартия (на мен поне ми е ясно само това използване на термина). Иначе, ако е от ПДФ какво му е оптикъл на OCR-а, тогава си е само CR. Явно аз не съм избрал подходящо име на темата.

2) Stilgar: В поста за алгоритъма ти отговорих по този начин само от учтивост. Там също се надявах да се получи интересна дискусия.

OpenBSD: Благодаря! Малко ми е трудно обаче да чета немски, позабравил съм го. Доколкото видях поне един от двата продукта е само за Уиндоу$. Но така или иначе целта ми не беше да пазарувам такива продукти.

поздрави:
а.
Активен

OpenBSD

  • Гост
Re: PDF OCR
« Отговор #4 -: 22.06.2006, 20:42:44 »

Наско,

Въпросът е много интересен и от много време ме вълнува и се интересувам от това, но просто не го задаваш както трябва, та да предизвика дискусия.

Според мен по-добре щеше да е ако неше питал за това какво е OCR. Поне някой, щеше да зададе въпрос "Що за чудо е това?" и така щеше да се получи голяма дискусия.

Просто психика... Много е важно как ще подходиш, за да предизвикаш интересът на останалите. Това са малко перефразирани думи на учителя ми по англисйки. На пръв поглед обикновен човек, но пък е страхотен психолог. С него е особено забавно когато той пита на англиски, а аз му отговарям на немски или обратното...

Поздрави!!!
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: PDF OCR
« Отговор #5 -: 18.07.2006, 01:44:34 »

Здравейте,

Докато ми четеше един пейпър, МакОС програмата започна да произнася някакви отделни думички и номера, така че почти нищо да не се разбира. Като погледнах в доумента видях, че там има таблица.

Някой знае ли за програма, която да преобразува таблицата така, че когато text-to-speech програмата я прочете да се получи нещо смислено. Например да се определя вида на таблицата и после ако има сравнение на системи, програмата да казва: системата Х дава най-добър резултат, като резултатите за всички системи са в обхват [а,b], най-лош резултат дава системата У.

Интересно ми беше дали някой знае нещо по въпроса.

поздрави:
а.
Активен

radko87

  • Неактивен Неактивен
  • Публикации: 112
  • Stupid man :D
Re: PDF OCR
« Отговор #6 -: 07.08.2006, 16:07:42 »

Бихте ли дали някакъв линк към статия или нещо, което да хвърли повече  светлина върху OCR, защото ме заинтригува, но не съм запознат с въпроса изобщо!!!
Активен
Sun Certified Java Programer/OCJP/ - От Sun спомен нема .....

Stilgar

  • Неактивен Неактивен
  • Публикации: 843
Re: PDF OCR
« Отговор #7 -: 09.08.2006, 22:31:49 »

http://en.wikipedia.org/wiki/Optical_character_recognition
eto ti link

ima 2 neshta koito triabva da napravish predi da popitash za link s obiasnenie
da pitash wikipedia i da pitash Google
Активен
"Човек винаги трябва да си прави background" - Lia

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: PDF OCR
« Отговор #8 -: 26.12.2006, 00:58:32 »

PDFBox и Multivalent са програми за извличане на текста от PDF файл. (от едно съобщение от Корпора лист от Брет Паули). Пишете, ако някой ги е ползвал и какви са впечатленията.

поздрави и весели празници:
а.
Активен

Светослав Енков

  • Неактивен Неактивен
  • Публикации: 1864
    • Shark's Home Page
Re: PDF OCR
« Отговор #9 -: 27.12.2006, 17:24:01 »

Наско, първо ти в поста си не беше казал, че искаш софтуер за MacOS, второ във ФМИ кой ползва MacOS?

Иначе за Windows са страхотни продуктите на ABBYY - FineReader и PDFTransformer. Сравнително добре се справят и с таблици новите версии.

И какво значи "сниман PDF"? Разпечатан на принтер и сниман с фотоапарат ли? Шегичка  :-P
Разбирам, че става дума за сканирана и направена на PDF книга (предимно по rapidshare са такива повечето), но се засмях неволно, не съм искал да се подиграя.
« Последна редакция: 27.12.2006, 17:26:22 от Светослав Енков »
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: PDF OCR
« Отговор #10 -: 28.12.2006, 13:10:15 »

Здрасти,

Да, наистина исках за Мак ОС, но намерих този тред в корпора лист-а и си спомних, че някой (напр. radko87) беше питал. Може да има и нещо с отворен код, което да работи под Darwin, но не ми е останало време да проверя. Когато съм във ФМИ, аз ползвам Мак ОС ;)

Наистина ми е интересно да проверя как подобен софтуер се "справя" с таблиците. Чете ги като текст с паузи или ги прочита по-разбираемо, така че този, който слуша да разбере какво всъщност значат данните.

За шегичката ти :) Истински случай: Един фотограф от град Х иска да кандидатства по европейска програма за финансиране и използва като консултант фирма от град У някъде през 2005. Трябва да прати документи, но няма факс и не използва скенер. Тогава нарежда документите на бюрото си и започва да ги снима с фотоапарата след което ги праща по електронната поща в офиса на фирмата от град У. :) Иначе да, може би трябваше да ползвам "сканирани" или снимани със скенер (въпреки, че освен с фотоапарат, може да се опитам да ги снимам от десктопа ми).

Аз иначе си ползвам съвсем легални статии или части от книги и някои наистина са снимани/сканирани по този начин.

поздрави:
Атанас Чанев
« Последна редакция: 28.12.2006, 13:11:51 от artanis »
Активен

Светослав Енков

  • Неактивен Неактивен
  • Публикации: 1864
    • Shark's Home Page
Re: PDF OCR
« Отговор #11 -: 28.12.2006, 22:58:27 »

Шегичката беше за термина "сниман PDF" и се пошвгувах, в смисъл разпечатан нормален PDF на принтер и после сниман...

Иначе новите ABBYY продукти имат опция за OCR на сниман с фотоапарат текст - изглежда тогава коригират изкривяването, вигнетирането и JPEG компресията на снимката с фотоапарат!

А и OCR само прави текст, не знам по принцип имат ли вграден TTS модул тия, които аз цитирах?
« Последна редакция: 28.12.2006, 23:06:24 от Светослав Енков »
Активен

oneofmany

  • Неактивен Неактивен
  • Публикации: 18
Re: PDF OCR
« Отговор #12 -: 11.01.2007, 01:01:17 »

Ot vsichko koeto sym vizhdal kato OCR Omnipage e naj dobroto. No za  povredeni snimki, nqma nistho koeto da mozhe da prochete teksta ot tqh. Che to choveshko oko ne mozhe da gi razchete v povecheto sluchai ta kak se ochakva komputerna programa da mozhe.

A shto se otnasq do OCR soft povecheto ebooks (warez) do skoro se syzdavaha predimno s OCR.
Активен