argon bulletin board

Факултети => Факултет по математика и информатика => Темата е започната от: artanis в 18.06.2006, 23:41:38

Титла: PDF OCR
Публикувано от: artanis в 18.06.2006, 23:41:38: Здравейте,

Някой да знае дали съществува софтуер за извличане на текста от снимани ПДФ файлове написани на английски? Дали би работил добре, ако снимките са с лошо качество/повредени?

Предложения, мнения?

Благодаря предварително!

поздрави:
а.
Титла: Re: PDF OCR
Публикувано от: Stilgar в 19.06.2006, 02:53:06: purvo kato shte e ocr kvo znachenie ima dali e pdf ili kvoto i da e?
vtoro naistina li iskash li da google-na za teb aide onia algoritum da rechem beshe po-zabit za otkrivane ama na tva kvo mu e slojnoto?
Титла: Re: PDF OCR
Публикувано от: OpenBSD в 19.06.2006, 16:08:11: Незнам какво ще каже google, но може да пробваш това (http://www.digitalriver.com/v2.0-img/operations/scansode/site/static_pages/OmniPage15/standard/index.htm) или www.OmniPage.de. Случайно попаднах на него когато четох инфо за комп. графика от един сайт. Втория линк може вече да не работи, но опитай. Според коментарите това е най-доброто за момента, но и цената си му е доста добра...
Титла: Re: PDF OCR
Публикувано от: artanis в 22.06.2006, 07:17:16: Okay,

Stilgar,

1) С този пост исках да предизвикам дискусия, а не да си търся нещо в гуугъл. Все едно да пусна търсене в гуугъл дали е по-добре да ядеш спагети или пица. За всеки е различно. Надявах се някой от вас да има опит в тези неща. Трябваше ми за нещо 'много просто'. В МакОс има функция за четене от пдф файлове. Често я ползвам когато трябва да прочета нещо, а ме болят очите, само за да знам, че някакъв проблем съществува и някой прави нещо по въпроса. Тази функция обаче не работи с лоши файлове.

Обикновено под OCR се разбира разпознаване когато документите са на хартия (на мен поне ми е ясно само това използване на термина). Иначе, ако е от ПДФ какво му е оптикъл на OCR-а, тогава си е само CR. Явно аз не съм избрал подходящо име на темата.

2) Stilgar: В поста за алгоритъма ти отговорих по този начин само от учтивост. Там също се надявах да се получи интересна дискусия.

OpenBSD: Благодаря! Малко ми е трудно обаче да чета немски, позабравил съм го. Доколкото видях поне един от двата продукта е само за Уиндоу$. Но така или иначе целта ми не беше да пазарувам такива продукти.

поздрави:
а.
Титла: Re: PDF OCR
Публикувано от: OpenBSD в 22.06.2006, 20:42:44: Наско,

Въпросът е много интересен и от много време ме вълнува и се интересувам от това, но просто не го задаваш както трябва, та да предизвика дискусия.

Според мен по-добре щеше да е ако неше питал за това какво е OCR. Поне някой, щеше да зададе въпрос "Що за чудо е това?" и така щеше да се получи голяма дискусия.

Просто психика... Много е важно как ще подходиш, за да предизвикаш интересът на останалите. Това са малко перефразирани думи на учителя ми по англисйки. На пръв поглед обикновен човек, но пък е страхотен психолог. С него е особено забавно когато той пита на англиски, а аз му отговарям на немски или обратното...

Поздрави!!!
Титла: Re: PDF OCR
Публикувано от: artanis в 18.07.2006, 01:44:34: Здравейте,

Докато ми четеше един пейпър, МакОС програмата започна да произнася някакви отделни думички и номера, така че почти нищо да не се разбира. Като погледнах в доумента видях, че там има таблица.

Някой знае ли за програма, която да преобразува таблицата така, че когато text-to-speech програмата я прочете да се получи нещо смислено. Например да се определя вида на таблицата и после ако има сравнение на системи, програмата да казва: системата Х дава най-добър резултат, като резултатите за всички системи са в обхват [а,b], най-лош резултат дава системата У.

Интересно ми беше дали някой знае нещо по въпроса.

поздрави:
а.
Титла: Re: PDF OCR
Публикувано от: radko87 в 07.08.2006, 16:07:42: Бихте ли дали някакъв линк към статия или нещо, което да хвърли повече светлина върху OCR, защото ме заинтригува, но не съм запознат с въпроса изобщо!!!
Титла: Re: PDF OCR
Публикувано от: Stilgar в 09.08.2006, 22:31:49: http://en.wikipedia.org/wiki/Optical_character_recognition
eto ti link

ima 2 neshta koito triabva da napravish predi da popitash za link s obiasnenie
da pitash wikipedia i da pitash Google
Титла: Re: PDF OCR
Публикувано от: artanis в 26.12.2006, 00:58:32: PDFBox и Multivalent са програми за извличане на текста от PDF файл. (от едно съобщение от Корпора лист от Брет Паули). Пишете, ако някой ги е ползвал и какви са впечатленията.

поздрави и весели празници:
а.
Титла: Re: PDF OCR
Публикувано от: Светослав Енков в 27.12.2006, 17:24:01: Наско, първо ти в поста си не беше казал, че искаш софтуер за MacOS, второ във ФМИ кой ползва MacOS?

Иначе за Windows са страхотни продуктите на ABBYY - FineReader и PDFTransformer. Сравнително добре се справят и с таблици новите версии.

И какво значи "сниман PDF"? Разпечатан на принтер и сниман с фотоапарат ли? Шегичка :-P
Разбирам, че става дума за сканирана и направена на PDF книга (предимно по rapidshare са такива повечето), но се засмях неволно, не съм искал да се подиграя.
Титла: Re: PDF OCR
Публикувано от: artanis в 28.12.2006, 13:10:15: Здрасти,

Да, наистина исках за Мак ОС, но намерих този тред в корпора лист-а и си спомних, че някой (напр. radko87) беше питал. Може да има и нещо с отворен код, което да работи под Darwin, но не ми е останало време да проверя. Когато съм във ФМИ, аз ползвам Мак ОС ;)

Наистина ми е интересно да проверя как подобен софтуер се "справя" с таблиците. Чете ги като текст с паузи или ги прочита по-разбираемо, така че този, който слуша да разбере какво всъщност значат данните.

За шегичката ти :) Истински случай: Един фотограф от град Х иска да кандидатства по европейска програма за финансиране и използва като консултант фирма от град У някъде през 2005. Трябва да прати документи, но няма факс и не използва скенер. Тогава нарежда документите на бюрото си и започва да ги снима с фотоапарата след което ги праща по електронната поща в офиса на фирмата от град У. :) Иначе да, може би трябваше да ползвам "сканирани" или снимани със скенер (въпреки, че освен с фотоапарат, може да се опитам да ги снимам от десктопа ми).

Аз иначе си ползвам съвсем легални статии или части от книги и някои наистина са снимани/сканирани по този начин.

поздрави:
Атанас Чанев
Титла: Re: PDF OCR
Публикувано от: Светослав Енков в 28.12.2006, 22:58:27: Шегичката беше за термина "сниман PDF" и се пошвгувах, в смисъл разпечатан нормален PDF на принтер и после сниман...

Иначе новите ABBYY продукти имат опция за OCR на сниман с фотоапарат текст - изглежда тогава коригират изкривяването, вигнетирането и JPEG компресията на снимката с фотоапарат!

А и OCR само прави текст, не знам по принцип имат ли вграден TTS модул тия, които аз цитирах?
Титла: Re: PDF OCR
Публикувано от: oneofmany в 11.01.2007, 01:01:17: Ot vsichko koeto sym vizhdal kato OCR Omnipage e naj dobroto. No za povredeni snimki, nqma nistho koeto da mozhe da prochete teksta ot tqh. Che to choveshko oko ne mozhe da gi razchete v povecheto sluchai ta kak se ochakva komputerna programa da mozhe.

A shto se otnasq do OCR soft povecheto ebooks (warez) do skoro se syzdavaha predimno s OCR.