Тема: PDF OCR (Прочетена 3657 пъти)

artanis · « -: 18.06.2006, 23:41:38 »

Здравейте,

Някой да знае дали съществува софтуер за извличане на текста от снимани ПДФ файлове написани на английски? Дали би работил добре, ако снимките са с лошо качество/повредени?

Предложения, мнения?

Благодаря предварително!

поздрави:
а.

Stilgar · « **Отговор #1 -:** 19.06.2006, 02:53:06 »

purvo kato shte e ocr kvo znachenie ima dali e pdf ili kvoto i da e?
vtoro naistina li iskash li da google-na za teb aide onia algoritum da rechem beshe po-zabit za otkrivane ama na tva kvo mu e slojnoto?

OpenBSD · « **Отговор #2 -:** 19.06.2006, 16:08:11 »

Незнам какво ще каже google, но може да пробваш това или www.OmniPage.de. Случайно попаднах на него когато четох инфо за комп. графика от един сайт. Втория линк може вече да не работи, но опитай. Според коментарите това е най-доброто за момента, но и цената си му е доста добра...

artanis · « **Отговор #3 -:** 22.06.2006, 07:17:16 »

Okay,

Stilgar,

1) С този пост исках да предизвикам дискусия, а не да си търся нещо в гуугъл. Все едно да пусна търсене в гуугъл дали е по-добре да ядеш спагети или пица. За всеки е различно. Надявах се някой от вас да има опит в тези неща. Трябваше ми за нещо 'много просто'. В МакОс има функция за четене от пдф файлове. Често я ползвам когато трябва да прочета нещо, а ме болят очите, само за да знам, че някакъв проблем съществува и някой прави нещо по въпроса. Тази функция обаче не работи с лоши файлове.

Обикновено под OCR се разбира разпознаване когато документите са на хартия (на мен поне ми е ясно само това използване на термина). Иначе, ако е от ПДФ какво му е оптикъл на OCR-а, тогава си е само CR. Явно аз не съм избрал подходящо име на темата.

2) Stilgar: В поста за алгоритъма ти отговорих по този начин само от учтивост. Там също се надявах да се получи интересна дискусия.

OpenBSD: Благодаря! Малко ми е трудно обаче да чета немски, позабравил съм го. Доколкото видях поне един от двата продукта е само за Уиндоу$. Но така или иначе целта ми не беше да пазарувам такива продукти.

поздрави:
а.

OpenBSD · « **Отговор #4 -:** 22.06.2006, 20:42:44 »

Наско,

Въпросът е много интересен и от много време ме вълнува и се интересувам от това, но просто не го задаваш както трябва, та да предизвика дискусия.

Според мен по-добре щеше да е ако неше питал за това какво е OCR. Поне някой, щеше да зададе въпрос "Що за чудо е това?" и така щеше да се получи голяма дискусия.

Просто психика... Много е важно как ще подходиш, за да предизвикаш интересът на останалите. Това са малко перефразирани думи на учителя ми по англисйки. На пръв поглед обикновен човек, но пък е страхотен психолог. С него е особено забавно когато той пита на англиски, а аз му отговарям на немски или обратното...

Поздрави!!!

artanis · « **Отговор #5 -:** 18.07.2006, 01:44:34 »

Здравейте,

Докато ми четеше един пейпър, МакОС програмата започна да произнася някакви отделни думички и номера, така че почти нищо да не се разбира. Като погледнах в доумента видях, че там има таблица.

Някой знае ли за програма, която да преобразува таблицата така, че когато text-to-speech програмата я прочете да се получи нещо смислено. Например да се определя вида на таблицата и после ако има сравнение на системи, програмата да казва: системата Х дава най-добър резултат, като резултатите за всички системи са в обхват [а,b], най-лош резултат дава системата У.

Интересно ми беше дали някой знае нещо по въпроса.

поздрави:
а.

radko87 · « **Отговор #6 -:** 07.08.2006, 16:07:42 »

Бихте ли дали някакъв линк към статия или нещо, което да хвърли повече светлина върху OCR, защото ме заинтригува, но не съм запознат с въпроса изобщо!!!

Stilgar · « **Отговор #7 -:** 09.08.2006, 22:31:49 »

http://en.wikipedia.org/wiki/Optical_character_recognition
eto ti link

ima 2 neshta koito triabva da napravish predi da popitash za link s obiasnenie
da pitash wikipedia i da pitash Google

artanis · « **Отговор #8 -:** 26.12.2006, 00:58:32 »

PDFBox и Multivalent са програми за извличане на текста от PDF файл. (от едно съобщение от Корпора лист от Брет Паули). Пишете, ако някой ги е ползвал и какви са впечатленията.

поздрави и весели празници:
а.

Светослав Енков · « **Отговор #9 -:** 27.12.2006, 17:24:01 »

Наско, първо ти в поста си не беше казал, че искаш софтуер за MacOS, второ във ФМИ кой ползва MacOS?

Иначе за Windows са страхотни продуктите на ABBYY - FineReader и PDFTransformer. Сравнително добре се справят и с таблици новите версии.

И какво значи "сниман PDF"? Разпечатан на принтер и сниман с фотоапарат ли? Шегичка

Разбирам, че става дума за сканирана и направена на PDF книга (предимно по rapidshare са такива повечето), но се засмях неволно, не съм искал да се подиграя.

artanis · « **Отговор #10 -:** 28.12.2006, 13:10:15 »

Здрасти,

Да, наистина исках за Мак ОС, но намерих този тред в корпора лист-а и си спомних, че някой (напр. radko87) беше питал. Може да има и нещо с отворен код, което да работи под Darwin, но не ми е останало време да проверя. Когато съм във ФМИ, аз ползвам Мак ОС ;)

Наистина ми е интересно да проверя как подобен софтуер се "справя" с таблиците. Чете ги като текст с паузи или ги прочита по-разбираемо, така че този, който слуша да разбере какво всъщност значат данните.

За шегичката ти

Истински случай: Един фотограф от град Х иска да кандидатства по европейска програма за финансиране и използва като консултант фирма от град У някъде през 2005. Трябва да прати документи, но няма факс и не използва скенер. Тогава нарежда документите на бюрото си и започва да ги снима с фотоапарата след което ги праща по електронната поща в офиса на фирмата от град У.

Иначе да, може би трябваше да ползвам "сканирани" или снимани със скенер (въпреки, че освен с фотоапарат, може да се опитам да ги снимам от десктопа ми).

Аз иначе си ползвам съвсем легални статии или части от книги и някои наистина са снимани/сканирани по този начин.

поздрави:
Атанас Чанев

Светослав Енков · « **Отговор #11 -:** 28.12.2006, 22:58:27 »

Шегичката беше за термина "сниман PDF" и се пошвгувах, в смисъл разпечатан нормален PDF на принтер и после сниман...

Иначе новите ABBYY продукти имат опция за OCR на сниман с фотоапарат текст - изглежда тогава коригират изкривяването, вигнетирането и JPEG компресията на снимката с фотоапарат!

А и OCR само прави текст, не знам по принцип имат ли вграден TTS модул тия, които аз цитирах?

oneofmany · « **Отговор #12 -:** 11.01.2007, 01:01:17 »

Ot vsichko koeto sym vizhdal kato OCR Omnipage e naj dobroto. No za povredeni snimki, nqma nistho koeto da mozhe da prochete teksta ot tqh. Che to choveshko oko ne mozhe da gi razchete v povecheto sluchai ta kak se ochakva komputerna programa da mozhe.

A shto se otnasq do OCR soft povecheto ebooks (warez) do skoro se syzdavaha predimno s OCR.

argon bulletin board

Новини:

Автор Тема: PDF OCR (Прочетена 3657 пъти)

artanis

PDF OCR

Stilgar

Re: PDF OCR

OpenBSD

Re: PDF OCR

artanis

Re: PDF OCR

OpenBSD

Re: PDF OCR

artanis

Re: PDF OCR

radko87

Re: PDF OCR

Stilgar

Re: PDF OCR

artanis

Re: PDF OCR

Светослав Енков

Re: PDF OCR

artanis

Re: PDF OCR

Светослав Енков

Re: PDF OCR

oneofmany

Re: PDF OCR