argon bulletin board

Факултети => Факултет по математика и информатика => Темата е започната от: Георги Фурнаджиев в 19.07.2006, 15:52:10

Титла: Библиотека за индексиране на уеб страница?
Публикувано от: Георги Фурнаджиев в 19.07.2006, 15:52:10
Здравейте. Някой да знае готова библиотека за индексиране на уеб страници? Трябва ми по зададена страница (адрес или файл - засега няма значение) да получа коя дума между кои тагове колко пъти се среща.

Благодаря предварително.
Титла: Re: Библиотека за индексиране на уеб страница?
Публикувано от: artanis в 19.07.2006, 16:18:38
Здравей Георги,

1вия вариант е сам да си напишеш такава програма на някои език, който поддържа регулярни изрази Perl или Python, но и много други.

2рия вариант е да използваш програма за извличане на контекста на дума, но да я измениш малко. Такива програми се наричат concordance програми. Може да започнеш от open source решение.

И все пак, може ли да поясниш защо ти трябва да знаеш това?

Сега се сещам и за трети вариант, да обърнеш страницата в xhtml и да използваш SAX после.

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто и
ITC-irst Пово-Тренто
Титла: Re: Библиотека за индексиране на уеб страница?
Публикувано от: Nikolay Manchev в 20.07.2006, 08:04:21
Има доста готови неща, които могат да ти свършат работа.

Например:

http://sourceforge.net/projects/langgator/

http://sourceforge.net/projects/webharvest

http://www.ucw.cz/holmes/

Не си казал за кой точно език търсиш решение, така че най-добре огледай SourceForge и FreshMeat. Има достатъчно готови решения за почти всичко, което можеш да измислиш.

Поздрави,

Николай Манчев
Титла: Re: Библиотека за индексиране на уеб страница?
Публикувано от: Георги Фурнаджиев в 20.07.2006, 09:51:09
Благодаря за отгворите до момента.

Не си казал за кой точно език търсиш решение, така че най-добре огледай SourceForge и FreshMeat. Има достатъчно готови решения за почти всичко, което можеш да измислиш.

Търся нещо наC или C++, но ако няма, ще се навия и на PHP или Perl. Просто нямам време - експериментите, които ще си правя, започват от индексиането на страницата нататък. Обещавам да разказвам, като получа нещо интересно :-)
Титла: Re: Библиотека за индексиране на уеб страница?
Публикувано от: Nikolay Manchev в 20.07.2006, 11:32:40
Това дали няма да ти свърши работа:

http://php-html.sourceforge.net/

Поздрави,

Николай Манчев