argon bulletin board
Факултети => Факултет по математика и информатика => Темата е започната от: Георги Фурнаджиев в 19.07.2006, 15:52:10
-
Здравейте. Някой да знае готова библиотека за индексиране на уеб страници? Трябва ми по зададена страница (адрес или файл - засега няма значение) да получа коя дума между кои тагове колко пъти се среща.
Благодаря предварително.
-
Здравей Георги,
1вия вариант е сам да си напишеш такава програма на някои език, който поддържа регулярни изрази Perl или Python, но и много други.
2рия вариант е да използваш програма за извличане на контекста на дума, но да я измениш малко. Такива програми се наричат concordance програми. Може да започнеш от open source решение.
И все пак, може ли да поясниш защо ти трябва да знаеш това?
Сега се сещам и за трети вариант, да обърнеш страницата в xhtml и да използваш SAX после.
поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто и
ITC-irst Пово-Тренто
-
Има доста готови неща, които могат да ти свършат работа.
Например:
http://sourceforge.net/projects/langgator/
http://sourceforge.net/projects/webharvest
http://www.ucw.cz/holmes/
Не си казал за кой точно език търсиш решение, така че най-добре огледай SourceForge и FreshMeat. Има достатъчно готови решения за почти всичко, което можеш да измислиш.
Поздрави,
Николай Манчев
-
Благодаря за отгворите до момента.
Не си казал за кой точно език търсиш решение, така че най-добре огледай SourceForge и FreshMeat. Има достатъчно готови решения за почти всичко, което можеш да измислиш.
Търся нещо наC или C++, но ако няма, ще се навия и на PHP или Perl. Просто нямам време - експериментите, които ще си правя, започват от индексиането на страницата нататък. Обещавам да разказвам, като получа нещо интересно :-)
-
Това дали няма да ти свърши работа:
http://php-html.sourceforge.net/
Поздрави,
Николай Манчев