argon bulletin board

Експертно търсене  

Новини:

Регистрирането на нови потребители е временно деактивирано.

Автор Тема: Библиотека за индексиране на уеб страница?  (Прочетена 1337 пъти)

Георги Фурнаджиев

  • Гост

Здравейте. Някой да знае готова библиотека за индексиране на уеб страници? Трябва ми по зададена страница (адрес или файл - засега няма значение) да получа коя дума между кои тагове колко пъти се среща.

Благодаря предварително.
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis

Здравей Георги,

1вия вариант е сам да си напишеш такава програма на някои език, който поддържа регулярни изрази Perl или Python, но и много други.

2рия вариант е да използваш програма за извличане на контекста на дума, но да я измениш малко. Такива програми се наричат concordance програми. Може да започнеш от open source решение.

И все пак, може ли да поясниш защо ти трябва да знаеш това?

Сега се сещам и за трети вариант, да обърнеш страницата в xhtml и да използваш SAX после.

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто и
ITC-irst Пово-Тренто
« Последна редакция: 19.07.2006, 16:21:39 от artanis »
Активен

Nikolay Manchev

  • Неактивен Неактивен
  • Публикации: 185
    • http://www.manchev.org

Има доста готови неща, които могат да ти свършат работа.

Например:

http://sourceforge.net/projects/langgator/

http://sourceforge.net/projects/webharvest

http://www.ucw.cz/holmes/

Не си казал за кой точно език търсиш решение, така че най-добре огледай SourceForge и FreshMeat. Има достатъчно готови решения за почти всичко, което можеш да измислиш.

Поздрави,

Николай Манчев
Активен

Георги Фурнаджиев

  • Гост

Благодаря за отгворите до момента.

Не си казал за кой точно език търсиш решение, така че най-добре огледай SourceForge и FreshMeat. Има достатъчно готови решения за почти всичко, което можеш да измислиш.

Търся нещо наC или C++, но ако няма, ще се навия и на PHP или Perl. Просто нямам време - експериментите, които ще си правя, започват от индексиането на страницата нататък. Обещавам да разказвам, като получа нещо интересно :-)
Активен

Nikolay Manchev

  • Неактивен Неактивен
  • Публикации: 185
    • http://www.manchev.org

Това дали няма да ти свърши работа:

http://php-html.sourceforge.net/

Поздрави,

Николай Манчев
Активен