argon bulletin board

Факултети => Факултет по математика и информатика => Темата е започната от: artanis в 12.10.2003, 17:51:00

Титла: автоматизирана обработка на маркиран текст
Публикувано от: artanis в 12.10.2003, 17:51:00
Здравейте,

Отварям тази тема, защото въпросът се спомена в дискусията за сайта на ФМИ и от тогава чух някои скептични мнения относно автоматизираната обработка на HTML страници.

Ще ми е интересно да чуя различни мнения от студенти, преподаватели, дизайнери и който още се смята за компетентен.

Моята теза е, че HTML страниците могат да се обработват изключително лесно от програми, особено ако имат сходна структура. Дори и такива програми да не вършат "цялата работа", те са полезен инструмент и облекчават съществено работата на хората.

Примери:
1. Автоматично променяне на дизайна на над 1000-те страници от сайта на ФМИ (ако е необходимо)
2. Улесняване на създаването на речник на термини от дадена област (извлечени от уебстраница - обикновено ключовите термини са bold)

поздрави на всички:
artanis
Титла: автоматизирана обработка на маркиран текст
Публикувано от: StillOpossum в 13.10.2003, 09:07:00
Не мога да кажа , че съм специалист но моето мнение за изграждане на сайт с постоянно променяща се информация и възможност за лесна промяна на дизаина е използването на XML, база данни и JSP,servlet-и или PHP, също така и CSS. Първите две позволяват удобно съхранение и промяна на данните както и конвертиране към множество формати(HTML, PDF и др.). JSP и PHP мисля , че са най-добрия избор за изграждане на динамични старници и тяхното управляване. Тези технологий позволяват веднъж изграден сайтьт в последствие да се обновява и управлява дори дори и от хора които не са специалисти.
За промяна дизайна на страницата на ФМИ май е по лесно да се направи наново.
Титла: автоматизирана обработка на маркиран текст
Публикувано от: artanis в 16.10.2003, 18:56:00
предлагам на вниманието на всички една програма, която скоро писах на C++
казва се boldscanner.

като вход приема някаква html страница, а изхода са две html страници - едната на външен вид не се отличава от входа, а другата представлява списък с всичките удебелени области от входната страница.

целта на boldscanner е да улесни изготвянето на речници с непознати термини (които в уебстраница се представят с bold).

boldscanner работи най-добре с красиво написан код.
който се интересува, може да си свали програмата от:
http://free.hit.bg/artanis/boldscanner/boldscanner.zip (http://free.hit.bg/artanis/boldscanner/boldscanner.zip)