argon bulletin board

Експертно търсене  

Новини:

Регистрирането на нови потребители е временно деактивирано.

Автор Тема: автоматизирана обработка на маркиран текст  (Прочетена 2136 пъти)

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis

Здравейте,

Отварям тази тема, защото въпросът се спомена в дискусията за сайта на ФМИ и от тогава чух някои скептични мнения относно автоматизираната обработка на HTML страници.

Ще ми е интересно да чуя различни мнения от студенти, преподаватели, дизайнери и който още се смята за компетентен.

Моята теза е, че HTML страниците могат да се обработват изключително лесно от програми, особено ако имат сходна структура. Дори и такива програми да не вършат "цялата работа", те са полезен инструмент и облекчават съществено работата на хората.

Примери:
1. Автоматично променяне на дизайна на над 1000-те страници от сайта на ФМИ (ако е необходимо)
2. Улесняване на създаването на речник на термини от дадена област (извлечени от уебстраница - обикновено ключовите термини са bold)

поздрави на всички:
artanis
Активен

StillOpossum

  • Неактивен Неактивен
  • Публикации: 39
  • ...........
    • http://shteryo.argon.acad.bg/

Не мога да кажа , че съм специалист но моето мнение за изграждане на сайт с постоянно променяща се информация и възможност за лесна промяна на дизаина е използването на XML, база данни и JSP,servlet-и или PHP, също така и CSS. Първите две позволяват удобно съхранение и промяна на данните както и конвертиране към множество формати(HTML, PDF и др.). JSP и PHP мисля , че са най-добрия избор за изграждане на динамични старници и тяхното управляване. Тези технологий позволяват веднъж изграден сайтьт в последствие да се обновява и управлява дори дори и от хора които не са специалисти.
За промяна дизайна на страницата на ФМИ май е по лесно да се направи наново.

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis

предлагам на вниманието на всички една програма, която скоро писах на C++
казва се boldscanner.

като вход приема някаква html страница, а изхода са две html страници - едната на външен вид не се отличава от входа, а другата представлява списък с всичките удебелени области от входната страница.

целта на boldscanner е да улесни изготвянето на речници с непознати термини (които в уебстраница се представят с bold).

boldscanner работи най-добре с красиво написан код.
който се интересува, може да си свали програмата от:
http://free.hit.bg/artanis/boldscanner/boldscanner.zip
Активен