Здравейте колеги,
Слайдовете от последното упражнение можете да изтеглите от адрес:
http://web.hit.bg/chanev/PFLLectureNotes/notesPerl2.pdf (пишете ако не разбирате кирилицата от слайдовете. използвал съм шрифт Helvetica CY)
За упражненията (4) след седмицата в която отсъствам (да припомня, че на 18ти Февруари няма да имаме класове) трябва да решим дали да идваме 1 час по-рано, или да оставаме 1 час по-късно (но в такъв случай трябва да се местим в друга зала). Това ще го обсъдим следващия път.
За проектите:
Тъй като това е публичен форум и може да не искате хората да знаят имената ви, ще използвам инициали за всеки.
Б.К. все проект за нов дизайн на
http://coling.pu.acad.bg и скриптове за автоматичнo извличане на съдържанието от колинг както и от сайта на ФМИ (след като извличаме без грешки съдържанието от сайта на ФМИ можем да говорим с GORO за примерен дизайн на сайта и с администраторите евентуално да качат сайта). Б., свали си страниците е колинг и започвай да пишеш скрипт за извличане на информацията. Другия път ще видим докъде си стигнал.
С.В, А.М, В.Б. и М.М. взеха проекта за полетите.
С.В. от приложна математика трябва да напише скрипт за търсене на най-кратък път в насочен граф. С, можеш да прочетеш някои неща за Теория на Графите от курса на Манчо Манев (от сайта на ФМИ потърси в online обучение)
Останалите, потърсете в гуугъл data mining и сайта, които дадох за гуугъл АПИ-то. Нормално би било да разпределите задачите: Един да пише скриптовете на пърл, друг да е специалист по data mining (трябва да разбира английски) и трети, който да работи с АПИ-то на гуугъл. Другият път искам да ми кажете кой какво ще прави.
З.А. и А.Г взеха проекта за автоматично намиране на клаузите в изречение на български език. Прочетете тази статия:
http://clg.wlv.ac.uk/papers/evans-DAARC-2000.pdf (от уеб сайта на групата по изчислителна лингвистика в Уулвърхямптън clg.wlv.ac.uk) и подгответе презентация (ако не сте готови за следващия път, може да я изнесете по-следващата седмица).
Д.П. и З.Б. взеха проект за сегментиране. Потърсете в гуугъл sentence (и word) segmentation както и за decision trees. За следващия път ако можете да подготвите кратка презентация за segmentation ще бъде много добре.
Тош взе проекта за следите. Вече дадох литература за четене. Ресурсът, който ще ползваме е: Банката от дървета на Университета в Торино
http://www.di.unito.it/~tutreeb/. Оттам може да се изтегли безплатно. Също ще помоля Тош да подготви кратка презентация за проекта си след като прочете литературата (или поне тази част от тезисите, която засяга пряко неговия проект)
Х.Г., Н.В., Л.С. и И.П. взеха проекта за резюмирането. Това се очертава да е най-сложният проект и за това по него ще трябва да се включат още хора. Потърсете в интернет за резюмирането, а аз ще ви донеса лекциите от един курс по резюмиране. Един от вас ще трябва да отговаря за evaluation methods.
Към този проект има доста голям интерес от някои хора (един от тях се интересува от data mining, ще ви дам координатите му). Георги Тотков също се интересува от този проект във връзка с генерирането на определен тип въпроси за тестове (приложението е в електронното обучение). Когато си разясним методът, който ще ползваме и целите, които си поставяме ще поканим Георги Тотков на някоя от нашите лекции. Работата на някои от вас по този проект може да прерастне в дипломна работа. Доколкото разбрах е имало дипломанти, които са работили по тази тема. Аз се заемам да проверя кои са те и до какви резултати за стигнали. Този проект ще бъде голямо предизвикателство
И.П. също ще се занимава с POS tagging. Тази статия от сайта на Инго Шрьодер (
http://nats-www.informatik.uni-hamburg.de/%7Eingo/papers/) може да служи на И. като въведение в POS tagging:
http://nats-www.informatik.uni-hamburg.de/~ingo/papers/memo-314-02.pdf.gzХ.М. и Н.К. взеха проект за генериране на българо-турски речник и започване на изготвянето на българо-турска паралелна банка от дървета. Очаквайте да ви пратя файлът от който да извлечете речника и който после ще трябва да превеждате. (няма да е лошо да потърсите модул за Пърл, който да използва SAX за работа с XML. Другия път ще говорим по-обстойно за това)
Някои от вас все още нямат проект! Много е важно да вземете проект колкото се може по-скоро! Има места за POS tagging, проекта за резюмирането и проекта за клаузите.
Ако имате някакви въпроси или препоръки, пишете ми на artanisz at mail dot bg
Разбрах, че малко се притеснявате за проектите. Моето мнение е, че ще се справите. Отначало си мислите така защото не знаете какво точно ще правите, но като прочетете материалите и като вземем обектно-ориентирания Пърл ще ви бъде по-ясно, обещавам ;)
приятен weekend!
don't work too much ;)
a.