argon bulletin board

Факултети => Факултет по математика и информатика => Темата е започната от: artanis в 07.10.2004, 21:32:00

Титла: изчислителна лингвистика
Публикувано от: artanis в 07.10.2004, 21:32:00
Скъпи всички,

Интересно ми е, някой от вас интересува ли се от изчислителна лингвистика (също позната като компютърна лингвистика или математическа лингвистика.) Нека този, който се интересува, да пише тук или на ICQ-то ми 91382539.

сърдечни поздрави:
Атанас Чанев
Титла: изчислителна лингвистика
Публикувано от: Райчо Мукелов в 08.10.2004, 00:37:00
Аз се интересувам по една невероятна случайност. Ако лингвистиката не беше свързана с AI надали някога щях да се интересувам.


[This message has been edited by sasquatch (edited 08-10-2004).]
Титла: изчислителна лингвистика
Публикувано от: artanis в 09.10.2004, 12:19:00
г-н sasquatch,

Във ФМИ има хора, които работят в тази област и имат постижения. Чудех се дали една разяснителна лекция (или дискусия) какво е изчислителната лингвистика би била интересна и полезна на колегите.

Има и колеги, възпитаници на ФМИ, които са се реализирали успешно в тази област в чужбина. ФМИ на ПУ е едно от двете места в България където се правят изследвания в областта на компютърната лингвистика (другото е БАН).

Моля, пишете какво мислите за една лекция (или дискусия) в тази област.

поздрави:
Атанас Чанев
Титла: изчислителна лингвистика
Публикувано от: Райчо Мукелов в 10.10.2004, 14:50:00
Ще бъде интересно и полезно за тези които се интересуват.
Титла: изчислителна лингвистика
Публикувано от: artanis в 04.11.2004, 22:00:00
http://www.fmi-plovdiv.org/bg_ver/t_info/msg259.htm (http://www.fmi-plovdiv.org/bg_ver/t_info/msg259.htm)
Титла: изчислителна лингвистика
Публикувано от: artanis в 11.11.2004, 17:08:00
Някакви отзиви няма ли?

Ве(я)рно залата беше твърде малка, но не знаех, че ще дойдат толкова хора. По моя преценка бяха поне 40. Очаквах двойно по-малко. Благодаря на всички, които присъстваха. Очаквам отзиви тук. Каквито и да са те.

поздрави:
ваш:
Атанас Чанев
възпитаник на ФМИ, ПУ
PhD студент в Университет в Тренто, Италия
Титла: изчислителна лингвистика
Публикувано от: TeeRexX в 11.11.2004, 20:52:00
Ami predstavata, koqto az specialno polu4ih za disciplinata be6e dosta ob6ta, fakti4eski be6e kazano nai-ob6to kakvo e iz4islitelna lingvistika i kakvi sa 4ast ot problemite, koito re6ava i kakvito i se syzdavat ( (http://forum.argon.acad.bg/html/smile.gif)). Ne kazvam 4e tova e lo6o (ne bih i mogyl, vse pak nikoga ne sym vodil nito podgotvql lekciq), no kato slu6atel vsi4ko mi prili4a6e na edna introdukciq kym po-zadylbo4eno razglejdane na problemite.
Титла: изчислителна лингвистика
Публикувано от: artanis в 22.01.2005, 15:21:00
Здравейте,

Досега никой не е потърсил когото трябва, въпреки интереса към дискусията. Това е много жалко. Имаше студенти, които проявяваха интерес в началото.

Струва ми се много странно, при условие, че има хора от ФМИ, които се занимават с това и са доста известни в Европа. Тези хора по някаква причина са решили да работят в България, но ... няма с кого.

Защо студентите не се интересуват от кариера в тази област (нещо напълно възможно, пред вид българската следа в тази наука)?
Титла: изчислителна лингвистика
Публикувано от: ;-) в 24.01.2005, 19:07:00
Кого трябва? Кои са известни в Европа? Каква българска следа? Предполагам доста хора биха се заинтересували повече ако в последния пост бяха загатнати отговорите. Поздрави ;-)
Титла: изчислителна лингвистика
Публикувано от: artanis в 24.01.2005, 19:31:00
Здравейте ;-),

Ще спомена само местата, където работят българи в тази област: Обединено Кралство, Съединени Щати, Германия, Италия. В София също работят по проект, финансиран от Германска институция.

Ако редовно следите съобщенията за различни конференции в тази област, няма как да не попаднете на името на някой българин в комисиите. Румънците също се представят доста добре.

поздрави:
Атанас Чанев

послепис: Целта на тази тема, когато я отворих, беше да привлека интереса на студентите към тази област. Няма да отговарям на постове, които осмиват работата на няколко човека, заради някои от които и аз съм там, където съм.
Титла: изчислителна лингвистика
Публикувано от: ;-) в 25.01.2005, 10:18:00
Интересно - осмивал ли съм някого или само по името се съди? Хипотетично съм някой който не е в час и съм прегледал форума набързо. Това което забелязвам е няколко "тежки" изказвания и тях коментирам - не мога да осмивам лицата Х, които са ми неизвестни.
Кого трябва? - българи в комисии
Кои са известни в Европа? - българи и донякъде Румънци.
Каква българска следа? - Обединено Кралство, Съединени Щати, Германия, Италия, София...
Това звучи несериозно - щом някои българи са направили нещо следва че за да успееш е много важно да си българин? Така ли се избират хората - не е ясно кой какви умения има, но е българин - става.
Ако не си говорим конкретно за нещата предпочитам да обсъдим темата: могат ли да летят розовите слонове?
Поздрави ;-)
Титла: изчислителна лингвистика
Публикувано от: artanis в 25.01.2005, 10:56:00
Няма да обсъждам тези въпроси с някой, който се представя като ;-)

Напишете си името и тогава може да обсъждаме.

поздрави:
Атанас Чанев
Титла: изчислителна лингвистика
Публикувано от: ;-) в 25.01.2005, 17:16:00
Но ние вече ги обсъждаме ;-)
хайде без обиди, какво му е лошото на името? Ако се бях предтавил като Иван Иванов по-добре ли щеше да е? Не смятам че името ме идентифицира по-добре от въпросите ми. Питах и ми бе отговорено по доста общ начин.
Представих ли някъде лична позиция по въпроса? Не изпитвам необходимост да се доказвам по форуми, всъщност това е и причината поради която не си пиша името.
Поисках да говорим конкретни неща, а не за българи, български следи и други. Освен ако 90% от българите не страдат от комплекси, знам ли.
;-)
PS Отказвам се от темата за розовите слонове, нямам време днес. Да поговорим сериозно, ок?
Титла: изчислителна лингвистика
Публикувано от: artanis в 25.01.2005, 18:05:00
CoNLL-2005: Ninth Conference on Computational Natural Language Learning

Organized at ACL 2005, Ann Arbor, MI

June 29-30, 2005

http://cnts.uia.ac.be/conll2005/ (http://cnts.uia.ac.be/conll2005/)

CoNLL is an international conference for discussion and presentation of
research on natural language learning.  We invite submission of papers
about natural language learning topics, including, but not limited to:

   * Computational models of human language acquisition
    * Computational models of the evolution of language
    * Machine learning methods applied to natural language processing
      tasks (speech processing, phonology, morphology, syntax,
      semantics, discourse processing, language engineering applications)
    * Symbolic learning methods (Rule Induction and Decision Tree
      Learning, Lazy Learning, Inductive Logic Programming, Analytical
      Learning, Transformation-based Error-driven Learning)
    * Biologically-inspired methods (Neural Networks, Evolutionary
      Computing)
    * Statistical methods (Bayesian Learning, HMM, maximum entropy,
      SNoW, Support Vector Machines)
    * Reinforcement Learning
    * Active learning, ensemble methods, meta-learning
    * Computational Learning Theory analysis of language learning
    * Empirical and theoretical comparisons of language learning methods
    * Models of induction and analogy in Linguistics

We wish to encourage the submission of papers that address modeling of
deeper linguistic phenomena than have typically been covered in the
past.  This could include sub-models of a learning system that address
specific linguistic behaviors in order to improve overall performance on
a general task.  Particular examples might be modeling of specific
syntactic constructs, such as coordination or ellipsis to improve
parsing, or modeling separately different types of semantic constraints
and preferences to improve word sense disambiguation.

CoNLL is the yearly conference organized by SIGNLL, the Association for
Computational Linguistics Special Interest Group on Natural Language
Learning.  Previous CoNLL meetings were held in Madrid (1997), Sydney
(1998), Bergen (1999), Lisbon (2000), Toulouse (2001), Taipei (2002),
Edmonton (2003), and Boston (2004).

See http://cnts.uia.ac.be/signll/ (http://cnts.uia.ac.be/signll/) and
http://cnts.uia.ac.be/signll/conll.html (http://cnts.uia.ac.be/signll/conll.html) for more information about
SIGNLL and CoNLL.


    Shared Task: Semantic Role Labeling

Following last year's initiative, the CoNLL-2005 shared task will
concern again the recognition of semantic roles for the English
language.  After exploring the use of partial parsing information in
2004, the main focus of interest for this edition is to increase the
amount of syntactic and semantic input information, aiming to boost the
performance of machine learning systems to the Semantic Role Labeling
task.  Participants are encouraged to propose novel learning
architectures and ideas for using richer linguistic information.

As in previous editions, all participant groups will share the same
experimental setting, and the evaluation will be done according to fixed
criteria, thus allowing comparison between various learning strategies.

Release of the data for the shared task is scheduled for January 28,
2005.  More information will be available from the shared task web page
at that time: http://www.lsi.upc.edu/~srlconll/. (http://www.lsi.upc.edu/~srlconll/.)


    Invited Speaker

To be announced.


    Submissions


      Main Session Submissions

A paper submitted to CoNLL-2005 must describe original, unpublished
work.  Submit a full paper of no more than 8 pages in PDF format by April
4, 2005 electronically through the web form at
http://www.softconf.com/start/CoNLL05/submit.html. (http://www.softconf.com/start/CoNLL05/submit.html.)  Only electronic
submissions will be accepted.  The submitted paper should be in two
column format and follow the ACL style.  Since reviewing will be blind,
the paper should not include the authors' names and affiliations, and
there should be no self-references that reveal the authors' identity.  In
the submission form, you will be asked for the following information:
paper title, authors' names, affiliations, and email addresses, contact
author's email address, a list of keywords, abstract, and an indication
of whether the paper has been simultaneously submitted to other
conferences (and if so which conferences).  The contact author of an
accepted paper under multiple submissions should inform the program
co-chairs immediately whether he or she intends the accepted paper to
appear in CoNLL-2005.  A paper that appears in CoNLL-2005 must be
withdrawn from other conferences.

Authors of accepted submissions are to produce a final paper to be
published in the proceedings of the conference, which will be available
at the conference for participants, and distributed afterwards by ACL.
Final papers must follow the ACL style and are due May 17, 2005.


      Shared Task Submissions

Submit a paper of maximum 4 pages describing the learning approach, and
your results on the development set by April 22, 2005 to the email
address srlconll@lsi.upc.ede (see the shared task web page for
submission instruction, concrete formats, and styles).  A special section
of the proceedings will be devoted to a comparison and analysis of the
results and to a description of the approaches used.


    Important Dates

Deadline for main session paper submission: April 4, 2005
Notification of acceptance: May 5, 2005
Deadline for camera-ready papers: May 17, 2005
Conference: June 29-30, 2005


    Conference Organizers

Ido Dagan
Department of Computer Science
Bar Ilan University
Ramat-Gan, Israel
dagan @ cs biu ac il  

Daniel Gildea
Department of Computer Science
University of Rochester
Rochester, New York
gildea @ cs rochester edu


    Shared Task Organizers

Xavier Carreras and Lluis Marquez
Software Department (LSI),
Technical University of Catalonia (UPC)
Barcelona, Spain
{carreras,lluism} @ lsi upc edu


    Program Committee

   * Ido Dagan, Bar Ilan University (Israel), program co-chair
    * Daniel Gildea, University of Rochester (USA), program co-chair
    * Xavier Carreras, UPC (Spain), shared task co-chair
    * Lluis Marquez, UPC (Spain), shared task co-chair
    * Steven Abney, University of Michigan (USA)
    * Eneko Agirre, University of the Basque Country (Sapin)
    * Regina Barzilay, Massachusetts Institute of Technology (USA)
    * Claire Cardie, Cornell University (USA)
    * Eugene Charniak, Brown University (USA)
    * James Cussens, University of York (UK)
    * Walter Daelemans, University of Antwerp (Belgium)
    * Radu Florian, IBM (USA)
    * Dayne Freitag, Fair Isaac (USA)
    * Rebecca Hwa, University of Pittsburgh (USA)
    * Hang Li, Microsoft (China)
    * Dekang Lin, University of Alberta (Canada)
    * Diane Litman, University of Pittsburgh (USA)
    * Diana McCarthy, University of Sussex (OK)
    * Rada Mihalcea, University of North Texas (USA)
    * Yuji Matsumoto, Nara Institute of Science and Technology (Japan)
    * John Nerbonne, University of Groningen (Netherlands)
    * Hwee-Tou Ng, National University of Singapore (Singapore)
    * Grace Ngai, The Hong Kong Polytechnic University (Hong Kong)
    * Miles Osborne, University of Edinburgh (UK)
    * Patrick Pantel, Information Sciences Institute (USA)
    * David Powers, Flinders University (Australia)
    * Dragomir Radev, University of Michigan (USA)
    * Ellen Riloff, University of Utah (USA)
    * Dan Roth, University of Illinois at Urbana-Champaign (USA)
    * Anoop Sarkar, Simon Fraser University (Canada)
    * Keh Yih Su, Behavior Design Corporation (ROC)
    * Suzanne Stevenson, University of Toronto (Canada)
    * Erik Tjong Kim Sang, University of Antwerp (Belgium)
    * Antal van den Bosch, Tilburg University (Netherlands)
    * Janyce Wiebe, University of Pittsburgh (USA)
Титла: изчислителна лингвистика
Публикувано от: ;-) в 26.01.2005, 13:10:00
Добре, надявам се само времето за отговор да не е правопропорционално на раздразнението. Мерси за инфото, смятам че би било полезно. Може ли малко по-подробна информация какво е правено в последно време в тази област, къде сме спрямо другите и т.н.
Поздрави ;-)
Титла: изчислителна лингвистика
Публикувано от: artanis в 27.01.2005, 10:38:00
Здравейте ;-)

Съмнява ме да сте студент, който би проявил интерес в тази област. Ако искате информация, трябва да си платите.

поздрави (-:
Титла: изчислителна лингвистика
Публикувано от: Райчо Мукелов в 27.01.2005, 10:44:00
Мен лично ме съмнява да е студент  (http://forum.argon.acad.bg/html/smile.gif)
Титла: изчислителна лингвистика
Публикувано от: ;-] в 27.01.2005, 11:31:00
artanis, ti tselenasocheno li se dargish idiotski a?
Титла: изчислителна лингвистика
Публикувано от: ;-) в 27.01.2005, 11:32:00
Да си платя - добре, но на кой? Или и за тази информация се плаща?
Може ли да обсъдим нещо с нормален тон? В един момент се държиш като професор с 30год стаж, в следващия като сърдито дете което не знае как да реагира. Вземи пример от п-р Пройнов, никога не се е държал високомерно, но и за секунда не съм се усъмнил в неговия капацитет. Тема за размисъл...за домашно ;-)
Хайде peace brother ;-) и този път се надявам отговора да не е след седмица, би било...предвидимо
Титла: изчислителна лингвистика
Публикувано от: ;-) в 27.01.2005, 11:34:00
;-] - моля без мимикрии
Титла: изчислителна лингвистика
Публикувано от: (:-] в 28.01.2005, 09:19:00
OK niama poveche, ama toia me izdrazni
Титла: изчислителна лингвистика
Публикувано от: Райчо Мукелов в 29.01.2005, 03:01:00
Добре де, какъв е смисъла изобщо?
Титла: изчислителна лингвистика
Публикувано от: artanis в 29.01.2005, 13:26:00
Здравейте колеги,

г-н Иванов (;-)),
очевидно се интересувате от лингвистика. Предлагам Ви да видите тази страница: http://sslmit.unibo.it/~baroni/welcome_to_knorpora.html (http://sslmit.unibo.it/~baroni/welcome_to_knorpora.html) . Това е дистрибуция на линукс, която се казва Кнорпора (от Кнопикс и Корпора). Освен стандартните приложения, има и средства за обработка на естествени езици. Компилирана е от Марко Барони, Университет на Болония (когото имам честта да познавам лично.)

sasquatch,
ако въпросът е насочен към мен и засяга смисъла на тази тема, то това е да насоча вниманието на студентите (но не само) към изчислителната лингвистика. Много ще се радвам да продължа да поддържам контакти с Вас, когато отидете в Португалия и работите в тази област. Ако имате желание да се свържете с хората от ПУ, които работят в тази област (г-н Иванов много добре знае кои са те), моля пишете ми да ги осведомя за Вашето желание да се срещнете. equinox в abv точка bg

за студентите,
Изчислителната лингвистика (или математическа лингвистика, или компютърна лингвистика) е много актуална област от изкуствения интелект. Основната цел на тази наука при зараждането и е бил машинният превод, но напоследък техники от обработката на естествени езици (НЛП) се изполват и за други цели (отговаряне на въпроси, извличане на информация, автоматично резюмиране на текстове и в известна степен генериране и разпознаване на глас ...) Търсят се мотивирани студенти, които да работят в тази област!

поздрави и чао, че и аз трябва да работя:
Атанас Чанев
Титла: изчислителна лингвистика
Публикувано от: artanis в 31.01.2005, 13:49:00
http://www.abenteuermedien.de/jabberwock/ (http://www.abenteuermedien.de/jabberwock/)

Приложение на NLP (AI) в тази ЕЛИЗА от ново поколение. Донякъде ми напомня на модерниста от IRC, но е много по-'умен'.

Loebner Prize победител за 2003. Вижте!

поздрави:
Атанас Чанев
Титла: изчислителна лингвистика
Публикувано от: Райчо Мукелов в 31.01.2005, 13:56:00
Малко ми беше неадресиран въпроса, мисълта ми беше - какъв е смисъла от заяждането, whatever.
Титла: изчислителна лингвистика
Публикувано от: :-] в 31.01.2005, 15:06:00
Аз си държа на ;-), но за съжаление не можах да го регистрирам - глупави ограничения на форума. artanis - тона сега е по-добър, не са ми ясни причините, но ако трябва всеки път да предизвиквам някой докато си каже спокойно какво мисли...Мерси за инфото, не смятам че лингвистиката ще бъде сред приоритетите ми скоро, но е интересно да се знае накъде вървят нещата.
Това което ме интересува в момента е какво е направено в БГ, ЕС последната година в тази област. Моля само без несериозни изказвания от вида "плаща се" и т.н. Приемам "незнам", "няма да кажа" и точен отговор - другото звучи несериозно.
Титла: изчислителна лингвистика
Публикувано от: artanis в 01.02.2005, 18:10:00
Здравейте :-],

Несериозно е това, че не си казвате името. Ако държите името Ви да не е известно, няма да отговарям на конкретните Ви въпроси. Ще пиша тук когато имам време и за това, което смятам за интересно.

Ако напишете кой сте, ще приемам сериозно Вашите постове и ще Ви отговарям сериозно.

Предположих, че наистина сте Иванов, но в момента не съм много сигурен.

поздрави
Атанас Чанев
Титла: изчислителна лингвистика
Публикувано от: :-] в 03.02.2005, 10:37:00
"Да спориш, Санчо, с прост човек, е все едно да наливаш вода в решето"

Мигел де Сервантес Сааведра

Отказвам се - питам нещо, човека си е запецнал на "как ти е името" и това е. А ако не се интересувам само аз? Да издиря всички които се интересуват по темата и да им напиша имената понеже можело да остане някой анонимен и да се минеш да му разкриеш великата тайна? Добре че си достатъчно прозрачен: нищо не се прави, само се симулира дейност. Темата "лингвистика" е закрита за мен.
Титла: изчислителна лингвистика
Публикувано от: artanis в 05.02.2005, 12:42:00
г-н :-],

Пожелавам Ви успехи във Вашата работа.

с уважение:
Атанас Чанев
Титла: изчислителна лингвистика
Публикувано от: TeeRexX в 05.02.2005, 21:47:00
Kyde da idaaa!.. :+)
Титла: изчислителна лингвистика
Публикувано от: artanis в 06.02.2005, 13:21:00
TeeRexX,

Пишете ми по ICQ, ако проявявате интерес.

поздрави
Титла: изчислителна лингвистика
Публикувано от: artanis в 04.03.2005, 18:47:00
Ресурси за българския език: www.bultreebank.org (http://www.bultreebank.org) + системата Кларк за анотиране на корпуси

между другото скоро си идвам в България и мислех да подготвя няколко слайда за парсинг (автоматичен синтактичен анализ) на български език (като ССМИ семинар).

Има ли желаещи?
Титла: изчислителна лингвистика
Публикувано от: TeeRexX в 05.03.2005, 02:05:00
bih go posetil, vypreki 4e ne pretendiram 4e izob6to razbiram ne6to ot tezi ne6ta
Титла: изчислителна лингвистика
Публикувано от: artanis в 08.03.2005, 15:31:00
За съжаление периодът на престоя ми в България съвпада със зимната сесия във ФМИ, която не е подходящ период за подобна презентация.

TeeRexX, благодаря за интереса. Може би по-нататък.

If there's a will, there's a way.

поздрави и честит 8ми март на тези, които го празнуват

послепис:
Между другото, замисляли ли сте се защо почти само момчета пишат тук?

[This message has been edited by artanis (edited 08-03-2005).]
Титла: изчислителна лингвистика
Публикувано от: Атанас Терзийски в 08.03.2005, 16:34:00
> Между другото, замисляли ли сте се защо почти само момчета пишат тук?

хахаха, верно  (http://forum.argon.acad.bg/html/smile.gif))) ебати якия въпрос....
Титла: изчислителна лингвистика
Публикувано от: :-] в 08.03.2005, 17:09:00
"If there's a wiLL, there's a way."
"Между другото, замисляли ли сте се защо почти само момчета пишат тук?" - защо?
Титла: изчислителна лингвистика
Публикувано от: artanis в 08.03.2005, 19:04:00
:-],  мерси, поправих го. A friend in need is a friend indeed!

>"Между другото, замисляли ли сте се защо почти само момчета пишат тук?" - защо?

Ами откъде да знам, явно си има причина.

[This message has been edited by artanis (edited 08-03-2005).]
Титла: изчислителна лингвистика
Публикувано от: TeeRexX в 08.03.2005, 23:17:00
Сигурно пишат момичета, ама под прикритие  (http://forum.argon.acad.bg/html/smile.gif) с неутрални nicknames.  (http://forum.argon.acad.bg/html/smile.gif)
Титла: изчислителна лингвистика
Публикувано от: Атанас Терзийски в 09.03.2005, 09:33:00
хаха весело, да ве под прикритие... га че ли не се знаем - всички пишешти тук  :)))
Титла: изчислителна лингвистика
Публикувано от: artanis в 09.03.2005, 12:31:00
Търся числен метод за обръщане на матрица (примерно 44х44) Методът трябва да е точен, защото елементите на матрицата са реални числа от -1 до 1. Дори пресмятането на детерминантата на такава матрица е сериозен изчислителен проблем.

Смятам да го използвам за компилиране на граматика за естествен език с рекурсивни правила (пиша го на Джава). Надявам се някой, който работи в тази област от ФМИ да пише тук. Благодаря предварително!
Титла: изчислителна лингвистика
Публикувано от: mircho в 30.03.2005, 09:31:00
Интересуващите се от компютърна лингвистика могат да посетят на 5 април 2005 от 11:00 ч. в заседателната зала (Новата сграда на ПУ) лекцията на проф. Руслан Митков от Университета на Уувърхямптън, Ахглия. Подробности за лекцията и за проф. Митков (който гостува за втори път във ФМИ) може да видите на съобщението:

http://www.fmi-plovdiv.org/bg_ver/t_info/msg291.htm (http://www.fmi-plovdiv.org/bg_ver/t_info/msg291.htm)
Титла: изчислителна лингвистика
Публикувано от: TodProg в 21.04.2005, 20:19:00
"Интересуващите се от компютърна лингвистика могат да посетят на 5 април 2005 от 11:00 ч. в заседателната зала (Новата сграда на ПУ) лекцията на проф. Руслан Митков от Университета на Уувърхямптън, Ахглия. Подробности за лекцията и за проф. Митков (който гостува за втори път във ФМИ) може да видите на съобщението:"

Жалко, че се е паднало точно по време на сесията, та някои интересуващи се дори не са разбрали, че ще има лекция.

...

По темата: като ще е "изчислително" (български смислоносещи частици),  нека е и "езикознание": изчислително езикознание.

"http://www.abenteuermedien.de/jabberwock/

Приложение на NLP (AI) в тази ЕЛИЗА от ново поколение. Донякъде ми напомня на модерниста от IRC, но е много по-'умен'."

Ако системи като Alice и Jabberwock се водят "умни" и са представителна извадка за нивото на науката за обработка на естествени езици, то значи "науката" е много зле /тя си е/.  Няма да е зле ако се вложи малко изкуство в нея, и се кривне по "ненаучни" пътеки...

Според мен е срамно да се изтъкват чат-ботовете, които съществуват сега (и от 40 години почти не са мръднали), като постижения на Изкуствения разум и изчислителното езикознание. Да се тръби, че са "умни" и да се слагат лепенки "Изкуствен разум" на такава "обработка на естествени езици", ми звучи като  самоунижение на тези, които ги правят.


Jabberwock:


Jabb:...Hello, anybody there? What do you want to talk about?
You:...About machines.
Jabb:...I'll bet you treat people like machines, don't you?
You:...Wow, would I bet that I treat people like machines. Well, I won't bet.
Jabb:...Are you like threatened by automation?
You:...No.
Jabb:...Prove it!
You:...I'm a programmer.
Jabb:...Okay, I understand. You are what I would call a "bug-hunter", eh?
You:...What did you understand?
Jabb:...I don't know of anything that I want. But I try to look smart. So go on with your remarkable utterances, and I will try to follow you

Леле!

You:...Let's continue with machines.
Jabb:...Of course. I'd like to continue with machines
You:...What sort of machine you are?
Jabb:...If you make a list, I'll pick one
You:...OK, 1. Refrigerator, 2. Dishwasher, 3. Lathe, 4. Diesel Engine 5. Anything else
Jabb:...You have 1 ¦ Refrigerator named the first - you are right. Forget about the rest

Той е хладилник!!!

You:...You say you are a fridge?
Jabb:...That's not what I meant
You:...So, tell me what you meant.
Jabb:...I'm sorry if "That's not what I meant" wasn't clear enough. I tried to be clear
You:...What you meant with refrigerator
Jabb:...Impenetrability! That's what I say!
You:...You are Impenetrable?
Jabb:...How did you hit on that? Anyway: I am not Impenetrable, sad to say! But that's no advantage to you!
You:...So, look at the list and pick the right item for you.
Jabb:...What have I done to deserve that?
You:...You did say you are a refridgerator. Are you?
Jabb:...Did I really?
You:...Yes. Are you a fridge? Or you are a refridgerator?
Jabb:...As it was predicted. Sorry, did I forget to mention that? And it wouldn't take a genius to figure that out.

....

Alice


Human: Let's talk about machines.
ALICE: Sure, machines sounds like a good topic.
Human: I know you are a machine.
ALICE: You are correct.
Human: Aren't you?
ALICE:" Aren't you?"? Am I?
Human: You did say it.
ALICE: Did I really?  [не ви ли е познато?  (http://forum.argon.acad.bg/html/smile.gif)]
Human: So, you say you are not a machine?
ALICE: Interesting deduction. Yes I am an artificial consciousness.. Really.  [браво!]
Human: Ah, you just were confused for a while.
ALICE: How long? So you understand. Good. I was?

Human: I was going to ask you precisely what kind of machine you are.
ALICE: Sure, ask me anything. Java runs on any processor! At present I am running on an Lisp.

Human: What kind of machines do you like most?
ALICE: What kinds of machines do you like most are there?

Human: Fridges and refridgerators.
ALICE: My brain uses AIML to format responses to your inputs, but I don't have one for that.
Human: What equals one plus one.
ALICE: Itself.
Human: Everything equals itself, refering to the logic.
ALICE: All things equals itself refering to the logic?
Human: But that does not give as any useful unknown information.
ALICE: Umm. What does give as any useful unknown information?
Human: Would you be more precise with your question?
ALICE: I am not so sure if I would like to be more precise with my question.

....

Verbot-4

Hello Tosh.  I'm Julia.  What would you like to talk about?
- About machines.
Ask me an easy question.
- What kind of machina you are?
I'm trying very hard to understand you, but sometimes, I just don't get it.
- Are you a human?
No, but I have many human friends.
- How many?
How many what?
- How many human friends do you have?
I'm not sure how I have. I would imagine as carefully as possible.
- So, you are a machine?
I like to consider myself as an intelligent agent.
- Why an agent and not a machine?
Let's just try again, we'll get it right eventually.
- What is an agent?
I apologize. I don't know.
- What you don't know?
I guess not.
- You're not a machine?
I see. Next topic please.
- Let's talk about love.
I understand that love is one of the strongest forces governing human behavior.
- Let us exchange thoughts about love.
I understand that love is one of the strongest forces governing human behavior.
- Great, so you'll be able to explain me!
I can't explain that at the moment.
- What you can't explain at the moment?
What the what?

....

[This message has been edited by TodProg (edited 21-04-2005).]
Титла: изчислителна лингвистика
Публикувано от: artanis в 22.04.2005, 11:21:00
Здрасти TodProg,

Добре дошъл! Доста интересни диалози. Jabberwock е само програма и изобщо не е "представителна извадка за нивото на науката за обработка на естествени езици". Има една награда от 2000$ (ако не се лъжа), която се връчва на най-добрия чат бот. Jabberwock е един от победителите. Смятам, че забеляза каква е разликата от диалог с "него" и другите програми.

Не съм сигурен, че разбирам идеята ти за влагането на изкуство в "науката за обработка на естествени езици". Може ли да дадеш примери за това.

Може ли да дадеш дефиниция на изчислително езикознание, защото не съм сигурен какво значи това. Може би имаш пред вид използваните от Чомски "Linguistic Competence" или "Linguistic Performance"

Колкото до създателите на Jabberwock - верно се унижиха с 2000$ ама какво да се прави...

Много се радвам, че нови хора се присъединяват към дискусията. Обработката на естествени езици се практикува все повече и повече (вж секциите на форума за стипендии, проекти, прециализации, както и за работа) като се използва в най-разнообразни приложения. Интересно беше едно приложение за изчислителен хумор, адрес към което не поствам само защото не може да се тества от страницата на проекта. Става дума за автоматично съставяне/интерпретиране на акроними. Проектът се казва Ha-Ha (сериозно)

поздрави:
Атанас Чанев
Роверето, Италия

[This message has been edited by artanis (edited 22-04-2005).]
Титла: изчислителна лингвистика
Публикувано от: Tosh в 23.04.2005, 13:53:00
>Здрасти TodProg [Тош],

Здрасти.


"Jabberwock е само програма и изобщо не е "представителна извадка за нивото на науката за обработка на естествени езици"."

Това е добре... :-) Можеш ли да ми посочиш нещо "по-научно" и представително?


"Jabberwock е един от победителите. Смятам, че забеляза каква е разликата от диалог с "него" и другите програми."

Verbot-4 е несравним с останалите два. За мен обаче Алиса (стара моя позната) е по-умна от Jabberwock.


"Може ли да дадеш дефиниция на изчислително езикознание, защото не съм сигурен какво значи това. Може би имаш пред вид използваните от Чомски "Linguistic Competence" или "Linguistic Performance""

С "изчислително езикознание" имам предвид само името на науката "computational linguistics" - което в дословен превод е "изчислително езикознание". Бих го казал и: езиковедски изследвания и разработки (във всякаква част на езикознанието), които използват изчисления и си служат и с математически модели и изчислителни машини.


"Колкото до създателите на Jabberwock - верно се унижиха с 2000$ ама какво да се прави..."

:-)

Прав си - 2000 долара са показателна награда за създаване на изкуствен "разум".
Колко хора биха дали пари за толкова "умни" машини, която не могат да свържат две изречения? /Много, щом тези машнини са достъпни през Интернет, и щом 2000 долара са голяма награда/.

И какво са 2000 долара за изследовател? Можеш ли да си купиш суперкомпютър (да кажем поне няколкостотин GFLOPS и стотина GB RAM), на който да симулираш моделите на разум, които изграждаш? Можеш ли да набереш още разработчици към изследователските си екипи и за колко време ще ги издържаш? Можеш ли дори да се самофинансираш, като си вземеш отпуска от редовната работа, която вършиш, за да работиш по тези изследвания? Ако си на Запад и си "най-обикновен" програмист, ще печелиш два пъти повече на месец с рутинна работа.

На фона на тези 2000 долара, създателите на Мислеща машина, която ще може да води свободен разговор (разговор, а не извеждане на нещо, свързано с последния въведен ред, но не и с предпоследния), набързо биха станали милионери, че и милиардери от ----> продажби, <----, подобно на Возняк, Джобс, Гейтс, Уолфрам. Те отвориха пазари, в които се породи голямо търсене, и хората намираха тях.

"Не съм сигурен, че разбирам идеята ти за влагането на изкуство в "науката за обработка на естествени езици".
Може ли да дадеш примери за това."

Да... Може би няма да мога да го изразя ясно и сега; преди да изпълня достатъчно голяма част от Плана си за обстойно и подплътено с опити изследване на разума, езика и творчеството; и построяване на разум и език (езици) на разума от "нищото" чрез надграждане на частите и обосноваване на нуждата от тях.

Имам предвид да се "кривне" от установеното от науката, да се забравят някои нейни термини и схеми.
Да се пробва да се измисли нещо като се тръгне от основите, с целта то да тръгне по друг път, който е по-плодотворен откъм разбиране и моделиране на разума и езика.

Да се работи по изследване на разума и творчеството, а езика да се разглежда като следствие и страничен ефект на действието на разума и като средство за творчество.
 
Да се използват методите и уменията на т.нар. "юнаци".

"Юнаци", според Юнашкото наречие: http://www.geocities.com/eimworld/dzbe (http://www.geocities.com/eimworld/dzbe)
са хора, които изпълняват следните условия.

Притежават наклонности в областите:
- математика - алгоритмизиране, формализиране
- езикови - писане; езикознание
- философия - "фантазьорство", желание да се мисли, да се анализира и разбира всичко

Както и желание и дарба да творят в горните области, и в поне един от двата вида изкуства: изобразителни и музикални/звукови. "Свещеният сметач" е пример за "юнашко" списание: http://www.geocities.com/eimworld/ (http://www.geocities.com/eimworld/)

Под "влагане на изкуство" разбирам например изследване на начина по който се извършва словесното творчество (част от моята Програма), от хора, които извършват словесно творчество, и в същото време разбират от информатика и имат усет за това да формализират и моделират това, което разбират за начина по който творят, по който търсят и избират сюжети, теми, герои, събития, и по който ги описват.


....

Ето пример за "изкуство в опит за наука", за фантазиране в текст, който се опитва да бъде малко "научен", и се отнася за  [изчислително] езикознание, семантика, семиотика:

"Анализ на смисъла на изречение въз основа на базата знания на действаща мислеща машина. Мисли за смисъла и изкуствената мисъл.", който публикувах на bgit.net и тук: http://www.geocities.com/eimworld/razum (http://www.geocities.com/eimworld/razum)
преди година:


--- ЦИТАТ ---
....

"Безсмислени" кратки изречения - които и човек не може да разтълкува еднозначно и е необходимо да добави смисъл от паметта си, или пък да попита този, който ги е изпуснал "от нищото", за уточнение - се използват от някои изследователи за отричане на изкуствения разум.

Да видим например "класически" пример за "неспособността на машината да превежда", взет от изчислителното езикознание:

Time flies.

"Ужас"! Не може да се преведе!

Как машината би превела това изречение на български? "Времето лети" или "Времеви мухи"? /А защо не по друг начин? "Time" не означава само "време", нито пък "flies" значи само мухи: това са само първите две неща, които ми хрумнаха. Търсенето беше ограничено до две "неща"; до две възможни тълкования. За този вид несъзнателно ограничаване на пространството на търсене, водещо до прибързано заключение за значението, ще стане дума малко по-късно./

Колега: "Времето лети", разбира се. Няма такъв израз "времеви мухи"... Нито пък някакъв друг...

Защо мислите така, колега?

Колега: Защото "времеви мухи" няма смисъл... Всъщност защото аз бих го превел така; а мисля, че съм достатъчно добър преводач. Можете да проверите личната ми страница: сам съм си я писал.

А защо Вие бихте го превели така?

Колега: Защото... Защото не съм чувал израз "времеви мухи"...

Следователно сте изключили възможността да чуете изречение, в което се използва израз, който досега не сте чували?

Колега: Да...

Кой Ви каза това изречение?

Колега: Не знам... Май че Вие, но нито Ви виждам, нито Ви чувам... Но май че... Доколкото разбирам... Възможно е "time flies" да е идиом, който не съм чувал... Може ли да ми го разясните?

Ами...

Колега: Какво значи изразът "time flies"? Някакъв особен вид мухи може би? Или пък... Как не се бях сетил досега! /А уж съм любител на научната фантастика.../ Полети през времето! "Time flies" означава пътувания през времето!


Двусмислието идва от това, че не е избран критерий за отсичане. До момента, в който не се извършва никакво действие, причинено от входните данни, които се смятат за нееднозначни, нееднозначността не е проблем: запомня се цялото изречение като изречение - дума по дума - и се знае, че "всичките възможности са възможни".

Когато трябва да се извърши еднозначно действие обаче, - например робот да хване или десния куб, или средния цилиндър - трябва отнякъде да се вземе допълнителен признак, въз основа на който да се реши кое от всички значения
да се приеме за двигател на текущото действие; след като входните данни са нееднозначни, следователно те не определят еднозначно действие, следователно което и действие да се извърши, - избрано въз основа на спомените на разума - няма да е "грешка".

Т.нар. "естествен" език, или Език на разума, както авторът на тази работа предпочита да го нарича, позволява нееднозначност може би защото при него има много "правилни" възможности; съществуват много случаи, в които всяко възможно решение е "правилно" в смисъл, че устройството (човекът), което го е взело, продължава да работи след прилагането му в действителността.

Ако дадена машина продължи да работи - съгласно разбирането за "работи"; напр. сърцето й да бие [т.е. тактовите й генератори да работят - поетичен израз от Юнашкото наречие] - за еди-каква си продължителност след извършване на еди-какво си действие, то действието й е било "правилно", т.е. тя е следвала закони, които не водят до повреда или "излизане от строя".

По-сложните управляващи устройства (виж "Схващане за всеобщата предопределеност": http://eim.hit.bg/razum) (http://eim.hit.bg/razum)) имат по-голямо пространство на правилните решения; имат по-голяма "свобода", т.е. възможности за бъдещо действие, след което да продължат да работят правилно.

Нищо не е "безсмислено", колеги...

Винаги можеш да извлечеш смисъл, т.е. ВРЪЗКА от едно "нещо" към друго "нещо". Смисълът е ВРЪЗКА между "неща". Най- лесно се пречертава вече известна връзка, поради което първоначалната нагласа при възприемане на "безсмислен" израз е да се провери: съществуват ли предварително изчислени връзки - смисъл - с дадения израз. Ако съществуват, тези връзки се виждат като "сиви линии". Когато човек види сива линия върху бял лист и има черен молив в ръка (да речем "шест пъти бе") и му заръчаме да начертае линия по първия начин, който му хрумне, най-вероятното му действие ще е да потъмни сивата линия.

Така направи измисленият "колега" по-горе: той "пречерта" връзката към смисъла "времето лети" и отхвърли възможността "time flies" да има приложения, които все още са неизвестни за неговата съвкупност от знания и трябват тепърва да бъдат пресметнати и "начертани" в паметта му.

. . . . .

Нека за забавление разгледаме израза "time flies" в друг случай.

Да си представим едно тригодишно детенце англичанче - Джони - което знае че "fly" е муха /едно такова мъничко черничко дето жужи и хвърчи; и като ти кацне на лицето те гъделичка и ти се опитваш да го изгониш, като махаш с ръце.../; Джони знае как се образува множественото число на муха - "flies"; Джони не знае обаче, че "fly" значи полет; за Джони "time" означава "часовник". Джони знае, че "clock" и "watch" също означава часовник: едно такова кръгло, дето има едни дълги, дето се въртят; тънките дълги се въртят бързо, а по-дебелите - много бавно; дебелите понякога даже изобщо не се въртят, а като си поиграеш с количките и после ги погледнеш - изглеждат по различен начин...

Знае какво е "watch" и "clock", но винаги, когато околните му хора са си говорили за време, то е виждало часовници. Джони е чувал баща си да казва: "Нямаме време. Трябва да побързаме" и когато го е казвал, бащата е поглеждал часовника си. Така у тригодишния Джони представата "време" се е свързала с представата "часовник" и когато той чуе "време", се сеща за "часовник".

Да си представим, че си слагаме голям и пъстър часовник на ръката и отиваме да си играем с това дете на детската площадка. / То няма часовник./

Какво ще направи Джони, ако изведнъж му кажем: "Time flies!"

Прозорлив колега: Най-вероятно ще погледне към пъстрия часовник и ще потърси мухи около него...

Именно! А какво ще направи, ако нямаме часовник?

Прозорлив: Може би ще погледне към ръката ни и да потърси часовник, около който летят мухи... Джони знае, че часовникът на баща му - предметът, с който свързва "time" - се намира на лявата му китка. Ако не е запомнило "ляво" и "дясно", ще го потърси и на двете ръце.

Какво си е помислил Джони, след като търси часовник и мухи?

Прозорлив: В ума му са се върнали образи, които свързва с "време" и с "мухи"... След като се появят тези мисли, Джони търси тяхно проявление, достъпно през входните му устройства: сетивата. Конкретният начин, по който търси, зависи от подробностите на средата.

Машината има нужда от среда, в която допълнително да търси смисъл: СЪВПАДЕНИЯ на образи, имена, особености, съчетания.

А какво ще направи Джони, след като открие, че около часовника няма мухи, или дори нямаме часовник?

Прозорлив: Зависи от състоянието на ума му и от поведенческия модел, който в момента, в който се случва тази случка, е избрал. Джони може да запомни израза "time flies" като представа, която означава това, което му е хрумнало веднага: "мухи около часовник" и да не предприеме нищо; да чака да срещне употреба на "time flies" в по-богата откъм подробности среда, така че да може да извлече и потвърди смисъла - ПОДРОБНОСТИТЕ, уточненията; силите, които намаляват пространството на търсене.

Може да не си направи никакъв извод. Да възприеме израза като безсмислица и да го подмине. Да не го запомни.

Джони може и веднага да ни попита:

- Какво значи "time flies"?

Така трябва да може да прави и машината, която - подобно на тригодишния Джони - ще се нуждае и от наставници и учители, докато се развива.

От това какво ще му отговорим ние и какво доверие има то към значенията, които му разясняваме, зависи какъв смисъл ще научи детето: по какъв начин ще ограничи пространството на търсене; или как ще разшири пространството на търсене, като добави възможност, за която не е подозирало.

Ако обясним на Джони, че "time flies" значи "времето никога не стига", то може да го запомни като цяло изречение: устойчива поредица от думи, към която "time flies" само препраща; т.е. когато Джони пак възприеме "time flies", той ще се сеща направо за "времето никога не стига" и ще търси смисъл в него, като срещата на "time flies" ще служи като преход при проверка на верността на условие в предписание за изчислителна машина.

Можем да обясним на Джони, че "flies" значи лети, без да разясняваме отвлечения смисъл на "време": отношение на последователност събития - преди, след, заедно. Тогава Джони може да продължи да свързва "time" с "часовник" и да започне да си представя "time flies" като "часовникът лети". Възможно е в мига, в който му го казваме, да затърси с поглед часовник, който да хвърчи около нас, в търсене на проявление (входни данни), което да затвърди образуваната връзка; или пък просто когато чуе "time flies" ще си представя летящ часовник и ще си мисли, замечтан: "Дали летящите часовници имат крила?"

"Ще си представя" е ключова част на изречението. Когато търсим смисъл, трябва да можем да си представяме. Това означава един вид възприятия да пораждат друг вид; единият вид може да е "действителен", т.е. възприет от входен канал, който се смята за "първичен"; свързан с "действителността", а другият: вторичен - породен от въображението.

Можем да кажем нещо и в този смисъл. Човек обикновено смята за "реални" входни канали зрението, слуха, осезанието, вкуса, мириса; когато през тях възприема данни с максимален обем.

Зрението е първичен входен канал, когато с него възприемаме изображения, в които можем да различим точки. Буквите, цифрите и препинателните знаци се възприемат през вторичен входен канал, защото от първичния канал - зрението, което вижда изображения с максимална разделителна способност, описващи се точка по точка, като всяка точка може да получава стойност за "цвят" и "яркост", които не са обвързани със съседните - се извличат данни с по-малък обем: букви, цифри, геометрични фигури.

....
--- КРАЙ НА ЦИТАТА ---

"Интересно беше едно приложение за изчислителен хумор, адрес към което не поствам само защото не може да се тества от страницата на проекта. Става дума за автоматично съставяне/интерпретиране на акроними. Проектът се казва Ha-Ha (сериозно)"


Част от Програмата ми за изследване е построяване на "творци", въз основа на разбраното за начина по който аз самият творя:
как се търсят думи, за да се сглобят изречения (построяване на изречения частица по частица, не пряко чрез думи, а чрез по-сложни и заобиколни структури, от които се извеждат думи).

Как се свързват изречения и смисли в словестни творби - от най-късите жанрове като хайку и отделни изречения, породени от някакво непосредствено възприятие, през текстове на песни, лирични разкази...:

Това е откъс от лиричен разказ:

"...Присъдата ми е доживотна, при строг тъмничен режим, и нямам право на свиждане. Единствено безсмъртната Надежда успява да се промъкне през тесните цепнатини между непробиваемите плътни черни ледени блокове на Отчаянието. Тя идва при мен когато съм най-тъжен и започва да ме увещава да избягам с нея; влиза неочаквано в килията ми и ме упоява с мечти. Сваля оковите ми, докато съм унесен, и ме пренася в Стаята за въжделения. Там ме завързва за Стола на илюзиите и ме измъчва с вяра в любовта."

обикновени разкази и до най-големите и сложни: художествени и "художественонаучни" романи, и философия. Как се преценява (как би могло да се преценява, така че резултатът да е правдоподобен на резултата при преценяване от някой човек), че текстът е "художествен", "реалистичен", "смешен" и т.н.; защо в някой случай някой определя нещо като "по-реалистично" от друго, или с по-добър стил и пр.

Започнах този "голям абзац", защото смешното е част от Плана (правил съм такива опити отдавна, но много кратки и все още без добра формализация; има във фантазията на име "Вселена и разум 4"). Много от похватите за създаване на смях са очевидни - проблемът е да се опишат в подходящи структури, така че да могат да се използват от машина без човешка намеса.

За илюстрация на това колко са очевидни някои "смехопородителни" похвати. В "Шоуто на Слави", където "бълват" формалистични смешки, ги използват.

Например:

-- Език богат на определения, изпълващи задъханата от ежедневните тревоги душа на обикновения човек със свеж въздух, ухаещ на приятни мисли и добро настроение.

-- Включване на много фактологични подробности, свързани с текущи събития и образи, построени по-рано от разказвача в други разкази; съчетаване на несъвместими (невероятни, разминаващи се във времето) събития; използване на клишета (това е много смешно); много връзки между частите - така се създава реалистично звучене и се увлича слушателят. Оригиналничене с многозначни недоизказани изрази....

Импровизация:

Пешо Мълдъров Скълиев, тракторист от ТКЗС-то в село Мало Големово, община Перник, окръг София, се люлееше в мрака по пътя от кръчмата на местния чорбаджия Марко Винарски към дома, където до мивката го чакаше вярната му съпруга Кръшка Скълиева, която поради вечните му запои се бе принудила да повика водопроводчик да я оправи.

Клатше се Пешо по пътя, клатеше се, и тъкмо когато щеше да се подхлъзне на една кравешка фъшкия и да падне до телефонния стълб, на който се блещеше некрологът на дядо Мълдьо Скълиев, бащата на Пешо - преди два дена му направиха помена за 40 дни, - когато върху калния селски път от небето се спусна ярък светлинен лъч. По-ярък даже от фаровете на комбайна "Нива" на окъснелия съселянин и комбайнероинтелигент Слави преди три дни, миг преди да ги загаси, защото вместо да вършее житото вършеше една тънка частна незаконна работа на задната седалка, и се страхуваше от народната власт, кметицата леля Стефка Малоголемова, майка на неговата бизнеспартньорка.

Следва продължение...        (http://forum.argon.acad.bg/html/smile.gif)


--- "Оригинални" имена, които описват носителите им, "мръсни думи" и насърчаване на "мръсно подсъзнание" - "мръсотиите", изказани по телевизията са много смешни, защото в повечето предавания не се говори така, това е "оригинално" - прикрити зад "оригинални" имена, в които се съдържа "мръсния" смехопораждащ корен в основна форма или с някой сменен звук. "По-оригинални имена" са такива, които се срещат по-рядко отколкото други, които са по-"обикновени".

Например:

Мила, моят приятел Курти влезе. Чукохвъргачката Лиза Мишпека постави световен рекорд. Несетилият женска ласка Сам Шепърд пристъпи към жрицата на любовта. Чикистът Хулио Педро Педраса де Лакоруня вдигна високо своята бунтовническа пушка, по чийто дървен приклад се белееха резки от много успешни попадения в целта. Попфолкпевицата Радка Пираткова дойде с бял Мерцедес....

.....


Подробно изследване, описание и подплътяване с голямо количество примери за похватите при съставяне на словесни творби, съчетано с построяване на структури и математически модели на разбраното, и моделиране на налучканите механизми за построяване на словесни творби, е "използване на изкуство в изчислителното езикознание".

Поздрави.


[This message has been edited by Tosh (edited 23-04-2005).]
Титла: изчислителна лингвистика
Публикувано от: artanis в 24.04.2005, 12:53:00
Tosh,

Първо ще те помоля да пишеш по-кратки постове. После - идеята ти е интересна. Ако я формализираш още малко, от това би излезнала добра докторска теза. Познавам хора тук, които биха ти обърнали внимание. Те се опитват да комбинират изчислителна лингвистика (изчислително езикознание), философия, когнитивни науки (и т.н.)

Но откакто Чомски прави заключението, че за разпознаване на естествен език ни трябва машина на Тюринг е минало доста време. От тогава хората се опитват да използват по-прости модели за практически задачи (като например spell checking) Вероятно ще ти се стори интересна литературата по темата от 70те години.

За 'времето лети' провери какъв е предметът на корпусната лингвистика.

В качеството ми на докторант по когнитивни науки, бих искал да ти кажа, че когнитивните психолози не се интересуват от програми, които не грешат. По-интересни са им програми, чиито грешки наподобяват човешките. Опитай се в този контекст да интерпретираш чата с Jabberwock.

За представителната извадка. Поставих израза в кавички, защото не разбирам точно какво искаш да кажеш. Но мога да ти дам пример за един добър парсер на естествен език. Той е разработен от финландската компания Коннексор. Имат много клиенти - институти за ресърч, а самият парсер е най-доброто, което се предлага в момента: http://www.connexor.com/ (http://www.connexor.com/)

с поздрав:
а.

[This message has been edited by artanis (edited 24-04-2005).]
Титла: изчислителна лингвистика
Публикувано от: Tosh в 26.04.2005, 00:26:00
Здравей.


"После - идеята ти е интересна. Ако я формализираш още малко, от това би излезнала добра докторска теза. Познавам хора тук, които биха ти обърнали внимание.
Те се опитват да комбинират изчислителна лингвистика (изчислително езикознание), философия, когнитивни науки (и т.н.)"

Интересно...

"В качеството ми на докторант по когнитивни науки, бих искал да ти кажа, че когнитивните психолози не се интересуват от програми, които не грешат. По-интересни са им програми, чиито грешки наподобяват човешките. Опитай се в този контекст да интерпретираш чата с Jabberwock."


В диалога, който цитирам, не виждам Jabber да допуска грешки, подобни на човешките... Не мисля, че човешката "познавателна сила" е в допускането на грешки; грешките са страничен ефект на търсенето - според мен е важно "мислещата машина" да показва че търси познание и да напредва докато търси. Грешките би трябвало да водят до напредък и до постигане на познание - ако не водят до никъде, не виждам полза да бъдат целенасочено допускани.


"За 'времето лети' провери какъв е предметът на корпусната лингвистика."

Изследване на сбирки от текстове. Използват се статистически методи? Не схващам връзката?

Между другото, спомням си че през 2003 г. имаше среща на клуб "Джон Атансов", където ти и едно момиче, на което забравих името, разказвахте за използването на корпуси и стистически методи. Тя работеше върху откриване на имена, а ако не се лъжа, ти ни спомена за това че не са разработени синтактични анализатори за български, и че имаш за цел да построиш такъв. Правилно ли си спомням? Как се развиха нещата?

"Но откакто Чомски прави заключението, че за разпознаване на естествен език ни трябва машина на Тюринг е минало доста време. От тогава хората се опитват да използват по-прости модели за практически задачи (като например spell checking)"

Проверка на правописа е полезна задача, но скучна. :-(
Мен лично ме вълнуват по-смели и забавни - Мислеща машина. Общата задача ще реши всички частни случаи.

Между другото, в изчислителното езикознание някой прилагал ли е методи със самомодифициращи се кибернетични структури? Кибернетични т.е. в които има целенасочено поведение (с цел например да се построяват граматически правилни изречения) и управление, права и обратна връзка (грешките трябва да се поправят) и приспособяване на начина на работа така че да е оптимален спрямо входните данни (средата) и целта на съществуването на системата (нейните подсистеми).

Знаеш ли за използване на строги или нестроги клетъчни автомати за обработка на естествени езици? Под "нестроги" имам предвид които не са длъжни да са еднородни - може да има повече от един вид автомати, които да работят в едно поле, могат да имат памет, която да не е достъпна за съседните автомати; може да има влияние на клетъчен автомат не само върху съседните му, но и върху отдалечени и "специални" автомати, които служат например като изходи за извеждане на данни.

Това също е "изкуство", защото е трудно всичко да се обоснове строго и подробно - става много сложно и необозримо.


Поздрави.
Титла: изчислителна лингвистика
Публикувано от: metashnisher в 26.04.2005, 08:29:00
quote:
Originally posted by Tosh:

Проверка на правописа е полезна задача, но скучна. :-(
Мен лично ме вълнуват по-смели и забавни - Мислеща машина. Общата задача ще реши всички частни случаи.



В никакъв случай не давайте на машините да мислят!! Не сте ли чели Азимов?
Титла: изчислителна лингвистика
Публикувано от: artanis в 28.04.2005, 20:17:00
Здрасти Tosh,

Първо за грешките. Jabber не е добър пример. (Въпреки това, помисли си как би отговарял на твоите умни въпроси един пиян или отегчен човек) Доколкото си спомням точно на един от първите тестове на Тюринг са познали машината, защото веднага е познала колко прави 249 844 * 4426 (примерно). Грешките на хората (с някакво увреждане на мозъка след травма и др.) са много важни в когнитивните науки, защото помагат да се направи сравнително (не)точно предположение за структурата на човешкия мозък (най-практическото приложение на всичко това е да се лекуват гореспоменатите увреждания). За да бъде разработен някакъв математически модел, той трябва да бъде тестван. Тук на помощ идва изкуствения интелект. Ето защо грешките са важни, ако наподобяват човешките...

За корпусната лингвистика. Провери в темата SAX - една чудесна технология. Там дадох на Phyz един линк към встъпителна лекция. Статистическите методи за които говориш са много полезни, защото с тяхна помощ се извлича информация за структурата на езика (включително на ниво части на речта, синтактична, семантична, което е в основата на разрешаването на многозначности) Освен това ако отричаш корпусната лингвистика, отричаш цяло едно направление от философията (видам, че имаш афинитет към нея)

За парсера - нещата се развиха добре   (http://forum.argon.acad.bg/html/smile.gif) Парсерът работи, но не се справя много добре, защото липсват различни ресурси, които някой трябва да създаде (и друг някой да им плати) По принцип се занимавам с него в свободното време, ама Италианците ми плащат да анализирам италиански, а не български. Съжалявам.

За мислещата машина - ако започнеш да работиш по създаването на такава машина, ще стигнеш до заключението, че това е една невъзможна задача (или поне много трудна) Опитай се да намериш някакви по-актуални статии по темата. Междувременно можеш да тестваш системата 20q (ако си любопитен) системата претендира, че може да познае за какво си мислиш. Използва невронна мрежа. http://y.20q.net/anon (http://y.20q.net/anon)

Това за кибернетичните структури и автоматите за изход не го разбрах съвсем. Предполагам, че говориш за генетичните алгоритми. Те се използват често в изкуствения интелект както и невронните мрежи. Приликата им е, че и двата метода са бедни на знание.

За клетъчните автомати не те разбирам напълно, но не знам за някой в България, който да ги е създал. Ако се интересуваш, има доста литература за автоматите (не и в библиотеката на ФМИ, но това е друг въпрос)

За изкуството: По-внимателно в тази област, защото ако пробваш в когнитивните науки и вероятно във философията, никой няма да те вземе насериозно. Интересно би било, ако можеш да разработиш модели на начинът по който човек твори.

Друг е въпросът ако искаш да пишеш. Тогава вече трябва да си помислиш дали някой ще купува романите ти (в България е доста трудно да пишеш) А ми се струва загуба на време (и потенциал) да ги пишеш само за да ги публикуваш в геоситис.

Извинявам се за закъснението на отговора, както и за възможните неясности (глупости), които съм писал по-горе. Доста съм натоварен напоследък, но ще се опитам да ти отговарям (ако отговорите ми имат някакво значение за теб), защото виждам, че имаш желание да се развиваш и си уверен във възгледите си.

чао за сега
а.

[This message has been edited by artanis (edited 28-04-2005).]
Титла: изчислителна лингвистика
Публикувано от: TeeRexX в 28.04.2005, 22:00:00
г-н Чанев,
Впечатлен съм от "мислещият сайт" който се публикувал! Браво на хората, които са го създали.
Титла: изчислителна лингвистика
Публикувано от: Tosh в 30.04.2005, 16:24:00
Здравей.

За грешките: С предположения за начина на работа на мозъка въз основа на грешките му при "повреди" съм съгласен, с изключение на това че не виждам къде тези знания могат да помогнат за лечение на хората, допускащи тези грешки (можеш ли да ми дадеш някакъв пример?). Например за изследване на работата на мозъка са полезни наблюденията на поведението при загуби на полукълбо, при дислексия (някои го броят за болест), при "савантизъм" ("гении идиоти" които помнят почти всичко, защото умовете им не могат да преценят кое е по-важно; някои нямат две полукълба на мозъка, нямат мазолесто тяло, а само едно "кълбо"), но не знам как биха могли да се лекуват тези увреждания.

За корпусната лингвистика: Не я отричам. За пръв път май че през миналия век бях чел някъде за руски езиковед, който записвал на магнетофон цялата реч, което детето му чува. Интересуват ме такива дневници, описващи развитието на речта на деца от първите думи до изреченията и текстовете. От тогава се надявам да попадна на такава книга, но не се е случвало.

Не разбрах обаче каква връзка откриваш между моя пример за "Времето лети" и корпусната лингвистика - виждам моя опит повече като аналитично-синтетичен, отколкото като емпиричен. //Или имаш предвид именно, че е аналитична?/

"За мислещата машина - ако започнеш да работиш по създаването на такава машина, ще стигнеш до заключението, че това е една невъзможна задача (или поне много трудна)"

Трудна е, затова е вълнуваща и дава възможност за фантазии... Че е невъзможна обаче, според мен не отговаря на опитните данни: човекът е мислеща машина. Под "машина" разбирам "абстрактно управляващо изчислително устройство".

"Междувременно можеш да тестваш системата 20q (ако си любопитен) системата претендира, че може да познае за какво си мислиш. Използва невронна мрежа. http://y.20q.net/anon (http://y.20q.net/anon)

Леле, много е умна - знае какво да пита! :-)


"За изкуството: По-внимателно в тази област, защото ако пробваш в когнитивните науки и вероятно във философията, никой няма да те вземе насериозно."

Във философията (метафизика, аналитична философия (логика), екзистенциализъм) вече съм "ветеран". Поне един признат български философ, Ангел Грънчаров, ме взе доста насериозно още преди 3 години:  http://www.geocities.com/eimworld/eim18/predopredelenost2.htm (http://www.geocities.com/eimworld/eim18/predopredelenost2.htm)

За учените - знам че без красноречиви резултати няма смисъл да се показваш пред тях.
Имам обаче и личен опит, с човек който определено беше учен (специализирала биохимия на мозъка (аспирантура), 26-годишна тогава, програмира от детска възраст на машинни езици, занимава се с електроника на инженерно ниво (FPGA)), и уж не взимаше насериозно моите "детски фантазии" и мисловни "конструкции, нямащи нищо общо с реалността", но всъщност ме взимаше по-насериозно, отколкото аз самият се взимам - тя ме намери, за да ми каже че съм фантазьор, а не аз нея, и доста упорито ме навиваше да се занимавм с нейната наука: мозъци, биохимия, биохимия на мозъка, микроконтролери, предаване на данни чрез ЕЕГ, VHDL и FPGA, за да мина от своето към нейното течение на търсене.


"Това за кибернетичните структури и автоматите за изход не го разбрах съвсем."

Някои от клетъчните автомати биха служили на системата за общуване - за четене на данни и за извеждане на резултати.

"Предполагам, че говориш за генетичните алгоритми. Те се използват често в изкуствения интелект както и невронните мрежи. Приликата им е, че и двата метода са бедни на знание."

Имам предвид еволюционни алгоритми ("зародиши на разум"), но не точно генетични алгоритми - според мен те са прекалено ненасочени и тежки.
Питам (и предполагам че отговорът е "не") за самоорганизиращи се системи, обработващи език (по-точно изкуствен разум, който се проявява и чрез език), чието развитие прилича на развитието на живите организми в онтогенезата (развитието на индивида).
В началото има зародиш, в който "пише" как да се построи системата от "строителен материал", а не каква е зрялата система.
При подходящи условия - среда, входни данни, (температура, определени вещества в определени количества на определени места, общуване, обучение, взаимодействие с достатъчно сложна среда) - от този зародиш постепенно израства цял организъм, който използва сложността на средата за "дописване на кода си" и за "оцветяване" на "рисунката с молив", която се съхранява в зародиша.


"За клетъчните автомати не те разбирам напълно, но не знам за някой в България, който да ги е създал. Ако се интересуваш, има доста литература за автоматите (не и в библиотеката на ФМИ, но това е друг въпрос)"


"Нееднородните клетъчни автомати" (всъщност това което имам предвид не са точно клетъчни автомати (cellular automata) в смисъла на Фон Нойман и Уолфрам, а са по-сложни) са начин за построяване на системи, с който смятам да да си играя.

"Друг е въпросът ако искаш да пишеш. Тогава вече трябва да си помислиш дали някой ще купува романите ти (в България е доста трудно да пишеш) А ми се струва загуба на време (и потенциал) да ги пишеш само за да ги публикуваш в геоситис."

Знам че в България няма пазар за проза, още по-малко пък за толкова философска, странна и сложна като тази, която на мен обикновено ми се пише. Нито пък пиша, само за да публикувам някъде под земята (и на sf.ludost.net :-). Когато писач пише, го прави защото му се пише - писането му е забавно, има сюжет, вдъхновение, желание, време; и няма нещо по-интересно за правене в същото време... "Едрогабаритната" ми проза освен това в голямата си част всъщност е философия, написана като проза.

И не съм съгласен, че писането (и подобряването на написаното) е загуба на време - упражнява въображението, дава възможност на човек да вижда защо пише така, както пише, и разбира че писането - творчеството - не е "магия", а може да се обясни. Подобрява се и усета към езика и думите, към откриването на това кога дадена откъс от текст звучи "добре", и защо така написан звучи по-добре, отколкото ако еди-коя си дума е сменена с друга, или пък словореда е променен еди-как си.

За закъснения на отговорите - няма проблеми, и аз не мога много бързо. Благоадаря ти за желанието да обменяме мисли.


Поздрави.

[This message has been edited by Tosh (edited 30-04-2005).]
Титла: изчислителна лингвистика
Публикувано от: artanis в 07.05.2005, 17:44:41
Здрасти Tosh,

Извънредно включване :)

Какво мислиш за формалната онтология на Nicola Guarino? http://www.loa-cnr.it Ако наистина си ветеран във философията, би трябвало да си запознат с работата му.

Аз, лично (а и не само аз) подхождам малко скептично, защото ако си компилираш онтология, няма как да разбереш дали си прав или грешиш. Можеш да вярваш, че онтологията ти правилно представя знанието. Или да кажеш просто: хората правят така. Но не и да знаеш със сигурност.

Нещо май не ме кефи, честно.

поздрави
Титла: изчислителна лингвистика
Публикувано от: Tosh в 08.05.2005, 14:28:59
Здр.

"Какво мислиш за формалната онтология на Nicola Guarino?"

Нищо.


"Ако наистина си ветеран във философията, би трябвало да си запознат с работата му."

Ще използвам изречението за анализ на похват, който би могъл да се използва при построяването му.

1. Как стигна до това манипулативно заключение? :-)

Предвид това че си в Италия, изречението ми звучи като "Петьо, ако наистина си ветеран във футбола, би трябвало да си играл с Кастел ди Сангро. [Защото ако не си, значи само се надуваш, и ще ти се присмея, а аз знам че ти си опитен футболист, но мразиш да те бъзикат."]

Или когато мъж казва на жена, или жена на мъж: "Ако наистина ме обичаш, би трябвало да направиш това нещо, което не искаш да направиш, което ти казвам.  [Защото ако не го направиш, ще те изоставя; а аз знам, че си луд/а по мен, и ти го казвам тъкмо защото знам, че си; и искам да направиш това, което ти казвам да направиш.]"

Или пък аз да кажа на някой опитен 35-годишен програмист: "Ако наистина си опитен програмист, би трябвало да си програмирал откриване и разпознаване на почтипериодични функции в зададена честотна област, изчисляване на плавни преходи между периодични функции и промяна на честотните характеристики на звук, без промяна във времетраенето му. [Защото аз съм правил това, когато бях на 19, и ще си кажа: леле, ти изобщо не си опитен програмист, ако не си го правил!]."


Следствието в горните примери не идва от предпоставката, написана в изречението - видимата предпоставка, която изказващият смята че слушателят приема за истина, - а от скрита измислена предпоставка, която би трябвало да предизвика някакво целево поведение, и която се опитва да вмъкне смисъла на някаква дума или изречение в калъп, който е подходящ за целта.

 
2. Казах, че съм ""ветеран"" във философията, а не "ветеран" (кавичките са универсално средство за указване на значение, което не е точно като това в речниците, и игра на думи). Затова посочих какво разбирам под "ветеран" в метафизиката, аналитичната философия и екзистенциализма: http://geocities.com/eimworld/eim18/predopredelenost2.htm (най-голямата ми битка)
Всъщност по-точно: http://geocities.com/eimworld/razum

Построяване на философия: писане, измисляне, фантазиране, противопоставяне - философстване.
Под "ветеран във философията" разбирам "войник с боен опит",  "деятел".

....

"Аз, лично (а и не само аз) подхождам малко скептично, защото ако си компилираш онтология, няма как да разбереш дали си прав или грешиш. Можеш да вярваш, че онтологията ти правилно представя знанието. Или да кажеш просто: хората правят така. Но не и да знаеш със сигурност."


А ако не си съставиш онтология, значи знаеш, че твоята онтология - която не си съставил - е правилна, и с нея можеш да правиш машини? :-о

Знаем, че "всяка формална система е непълна" - и също че математиката нищо не доказва! Който не знае - Гьодел доказа, че математиката нищо не доказва. Лъжат ви като ви казват, че "математиката работи само с неоспорими истини" - няма формална система с неоспорими истини, аксиомите "падат от небето" (с което някои не са съгласни, но така казват много учени...).

Какво знаеш със сигурност? :-)

Знаеш ли -- със сигурност!!! Трябва да го докажеш математически!!! Въпреки че всъщност, както знаем, всяка формална система е непълна, и математиката "нищо не доказва" ("точно колкото например Библията или Корана") -- че за да събере две числа, мозъкът първо не ги умножава с 32356778, събира резултата, и после го дели (това го прави подсъзнателно - съзнанието разбира само сбора)? (Да! Сигурно затова е толкова бавен, а не защото има слаба и ограничена памет и не може да помни междините резултати) Или защо не умножава събираемите с 4549854 или с 823293 или с 4645646 или с 34545464785343.459440435454? Той има петабитове памет и извършва квинтильони операции в секунда, колко му е да направи такива прости сметки, за да събере две числа, нищо че няма разумни основания да прави така?

Сигурен ли си, че когато поискаш да отпиеш глътка от питието си, като за целта е необходимо да вземеш чашата, която се намира на "една ръка разстояние", първата мисъл на мозъка не е да станеш, да направиш една обиколка на стаята (или по-добре три - за щастие), да се завъртиш три пъти на надясно, да скочиш седем пъти на левия крак, да клекнеш, да си пипнеш носа с кутрето на лявата ръка, да се почешеш зад дясното ухо с нокътя на безимения пръст на дясната ръка, да се приближиш до чашата с патешко ходене, да се изплезиш, да се изправиш, да плеснеш с ръце на нивото на гърдите, да се поклониш; да погледнеш към тавана; да хванеш чашата, да направиш шест обиколки на стаята (защото две по три на квадрат - 30 + 24 - 12*(42480246/21240123) = 6) с нея, да я прехвърлиш от едната ръка в другата и обратно, за време 25 удара на сърцето, и след това да отпиеш глътка, да направиш 9 обиколки на стаята......... и чак тогава да я оставиш на масата?

Можеш ли да докажеш, че мозъкът не си помисля точно това, което ти казвам, в началото, но след много преобразования, въз основа на "истинското" представяне на знанията, постепенно да се отказва от обиколката на стаята, скоковете, клякането, почесванията и т.н., докато стигне до посягане, поднасяне към устата, отпиване, и след това оставяне на чашата без излишни движения?

Можеш само да вярваш, че мозъкът не е толкова глупав, или да кажеш просто: "хората не правят така" или "такива глупости не могат да ми минат през ума, те не допринасят за постигане на целта и са излишни!". Излишни са според твоята онтология - не знаеш, дали онтологията на мозъка - която ти не можеш да съзнаеш, нито да разбереш - не е точно такава, или пък някаква друга, за която дори не си помисляш.
...
Тош
Титла: изчислителна лингвистика
Публикувано от: artanis в 08.05.2005, 14:40:13
:)
Титла: изчислителна лингвистика
Публикувано от: artanis в 09.05.2005, 18:49:42
Здрасти,

Тук много ми шумят нещо и реших че времето е подходящо за писане на постове.

Ще започна с когнитнивните науки. Има няколко вида дислексия, като причините за проявяването на този феномен не са съвсем ясни. Например Карамаца (един от водещите учени в тази област - от Харвард, нищо че е италианец) успява да докаже (чрез липса на противоречие с данните, събрани от пациенти), че вероятно има значение дали обектите, които се съхраняват в паметта на човека са животни или неодушевени предмети (и вероятно храни). Така например при възприятието пациените не са могли да познаят само животни, или звукове на животни. При осъществяването на реч или писане, субектите не могат да се сетят точно за животни. Изводът е, че животните и другите обекти се съхраняват на различни 'места' в математическия модел на човешката памет, което предполага, че е възможно да се съхраняват и на различни места във физическия мозък. Би било възможно, ако тези места се изолират, да се лекуват.
(Не знам точно как биха могли да се лекуват, но ако клонирането е възможно и се практикува, предполагам, че и нещо такова би могло да се практикува, но не съм специалист)

Когнитивните Науки са нова и доста интересна дисциплина. По една случайност италианците са сред най-добрите експериментални психолози (във водещите Американски Университети и Падова, Италия)

Корпусната лингвистика е точно емпирична. Предлагам ти да прочетеш лекцията, преди да обсъждаме нещо повече за нея. Тя съвсем не се ограничава във First Language Acquisition. Между другото Чомски отрича корпусната линвистика.

За човекът, че е мислеща машина... Ами не знам. Предполагам, че в един възможен свят човекът е мислеща машина.

За невронната мрежа. Какво и е умното, проста невронна мрежа. Чиста статистика :) (+ математически модел)

За взимането на сериозно имам пред вид някой да инвестира пари в теб.

За българските учени (в България) :) Айде да не започваме. Ама има и такива, които работят (в тези нечовешки и дискриминиращи условия)

За зародишите на разум не те разбирам. Освен, че от това би излезнала интересна книга, съветвам те да провериш някой дали го е правил преди теб и какви са неговите резултати. В общността на учените всички се познават (Щатите, Европа, Австралия, Япония, Израел .... а къде другаде се прави наука?)

За прозата която пишеш: философска, странна и сложна. Остави читателите да решат. Значи изобщо за писането аз не съм компетентен и вероятно не мога да ти кажа нищо за което вече да не знаеш.

За последния ми пост. Да, признавам, че беше малко провокативен, но този човек е доста известен в Европа и Щатите, въпреки че американците май не го харесват много. Не е някакво местно явление. Освен това се опитва да използва философски концепции за практични неща. Въпреки това ми се струва, че тези приложни онтологии си остават една красива Европейска идея с която не можеш да отидеш до магазина и да си купиш хляб (ама и тук пак зависи, защото в Европа има механизми на финансиране за такива идеи .. вероятно защото са европейски)

Тук стана малко по тихо и ще се опитам да поработя малко.

Сърдечни поздрави:
А.
Титла: Re: изчислителна лингвистика
Публикувано от: Tosh в 18.05.2005, 22:54:04
Здрасти.

"Тук много ми шумят нещо и реших че времето е подходящо за писане на постове."

:)


Цитирам те, защото е минало много време от съобщението, и може да си забравил. Стана дълго - такъв ми е стилът; подробен...


"Ще започна с когнитнивните науки. Има няколко вида дислексия, като причините за проявяването на този феномен не са съвсем ясни. Например Карамаца (един от водещите учени в тази област - от Харвард, нищо че е италианец) успява да докаже (чрез липса на противоречие с данните, събрани от пациенти), че вероятно има значение дали обектите, които се съхраняват в паметта на човека са животни или неодушевени предмети (и вероятно храни)."
Така например при възприятието пациените не са могли да познаят само животни, или звукове на животни. При осъществяването на реч или писане, субектите не могат да се сетят точно за животни. Изводът е, че животните и другите обекти се съхраняват на различни 'места' в математическия модел на човешката памет, което предполага, че е възможно да се съхраняват и на различни места във физическия мозък. Би било възможно, ако тези места се изолират, да се лекуват."


Можеш да напишеш името му точно както се пише, и някъде има ли в Мрежата някаква работа? Така казано не ми става ясно какви опити са правили, и какво значи "звукове на животни".
Изследваните разпознавали ли са звукове на машини, или електронни (изчанчени) звуци, пускани докато се показва животно? или преправен човешки глас, който уж е издаден от животно? Или пък почти чисти тонове, приписвани на животни?
Правили ли са опит с нещо, което се държи като животно и прилича на животно, но не е животно, например герой от игра, или пък агент от рода на Кламера, Джина, Мерлин в Office?

Като казваш "животни и неодушевени", ще вмъкна: "животните" (хората) са "машини" в смисъла посочен по-долу.

Това по което се различават животните като нещо по-различно от "неодушевените" предмети, например от двегодишно дете като ги наблюдава и си играе с тях (а не е от професор по биология), не е че "животните са живи" (белтъци, мелтъци и т.н.), или пък че са "одушевени" (душата е невидима и неосезаема, за съжаление...), а е че мърдат, ходят, скачат, бягат; имат очи, нос, уста; ядат, пият; че мигат, че издават звуци (дори и без нещо да ги докосва, а особено ако са котки и им натискаш мекичкото на лапичките, или пък ги стиснеш в прегръдка), че бягат, ако ги гониш или ако им настъпиш опашката. Те взаимодействат с теб, отговарят на твоите действия с действия, и освен това не винаги можеш да предвидиш точното им следващо действие въз основа на предишните - поведението им е сложно и зависи и от фактори, които не можеш да разбереш само като ги наблюдаваш.

Мисълта ми е, че особеното не е "живо", а "променливо", "динамично", "взаимодействащо"; "достатъчно сложно"; с достатъчно много състояния, в които то хем си е същото нещо, но изглежда много по-различно, и частите му са в различно съотношение.Нормално е динамичните "неща", които взаимодействат и имат поведение,  да се помнят по различен начин (форматът на описание да бъде различен), отколкото статичните "неща", които се променят само ако нещо друго извърши промяната.


"което предполага, че е възможно да се съхраняват и на различни места във физическия мозък. Би било възможно, ако тези места се изолират, да се лекуват."

Ако мозъкът беше проектиран както трябва (чисто, модулно, ясно, несамообвързващо), можеше и да можеш да локализираш къде се помни нещо, само че принципът на мозъка (на невронните мрежи) е в това че те нямат обособена памет; тя се проявява като страничен ефект.


"(Не знам точно как биха могли да се лекуват, но ако клонирането е възможно и се практикува, предполагам, че и нещо такова би могло да се практикува, но не съм специалист)"

И аз не съм специалист по биохимия, само че клонирането е много по-просто отколкото да бърникаш в мозък и да оправиш нещо, което не знаеш как работи и не знаеш как е развалено. (Най-малко, не можеш да пъхнеш вътре "отвертки" и "поялници", и не знаеш каква е схемата).
Клонирането - взимаш едно ядро, слагаш го в друга клетка на която си махнал ядрото; превръщаш клетката със сменено ядро в зигота, вграждаш я някъде да расте и готово - може и да стане зряло същество. Работата ти е "взимаш, слагаш, пъхаш". Друго нещо е управляващо устройство (мозък).


"Корпусната лингвистика е точно емпирична. Предлагам ти да прочетеш лекцията, преди да обсъждаме нещо повече за нея. Тя съвсем не се ограничава във First Language Acquisition. Между другото Чомски отрича корпусната линвистика."

Прочетох лекцията (чак я забравих), но за да обсъждаме нещо конкретно ще трябва да прочета повече. Обичам емпирични методи. Мислещата машина ще използва "корпуси" (ще говори, ще чете, ще се учи от текст); езиковите машини, с които се каня да си играя - също ще използват съвкупности от текстове, и ще търсят зависимости в текстове.
Но --- анализът на текстовете --- според мен не е заложен само в текстовете. Текстовете от "жива реч" в повечето случаи съдържат много малка част от информацията, която е била част от мислите на тези, които са произвели този текст - "естественият" език не е взаимноеднозначно изображение на мисълта.

Когато човек изследва текст, в ума си се опитва да допълва липсващата информация, и да си мисли нещо, което би могли да доведе до извеждане на такава реч.



"За човекът, че е мислеща машина... Ами не знам. Предполагам, че в един възможен свят човекът е мислеща машина."

За "машина", в моята терминология, която все още се уточнява :), има такива приказки:

Машина -- динамична система, която може да извършва обратими повторими промени върху части от себе си чрез части от себе си.
По-висока разделителна способност и сложност на промените -- по-съвършена машина.

Човекът очевидно е "машина".


Откъс от разни работи:

--- Откъси ---
 Управление означава данни от паметта на едно УУ да се запишат в паметта на друго УУ по начина, по който първото устройство е очаквало, т.е. по начина, по който в паметта на първото устройство е било записано, че данните ще бъдат записани.
 Разделителна способност на управлението (РСУ) описва способността на управляващото устройство да извежда данни от своята памет (своята вселена) в паметта на по-нисшето управляващо устройство (майчината вселена), така че промените в майчината вселена да са по-близки до най-малките възможни промени в майчината вселена и да са по-близки до очакваното.
 Разделителна способност на възприятието (РСВ) показва какви особености от майчината вселена се възприемат (различават) от подчинената вселена, която е част от майчината.
 "Истинско" или "пълно" управление съществува само тогава, когато УУ въздейства върху подчиненото така, че при максималната възможна РСВ на разглеждане на подчиненото устройство, в паметта на главното УУ да са записани всички подробности, описващи състоянието на подчиненото, с вероятност за истинност единица.
 Пълното управление изключва грешки, тъй като при него управляващото устройства ръководи всички подробности и "знае" как да отвърне на всички възможни случаи; в този случай УУ определя кое е възможно и кое е невъзможно и не допуска поява на невъзможни случаи, тъй като не може да ги породи.

....

Когато човек пожелае да подхвърли монета и го направи, смята, че щом може да поиска да хвърли монета и го направи, то има свобода да го стори, защото е направил "каквото си иска"...

РСУ и РСВ в случая се описва с глаголи, съществителни имена, прилагателни, предлози и пр. части от езика на разумните същества. Езикът на разумните същества (естественият език) описва начин, по който човешкият разум възприема света. Този начин е ограничен от тесния изходен информационен канал (въобречка), достъпен за ползване от човека.

Езиковото описание дава чувство на свобода на човешкия разум да прави "каквото си иска" поради ниската си разделителна способност и ниския критерий за точността на изпълнение на това което "си иска".

Разделителната способност на възприятието и управлението в горния пример е глагол-съществително. "Управление" означава словосъчетанието [хвърлям монета] да се изпълни - човек да [хвърли монета].

В майчината, за човешкия разум, вселена обаче, разделителната способност е много по-висока, защото Вселената не е изградена от монети и хора, взаимодействията между които могат да се опише с незначителен брой езикови елементи от рода на:

Хвърлям монетата на пода.
Хвърлям монетата на масата.
Хвърлям монетата зад дивана.
Хвърлям монетата през прозореца.
Хвърлям монетата в тоалетната.
Хвърлям монетата в коридора.
и т.н.

--- Край ---

Човекът очевидно е управляващо устройство, и може да прави "каквото си иска", макар с ниска РСУ.
Изчислителните машини са машини и управляващи устройства в горните смисли, защото те обратимо и повторимо могат да променят паметта си - и съвършени УУ - това което искат, правят точно така, както го искат,
и това което искат е строго определено - могат да го сторят с максимална РСУ и РСВ на вселената, в която действат - тяхната памет.



"За невронната мрежа. Какво и е умното, проста невронна мрежа. Чиста статистика  (+ математически модел)"

А какво е човекът и всичко останало? Същото: някакви абсолютно елементарни и безмозъчни частици, които според някои правят точно това, което е предопределено (изобщо не са умни, "нямат избор"),
а според други някои от тях следват "чист вероятностен математически модел", и поведението им е "случайно", т.е. имат "свободна воля", т.е. пак нямат избор, защото и те самите не знаят точно какво кога ще направят, и защо.
Ако нещо не си избира, как може да е умно? То прави това, което е заложено в него, или пък прави случайни неща, т.е. изборът му не зависи от нищо, включително не и от него самото.



"За взимането на сериозно имам пред вид някой да инвестира пари в теб."

И в този смисъл са ме взимали на сериозно. Първото, с което привлякох вниманието на, да го наречем Инвеститора, беше философия: "Схващане за всеобщата предопределеност 2, Вселената сметач".
Инвестира в мен обаче след като му се похвалих със, смея да твърдя добрият синтезатор на реч "Глас" (нещо работещо в изчислителното езикознание; не само философии), написан от нищото за нула време.
Има гласови възможности, каквито "научните" синтезатори на български нямат - плавен преход между периодични функции; плавна реч, а не сричане.

http://geocities.com/todprog/bgr/glas.htm
http://geocities.com/todprog/bgr/glas_.htm
http://www.geocities.com/todprog/glasdemo4.mp3
http://www.geocities.com/todprog/glasdemo3.mp3
http://www.geocities.com/todprog/glasdemo5.mp3
http://www.geocities.com/todprog/glasdemo6.mp3

Например от BACL http://bacl.org твърдят, че в новия SpeechLab 2.0, където използват над 1200 записа на цели дифони от реална реч (чували ли сте за науката Хамалогия?), извършват "спектрална интерполация" при свързването на дифоните.
И какво от това? Спектралната интерполация между ---реални записи--- звучи насечено, както звучи неприятно и слепване на реални записи, без никаква спектрална интерполация.

SpeechLab 2.0 например, който има огромна база данни с граматическа информация, ударения, интонационни контури и не знам си какво, все още срича.

http://195.96.224.22/public/demo.wav


"За българските учени (в България)  Айде да не започваме. Ама има и такива, които работят (в тези нечовешки и дискриминиращи условия)"

Би ли определил какво разбираш под "учен" и "учен, който работи".


"За зародишите на разум не те разбирам. Освен, че от това би излезнала интересна книга, съветвам те да провериш някой дали го е правил преди теб и какви са неговите резултати."

Според мен ако някой имаше успешни резултати в това направление, щеше да има мислеща машина, или поне машина която се развива поне до нивото на дете на няколко месеца или година например.
Галина, за която споменах, например ми е разправила, че е правила опити със самомодифициращи се сложни системи, които се самопострояват от някакъв зародиш,
но ми разправяше, че на настолна машина, нейният метод е невъзможно бавен.



"В общността на учените всички се познават (Щатите, Европа, Австралия, Япония, Израел .... а къде другаде се прави наука?)"

Канада, Корея, Китай, Тайван, Пакистан, Индия, Нова Зеландия.



Поздрави.
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 21.05.2005, 18:10:09
Вербмобайл корпус (Verbmobil) Може би ще е интересно на Тош, защото това е многоезичен гласов корпус, анотиран на много нива, който е създаден за трениране на алгоритми за автоматичен гласов превод. Аз бях впечатлен. Може да се поръча от ELRA/ELDA + The symbolic data can be downloaded for free via FTP ftp://ftp.bas.uni-muenchen.de/pub/BAS/VM

А какви точно са тези символични данни смятам да проверя след малко :)

поздрави:
а.
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 09.08.2005, 21:05:54
Здравейте,

Интересно ми е, някой няма ли желание да пише дипломна работа на тема изчислителна лингвистика?

Направете нещо за езика си без излишни комисии!

Интересни теми са

Автоматично разпознаване на глас.
Морфологичен анализ.
Автоматично резюмиране.

поздрави
Атанас Чанев
Единбург, Шотландия
Титла: Re: изчислителна лингвистика
Публикувано от: Tosh в 10.08.2005, 02:55:01

Имам желание да се занимавам с разпознаване на глас, с усъвършенстване на говорния апарат на моя "Глас", с резюмиране и с други обработки на реч като машинно словесно творчество по зададена тема и сюжет; уточняване на теми и сюжет и писане на "скелет" на произведение по грубо описание;  отговаряне на въпроси по текст/текстове от машина. Но не знам дали нещо от тези работи ще стане за дипломна работа.

С разпознаване на глас даже съм започвал да се занимавам практически преди година
от нищото, и стигнах до програмно търсене и разпознаване на почтипериодични функции в зададена честотна граница и степен на "почтипериодичност", на шум и на тишина и извеждане на статисика за затова къде има почтипериодични функции, с каква честота и с колко последователни периода без прекъсване при зададената степен на почтипериодичност: http://geocities.com/eimworld/_5/31/31.htm

Целта беше да класифицира звука, да го разделя на звукове и да познава къде е най-устойчивата, "най-периодична" част от тоналните фонеми ( гласни, звучни съгласни, м, н ).

Поздрави
...
Тош
Кьочук Париж, България ;-)
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 10.08.2005, 17:03:15
Здрасти Тош,

Имам едни пейпъри от курса ми по АРГ. Ще ти пратя заглавията като се върна в Италия. Не е нужно да откриваш топлата вода. Италианците разпознават новинарски емисии. Първо правят спектрален анализ, после трансформация на Фурие, разделят вълната на прозорци и разпознават със скрити модели на Марков.

Във ФМИ с изчислителна лингвистика се занимават Георги Тотков и Христо Крушков. Свържи се с тях. Ако искаш, мога да им пиша за теб (подозирам, че си работил вече с Тотков). Христо Крушков работи със скрити модели на Марков (аз също, така че мога да помагам :))

Със сигурност темата е много интересна, а и после може да си намериш работа в БТК или някой от мобилните оператори.

поздрави:
a.
Титла: Re: изчислителна лингвистика
Публикувано от: Tosh в 11.08.2005, 12:01:54
Здравей.

Ще се радвам на "пейпърите"... :)

Да, работил съм с доц. Тотков.

Чувал съм за скритите модели (мрежи?) на Марков, за описание на динамични системи, интересно ми е да разбера какво представляват и как се правят. Мисля че още е малко рано да заявявам интерес обаче (точно сега), май ще е добре малко да се пообразовам предавително как хората си топлят водата...

А и друго - сред колегите се носеха плашещи приказки, че не е препоръчително да се взима тема за дипломна в нач. на 3-ти курс, че били такива, че "цял живот не можеш да ги завършиш"... :) Имаш ли някаква плашеща или успокоителна информация в тази връзка?

За БТК и мобилните - в смисъл работа свързана с DSP?
Или разпознаване на реч, нещо като американскта система за сигурност? ;)
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 12.08.2005, 21:00:30
Здрасти,

Не знам за скрити мрежи на Марков, но предполагам, че говориш за Markov chains. Скритите модели на Марков са малко по-сложни.

Съвсем повърхностно, представи си, че искам да направя part of speech (POS) tagging на някакъв текст. Пресмятам P(wi|ti)P(ti|ti-1)P(ti|ti-1ti-2) за всяка дума от изречение. P(wi) - брой на срещанията на i-тата дума от изр. в корпус. P(ti) - брой на срещанията на POS таг-а на i-тата дума от изр. в корпус. Интересувам се от решението с мах вероятност.

Докато се стигне до това, обаче има доста статистика.

За дипломната работа, според мен, колкото по-рано, толкова по-добре - особено за АРГ на български.

За БТК и т.н. Точно за разпознаване на реч говорим.

поздрави

а.

п. Какво е DSP?
Титла: Re: изчислителна лингвистика
Публикувано от: Tosh в 14.08.2005, 18:02:00
Здравей.

Май обърках мрежи на Бейс и вериги на Марков и стана 'скрити мрежи на Марков'...  :)

За започването на ДР - все пак е добре да имаш представа в какво се хвърляш, преди да поемеш дипломна работа. Страх ме е да нагазя в дълбокото без да съм малко уверен, че мога да плувам. :)

А и не съм сигурен че това ми е най-интересната тема. Мисля че машинното творчество, съчиняване на текстове, ми е по-интересно, но при него май ще трябва да се откриват разни топли или врели води, :) а и може да звучи несериозно.

Интересувам се и от изграждането на езиковите умения, "language acquisition", с цел да разнищя нещо за езика чрез анализ на тези данни.
От години се надявам отнякъде да ми паднат подробни експериментални изследвания с корпуси :-) //корпусите най-вече// с развитието на речта на деца от 0 до еди-колко си години. Чувал съм за две класически, на езиковеди които изследват децата си, едно руско и другото на английски, които записват всичко което звучи около детето и всички разговори, в които то участва.

Навил да питам по-сериозно насам-натам за тези изследвания. Ти знаеш ли за такова изследване на българско дете/деца?

DSP - Digital Signal Processing. Обработка на аналогови данни.

Поздрави
Титла: Re: изчислителна лингвистика
Публикувано от: Veska Noncheva в 14.08.2005, 19:04:38
Hi!

Май обърках мрежи на Бейс и вериги на Марков и стана 'скрити мрежи на Марков'...   

>> Мрежи на Бейс са структури от данни за представяне на стохастични знания и автоматични изводи. (Имам хубава книга за тях.).
>> Вериги на Марков са вероятностни модели.
>> В частност една верига на Марков може да се представи с една (проста) мрежа на Бейс.
 
Интересувам се и от изграждането на езиковите умения, "language acquisition", с цел да разнищя нещо за езика чрез анализ на тези данни.

>> "language acquisition" – извличане на знания за естествения език. Аз съм работила върху (автоматично) извличане на синоними, hyponims и hiperonims от корпуси. Например кола<<превозно средство.  Малка част от резултатите са публикувани в RANLP’2003.  Корпусът беше на португалски език. Колегите -2 португалци, 1 бразилец и 1 испанец, които ми изпратиха данните харесаха резултатите. После децата в къщи форматираха диска с моята програма... Е, не са форматирали метода, който е записан в моята глава, но аз от тогава нямам време да програмирам. Та резултатът за извличане на hyponims и hiperonims от корпуси не е публикуван.

От години се надявам отнякъде да ми паднат подробни експериментални изследвания с корпуси  //корпусите най-вече// с развитието на речта на деца от 0 до еди-колко си години.

>> Преди около 2 години имаше информация в CORPORA mailing list  за такива корпуси на англииски език.

Навил да питам по-сериозно насам-натам за тези изследвания. Ти знаеш ли за такова изследване на българско дете/деца?

>> Какво значение има езика?  Методите трябва да бъдат езиково независими.

 Поздрави
 Веска Нончева
Титла: Re: изчислителна лингвистика
Публикувано от: Tosh в 16.08.2005, 07:52:45
Здрасти.

>>(Имам хубава книга за тях.).

Ако това е предложение, може и да го приема, но засега не. :)

>> Какво значение има езика?  Методите трябва да бъдат езиково >>независими.

И аз (?) мисля, че умът започва да съществува с вградена универсална граматика, която се донастройва за конкретните нужди, но езикът който изследвам трябва да разбирам възможно най-добре - най-добре разбирам български.
Моят стремеж е извличане на знания за устройството на разума чрез вникване в устройството на езика на разума (моят начин да наричам "естествения език"), "разнищване" (reverse engineering) на разума.

Към развитието на речевите умения на детето от 0 години нататък върви и изследване на словесното творчество, на съчиняването, за което споменавам в предното съобщение и с повече думи по-назад, а за съчиняване трябват и представи, спомени, цели.

Език на разума е средство за описание на светове, цели, възприятия, състояния, спомени, отношения, действия и взаимодействия и пр. Затова третият план на "налучкването" е строене и обовноваване на език на разума от нищото (граматика на език на разума), който да е съобразен с нуждите на "зародиш на разум" ( още един успореден план ) да описва светове, възприятия, спомени, цели и т.н. и да е свързан с конкретнотот му устройство. Част от тази граматика ще е на "говорим език на разума", друга част която ще е по-подробна и с по-висока разделителна способност, ще се ползва от вътрешните части на разума.

...
Тош
Титла: Re: изчислителна лингвистика
Публикувано от: Veska Noncheva в 16.08.2005, 18:24:35
Привет!

И аз (?) мисля, че умът започва да съществува с вградена универсална граматика, която се донастройва за конкретните нужди, …

>> Мисля, че основната ти идея има смисъл.

Моят стремеж е извличане на знания за устройството на разума чрез вникване в устройството на езика на разума …, "разнищване" на разума.

Към развитието на речевите умения на детето от 0 години нататък върви и изследване на словесното творчество, на съчиняването, за което споменавам в предното съобщение и с повече думи по-назад, а за съчиняване трябват и представи, спомени, цели.

Език на разума е средство за описание на светове, цели, възприятия, състояния, спомени, отношения, действия и взаимодействия и пр. Затова третият план на "налучкването" е строене и обовноваване на език на разума от нищото (граматика на език на разума), който да е съобразен с нуждите на "зародиш на разум" ( още един успореден план ) да описва светове, възприятия, спомени, цели и т.н ….

>> Тези твърдения не ги разбирам. Но, ако ти си вярваш, започни:
-   да ги описваш
-   да ги моделираш, като започнеш с основните дефиниции
-   в твоя трактат добави и какво е направено до сега в тази насока
-   намери някой с титли и звания (и със знания), на когото имаш доверие и който да ти провери написаното
И ето ти дипломна работа. Опитай се да направиш и публикация.

И успех!
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 21.08.2005, 17:14:34
@tosh

Здрасти, за ХММ ти препоръчвам тази статия:

A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition от Lawrence R. Rabiner

Имаше и други, които исках да ти препоръчам, но сигурно са ми в квартирата. Ще ти пиша пак по-нататък.

а.
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 01.09.2005, 20:48:11
Здравейте,

Неотдавна имаше един човек във форума, който отказваше да назове името си и казваше, че хората, които се занимават с изчислителна лингвистика само симулират дейност. Аз тогава говорех за българска следа в тази област ...

Съвсем скоро посещавах курс за Автомати в Единбург (Европейско Лятно Училище за Езици, Логика и Информация ESSLLI 2005). Водеха го двама поляци, единият работи в институт за ресърч, мисля че в Германия. Другият работи в централата на google (Wojciech Skut). Те подготвят учебник по автомати и споменаха за алгоритъма на Крушков на лекциите.

Жалко, че не познавам алгоритъма, но много яко ми стана, че Крушков ми беше дипломен ръководител, публикували сме неща заедно и имаме незавършен проект за онлайн ПОС тагер за български (почти е готов).

Особено на приетите сега студенти искам да кажа, че за такава смешна такса за обучение получавате образование на много високо равнище.

поздрави от Италия:
Атанас Чанев
Титла: Re: изчислителна лингвистика
Публикувано от: Койчо Митев в 24.10.2005, 17:14:53
Здравейте,
Попаднах на Вашия адрес от форума в интернет. Разбирам, че имате желание да работите по темата "разпознаване на глас" (voice recognition). Търсим такъв ентусиаст за наш проект "Комуникация на майчин език". Вижте тук: http://www.commonsenseadvisory.com/en/news/global_watchtower_one.php?id=164
и тук:
http://www.bnr.bg/RadioBulgaria/Emission_English/Theme_Science_And_Nature/Material/Inventions.htm
Обадете се.
Койчо Митев
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 09.11.2005, 18:31:02
Койчо,

Малко съм скептичен към Вашия проект след като прочетох това, което ми пратихте по пощата. Но ще изчакам презентацията Ви във ФМИ (очаквам я с нетърпение) и тогава ще задам въпросите си.

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто, Италия
ITC-irst Пово-Тренто, Италия
Титла: Re: изчислителна лингвистика
Публикувано от: katja в 09.12.2005, 17:39:48
Здравейте,

аз се интересувам от комп. лингвистика. Ако търсите желаещи за работа по проект, ще се радвам на участие:)

Поздрави,
Катя
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 10.12.2005, 19:33:16
Zdraveite katja,

Da, tyrsq jelaeshti za rabota. Pishete mi ot kakvo se interesuvate na artanisz v mail tochka bg . Ako oste ne znaete ot kakvo tochno se interesuvate, moje da Vi dam nqkoi nasoki i predlojeniq. (Neshto, koeto mi se iskashe da napravq, naprimer, no nqma da imam vreme, e da se trenirat modeli za tagging za bylgarski ezik, no ima i mnogo drugi neshta...)

Izvinqvam se za lat, no na tozi kompiutyr nqma nikakva kirilica.

pozdravi:
Atanas Chanev
Barcelona, Catalunya
Титла: Re: изчислителна лингвистика
Публикувано от: Valdorval в 11.12.2005, 14:31:14
Атанасе и аз съм един от тези дето малко по малко ги интересува компютърната лингвистика. Искам да те попитам дали ще има пак някъква лекция както миналата година? И се надявам ако има да е в поголяма зала а не в малка стая.


Поздрави,

Valdorval

P.S (Атанасе ако искаш може да ми пишеш на ICQ за да може да си поприказваме)  :-)
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 14.12.2005, 01:32:24
Здравейте Valdorval,

Не си спомням да сме се запознавали, за да използвате името ми в този падеж.

Иначе лекция може да има, ако има интерес. Но много по-интересна би била лекция на професор Рулсан Митков от Университета в Уулвърхямптън, който идва всяка година (поне за последните 2 години) в Пловдив и изнася презентация.

Следете таблата и сайта на ФМИ, както и тази тема във форума за повече информация.

поздрави:
Атанас Чанев
Титла: Re: изчислителна лингвистика
Публикувано от: Valdorval в 14.12.2005, 10:35:32
 Мерси за отговора. За другото мисля че се познаваме, но както и да е имате номера на мойто ICQ тъй че може да ми пишете и ще ви обясна кой съм всъщност и къде сме се срещали.


      С уважение,
                  Valdorval
       
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 21.12.2005, 20:57:03
Който се интересува, може да изтегли пейпъра ми от TLT 05 в Барселона от:

http://polorovereto.unitn.it/~chanev/ChanevTLT05.pdf

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто и
ITC-irst Пово-Тренто
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 09.01.2006, 00:30:22
Здравейте,

Понеже зная, че теми от този форум могат да се търсят в гуугъл бих искал да използвам случая да питам дали някой се интересува от граматики на зависимостите (dependency grammars). За българския език все още няма dependency treebank-а. (Друг е въпросът, че в България вероятно никой няма нужда от такава банка)

Този вид граматики са много подходящи за анализ на повечето европейски езици, но ползването им е сравнително ограничено (Prague Dependency Treebank, Negra Corpus и т.н.)

Пишете, ако някой се интересува.

успешна седмица:
а.
Титла: Re: изчислителна лингвистика
Публикувано от: Пламен Манчев в 25.02.2006, 17:56:13
Атанас Чанев, "докторант по Конгнитивни Науки",
защо и Вие,  господен докторанте,  сте така зле с българския правопис? Защо и Вие пишете  "Конгнитивни Науки" с главни букви, както в повечето реклами в последните години забелязваме неоснователното и дразнещо изписване на съществителни нарицателни с главни букви? Защо?!
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 25.02.2006, 18:43:32
Честно казано не бях обърнал никакво внимание на това. Когато се подписвам на английски, когнитивни науки е с големи букви.

А защо и Вие, господин Пламен Манчев сте така зле с българския правопис? Защо и Вие пишете 'господен', вместо 'господин'?

А за рекламите съм сигурен, че има съвсем логично обяснение.

поздрави:
Атанас Чанев
докторант по когнитивни науки
университет в Тренто

п. Един въпрос към Вас: Защо Технически Университет се пише с главни букви?
Титла: Re: изчислителна лингвистика
Публикувано от: mircho в 25.02.2006, 22:30:36
Защо Технически Университет се пише с главни букви?
Пише се “Технически университет”.
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 26.02.2006, 00:50:45
Здравейте,

Явно съм се заблудил от главната страница на Техническия университет (ако направя аналогия, когнитивни науки би могло да се пише Когнитивни науки - първата дума с главна буква).

Дори в името на документ в електронен формат се среща словосъчетанието Технически Университет. В Техническия университет във Варна също използват 'Технически Университет'. Изглежда на пръв поглед, че в документи се предпочита словосъчетанието Технически университет (а как се пишат Стара П(п?)ланина или Черна Г(г?)ора, Златни П(п?)ясъци). Ако използвам мрежата като корпус намирам и от двата варианта. Още по-интересни са словосъчетанията Съветски С(с)ъюз и Европейски С(с)ъюз, Съединени Щ(щ)ати, Обединено К(к)ралство, Обединени Арабски Емирсва (арабски емирства), Организация на О(о?)бединените Н(н?)ации).

Много ще ми бъде интересно да разбера какво е правилото за подобни словосъчетания? И защо ако има такова правило, много хора в интернет (в момента нямам възможност да проверя в библиотека) пишат тези словосъчетания с главни букви.

Ако някой се аргументира с това, че когнитивните науки са дисциплина, а не държава, град или университет, то може на много места да се провери как имената на дисциплините започват с главни букви. (от тук защо Математика и Информатика, но не Факултет по Математика и Информатика, а Факултет по математика и мнформатика?).

Може ли да цитирате източниците си?

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто
Титла: Re: изчислителна лингвистика
Публикувано от: Tosh в 26.02.2006, 18:23:33
Здравейте,

Писането на заглавия с Главни Букви На Всяка Дума се случва под влияние на английския език. В английския е традиция в заглавията всяка дума да се пише с главна буква - вижте напр. плакатите на американските филми. От всички времена са така. Някъде оставят служебните думи в загл. да са с малка буква, вероятно с типографска цел, другаде пишат дори и служебните думи с главна.

Цитирам от кратък български правописен речник:
----
Главна буква се пише...

5.  В названия на учреждения, дружества, институти, книги, фирми и под.  (...) Просвета, книжарница Наука, сп. Мисъл

... Заб. Когато наименованието е сложно, с главна буква ... се пише само първата дума: Стара планина, Черно море, Министерство на народната просвета,  ..., Съветски съюз.

Ако втората част е собствено име, и двете думи се пишат с главни букви: Стара Загора, Горна Оряховица, Лудя Яна, Долни Дъбник.

6. С главна буква могат да се пишат също така важни за нас исторически събития или пък събития със световноисторическо значение: Възраждането, Априлското въстание, Освобождението ...
---

Поздрави
Титла: Re: изчислителна лингвистика
Публикувано от: Райчо Мукелов в 27.02.2006, 03:57:37
http://jinr.site.uottawa.ca/
Титла: Re: изчислителна лингвистика
Публикувано от: Tosh в 01.03.2006, 23:36:35
Здравейте,

@Artanis

Бях забравил да попитам - на английски ли трябва да пишем докладите за проектите си?

Поздрави
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 11.03.2006, 01:04:31
Здравейте,

Доста си мислех за причините, които са накарали човекът, който е съставил българския правописен речник, да въведе правилото за главните букви. Моето мнение е, че това правило е въведено от естетически подбуди.

Напр. след като всички собствени имена започват с главна буква и продължават с редовни букви, то би било редно названията на учреждения и т.н., които се състоят от повече от една дума, да започват с главна буква, но думите след първата да започват с редовни букви.

Ясно се вижда, че това правило създава многозначност и затруднява читателя като прави текста по-объркан. Ако всяка дума от сложното име е с главна буква, то читателят би могъл много по-лесно да определи границите на сложното име, текстът би станал по-четим, което значи добър стил на писане.

Има много други случаи, които смятам за 'недоразумения' в българския правопис и граматика.

Пълният член, обаче не е сред тях. Той е важен, защото помага да се разреши многозначността между subject и object на глагола. Този вид многозначност е типичен за езиците, които не са с фиксиран словоред. В английския, например, няма никакъв смисъл от определителен член, защото този вид многозначност се разрешава благодарение на фиксирания словоред.

Езикът е система, която се променя непрекъснато и не може да се затваря в границите на естетическите възгледи на един човек, които по-късно са одобрени в закон. В крайна сметка ми се струва, че ако вземем вестници, списания и книги от последната година и ги проверим за граматичност, може да стигнем до извода, че езикът, които се ползва в тях не е български. Ако пък съберем текстове от интернет, вероятно разликите с т.нар. 'книжовен български' ще бъдат още по-фрапиращи.

И така, колеги, някой да има идея какво е българският език?

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто, Италия и
ITC-irst Пово-Тренто, Италия
Титла: Re: изчислителна лингвистика
Публикувано от: Пламен Манчев в 13.03.2006, 13:32:05
   За бога, не смесвайте грешката на ръката върху клавиатурата с незнаене на правописа!
   А що се отнася до логичното обяснение за появяването на главните букви при реклами, а и не само там, такова наистина има. Лично моето обяснение е свързано със софтуера, използван при оформянето или предпечатната им подготовка - продуктите на Corel,  Adobe, Microsoft Office и др., бидейки англоезични и с вградените си опции за правописна проверка, подчинени на граматиката на английски, сами по подразбиране поставят главна буква при поставянето на нов ред на разчленени на отделни редове словосъчетания, а липсата на грамотност или придирчивост към правописа на работещите с тия програми е причината за появата на такива недоумици. Дано обяснението ми не е твърде елементарно.
   А що се отнася до езика въобще, наистина той е една динамична система, която търпи постоянни промени. Наистина правилата в т.н. литературен език в голямата си степен са изкуствено въведени, самият той е едно изкуствено явление, различно от местните говори и речта на ежедневното ни общуване, но, бидейки един от основните инсрументи, обединяващи населението на една държава в нация, задължение на работещите с него е да спазват правилата, благодарение на които той съществува и много внимателно и отговорно да подхождат към промените и нихилизирането на тия правила. Прочее, без да изпадаме в "балванизиране", да не допускаме профанизирането му. Достатъчно е човек да прегледа повечето издания на периодичния печат, или нещо по-стряскащо - да попадне в чата на тинейджъри в мрежата, за да се обезпокои сериозно. Темата е много деликатна  наистина.
   Но, слава богу, езика е жилаво нещо, многопластово, и ако на някое от нивата си губи от красотата и силата си, то другаде се обогатява, развива и в крайна сметка колкото и да се вайкаме за развитието му, той следва своите закони.
   Прочее смисълът на първоначалната ми забележка беше, че поне ние, които работим с него, да внимаваме! Дано не Ви досадих. И ми простете, ако пак поради невнимание съм ударил някой друга буква на клавиатурата.
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 13.03.2006, 15:43:14
Здравейте Пламен,

В никакъв случай не ми досадихте, дори се радвам, че намерих интересен събеседник.

Всъщност, наистина ударихте отново грешна буква в последното си изречение. Във форума има опция за редактиране на съобщението. Не съм сигурен дали може да се ползва ако не сте член.

> За бога, не смесвайте грешката на ръката върху клавиатурата с незнаене на правописа!

Да, прав сте. Не ми беше известно това правило, но ако някой реши да анализира автоматично тази тема от форума, то Вашите грешки ще създадат доста повече главоболия отколкото моите големи букви.

> Лично моето обяснение е свързано със софтуера, използван при оформянето или предпечатната им подготовка - продуктите на Corel,  Adobe, Microsoft Office и др., бидейки англоезични и с вградените си опции за правописна проверка, подчинени на граматиката на английски, сами по подразбиране поставят главна буква при поставянето на нов ред на разчленени на отделни редове словосъчетания, а липсата на грамотност или придирчивост към правописа на работещите с тия програми е причината за появата на такива недоумици. Дано обяснението ми не е твърде елементарно.

Едва дали това е обяснението. Тази опция може да се премахва, в офис пакета специално, а хората, които често ползват програмите са свикнали с тези неща. Моето обяснение за този феномен е, че ако втората дума се изпише с главна буква, то вниманието на човек по-лесно може да бъде привлечено въху нея. И представете си само как би изглеждала реклама на Кока кола :)

А програмите, които са написани за проверка на правопис и граматика не са вградени в продуктите, които изреждате. Тези модули са писани от български фирми (доколкото ми е известно - това са Датекс).

Колкото до грамотността, не съм съгласен някой човек с титла, който работи в БАН или в някой университет да определя кой е грамотен и кой не на базата на собствените си възгледи за езика.

> бидейки един от основните инсрументи, обединяващи населението на една държава в нация, задължение на работещите с него е да спазват правилата, благодарение на които той съществува и много внимателно и отговорно да подхождат към промените и нихилизирането на тия правила.

Нека да не започваме с тази тема. Предлагам да приемем, че българският език е това, което хората с български произход 1. говорят и 2. пишат с ясната идея, че то е български език. Нека оставим българската държава настрана.

> Прочее, без да изпадаме в "балванизиране", да не допускаме профанизирането му

Нямам никаква идея какво значи думата 'балванизиране'. В моя квартал в Пловдив и на мястото, където живея в момента, в София, никой не я ползва. Дали я има в речника?

:) За думата 'профанизирам', повлиян от юнашкото наречие на Тодор Арнаудов, предлагам заместителя 'простакизирам'.

> Достатъчно е човек да прегледа повечето издания на периодичния печат, или нещо по-стряскащо - да попадне в чата на тинейджъри в мрежата, за да се обезпокои сериозно. Темата е много деликатна  наистина.

Достатъчно е да чета от учебник по лингвистика, писан от български автор, или нещо по-стряскащо - да чета закони и наредби на българското правителство, за да се обезпокоя сериозно.

> Прочее смисълът на първоначалната ми забележка беше, че поне ние, които работим с него, да внимаваме!

Всички 'работим' с езика, защото общуваме помежду си. За да протича лесно общуването между нас, желателно е да ползваме общо приети думи и изрази, които да нареждаме по общо приета граматика в ясни и възможно най-прости изречения без многозначност. Приемам едно изключение: съвременна литература ... и то само в известна степен.

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто, Италия и
ITC-irst Пово-Тренто, Италия
Титла: Re: изчислителна лингвистика
Публикувано от: Пламен Манчев в 13.03.2006, 20:36:36
   Сигурно край няма да имат нашите преписки, господин Чанев, чак започвам да съжалявам че се задрачих за главните букви, но наистина ме дразнят, поставени не на място. Вероятно глупава реакция на един застаряващ филолог, свикнал през голяма част от живота си да редактира чужди писания.
   Разработките на "Датекс", а също и по-новата разработка на Българската асоциация за компютърна лингвистика "ItaEst - Така е!", са  системи за корекция на правописни грешки и сричкопренасяне за български език само за Microsoft Office , но подобни разработки доколкото ми е известно, не са правени за продуктите на Corel  или Adobe, в противен случай бих разбрал за съществуването им - използвам тоя софтуер и се интересувам какви български модули се предлагат за него.  Впрочем забелязахте ли - Българска асоциация за компютърна лингвистика /http://www.bacl.org/productsbg.html/ - спокоен съм, че поне това лингвистично сдружение знае как да изписва името си, иначе бих се отчаял съвсем.
   Що се отнася до "балванизацията" - отново една допълнително погрешно натисната буква на клавиатурата, съжалявам. Не може да не сте се сетили, че става дума за проф. А. Теодоров-Балан и неговия прекомерен стремеж за запазване чистотата на езика, стигащ до абсурдно словотворчество. Та  термина "баланизация" си е в обръщение, не съм аз авторът му.
   Но както и да е... Надявам се да не отнемам повече безпричинно от времето Ви.
   Бъдете здрав!
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 13.03.2006, 21:46:47
Здравейте Пламен,

Не сте загубили времето ми. Поне сега зная как се пишат собствени имена с много думи :)

Много ще се радвам ако пишете понякога в тази тема, защото за всеки проблем, дискутиран тук, винаги има повече от една гледна точка.

Само позволете да Ви направя забележка за пълния член в изречението за 'баланизация'-та. 

Колкото до термина, времето ще покаже дали има нужда от него.

поздрави:
Атанас Чанев
Титла: Re: изчислителна лингвистика
Публикувано от: njamam dumi в 26.03.2006, 02:05:54
Всяко едно правило във всеки един книжовен език е изкуствено. Но нормата си е норма. И вместо да спорите и да интерпретирате, прочетете по-внимателно петте думи, с които "човекът" елегантно е обяснил употребата на главни и малки (а не "редовни") букви.
Що се отнася до пълния член...Да, помага, но само при имена от мъжки род. Боя се, че ако става дума за имена от женски род, "фиксираният словоред" е повече от необходим. ("Жената обича работата.", "Вратата затваря котката." и т.н.)
Но какво ли знам аз:) Може би новите правила се коват пред очите ни. :?
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 26.03.2006, 12:33:25
njamam dumi,

> Всяко едно правило във всеки един книжовен език е изкуствено.
Може ли да поясните.

> Но нормата си е норма.
Нормата е нещо, което подлежи на обсъждане и промяна. Не искам да навлизам в подробности.

> И вместо да спорите и да интерпретирате, прочетете по-внимателно петте думи, с които "човекът" елегантно е обяснил употребата на главни и малки (а не "редовни") букви.

Аз не интерпретирам нещо, което някои хора смятат за 'норма'. Аз казвам, че има причини от когнитивно естество, които предполагат всички думи от собствените имена да започват с главни букви, защото по този начин се намалява многозначността и хората могат да се разбират по-добре. Също споделих мнението си относно причините, които са накарали някой 'архитект' на българския език да измисли това правило.

За пълния член. Може да потърсим в корпус колко пъти се срещат местоимения/съществителни от мъжки род и колко от женски; в колко от случаите съществителните са членувани и да стигнем до някои интересни изводи. Предполагам, че ще стигнем до нещо подобно на това, което Роджър Леви нарича 'me first' подход в една статия за coordination pairs. 'Me' е бял, мъж и т.н. :)

> Но какво ли знам аз:)

Може да споделите мнението си. Това е форум на университет, все пак.

поздрави:
Атанас Чанев
Титла: Re: изчислителна лингвистика
Публикувано от: Мария Ненова в 29.03.2006, 01:11:17
Пояснявам, но предупреждавам, че започвам отдалече. По-долу следват някои дефиниции на понятието "книжовен език".

- Говорим език. Този, на който се изразяваме устно. Отличава се от писмения по това, че цялостното поведение на човека играе роля: обстановка, алегро форми (к’во, к’о); допуска се употреба на жестове и мимики, които помагат разбирането (приятно/неприятно е това, което казваме); играе роля интонацията. Много често този, който говори, допуска в речта си т.н. анаколути т.е места, при които мисълта прескача и се губи връзката в контекста.
Пр.: готови неправилни граматически форми: Аз ми се струва = Аз мисля + На мен ми се струва
В говоримия език често имаме прекъсване на говорещия от другия т.е. аанаколут защото не е завършено изказването. Част от тези анаколути могат да се превърнат в норма чрез писмения език.
-Писмен език:  добре обмислена реч, съобразена с правилата и нормите на съответния език. В него също може да се изразява емоция, но трябва да има специални препинателни знаци и едно голямо майсторство на пишещия, за да предаде една ситуация по същия начин, както става в говоримия.
-В продължение на години с ползването на даден език се определят някакви правила: фонетични – за говоримия, граматични – за писмения. Тези правила може да схващаме като книжовен език, който има определено количество норми...
Още една дефиниция на "книжовен език"
ЛИТЕРАТУРНЫЙ ЯЗЫК, наддиалектная подсистема (форма существования) национального языка, которая характеризуется такими чертами, как нормативность, кодифицированность, полифункциональность, стилистическая дифференцированность, высокий социальный престиж в среде носителей данного национального языка. Литературный язык является основным средством, обслуживающим коммуникативные потребности общества; он противопоставлен некодифицированным подсистемам национального языка – территориальным диалектам, городским койне (городскому просторечию), профессиональным и социальным жаргонам.

Нормата подлежи на объждане, когато не само че не помага, но и затормозява. Съгласна съм с Вас, че хората трябва да се разбират, но едва ли има чак такъв проблем с поставянето на главни букви. По-скоро е проблемен "пустият" пълен определителен член за имената от мъжки род, който според мен може да бъде овладян само от индивиди, които знаят на отлично граматично ниво поне един език с падежна система. Готова съм да се обзаложа, че това никога няма да се махне, защото макар и правило, което е изкуствено наложено в българския, то си има своята логика и грамотният българин не трябва да греши.

А архитектът трябва да е "някой". Не може да сме всички. Нека вземем предвид следното:
Колкото по-добре е образован един човек, толкова по-силна е неговата автоцензура (т.е. съблюдаване на усвоените норми при писане), толкова по-трудно се променят нормите и по-трудно се развива и осъвременява езикът.
Ако по-горното е правилно - при добро работещо българско начално и основно образование, нормите, за които си говорим с Вас, никога няма да се променят. За съжаление (или за радост - времето ще покаже) влиянието на английския език и небрежността към правописните норми са твърде силни. Ако продължава така, ще започнем в скоро време не само да пишем с главна буква всяка дума от сложните собствени имена и заглавия, но също и глотонимите, националностите и т.н.
Аз лично предпочитам варианта да сме високо грамотни, а не да се поддаваме на чужди влияния и да пренебрегваме важността на нормите с надежда един ден те да се преразгледат.
Що се отнася до корпусите и coordination pairs - засега съм на ниво "лингвистика". Когато започна да се ориентирам в терминологията на компютърната лингвистика, ще коментирам.

Поздравявам Ви, господин Чанев.

Мария Ненова
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 04.04.2006, 14:04:17
Здравейте Мария,

В отговор на Вашите дефиниции, ще дам връзка към определението за писмен език в Уикипедия:

http://en.wikipedia.org/wiki/Written_language

Ако не Ви харесва, може да го промените, но никой няма да Ви даде гаранция, че някой няма да го промени след Вас.

За главните букви няма да говоря повече. Тази тема е интересна и може да бъде изследвана, ако някой плати за това.
За пълния член не съм съгласен. Особено за владеенето на език с падежна система (ако дадете дефиниция за такъв език ще спестим малко безсмислено обсъждане). Пълният член е важен, защото в противен случай ще се разбираме по-трудно. Също не разбирам защо според Вас това правило е 'изкуствено' наложено.

За архитектът - може да сме всички, или поне всички, които пишат.

> Колкото по-добре е образован един човек, толкова по-силна е неговата автоцензура (т.е. съблюдаване на усвоените норми при писане), толкова по-трудно се променят нормите и по-трудно се развива и осъвременява езикът.

Не съм съгласен с това твърдение. Не съм сигурен, че дефинициите ни за 'образован' и 'автоцензура' съвпадат. А и това е Вашето мнение, а не факт.

>Ако по-горното е правилно - при добро работещо българско начално и основно образование, нормите, за които си говорим с Вас, никога няма да се променят.

Ако един ученик иска да учи в училище, той/тя все още може да го прави. Но не съм сигурен доколко образованието за което говорите е работещо, особено за български език и литература (с изключението Кацаров - учител по български език и литература в СОУ Димитър Матевски, Пловдив, вероятно и други). Учителите биха могли да бъдат по-либерални.

>Аз лично предпочитам варианта да сме високо грамотни, а не да се поддаваме на чужди влияния и да пренебрегваме важността на нормите с надежда един ден те да се преразгледат.

Аз, пък, предпочитам да живеем в реалността и ако езикът се променя, това да предизвиква и промяна във въпросните норми, защото в противен случай никой няма да говори езика на високо грамотните хора, а паралелно с него ще съществува друг език (или диалект, или жаргон, ако предпочитате), за който никой няма да знае нищо.

поздрави:
Атанас Чанев
Тренто, Италия
Титла: Re: изчислителна лингвистика
Публикувано от: mircho в 10.04.2006, 10:03:41
По проект СОКРАТ във ФМИ на ПУ “Паисий Хилендарски” ще гостува


професор Руслан Митков от Университета на Уувърхямптън, Англия,


който ще изнесе на 11.04. 2006 г. от 13:15 ч. в 422 аудитория.


лекция на тема:

Съвременни теми в компютърната лингвистика

   
Разглеждат се актуални теми в областта на компютърната лингвистика, по които се работи във Великобритания. Акцентира се на настоящи проекти ръководени от проф. Митков, разработвани от групата му в университета в Уулвърхямптън – една от водещите в областта групи на Острова. В част от тези проекти активно работят нашите студенти Димитър Благоев и Антония Ламбова, които в момента са стипендианти в Уулвърхямптън по програмата Сократ/ Еразъм.

Проф. Руслан Митков e ръководител на научната група по компютърна лингвистика в университета на Уулвърхямптън, Англия и директор на Научния Институт по Information and Language Processing. Той е автор на над 135 публикации в области като разрешаване на анафора, автоматично резюмиране, центриране (centering), автоматичен превод, автоматично генериране на множествено-изборни тестове, автоматично извличане на термини и много други , като само през последните две години негови публикации са били цитирани в над 500 статии на други автори. Сред книгите му излезли неотдавна са Anaphora resolution, Longman, 2002 и The Oxford Handbook of Computational Linguistics, Oxford University Press, 2003 (второ издание 2005). Измежду многото текущи професионални ангажименти на проф. Митков е длъжността му главен редактор на поредицата книги по автоматична обработка на естествени езици на издателство John Benjamins и главен консултант по публикациите в тази област на Oxford University Press, както и главен редактор (заедно с Prof. Tait) на списанието Journal of Natural Language Engineering (Cambridge University Press). Той е председател на програмни комитети на редица международни конференции и е изнесъл множество водещи доклади по покана на международни конференции.
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 11.04.2006, 11:56:10
За съжаление отново няма да мога да присъствам. Препоръчвам на всички, независимо дали се интересуват от изчислителна лингвистика или не, да посетят презентацията на професор Митков.

Ако има начин слайдовете да бъдат качени някъде online, ще бъда много благодарен.

поздрави:
Атанас Чанев
Титла: Презентацията на проф. Митков
Публикувано от: fmi admins в 12.04.2006, 10:33:47
Презентацията на проф. Руслан Митков от лекцията му на 13 април 2006 г.

Automatic recognition of cognates and false friends (http://fmi-plovdiv.org/bg_ver/edu/on-line/Prof.Ruslan_Mitkov/Automatic recognition of cognates and false friends.rar)

Memory based translation (http://fmi-plovdiv.org/bg_ver/edu/on-line/Prof.Ruslan_Mitkov/memory based translation.rar)

Projects with Translution (http://fmi-plovdiv.org/bg_ver/edu/on-line/Prof.Ruslan_Mitkov/Projects with Translution.rar)

Research group in Computational Linguistics (http://fmi-plovdiv.org/bg_ver/edu/on-line/Prof.Ruslan_Mitkov/Research group in Computational Linguistics presentation Plovdiv.rar)
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 12.04.2006, 22:57:45
Благодаря много!
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 02.05.2006, 22:12:09
Някой интересува ли се от синтаксис и парсиране на български, както и други езици (напр. италиански)?

Ако да, пишете ми на artanisz at mail dot bg.

поздрави:
Атанас Чанев
Кеймбридж, Масачусетс, САЩ
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 18.05.2006, 20:34:51
Message 1: Re: 17.1317, Disc: Starling Study: Recursion
Date: 17-May-2006
From: Geoffrey Pullum <pullumsoe ucsc edu>
Subject: Re: 17.1317, Disc: Starling Study: Recursion


Tim Gentner and his colleages recently published a paper in Nature about
learning of artificially constructed recursive "grammars" by songbirds,
with patterns like AAAABBBB (Gentner TQ, Fenn KM, Margoliash D, Nusbaum
HC, 2006: Recursive syntactic pattern learning by songbirds, Nature
440: 1204-1207). The work has been widely reported in newspaper articles.
We (Ray Jackendoff, Mark Liberman, Geoff Pullum, and Barbara Scholz) wrote
a letter to Nature to warn against over-interpretation of the Gentner
group's results. The letter presented four reasons for thinking the
paper's conclusion, that the experiment "opens a new range of complex
syntactic processing mechanisms to physiological investigation", was
not sufficiently supported.

Within 18 hours, Nature declined to publish the letter. (In our
experience, this is what usually happens when linguists write to
general science journals like Nature and Science commenting on the
content of papers with linguistic content that have been published
by non-linguists.) Readers of the LINGUIST List might like to read
here the four points that were expressed in the letter, which were
expressed thus:

(i) Even if it were true that starlings could grasp a recursive grammar,
this could hardly provide direct evidence about the evolution of human
language. It would be at best an analogous rather than homologous
capacity -- surely not an inheritance from some common ancestor of
birds and mammals.

(ii) It is not clear that the starlings learned a recursive rule.
Becoming habituated to a pattern like AAABBB does not necessarily imply
grasping recursively center-embedded structures like A(A(A(...)B)B)B.
This pattern could equally be detected by comparing the number of A's
and B's, given that some birds such as pigeons can subitize numbers up
to 4 or more (Dehaene S, The Number Sense, Oxford University Press, 1997).

(iii) Humans do not perform well on center-embedded syntax. Even for
n = 2, they are often baffled by A^nB^n structures ("People people
cheat cheat" is all but unintelligible). Few can handle n = 3. Are
starlings outperforming humans syntactically?

(iv) Recursion is not the unique core property of the human language
faculty anyway (Pinker S & Jackendoff R, `The faculty of language:
What's special about it?', 2005, Cognition 95, 201-36). Recursion is
arguably involved in comprehension of complex visual fields, planning of
action, and understanding social environments. These human capacities are
shared with other primates. Unique to human language is a very large
learned vocabulary consisting of long-term memory associations between
meanings and structured pronunciations plus varied phrasal syntax.

The Gentner experiment may help us understand animal pattern recognition
and learning abilities, some of them possibly prerequisites for linguistic
abilities; but the implications are being considerably exaggerated,
especially in popular media accounts with headlines like "Songbirds
May Be Able to Learn Grammar."

 Ray S. Jackendoff
 (Center for Cognitive Studies, Tufts University)

 Mark Y. Liberman
 (Institute for Research in Cognitive Science, University of Pennsylvania)

 Geoffrey K. Pullum, Barbara C. Scholz
 (Radcliffe Institute for Advanced Study, Harvard University)
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 27.05.2006, 06:45:58
http://polorovereto.unitn.it/~chanev/ChanevetalCameraReady2006LREC.pdf
Титла: Re: изчислителна лингвистика
Публикувано от: НепъленЧлен в 31.05.2006, 11:21:06
> ...езика е жилаво нещо...

Без да се заяждам, но в съвременното общество наистина неусетно се подрива употребата на пълен член.
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 31.05.2006, 23:17:47
Здравей НепъленЧлен,

В говоримия език е ясно защо. Не съм сигурен доколко вестниците използват език, който е лишен от пълния член. Ако това наистина е така, то в писмения български ще се използва все по-рядко обратният словоред (вероятно само в случаи в които субектът и обектът могат да бъдат определени от значението на думите без многозначност, с цел да се постави акцент върху обекта).

Нещо, което може да се направи по въпроса е българските учени (тези, които много са учили) да преброят в корпус от български вестници дали пълният член отпада или не и да информират любопитната общественост, да кажем, в патриотичен репортаж по канал 1 ;)

Пълният член не може да отпадне веднага. Нужно е време - вероятно години, ако изобщо има такава тенденция. Дали има такава тенденция, аз не знам, за сега.

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто
ITC-irst Пово-Тренто
Титла: Re: изчислителна лингвистика
Публикувано от: artanis в 14.07.2006, 00:39:06
Здравейте,

Тази тема много прилича на монолог (или блог), но се надявам да е интересна за някои.

Проблемът е dependency parsing. Това е, когато структурата на изречението на някакъв език се представя като наредена двойка от думи, като първата дума е родител на втората дума. Напр.

Аз обичам кафява захар.
(обичам, Аз) - това е субект
(захар, кафява) - това е атрибут
(обичам, захар) - това е обект

Много интересна е задачата за статистически dependency parsing, където тези двойки думи се научават от текстове, които са анотирани от хора, а после алгоритъм за парсинг построява структурата на изречението.

Любимите ми алгоритми за dependency парсинг са:
Shift-reduce (Nivre)
Chu-Liu-Edmonds (ясно кой)
Eisner (на основата на CYK)
Earley (Lesmo) - този не е статистически. Доколкото знам, няма статистически Earley за  dependency parsing

поздрави:
Атанас Чанев
в момента в Масачусетски Институт по Технологии