argon bulletin board

Експертно търсене  

Новини:

Регистрирането на нови потребители е временно деактивирано.

Автор Тема: изчислителна лингвистика  (Прочетена 23691 пъти)

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: изчислителна лингвистика
« Отговор #60 -: 12.08.2005, 21:00:30 »

Здрасти,

Не знам за скрити мрежи на Марков, но предполагам, че говориш за Markov chains. Скритите модели на Марков са малко по-сложни.

Съвсем повърхностно, представи си, че искам да направя part of speech (POS) tagging на някакъв текст. Пресмятам P(wi|ti)P(ti|ti-1)P(ti|ti-1ti-2) за всяка дума от изречение. P(wi) - брой на срещанията на i-тата дума от изр. в корпус. P(ti) - брой на срещанията на POS таг-а на i-тата дума от изр. в корпус. Интересувам се от решението с мах вероятност.

Докато се стигне до това, обаче има доста статистика.

За дипломната работа, според мен, колкото по-рано, толкова по-добре - особено за АРГ на български.

За БТК и т.н. Точно за разпознаване на реч говорим.

поздрави

а.

п. Какво е DSP?
Активен

Tosh

  • Неактивен Неактивен
  • Публикации: 249
  • Filmmaker
    • Изследванията на Тодор Арнаудов
Re: изчислителна лингвистика
« Отговор #61 -: 14.08.2005, 18:02:00 »

Здравей.

Май обърках мрежи на Бейс и вериги на Марков и стана 'скрити мрежи на Марков'...  :)

За започването на ДР - все пак е добре да имаш представа в какво се хвърляш, преди да поемеш дипломна работа. Страх ме е да нагазя в дълбокото без да съм малко уверен, че мога да плувам. :)

А и не съм сигурен че това ми е най-интересната тема. Мисля че машинното творчество, съчиняване на текстове, ми е по-интересно, но при него май ще трябва да се откриват разни топли или врели води, :) а и може да звучи несериозно.

Интересувам се и от изграждането на езиковите умения, "language acquisition", с цел да разнищя нещо за езика чрез анализ на тези данни.
От години се надявам отнякъде да ми паднат подробни експериментални изследвания с корпуси :-) //корпусите най-вече// с развитието на речта на деца от 0 до еди-колко си години. Чувал съм за две класически, на езиковеди които изследват децата си, едно руско и другото на английски, които записват всичко което звучи около детето и всички разговори, в които то участва.

Навил да питам по-сериозно насам-натам за тези изследвания. Ти знаеш ли за такова изследване на българско дете/деца?

DSP - Digital Signal Processing. Обработка на аналогови данни.

Поздрави
Активен
Творчество и изследвания:
http://twenkid.com
http://artificial-mind.blogspot.com

Veska Noncheva

  • Неактивен Неактивен
  • Публикации: 45
Re: изчислителна лингвистика
« Отговор #62 -: 14.08.2005, 19:04:38 »

Hi!

Май обърках мрежи на Бейс и вериги на Марков и стана 'скрити мрежи на Марков'...   

>> Мрежи на Бейс са структури от данни за представяне на стохастични знания и автоматични изводи. (Имам хубава книга за тях.).
>> Вериги на Марков са вероятностни модели.
>> В частност една верига на Марков може да се представи с една (проста) мрежа на Бейс.
 
Интересувам се и от изграждането на езиковите умения, "language acquisition", с цел да разнищя нещо за езика чрез анализ на тези данни.

>> "language acquisition" – извличане на знания за естествения език. Аз съм работила върху (автоматично) извличане на синоними, hyponims и hiperonims от корпуси. Например кола<<превозно средство.  Малка част от резултатите са публикувани в RANLP’2003.  Корпусът беше на португалски език. Колегите -2 португалци, 1 бразилец и 1 испанец, които ми изпратиха данните харесаха резултатите. После децата в къщи форматираха диска с моята програма... Е, не са форматирали метода, който е записан в моята глава, но аз от тогава нямам време да програмирам. Та резултатът за извличане на hyponims и hiperonims от корпуси не е публикуван.

От години се надявам отнякъде да ми паднат подробни експериментални изследвания с корпуси  //корпусите най-вече// с развитието на речта на деца от 0 до еди-колко си години.

>> Преди около 2 години имаше информация в CORPORA mailing list  за такива корпуси на англииски език.

Навил да питам по-сериозно насам-натам за тези изследвания. Ти знаеш ли за такова изследване на българско дете/деца?

>> Какво значение има езика?  Методите трябва да бъдат езиково независими.

 Поздрави
 Веска Нончева
Активен

Tosh

  • Неактивен Неактивен
  • Публикации: 249
  • Filmmaker
    • Изследванията на Тодор Арнаудов
Re: изчислителна лингвистика
« Отговор #63 -: 16.08.2005, 07:52:45 »

Здрасти.

>>(Имам хубава книга за тях.).

Ако това е предложение, може и да го приема, но засега не. :)

>> Какво значение има езика?  Методите трябва да бъдат езиково >>независими.

И аз (?) мисля, че умът започва да съществува с вградена универсална граматика, която се донастройва за конкретните нужди, но езикът който изследвам трябва да разбирам възможно най-добре - най-добре разбирам български.
Моят стремеж е извличане на знания за устройството на разума чрез вникване в устройството на езика на разума (моят начин да наричам "естествения език"), "разнищване" (reverse engineering) на разума.

Към развитието на речевите умения на детето от 0 години нататък върви и изследване на словесното творчество, на съчиняването, за което споменавам в предното съобщение и с повече думи по-назад, а за съчиняване трябват и представи, спомени, цели.

Език на разума е средство за описание на светове, цели, възприятия, състояния, спомени, отношения, действия и взаимодействия и пр. Затова третият план на "налучкването" е строене и обовноваване на език на разума от нищото (граматика на език на разума), който да е съобразен с нуждите на "зародиш на разум" ( още един успореден план ) да описва светове, възприятия, спомени, цели и т.н. и да е свързан с конкретнотот му устройство. Част от тази граматика ще е на "говорим език на разума", друга част която ще е по-подробна и с по-висока разделителна способност, ще се ползва от вътрешните части на разума.

...
Тош
« Последна редакция: 16.08.2005, 08:41:58 от Tosh »
Активен
Творчество и изследвания:
http://twenkid.com
http://artificial-mind.blogspot.com

Veska Noncheva

  • Неактивен Неактивен
  • Публикации: 45
Re: изчислителна лингвистика
« Отговор #64 -: 16.08.2005, 18:24:35 »

Привет!

И аз (?) мисля, че умът започва да съществува с вградена универсална граматика, която се донастройва за конкретните нужди, …

>> Мисля, че основната ти идея има смисъл.

Моят стремеж е извличане на знания за устройството на разума чрез вникване в устройството на езика на разума …, "разнищване" на разума.

Към развитието на речевите умения на детето от 0 години нататък върви и изследване на словесното творчество, на съчиняването, за което споменавам в предното съобщение и с повече думи по-назад, а за съчиняване трябват и представи, спомени, цели.

Език на разума е средство за описание на светове, цели, възприятия, състояния, спомени, отношения, действия и взаимодействия и пр. Затова третият план на "налучкването" е строене и обовноваване на език на разума от нищото (граматика на език на разума), който да е съобразен с нуждите на "зародиш на разум" ( още един успореден план ) да описва светове, възприятия, спомени, цели и т.н ….

>> Тези твърдения не ги разбирам. Но, ако ти си вярваш, започни:
-   да ги описваш
-   да ги моделираш, като започнеш с основните дефиниции
-   в твоя трактат добави и какво е направено до сега в тази насока
-   намери някой с титли и звания (и със знания), на когото имаш доверие и който да ти провери написаното
И ето ти дипломна работа. Опитай се да направиш и публикация.

И успех!
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: изчислителна лингвистика
« Отговор #65 -: 21.08.2005, 17:14:34 »

@tosh

Здрасти, за ХММ ти препоръчвам тази статия:

A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition от Lawrence R. Rabiner

Имаше и други, които исках да ти препоръчам, но сигурно са ми в квартирата. Ще ти пиша пак по-нататък.

а.
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: изчислителна лингвистика
« Отговор #66 -: 01.09.2005, 20:48:11 »

Здравейте,

Неотдавна имаше един човек във форума, който отказваше да назове името си и казваше, че хората, които се занимават с изчислителна лингвистика само симулират дейност. Аз тогава говорех за българска следа в тази област ...

Съвсем скоро посещавах курс за Автомати в Единбург (Европейско Лятно Училище за Езици, Логика и Информация ESSLLI 2005). Водеха го двама поляци, единият работи в институт за ресърч, мисля че в Германия. Другият работи в централата на google (Wojciech Skut). Те подготвят учебник по автомати и споменаха за алгоритъма на Крушков на лекциите.

Жалко, че не познавам алгоритъма, но много яко ми стана, че Крушков ми беше дипломен ръководител, публикували сме неща заедно и имаме незавършен проект за онлайн ПОС тагер за български (почти е готов).

Особено на приетите сега студенти искам да кажа, че за такава смешна такса за обучение получавате образование на много високо равнище.

поздрави от Италия:
Атанас Чанев
Активен

Койчо Митев

  • Гост
Re: изчислителна лингвистика
« Отговор #67 -: 24.10.2005, 17:14:53 »

Здравейте,
Попаднах на Вашия адрес от форума в интернет. Разбирам, че имате желание да работите по темата "разпознаване на глас" (voice recognition). Търсим такъв ентусиаст за наш проект "Комуникация на майчин език". Вижте тук: http://www.commonsenseadvisory.com/en/news/global_watchtower_one.php?id=164
и тук:
http://www.bnr.bg/RadioBulgaria/Emission_English/Theme_Science_And_Nature/Material/Inventions.htm
Обадете се.
Койчо Митев
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: изчислителна лингвистика
« Отговор #68 -: 09.11.2005, 18:31:02 »

Койчо,

Малко съм скептичен към Вашия проект след като прочетох това, което ми пратихте по пощата. Но ще изчакам презентацията Ви във ФМИ (очаквам я с нетърпение) и тогава ще задам въпросите си.

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто, Италия
ITC-irst Пово-Тренто, Италия
Активен

katja

  • Неактивен Неактивен
  • Публикации: 1
Re: изчислителна лингвистика
« Отговор #69 -: 09.12.2005, 17:39:48 »

Здравейте,

аз се интересувам от комп. лингвистика. Ако търсите желаещи за работа по проект, ще се радвам на участие:)

Поздрави,
Катя
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: изчислителна лингвистика
« Отговор #70 -: 10.12.2005, 19:33:16 »

Zdraveite katja,

Da, tyrsq jelaeshti za rabota. Pishete mi ot kakvo se interesuvate na artanisz v mail tochka bg . Ako oste ne znaete ot kakvo tochno se interesuvate, moje da Vi dam nqkoi nasoki i predlojeniq. (Neshto, koeto mi se iskashe da napravq, naprimer, no nqma da imam vreme, e da se trenirat modeli za tagging za bylgarski ezik, no ima i mnogo drugi neshta...)

Izvinqvam se za lat, no na tozi kompiutyr nqma nikakva kirilica.

pozdravi:
Atanas Chanev
Barcelona, Catalunya
Активен

Valdorval

  • Неактивен Неактивен
  • Публикации: 87
Re: изчислителна лингвистика
« Отговор #71 -: 11.12.2005, 14:31:14 »

Атанасе и аз съм един от тези дето малко по малко ги интересува компютърната лингвистика. Искам да те попитам дали ще има пак някъква лекция както миналата година? И се надявам ако има да е в поголяма зала а не в малка стая.


Поздрави,

Valdorval

P.S (Атанасе ако искаш може да ми пишеш на ICQ за да може да си поприказваме)  :-)
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: изчислителна лингвистика
« Отговор #72 -: 14.12.2005, 01:32:24 »

Здравейте Valdorval,

Не си спомням да сме се запознавали, за да използвате името ми в този падеж.

Иначе лекция може да има, ако има интерес. Но много по-интересна би била лекция на професор Рулсан Митков от Университета в Уулвърхямптън, който идва всяка година (поне за последните 2 години) в Пловдив и изнася презентация.

Следете таблата и сайта на ФМИ, както и тази тема във форума за повече информация.

поздрави:
Атанас Чанев
Активен

Valdorval

  • Неактивен Неактивен
  • Публикации: 87
Re: изчислителна лингвистика
« Отговор #73 -: 14.12.2005, 10:35:32 »

 Мерси за отговора. За другото мисля че се познаваме, но както и да е имате номера на мойто ICQ тъй че може да ми пишете и ще ви обясна кой съм всъщност и къде сме се срещали.


      С уважение,
                  Valdorval
       
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: изчислителна лингвистика
« Отговор #74 -: 21.12.2005, 20:57:03 »

Който се интересува, може да изтегли пейпъра ми от TLT 05 в Барселона от:

http://polorovereto.unitn.it/~chanev/ChanevTLT05.pdf

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто и
ITC-irst Пово-Тренто
« Последна редакция: 22.12.2005, 00:04:39 от artanis »
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: изчислителна лингвистика
« Отговор #75 -: 09.01.2006, 00:30:22 »

Здравейте,

Понеже зная, че теми от този форум могат да се търсят в гуугъл бих искал да използвам случая да питам дали някой се интересува от граматики на зависимостите (dependency grammars). За българския език все още няма dependency treebank-а. (Друг е въпросът, че в България вероятно никой няма нужда от такава банка)

Този вид граматики са много подходящи за анализ на повечето европейски езици, но ползването им е сравнително ограничено (Prague Dependency Treebank, Negra Corpus и т.н.)

Пишете, ако някой се интересува.

успешна седмица:
а.
Активен

Пламен Манчев

  • Гост
Re: изчислителна лингвистика
« Отговор #76 -: 25.02.2006, 17:56:13 »

Атанас Чанев, "докторант по Конгнитивни Науки",
защо и Вие,  господен докторанте,  сте така зле с българския правопис? Защо и Вие пишете  "Конгнитивни Науки" с главни букви, както в повечето реклами в последните години забелязваме неоснователното и дразнещо изписване на съществителни нарицателни с главни букви? Защо?!
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: изчислителна лингвистика
« Отговор #77 -: 25.02.2006, 18:43:32 »

Честно казано не бях обърнал никакво внимание на това. Когато се подписвам на английски, когнитивни науки е с големи букви.

А защо и Вие, господин Пламен Манчев сте така зле с българския правопис? Защо и Вие пишете 'господен', вместо 'господин'?

А за рекламите съм сигурен, че има съвсем логично обяснение.

поздрави:
Атанас Чанев
докторант по когнитивни науки
университет в Тренто

п. Един въпрос към Вас: Защо Технически Университет се пише с главни букви?
Активен

mircho

  • Неактивен Неактивен
  • Публикации: 335
Re: изчислителна лингвистика
« Отговор #78 -: 25.02.2006, 22:30:36 »

Защо Технически Университет се пише с главни букви?
Пише се “Технически университет”.
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis
Re: изчислителна лингвистика
« Отговор #79 -: 26.02.2006, 00:50:45 »

Здравейте,

Явно съм се заблудил от главната страница на Техническия университет (ако направя аналогия, когнитивни науки би могло да се пише Когнитивни науки - първата дума с главна буква).

Дори в името на документ в електронен формат се среща словосъчетанието Технически Университет. В Техническия университет във Варна също използват 'Технически Университет'. Изглежда на пръв поглед, че в документи се предпочита словосъчетанието Технически университет (а как се пишат Стара П(п?)ланина или Черна Г(г?)ора, Златни П(п?)ясъци). Ако използвам мрежата като корпус намирам и от двата варианта. Още по-интересни са словосъчетанията Съветски С(с)ъюз и Европейски С(с)ъюз, Съединени Щ(щ)ати, Обединено К(к)ралство, Обединени Арабски Емирсва (арабски емирства), Организация на О(о?)бединените Н(н?)ации).

Много ще ми бъде интересно да разбера какво е правилото за подобни словосъчетания? И защо ако има такова правило, много хора в интернет (в момента нямам възможност да проверя в библиотека) пишат тези словосъчетания с главни букви.

Ако някой се аргументира с това, че когнитивните науки са дисциплина, а не държава, град или университет, то може на много места да се провери как имената на дисциплините започват с главни букви. (от тук защо Математика и Информатика, но не Факултет по Математика и Информатика, а Факултет по математика и мнформатика?).

Може ли да цитирате източниците си?

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто
Активен