Тема: English TTS & STT Learning Software (Прочетена 4691 пъти)

Jack Johnson · « -: 06.06.2006, 14:22:53 »

За справка:

1) TTS - Text to Speech

2) STT - Speech to Text

На мен се пада честта да запозная ФМИ с идеята и частична реализация на софтуерна система, която значително би улеснила обучението по английски език най-вече в средните училища. Преди известно време аз и още няколко колеги от биологическия факултет сериозно се захванахме да създадем не само на думи система, която изпълнява следните обучителни функции:

1) Позволява на ученика/студента да прослушва какво е казал (на английски).

2) Разпознава фразата/изречението (на английски) и

3) Изговаря фразата/изречението с правилното произношение (на английски).

4) Поддържа интерфейс за връзка към англо-български речници (засега само SA Dictionary) с цел автоматичен превод на разпознатата дума (от английски на български).

Засега има само бета версия (кръгло 100MB в инсталационен вид), която вече се използва активно от част от магистрите в биологическия факултет и дава изключително задоволителни резултати.

Системата се разработва на .NET v2.0 платформа като допълнително е използван енджинът Microsoft Speech API 5.1.

Мисля в началото на идващата учебна година аз и колегите да направим малка демонстрация на системата, която надявам се дотогава да придобие още по-завършен вид.

Засега всички изброени точки по-горе се поддържат от системата. Като следваща стъпка се предвижда вграждане на функционалност за "предполагане" какво е казал ученикът/студентът, ако системата прецени, че той си "мрънка под носа".

Вчера неофициално системата е била представена в биологическия факултет и както предполагах е предизвикала огромен интерес както сред студентите, така и сред някои от преподавателите.

Официална демонстрация ще направим, когато системата придобие по-завършен вид и както вече казах, очаквам това да стане някъде в началото на идващата учебната година. А дотогава ако някой иска да получи демо версията или да види как работи системата в реални условия - ще се радвам да си поговорим.

Valdorval · « **Отговор #1 -:** 06.06.2006, 15:50:32 »

Иване тъй като няма да съм тук ще може ли да кажеш от къде ще може да си дръпнем демо верси

Jack Johnson · « **Отговор #2 -:** 06.06.2006, 15:54:00 »

Цитат на: Valdorval в 06.06.2006, 15:50:32

Иване тъй като няма да съм тук ще може ли да кажеш от къде ще може да си дръпнем демо верси

Не съм качил демо версия за сваляне, но щом намеря място, различно от "data.bg", което предлага 100MB+ за един файл веднага качвам!

artanis · « **Отговор #3 -:** 06.06.2006, 21:20:45 »

Здравейте Иван,

Аз се интересувам от следните две функционалности:

2) Разпознава фразата/изречението (на английски) и

3) Изговаря фразата/изречението с правилното произношение (на английски).

имам няколко въпроса:

Горните неща с функции от Microsoft Speech API 5.1 ли сте ги правили?

Модулите за изговаряне на фразите ограничени ли са до изреченията от системата или могат да се използват за всяко изречение на английски език?

Системата за Британски английски (южен акцент) / Американски английски / Австралийски английски ли е разработена?

Системата изговаря ли изреченията с подходящата интонация?

И един последен въпрос: Предполагам, че системата не работи под Линукс/Макинтош. Може ли да се дръпне сорс кода? Под какъв лиценз разпространявате системата?

поздрави:
Атанас Чанев
докторант по Когнитивни Науки
Университет в Тренто и
ITC-irst Пово-Тренто

Райчо Мукелов · « **Отговор #4 -:** 07.06.2006, 04:29:03 »

На RANLP05 представиха един Text To Speech софтуер който ми направи впечатление точно защото можеше да възпроизвежда интонация. Става дума за Speech Lab 2.0 (http://www.bacl.org/speechlabbg.html) софтуера даже можеше да говори на английски с български акцент, което на мен поне ми се видя забавно

Jack Johnson · « **Отговор #5 -:** 07.06.2006, 10:27:42 »

Засега цялата функционалност по разпознаването на гласа, произношението, интонацията и т.н. зависи изцяло от архитектурата на MSSA (Microsoft Speech API). Единствените две причини да изберем MSSA бяха следние:

1) Не съм запознат дали има друга подобна архитектура, която поддържа отделен гласов профил за всеки потребител, което е много важно за точното разпознаване на фрази.

2) MSSA предоставя едновременно комплект от TTS и STT API-та, които работят заедно много добре.

Първоначално имахме намерение да пишем на JAVA, но се оказа, че за повечето неща има разработени отделни библиотеки които трябва първо да разучаваме и после да ги накараме да работят заедно, а и никой не гарантира, че следващите версии на компонентите ще са съвместими със старите и съответно напасването с другите библиотеки ще е по-трудно.

Могат да се изговарят букви, думи, словосъчетания, изречения и цели пасажи, страници и т.н., т.е. системата по никакъв начин не е ограничена поне в това отношение. Единствено за разпознаването на глас се използва предварително дефиниран речник, но той поддържа много повече думи, отколкото самият аз знам.

Може да се каже, че произношението е на компютърен английски (т.е. с роботски глас), което също е недостатък, но въпреки това произношението е над 90% вярно, допълнително може да се настройва скоростта на изговаряне на думите, в зависимост от желанието на потребителя. Поддържат се един женски и два мъжки гласа. Обмислям варианта да включа и собствения си глас

Интонацията засега куца, но ударенията на думите са добре.

Не съм тествал системата дали ще проработи с някой win емулатор под линукс, най-вероятно не, тъй като се бърка на доста ниско ниво.

За лиценза ще трябва да го обсъдим с колегите, аз лично съм за FREE distributed binary и LGPL сорс, но зад идеята стоим няколко души и е редно решението да е общо.

Намерих място, където да кача инсталацията, след ден-два (около 10-ти юни) ще напиша точно URL.

karpov · « **Отговор #6 -:** 07.06.2006, 10:48:21 »

ne 4e razbrah mnogo no mai kompa 6te mi govori na briti6 ingli6 s yujen akcent a se iska i to4na intonaciq specifi6na za vseki 4ovek koeto ako naistina e taka e nevazmojno
Spored men ne trqbva da e savsem free za da vzemat nqkoi lev i tezi koito sa go razrabotili. nali trqbva da qdat i te

Jack Johnson · « **Отговор #7 -:** 07.06.2006, 11:16:09 »

Компа ти ще ти говори на полу-американски и полу-роботски английски, поне такива са моите впечатления от слуховата ми съобразителност. А ти как ще му говориш е от значение само в началото, когато MSSA все още се адаптира към твоя глас и спецификата на произношението ти.

Забелязах, че с течение на времето MSSA се научава да разпознава правилно думи като "work", независимо дали ги произнасяш като "уърк" или "уорк", но произношението зависи изяло от конкретния човек, затова MSSA поддържа отделни гласови профили за всеки потребител.

Jack Johnson · « **Отговор #8 -:** 09.06.2006, 00:02:22 »

Все пак опрях до услугите на data.bg

Всеки, които желае, може да свали системата и да я ползва безплатно без ограничения, също така може и да я разпространява без ограничения, но без да я продава.

Инсталацията е много проста, всичко се свежда до "next, next, next..."

Предполага се, че ще инсталирате системата на Windows XP със SP2, всичко останало е включено в дистрибуцията

http://english.bgzin.com/

artanis · « **Отговор #9 -:** 10.06.2006, 08:15:25 »

Здрасти,

Доста странен избор на сървър. Трябваше според мен да пробвате на друго място. Така, че системата да достигне до тези до които трябва да достигне.

Има хора от големи компании, които търсят разни неща. Биха могли да се натъкнат на нея и това е добре. Обаче е невъзможно това да стане, ако сте качили системата в дата. Дори да я намерят, ще помислят, че това е пиратски софтуер, което е много лошо.

Малко не е по темата, но някой трябва да ви каже как се прави. Ако пък искате отворен код се прави по друг начин така че пак да те забележат. Надявам се да си вземете поука.

поздрави:
а.

artanis · « **Отговор #10 -:** 11.06.2006, 06:54:53 »

Здравей Иван,

Според мен най-логичното място, където (може би трябваше) да качите системата са сървърите на ФМИ.

поздрави:
а.

Jack Johnson · « **Отговор #11 -:** 12.06.2006, 10:59:36 »

Още не е късно да кача системата на сървъра на ФМИ, но не искам да прибързвам. Всеки ден има нов билд и всеки ден функционалността бавно, но системно се разширява. Засега не съм говорил нито с декана, нито с администраторите, но предполагам, че няма да имат нищо против да хостнат системата.

Идеята за отворен код засега отпада, тъй като има различия на мненията в екипа.

Jack Johnson · « **Отговор #12 -:** 11.08.2006, 15:21:17 »

С цел "побългаряване" на системата ми се наложи да се запозная с още един фреймуърк за гласово разпознаване "Сфинкс 4". http://cmusphinx.sourceforge.net/sphinx4/

Впечатленията ми на фона на майкрософтското апи са потресаващо лоши:

1) Бавно е (поне според моите разбирания)!
2) След тестовете, които проведох, стигнах до извода, че сфинксът се справя по-зле от MSSA.
3) Забива! (може да е виновен компютърът ми, но все пак забива).

И все пак ако човек е малко по-настоятелен и говори изключително бавно, отчетливо и с предварително оттренирана интонация според оксфордския речник, сфинксът се справя прилично и резултатът е доста ефектен. Целият фреймуърк е JAVA базиран, разработен е с идеята да се разширява (и евентуално да се побългарява

).

Ако сте на Win платформа горещо препоръчвам MSSA, но нищо не пречи да изтеглите и двете. Рано или късно ще започнем да си говорим с компютрите свободно, редно е до тогава да имаме софтуер, който да използваме!

*** *** *** ***
English TTS & STT Learning Software

Проектът вече доби завършен вид, работи чудесно, всички под-лицензирани API-та са проверени и изрядни (т.е. не нарушаваме законите), но проблем ни създава написването на инсталатор, както и навързването на .NET зависимостите. В краен случай ще се наложи потребителите да си дърпат .NET фреймуърка отделно. Работим усърдно по разрешаване на проблема.

Ето някои от "фийчърите" в официалната, но непубликувана версия:

1) Всички профили се командват от програмата (с изключение на създаването на нов профил).
2) TTS профилите се настройват също от самата програма.
3) Програмата запазва настройките си.
4) Има възможност програмата да се стартира заедно с операционната система.
5) Програмата може да работи и от System Try, при което отново се запазва функционалността и лесното управление.
6) И още...

Jack Johnson · « **Отговор #13 -:** 27.08.2006, 21:50:27 »

Официално пускаме първа версия на системата. Всеки който иска може да я изтегли оттук:

http://english.bgzin.com (вече сме на собствен сървър)

Скоро мисля да организираме малка 15 минутна демонстрация във ФМИ, на която аз и колегата да демонстрираме всички (засега) възможности на системата.

Ще се радвам ако споделите мнението си тук или в нашия специален форум:

http://bgzin.com/forum/viewtopic.php?t=3

Jack Johnson · « **Отговор #14 -:** 18.10.2006, 15:06:11 »

След официалното пускане на първа версия се заехме с въвеждането на модул за изпълнение на гласови команди!

Представете си следната ситуация (личен опит): Късно вечерта сте си пуснали някой филм на компютъра и рано сутринта филма свършва! Вие сте изморен, вече сте си легнал в леглото и Ви мързи до мозъка на костите да станете само за да изключите компютъра! Колко удобно щеше да бъде, ако можехте да кажете на компютъра да се изключи сам, нали?

Е, вече можете! И не само това! На практика вече е възможно да накарате компютъра да изпълни всичко чрез задаване на предварително дефинирана от Вас гласова команда или да изпълните някои от предварително заложените такива.

От техническа гледна точка мога да кажа, че в случая гласовите командит се свеждат до търсене на позната фраза в рамките на предварително зададен списък, което повишава скоростта на анализ многократно, тъй като програмата не губи време да анализира всяко звукосъчетание, а просто търси достатъчно добро съвпадение за цялата фраза.

Въвеждането на този модул отклонява значително програмата от оригиналната и идея, а и като се има предвид, че управлението чрез гласови команди е вградено в Windows Vista, то модулът най-вероятно ще го публикуваме като отделна програма със специализирана цел.

Също така търся доброволци, които желаят да навлязат в дебрите на Microsoft Speech API и искат да се включат в проекта. Това е добро начало за дипломна работа, проект, който да включите в CV-то си, или просто за качествено запълване на свободното време! Ако на някой му се занимава - нека ме потърси тук, в ICQ или под друга IT форма.

Въпроси - тук!
Отговори - пак тук!

argon bulletin board

Новини:

Автор Тема: English TTS & STT Learning Software (Прочетена 4691 пъти)

Jack Johnson

English TTS & STT Learning Software

Valdorval

Re: English TTS & STT Learning Software

Jack Johnson

Re: English TTS & STT Learning Software

artanis

Re: English TTS & STT Learning Software

Райчо Мукелов

Re: English TTS & STT Learning Software

Jack Johnson

Re: English TTS & STT Learning Software

karpov

Re: English TTS & STT Learning Software

Jack Johnson

Re: English TTS & STT Learning Software

Jack Johnson

Re: English TTS & STT Learning Software

artanis

Re: English TTS & STT Learning Software

artanis

Re: English TTS & STT Learning Software

Jack Johnson

Re: English TTS & STT Learning Software

Jack Johnson

Re: English TTS & STT Learning Software

Jack Johnson

Re: English TTS & STT Learning Software

Jack Johnson

Re: English TTS & STT Learning Software