Засега цялата функционалност по разпознаването на гласа, произношението, интонацията и т.н. зависи изцяло от архитектурата на MSSA (Microsoft Speech API). Единствените две причини да изберем MSSA бяха следние:
1) Не съм запознат дали има друга подобна архитектура, която поддържа отделен гласов профил за всеки потребител, което е много важно за точното разпознаване на фрази.
2) MSSA предоставя едновременно комплект от TTS и STT API-та, които работят заедно много добре.
Първоначално имахме намерение да пишем на JAVA, но се оказа, че за повечето неща има разработени отделни библиотеки които трябва първо да разучаваме и после да ги накараме да работят заедно, а и никой не гарантира, че следващите версии на компонентите ще са съвместими със старите и съответно напасването с другите библиотеки ще е по-трудно.
Могат да се изговарят букви, думи, словосъчетания, изречения и цели пасажи, страници и т.н., т.е. системата по никакъв начин не е ограничена поне в това отношение. Единствено за разпознаването на глас се използва предварително дефиниран речник, но той поддържа много повече думи, отколкото самият аз знам.
Може да се каже, че произношението е на компютърен английски (т.е. с роботски глас), което също е недостатък, но въпреки това произношението е над 90% вярно, допълнително може да се настройва скоростта на изговаряне на думите, в зависимост от желанието на потребителя. Поддържат се един женски и два мъжки гласа. Обмислям варианта да включа и собствения си глас
Интонацията засега куца, но ударенията на думите са добре.
Не съм тествал системата дали ще проработи с някой win емулатор под линукс, най-вероятно не, тъй като се бърка на доста ниско ниво.
За лиценза ще трябва да го обсъдим с колегите, аз лично съм за FREE distributed binary и LGPL сорс, но зад идеята стоим няколко души и е редно решението да е общо.
Намерих място, където да кача инсталацията, след ден-два (около 10-ти юни) ще напиша точно URL.