argon bulletin board
Факултети => Факултет по математика и информатика => Темата е започната от: JOKe в 15.12.2006, 16:39:16
-
Значи какво ми трябва
ами файл с колкото се може повече български думи всякакви думи без повторения просто да са максимално много
едно време имаше една програма за проверка на правописа "Ета Ест " neshto takova ili "taka e "
deto proverqvashe pravopisa v Office
ama v neq kade gi ima tiq dumi ... :) nqmam ideq.
nqkoi da ima
-
Здрасти,
В ПУ има речник, обаче вероятно ще ти трябва лиценз. Той е българо-английски, на теб ти трябва само българската част. (доц. Крушков, доц,д-р. Тотков).
Вероятно по-бързо решение, ако речникът ти трябва за нещо извън университета:
Взимаш една книга в електронен текстов формат на български, или базата данни на този форум (ако я даде ksx) и извличаш всички думи, които не се повтарят. Аз съм писал Perl скрипт за извличане на думите, който не е свръх бавен и може да ти свърши работа. Пиши, ако го искаш (дано само да ми е под ръка). Може да се наложи да махнеш препинателните знаци в края на думите, но това не е сложно. За сгрешените думи - доколкото си помням скриптът брои и колко често се използва някоя дума и ако се даде някаква граница под която думите не се добавят в речника, могат да се избегнат много от случаите на грешки.
поздрави:
а.
... всъщност имам точно каквото ти трябва (списък от думи, които не са в основна форма), но съм използвал bultreebank (bultreebank.org), а за това ти трябва лиценз. Може да се извлече и основната им форма (но за това трябва и друг лиценз, освен ако ....). За какво ти трябва речника?
-
Принципно ОпенОфисе.орг има много добра проверка на правописа за български. При добро желание ( и свободно врме) ако се разровиш из кода може и да ти свърши работа... :-)
-
Принципно ОпенОфисе.орг има много добра проверка на правописа за български. При добро желание ( и свободно врме) ако се разровиш из кода може и да ти свърши работа... :-)
vupreki che sum fen na open office trudno moga da se suglasia s tvurdenieto za dobrata proverka na pravopisa na bulgarski specialno
-
Буквално за 4 мин стана всичко. 22889 думи написах, повече не мога да се сетя :-P
http://85.255.162.3/Other/bg_word/
Даже го подготвих и в SQL файл
Аиде имаш да черпиш.
~edit~
Ако имаш още думи в друга файл, събираш ги в един и:
Ако имаш PHP може да направиш следното решение:
$f = file_get_content('bg_word.txt');
$f = split("\n", $f);
foreach($f as $w)
{
$w = preg_replace("[ .*]", null, $w); // Махане на всичко след ' '
$new_str[$w] = true; //Зареждане като ключ (гаранция за неповтаряемост)
}
unset($f);
// Сега всички думи са ти в $new_str и са уникални, можеш да ги запишеш в SQL или друга БД
Проблема е че всичко отива в паметта 2 пъти, но спестяваш много процесорно време. И го написах директно в форума, не знам дали няма някоя грешка.
-
хаха прекрасно
-
аз намерих ето това
http://j0ke.hit.bg/draft/bg.txt
самия файл уш е под GPL :)
върви с checkspeller-a на bgoffice
маи е по голям от твоя незнам дали има повече думи не сам погледнал за ся
-
Ми добавих нов вариант:
Комбиниращ двата файла
Смаляне на буквите (от големи към малки) за да е по-прегледно
Премахване на всичко след интервал (защото се получава фраза, а не дума), това от моите думи
Премахване на всичко след '/' защото това не е дума а нещо друго, това в твоя речник
Елиминиране на всички повтарящи думи
Сортиране по азбучен ред
Сега са 79807 ДУМИ
http://85.255.162.3/Other/bg_word/
-
Нещо такова (http://forums.bgdev.org/index.php?showtopic=2235) няма ли да работи?
-
hWnd,
Това е кражба!
macrogrand,
Харесва ми зареждането като ключ. Признавам си, че тогава използвах много по-бавно (и може би неелегантно в програмистки смисъл) решение - масиви от масиви от масиви и проверки ...
поздрави:
а.
-
hWnd,
Това е кражба!
Не е! Според тук (http://sa.dir.bg/sources/) SA Dictionary e под GNU GPL и стига и програмата ми да е също под него, всичко е ok.
-
hWnd,
Не успях да намеря за базата данни. От адреса излиза, че кодът е под GNU GPL. Но ако базата данни е под лиценза, защо просто не пишете на човека да я прати? Но пък наистина ако има софтуер, който извлича БД ... може би ... има ли юристи във форума ;)
поздрави:
а.
-
vupreki che sum fen na open office trudno moga da se suglasia s tvurdenieto za dobrata proverka na pravopisa na bulgarski specialno
ne znam ti kakvo polzvash no MS Office ( koqto i da e versiq ) syshto nqma izkliuchitelno dobyr spell checker za BG taka che OOo e dosta na nivo.