argon bulletin board

Експертно търсене  

Новини:

Регистрирането на нови потребители е временно деактивирано.

Автор Тема: Речник с български думи или файл по скоро  (Прочетена 4082 пъти)

JOKe

  • Неактивен Неактивен
  • Публикации: 2656
  • Code or Die

Значи какво ми трябва
ами файл с колкото се може повече български думи всякакви думи без повторения просто да са максимално много
едно време имаше една програма за проверка на правописа "Ета Ест " neshto takova ili "taka e "
deto proverqvashe pravopisa v Office
ama v neq kade gi ima tiq dumi ... :) nqmam ideq.
nqkoi da ima
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis

Здрасти,

В ПУ има речник, обаче вероятно ще ти трябва лиценз. Той е българо-английски, на теб ти трябва само българската част. (доц. Крушков, доц,д-р. Тотков).

Вероятно по-бързо решение, ако речникът ти трябва за нещо извън университета:
Взимаш една книга в електронен текстов формат на български, или базата данни на този форум (ако я даде ksx) и извличаш всички думи, които не се повтарят. Аз съм писал Perl скрипт за извличане на думите, който не е свръх бавен и може да ти свърши работа. Пиши, ако го искаш (дано само да ми е под ръка). Може да се наложи да махнеш препинателните знаци в края на думите, но това не е сложно. За сгрешените думи - доколкото си помням скриптът брои и колко често се използва някоя дума и ако се даде някаква граница под която думите не се добавят в речника, могат да се избегнат много от случаите на грешки.

поздрави:
а.

... всъщност имам точно каквото ти трябва (списък от думи, които не са в основна форма), но съм използвал bultreebank (bultreebank.org), а за това ти трябва лиценз. Може да се извлече и основната им форма (но за това трябва и друг лиценз, освен ако ....). За какво ти трябва речника?
« Последна редакция: 15.12.2006, 18:07:11 от artanis »
Активен

deviser

  • Неактивен Неактивен
  • Публикации: 247
    • портал за имоти

Принципно ОпенОфисе.орг има много добра проверка на правописа за български. При добро желание ( и свободно врме) ако се разровиш из кода може и да ти свърши работа... :-)
Активен

Stilgar

  • Неактивен Неактивен
  • Публикации: 843

Принципно ОпенОфисе.орг има много добра проверка на правописа за български. При добро желание ( и свободно врме) ако се разровиш из кода може и да ти свърши работа... :-)

vupreki che sum fen na open office trudno moga da se suglasia s tvurdenieto za dobrata proverka na pravopisa na bulgarski specialno
Активен
"Човек винаги трябва да си прави background" - Lia

macrogrand

  • Гост

Буквално за 4 мин стана всичко. 22889 думи написах, повече не мога да се сетя  :-P
http://85.255.162.3/Other/bg_word/
Даже го подготвих и в SQL файл
Аиде имаш да черпиш.

~edit~

Ако имаш още думи в друга файл, събираш ги в един и:
Ако имаш PHP може да направиш следното решение:

$f = file_get_content('bg_word.txt');
$f = split("\n", $f);
foreach($f as $w)
{
    $w = preg_replace("[ .*]", null, $w); // Махане на всичко след ' '
    $new_str[$w] = true; //Зареждане като ключ (гаранция за неповтаряемост)
}
unset($f);

// Сега всички думи са ти в $new_str и са уникални, можеш да ги запишеш в SQL или друга БД


Проблема е че всичко отива в паметта 2 пъти, но спестяваш много процесорно време. И го написах директно в форума, не знам дали няма някоя грешка.
« Последна редакция: 19.12.2006, 16:41:12 от macrogrand »
Активен

JOKe

  • Неактивен Неактивен
  • Публикации: 2656
  • Code or Die

хаха прекрасно
Активен

JOKe

  • Неактивен Неактивен
  • Публикации: 2656
  • Code or Die

аз намерих ето това
http://j0ke.hit.bg/draft/bg.txt

самия файл уш е под GPL :)
върви с checkspeller-a на bgoffice
маи е по голям от твоя незнам дали има повече думи не сам погледнал за ся
Активен

macrogrand

  • Гост

Ми добавих нов вариант:
Комбиниращ двата файла
Смаляне на буквите (от големи към малки) за да е по-прегледно
Премахване на всичко след интервал (защото се получава фраза, а не дума), това от моите думи
Премахване на всичко след '/' защото това не е дума а нещо друго, това в твоя речник
Елиминиране на всички повтарящи думи
Сортиране по азбучен ред


Сега са 79807 ДУМИ

http://85.255.162.3/Other/bg_word/
« Последна редакция: 24.12.2006, 17:45:52 от macrogrand »
Активен

hWnd

  • Гост

Нещо такова няма ли да работи?
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis

hWnd,

Това е кражба!

macrogrand,

Харесва ми зареждането като ключ. Признавам си, че тогава използвах много по-бавно (и може би неелегантно в програмистки смисъл) решение - масиви от масиви от масиви и проверки ...

поздрави:
а.
Активен

hWnd

  • Гост

hWnd,

Това е кражба!

Не е! Според тук SA Dictionary e под GNU GPL и стига и програмата ми да е също под него, всичко е ok.
Активен

artanis

  • Неактивен Неактивен
  • Публикации: 589
    • http://free.hit.bg/artanis

hWnd,

Не успях да намеря за базата данни. От адреса излиза, че кодът е под GNU GPL. Но ако базата данни е под лиценза, защо просто не пишете на човека да я прати? Но пък наистина ако има софтуер, който извлича БД ... може би ... има ли юристи във форума ;)

поздрави:
а.
Активен

oneofmany

  • Неактивен Неактивен
  • Публикации: 18

vupreki che sum fen na open office trudno moga da se suglasia s tvurdenieto za dobrata proverka na pravopisa na bulgarski specialno

ne znam ti kakvo polzvash no MS Office ( koqto i da e versiq ) syshto nqma izkliuchitelno dobyr spell checker za BG taka che OOo e dosta na nivo.
Активен