HaT 0.3 (c)2004,2005 ©tìpán Roh
Tento archív obsahuje experimentální "háèkovaè" textu (pøidávání diakritiky). Za pou¾ití testovací databáze je pomìr chyb asi 5%.
Zmìny z verze 0.2
- roz¹íøena testovací databáze
Zmìny z verze 0.1
- opravena chyba, kdy èetnost kontextu byla ignorována
- roz¹íøena testovací databáze
Obsah dodávky
hat-0.3.tar.gz
obsahuje dokumentaci a vlastní háèkovaè
hat-0.3-db.tar.gz
obsahuje pøíklad databáze pro pou¾ití v háèkovaèi
Spu¹tìní
Po¾adavky:
Perl 5.x nebo vy¹¹í (testováno s v5.8.2) Cz::Cstocs (testováno s verzí 3.4)
Generování (trénování) databáze:
./hat.pl -b hat.db il2 < train.txt
- vytvoøí databázi hat.db z trénovacích dat train.txt, které jsou v kódování iso-8859-2 (jména kódování jsou dle Cz::Cstocs)
Háèkování textu:
./hat.pl -h hat.db il2 < ascii.txt > czech.txt
- za pou¾ití databáze hat.db oháèkuje ascii.txt do czech.txt v kódování iso-8859-2
Testovací databáze
Testovací databáze byla vygenerována z následujících zdrojù:
Stanovy CZLUG (http://www.linux.cz/czlug/stanovy.html) GNU LGPL (CZ) (http://www.gnu.cz/article.php?id_art=34) Linuxový dokumentaèní projekt (druhé vydání) (http://www.cpress.cz/knihy/ldp2/) Vybrané zákony Èeské republiky (http://portal.gov.cz) Texty z rùzných èeských èasopisù a novin Nìkolik èeských a do èe¹tiny pøelo¾ených knih
Pøesná forma pou¾itých textù nemù¾e být z testovací databáze zrekonstruována (neobsahuje v¹echnu informaci z pùvodního zdroje), tak¾e jejich u¾ití pova¾uji za poctivé.
©tìpán Roh <src@post.cz>
