]> git.lyx.org Git - dictionaries.git/blob - dicts/info/setswana/README_tn_ZA.txt
initial import of dictionaries and thesauri (from OpenSUSE repository)
[dictionaries.git] / dicts / info / setswana / README_tn_ZA.txt
1 README for Setswana MySpell dictionary
2 ======================================
3
4 The MySpell spell checker was created from the aspell spell checker and
5 wordlist which is released under the GPL.
6
7 1. Copyright
8 2. Installation and setup
9 3. Helping to improve the spellchecker
10 4. Note on the construction of the wordlist
11
12
13 1. Copyright
14 ------------
15
16 Setswana wordlist.in licensed under the GPL:
17 Copyright 2004 Kevin P. Scannell <scannell@slu.edu> and
18                Thapelo Otlogetswe <Thapelo.Otlogetswe@itri.brighton.ac.uk>
19
20 Porting to MySpell and other MySpell specifics licensed under the LGPL
21 Copyright 2004 Zuza Software Foundation <info@translate.org.za>
22
23 This program is free software; you can redistribute it and/or modify
24 it under the terms of the GNU General Public License as published by
25 the Free Software Foundation; either version 2 of the License, or
26 (at your option) any later version.
27
28 This program is distributed in the hope that it will be useful,
29 but WITHOUT ANY WARRANTY; without even the implied warranty of
30 MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
31 GNU General Public License for more details.
32
33 You should have received a copy of the GNU General Public License
34 along with this program; if not, write to the Free Software
35 Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
36
37 2. Installation and setup
38 -------------------------
39
40 Automated
41 ---------
42 http://lingucomponent.openoffice.org/download_dictionary.html
43
44 Use the DicOOo.sxw file to step you through an automatic install process.  If
45 the Setswana spellchecker is not available online then download the offline
46 pack from:
47 http://translate.sourceforge.net/
48
49
50 Non-automated
51 -------------
52 For instructions on how to install the Setswana dictionary please visit the
53 following URL.
54
55 http://lingucomponent.openoffice.org/download_dictionary.html#installspell
56
57 Spellchecker Selection
58 ----------------------
59 NOTE: Setswana is as yet not a recognised language in OpenOffice.org - this
60 will change shortly - therefore we map the dictionary against Italian.
61
62 Tools -> Options -> Language Settings -> Writing Aids
63
64 Available language modules -> Edit -> Select Italian -> Ensure it is enabled
65
66
67
68 3. Contributing
69 ---------------
70
71 You can help to make this software better.
72
73 If you find errors in the spellchecker or have wordlists that you would like to
74 contribute to the spellchecker then contact 
75 Dwayne Bailey <dwayne@translate.org.za>
76
77 If you would like to assist Kevin Scannell with the automated web crawler then
78 please read the next section and offer your assistance.
79
80
81 4. Note on the construction of the wordlist
82 -------------------------------------------
83
84 Note: taken from the Aspell package (doc/Crawler.txt) for your information
85
86 NOTES ON THE CONSTRUCTION OF THE WORD LIST
87    A preliminary version of this spell checking dictionary was assembled
88 with the help of my web crawler "An Crúbadán":
89
90   http://borel.slu.edu/crubadan/
91
92 BUILDING TEXT CORPORA FOR MINORITY LANGUAGES
93 Initially a small collection of "seed" texts are fed to the crawler
94 (a few hundred words of running text have been sufficient in practice).
95 Queries combining words from these texts are generated and passed to
96 the Google API which returns a list of documents potentially written
97 in the target language.  These are downloaded, processed into plain text,
98 and formatted.  A combination of statistical techniques bootstrapped from
99 the initial seed texts (and refined as more texts are added to the database)
100 is used to determine which documents (or sections thereof) are written in
101 the target language.   The crawler then recursively follows links contained
102 within documents that are in the target language.   When these run out,
103 the entire process is repeated, with a new set of Google queries generated
104 from the new, larger corpus.
105
106 EXTRACTING A CLEAN WORD LIST
107 The raw texts downloaded using the scheme just described contain
108 a lot of pollution and are unsuitable for use without further processing.   
109 I have been able to extract reasonably accurate spell checking dictionaries
110 by applying a series of simple filters.   First, the texts are tokenized
111 and used to generate a word list sorted by frequency and the lowest
112 frequency words are filtered out.   Then, depending on the target language,
113 correctly-spelled words from one or more "polluting" languages
114 are filtered out to be checked by hand later.  Usually this means English,
115 but I also filter Dutch from the Frisian corpus, Spanish from Chamorro, etc.
116 The remaining words are used to generate 3-gram statistics for the target
117 language.  These are used to flag as "suspect" any remaining words containing
118 one or more improbable 3-grams.
119
120 Please contact me at the address below if you are interested in applying
121 these techniques to a new language.
122
123 Kevin Scannell 
124 <scannell@slu.edu>
125 March 2004
126