In English
Narzędzie do pozyskiwania opisów morfologicznych
Wprowadzenie
Celem narzędzia jest pomoc w zbieraniu danych dla potrzeb słownika
morfologicznego. Zakłada się, że taki słownik już istnieje i że został
utworzony z użyciem programu mmorph opracowanego w ISSCO w
Genewie. Zakłada się również, że użytkownik stosuje pakiet programów
wykorzystujących automaty skończone dostępny pod adresem
http://www.pg.gda.pl/~jandac/fsa.html.
Do skorzystania z narzędzia konieczna jest instalacja programów mmorph
i fsa_guess
a także automat zgadujący (index a tergo) dla programu
fsa_guess. Automat można utworzyć korzystając ze skryptów i programu
fsa_build
zawartych w pakiecie automatów skończonych.
Tryb korzystania z narzędzia jest następujący:
- Utworzenie automatu zgadującego na podstawie słownika. Odnośne
informacje znajdują się w pliku README pakietu automatów i stronach
podręcznika dla fsa_build(1), fsa_guess(1) i fsa_guess(5). W tym
samym pakiecie znajdują się także pomocne skrypty.
- Utworzenie listy słów nie występujących w słowniku. Można do tego
celu użyć programu fsa_spell - należy zapoznać się z poświęconą mu
stroną podręcznika fsa_spell(1).
- Przetworzenie listy nieznanych słów za pomocą programu fsa_guess z
użyciem automatu odgadującego i zachowanie wyników (zbioru
podpowiedzi) w pliku.
- Załadowanie pliku podpowiedzi do narzędzia.
- Użycie narzędzia do utworzenia opisów w formacie programu mmorph.
- Zachowanie opisów w pliku.
- Połączenie nowych opisów z już istniejącymi.
Załadowanie pliku podpowiedzi
Plik podpowiedzi można załadować używając menu lub opcji
wykonania. Korzystając z menu, należy wybrać Plik/Otwórz plik
podpowiedzi, a następnie wybrać odpowiedni plik z listy. Nazwę pliku
podpowiedzi można też podać w wierszu wywołania poprzedzając go
napisem -G i odstępem.
Tworzenie opisów w formacie programu mmorph
Dla każdego słowa należy:
- Kliknąć na słowo. W okienku Opisy powinien pojawić się co
najmniej jeden opis. Przesuwanie kursora w tym okienku powoduje
pojawianie się stosownych opisów w okienku opis.
- Wybrać opis z okienka Opis. W przypadku wątpliwości, po wybraniu
opisu można nacisnąć na klawisz Mmorph, co spowoduje wyświetlenie
w okienku Mmorph wszystkich form utworzonych na podstawie tego
opisu. Można też wyświetlić różnice w formach tworzonych na
podstawie dwóch różnych opisów wybierając te opisy (posługując się
klawiszem Ctrl i lewym przyciskiem myszy) i naciskając klawisz
Mmorph. W celu sprawdzenia, czy generowane są wszystkie formy
danego słowa można zaznaczyć ,,tak'' w polu ,,Upraszczać
alternatywy''. Wówczas jeśli np. w opisie znajdzie się cecha
,,case'' z dwoma możliwymi wartościami: ,,mon'' i ,,acc'', czyli
innymi słowy jeśli znajdzie się tam napis ,,case=mon|acc'', to dany
opis zostanie rozłożony na dwa. W pierwszym będzie ,,gen=mon'', w
drugim -- ,,gen=acc''.
- Jeżeli żaden z opisów z okienka Opisy nie jest prawidłowy, można go
poprawić naciskając klawisz Popraw. Pojawi się osobne okno, w
którym będzie można dokonać poprawek. Inną możliwością jest
poprawienie form wyświetlanych w okienku ,,Rozwinięcie przez
mmorph'' i naciśnięcie klawisza ,,Wybierz odmianę wg
mmorph''. Narzędzie spróbuje wówczas znaleźć taki opis, który
produkuje poprawione formy. Narzędzie potrzebuje do tego dodatkowej
informacji zapisanej w pliku ,,paradigm'', lub w pliku, którego
nazwa została ustalona przez wybranie Dostosuj/Plik z nazwami
paradygmatów. Pierwszy znak tego pliku jest znakiem początku
komentarza (można go dowolnie zmieniać). Wiersze zaczynające się
tym znakiem nie są przez narzędzie interpretowane. Pozostałe
wiersze mają po trzy kolumny, oddzielone od siebie odstępami lub znakami
tabulacji. Pierwsza kolumna zawiera nazwę części mowy. Pozostałe
dwie kolumny odnoszą się wyłącznie do opisów z taką częścią
mowy. Wierszy z opisem danej części mowy może być więcej. Druga
kolumna zawiera wyrażenie regularne. Jeśli to wyrażenie występuje w
opisie, to trzecia kolumna zawiera nazwy cech, których zmiana może
spowodować, że opis będzie produkował poprawione formy pokazane w
okienku mmorph. Jeżeli po cesze wystąpi gwiazdka, to będą brane pod
uwagę wszystkie kombinacje wartości danej cechy. Jeżeli narzędzie
znajdzie odpowiedni opis, kolor tła tego opisu zostanie zmieniony
na zielono. Poszukiwanie odpowiedniego opisu może trwać dość długo
(w zależności od zawartości pliku ,,paradigm'' i liczby wartości
podanych tam cech). W czasie wyszukiwania klawisz ,,Wybierz odmianę
wg mmorph'' jest stale wciśnięty.
Możliwe jest także użycie poprawiania wspomaganego przez
program. Wystarczy nacisnąć prawy przycisk myszy, gdy kursor
znajdzie się nad opisem do poprawienia.
- Nacisnąć klawisz Zachowaj. W zależności od tego, który z klawiszy
radiowych na prawo jest wciśnięty, zachowanie spowoduje także
usunięcie z okienka Słowo wszystkich form produkowanych przez ten
opis, tylko bieżącej formy (tej, która posłużyła do odgadnięcia
opisu), lub żadnej.
Zachowanie opisów w pliku.
Opisy zachowywane są automatycznie przy opuszczaniu narzędzia za
pomocą menu Plik/Koniec lub przycisku Koniec. Możliwa jest zmiana
standardowej nazwy pliku opisów za pomocą opcji -o podanej w wierszu
wywołania.
Dostosowanie do potrzeb użytkownika.
Można używać opcji w wierszu wywołania programu w celu zmiany
zachowania narzędzia. Należy wówczas pamiętać o oddzieleniu odstępem
opcji od jej wartości.
Można zmienić język używany w menu, na przyciskach i w etykietach
podając nazwę języka po opcji -l w wierszu wywołania programu, lub
wybierając z menu Dostosuj/Język. Opis dla tego języka musi istnieć w
pliku opisów języków. Nazwę tego pliku można zmienić używając opcji -c
w wierszu wywołania programu.
Można zmienić czcionkę używaną do wyświetlania słów, opisów i form
tworzonych za pomocą programu mmorph wybierając Dostosuj/Czcionka z
menu lub podając nazwę czcionki po opcji -f w wierszu wywołania
programu.
Można zmienić nazwę pliku tworzonego dla potrzeb programu mmorph
w celu wyświetlenia form tworzonych na podstawie danego opisu używając
opcji -m w wierszu wywołania programu.
Jan Daciuk,
e-mail: jandac.eti.pg.gda.pl (zamień pierwszą kropkę na ,,@'')