In English

Narzędzie do pozyskiwania opisów morfologicznych

Wprowadzenie

Celem narzędzia jest pomoc w zbieraniu danych dla potrzeb słownika morfologicznego. Zakłada się, że taki słownik już istnieje i że został utworzony z użyciem programu mmorph opracowanego w ISSCO w Genewie. Zakłada się również, że użytkownik stosuje pakiet programów wykorzystujących automaty skończone dostępny pod adresem http://www.pg.gda.pl/~jandac/fsa.html.

Do skorzystania z narzędzia konieczna jest instalacja programów mmorph i fsa_guess a także automat zgadujący (index a tergo) dla programu fsa_guess. Automat można utworzyć korzystając ze skryptów i programu fsa_build zawartych w pakiecie automatów skończonych.

Tryb korzystania z narzędzia jest następujący:

  1. Utworzenie automatu zgadującego na podstawie słownika. Odnośne informacje znajdują się w pliku README pakietu automatów i stronach podręcznika dla fsa_build(1), fsa_guess(1) i fsa_guess(5). W tym samym pakiecie znajdują się także pomocne skrypty.
  2. Utworzenie listy słów nie występujących w słowniku. Można do tego celu użyć programu fsa_spell - należy zapoznać się z poświęconą mu stroną podręcznika fsa_spell(1).
  3. Przetworzenie listy nieznanych słów za pomocą programu fsa_guess z użyciem automatu odgadującego i zachowanie wyników (zbioru podpowiedzi) w pliku.
  4. Załadowanie pliku podpowiedzi do narzędzia.
  5. Użycie narzędzia do utworzenia opisów w formacie programu mmorph.
  6. Zachowanie opisów w pliku.
  7. Połączenie nowych opisów z już istniejącymi.

Załadowanie pliku podpowiedzi

Plik podpowiedzi można załadować używając menu lub opcji wykonania. Korzystając z menu, należy wybrać Plik/Otwórz plik podpowiedzi, a następnie wybrać odpowiedni plik z listy. Nazwę pliku podpowiedzi można też podać w wierszu wywołania poprzedzając go napisem -G i odstępem.

Tworzenie opisów w formacie programu mmorph

Dla każdego słowa należy:

  1. Kliknąć na słowo. W okienku Opisy powinien pojawić się co najmniej jeden opis. Przesuwanie kursora w tym okienku powoduje pojawianie się stosownych opisów w okienku opis.
  2. Wybrać opis z okienka Opis. W przypadku wątpliwości, po wybraniu opisu można nacisnąć na klawisz Mmorph, co spowoduje wyświetlenie w okienku Mmorph wszystkich form utworzonych na podstawie tego opisu. Można też wyświetlić różnice w formach tworzonych na podstawie dwóch różnych opisów wybierając te opisy (posługując się klawiszem Ctrl i lewym przyciskiem myszy) i naciskając klawisz Mmorph. W celu sprawdzenia, czy generowane są wszystkie formy danego słowa można zaznaczyć ,,tak'' w polu ,,Upraszczać alternatywy''. Wówczas jeśli np. w opisie znajdzie się cecha ,,case'' z dwoma możliwymi wartościami: ,,mon'' i ,,acc'', czyli innymi słowy jeśli znajdzie się tam napis ,,case=mon|acc'', to dany opis zostanie rozłożony na dwa. W pierwszym będzie ,,gen=mon'', w drugim -- ,,gen=acc''.
  3. Jeżeli żaden z opisów z okienka Opisy nie jest prawidłowy, można go poprawić naciskając klawisz Popraw. Pojawi się osobne okno, w którym będzie można dokonać poprawek. Inną możliwością jest poprawienie form wyświetlanych w okienku ,,Rozwinięcie przez mmorph'' i naciśnięcie klawisza ,,Wybierz odmianę wg mmorph''. Narzędzie spróbuje wówczas znaleźć taki opis, który produkuje poprawione formy. Narzędzie potrzebuje do tego dodatkowej informacji zapisanej w pliku ,,paradigm'', lub w pliku, którego nazwa została ustalona przez wybranie Dostosuj/Plik z nazwami paradygmatów. Pierwszy znak tego pliku jest znakiem początku komentarza (można go dowolnie zmieniać). Wiersze zaczynające się tym znakiem nie są przez narzędzie interpretowane. Pozostałe wiersze mają po trzy kolumny, oddzielone od siebie odstępami lub znakami tabulacji. Pierwsza kolumna zawiera nazwę części mowy. Pozostałe dwie kolumny odnoszą się wyłącznie do opisów z taką częścią mowy. Wierszy z opisem danej części mowy może być więcej. Druga kolumna zawiera wyrażenie regularne. Jeśli to wyrażenie występuje w opisie, to trzecia kolumna zawiera nazwy cech, których zmiana może spowodować, że opis będzie produkował poprawione formy pokazane w okienku mmorph. Jeżeli po cesze wystąpi gwiazdka, to będą brane pod uwagę wszystkie kombinacje wartości danej cechy. Jeżeli narzędzie znajdzie odpowiedni opis, kolor tła tego opisu zostanie zmieniony na zielono. Poszukiwanie odpowiedniego opisu może trwać dość długo (w zależności od zawartości pliku ,,paradigm'' i liczby wartości podanych tam cech). W czasie wyszukiwania klawisz ,,Wybierz odmianę wg mmorph'' jest stale wciśnięty. Możliwe jest także użycie poprawiania wspomaganego przez program. Wystarczy nacisnąć prawy przycisk myszy, gdy kursor znajdzie się nad opisem do poprawienia.
  4. Nacisnąć klawisz Zachowaj. W zależności od tego, który z klawiszy radiowych na prawo jest wciśnięty, zachowanie spowoduje także usunięcie z okienka Słowo wszystkich form produkowanych przez ten opis, tylko bieżącej formy (tej, która posłużyła do odgadnięcia opisu), lub żadnej.

Zachowanie opisów w pliku.

Opisy zachowywane są automatycznie przy opuszczaniu narzędzia za pomocą menu Plik/Koniec lub przycisku Koniec. Możliwa jest zmiana standardowej nazwy pliku opisów za pomocą opcji -o podanej w wierszu wywołania.

Dostosowanie do potrzeb użytkownika.

Można używać opcji w wierszu wywołania programu w celu zmiany zachowania narzędzia. Należy wówczas pamiętać o oddzieleniu odstępem opcji od jej wartości.

Można zmienić język używany w menu, na przyciskach i w etykietach podając nazwę języka po opcji -l w wierszu wywołania programu, lub wybierając z menu Dostosuj/Język. Opis dla tego języka musi istnieć w pliku opisów języków. Nazwę tego pliku można zmienić używając opcji -c w wierszu wywołania programu.

Można zmienić czcionkę używaną do wyświetlania słów, opisów i form tworzonych za pomocą programu mmorph wybierając Dostosuj/Czcionka z menu lub podając nazwę czcionki po opcji -f w wierszu wywołania programu.

Można zmienić nazwę pliku tworzonego dla potrzeb programu mmorph w celu wyświetlenia form tworzonych na podstawie danego opisu używając opcji -m w wierszu wywołania programu.


Jan Daciuk, e-mail: jandac.eti.pg.gda.pl (zamień pierwszą kropkę na ,,@'')