Metodologia, a nie osobna branża lingwistyki Metodologia, a nie osobna branża lingwistyki


НазваMetodologia, a nie osobna branża lingwistyki Metodologia, a nie osobna branża lingwistyki
Дата конвертації09.03.2013
Розмір445 b.
ТипПрезентации



Metodologia, a nie osobna branża lingwistyki

  • Metodologia, a nie osobna branża lingwistyki

  • Rodzaje korpusów:

  • „surowy/łysy” – adnotowany: morfosyntaktycznie, semantycznie, banki drzew (składnia)

  • jednojęzyczny - dwu-/wielojęzyczne

  • równoległe - porównawcze

  • korpus referencyjny (benchmark korpus): BNC, ?IPI PAN



Zbiór par tekstów (eng. bitexts) w dwóch językach

  • Zbiór par tekstów (eng. bitexts) w dwóch językach





  • baza danych odpowiedników słów i wyrażeń oraz ich kontekstów dla tłumaczy

  • baza danych dla konfrontatywnej analizy lingwistycznej

  • punkt wyjścia do konstrukcji wiarygodnych słowników dwujęzycznych









Aktualny sposób wyszukiwania bazuje na wyrażeniach regularnych PERL

  • Aktualny sposób wyszukiwania bazuje na wyrażeniach regularnych PERL

  • Poszukiwany ciąg należy ująć w znaki "/". Np.: /zimna wojna/ znajdzie wyłącznie akapity zawierające dokładnie tę frazę. Aby uelastycznić kryteria wyszukiwania, można skorzystać z następujących znaków specjalnych:

  • . odpowiada każdemu znakowi (z wyjątkiem znaku nowej linii)

  • І alternatywa; ) koniec fragmentu ciągu

  • [ i ] początek i koniec oznaczania klasy znaków

  • ? 1 albo 0 wystąpień; * 0 albo więcej wystąpień

  • + 1 albo więcej wystąpień

  • \s dowolny znak spacji, interpunkcji

  • \w dowolna litera, liczba, znak podkreślenia

  • \b koniec wyrazu, \ escape



/jako/  „jako”

  • /jako/  „jako”

  • /jako\s/  „jako, niejako, dwojako”

  • /\bjako/  „jakość’

  • /norma\./  „norma” przed kropką











zbieranie tekstów (Katarzyna Kotyńska, Anna Łazar, Helena Krasowska)

  • zbieranie tekstów (Katarzyna Kotyńska, Anna Łazar, Helena Krasowska)

  • jeżeli są w postaci papierowej, to:

  • skanowanie, czyszczenie skanów od obrazków i czarnych pasków, numeracji stron;

  • OCRowanie, redakcja poOCRowa;

  • konwertowanie do tekstowego formatu (FineReader --> Word); wyrównywanie kolumn, wyczyszczenie od znaków podziałów stron, przypisów dolnych, znaków przeniesienia wyrazów;

  • jeszcze raz wyczytywanie błędów (FineReader wyświetla tylko miejsca, które są "podejrzane" dla niego samego);

  • sprawdzenie podziału na akapity (czy w ogóle są, czy nie są podwójne);

  • konwertowanie czcionek do wspólnego formatu (przyjęliśmy Unicode/UTF-8);

  • konwertowanie z MSWord .doc na .txt

  • dodawanie metadanych (tytuł, autor, tłumacz, rok napisania, rok i miejsce wydania oryginału, gatunek literacki, itd. ok. 20 pozycji);

  • konwertowanie z .txt do .xml

  • dodawanie do serwera



Metadane są wpisywane automatycznie do bazy danych MySQL i potem pobierane z niej przy korzystaniu z korpusu

  • Metadane są wpisywane automatycznie do bazy danych MySQL i potem pobierane z niej przy korzystaniu z korpusu

  • Wyrównywanie tekstów na poziomie akapitów, oznaczonych w tekstach
    -

  • Dynamicznie, zakładając, że ilość akapitów w tekstach jest jednakowa i każdy akapit w tekście oryginalnym ma odpowiednik w tekście tłumaczonym

  • Oprogramowanie: Magdalena Turska



a) Dodawanie informacji gramatycznych

  • a) Dodawanie informacji gramatycznych

  • polski

  • ukraiński

  • sprowadzanie do wspólnego formatu metadanych gramatycznych (tagset)

  • NB: stopnie porównania dla przymiotników i przysłówków ukraińskich

  • b) Wyrównanie na poziomie zdań

  • problem podziału na zdania (skróty)

  • demonstracja programu Text Align 1.1.1.1

  • Hunalign (wymaga słownika oraz lematyzacji dla w miarę akceptowalnych wyników)



Język polski: tager TаKIPI, IPI PAN + Politechnika Wrocławska, ok. 200 tys. słów (Marcin Woliński, Adam Radziszewski i in.)

  • Język polski: tager TаKIPI, IPI PAN + Politechnika Wrocławska, ok. 200 tys. słów (Marcin Woliński, Adam Radziszewski i in.)

  • Lematyzator, morfologiczny analizator, ujednoznaczniacz (dezambiguator)

  • Język ukraiński: słownik gramatyczny ULIF NANU, 250 tys. słów (Igor Szewczenko, Ołeksandr Rabulec)

  • Lematyzator, morfologiczny analizator, brak ujednoznacznienia (dezambiguacji)





Львів розташований на етнічних українських землях і є одним з головних нервових вузлів ук­раїнського народу, найважливішим клапаном його серця, вічним збудником честолюбства, гордості й потягу до волі.

  • Львів розташований на етнічних українських землях і є одним з головних нервових вузлів ук­раїнського народу, найважливішим клапаном його серця, вічним збудником честолюбства, гордості й потягу до волі.



  • Львів<Львів 0|Львів 0|Лев 1|Лев 1|> розташований<розташований 0|розташований 0|розташувати 0|> на<на 4|на 3|на 2|на 1|> етнічних<етнічний 0|етнічний 0|етнічний 0|> українських<український 0|український 0|український 0|Український 0|Український 0|Український 0|> землях><земля 2|> і<і 1|і 3|і 2|> є<бути 0|бути 0|бути 0|бути 0|бути 0|бути 0|> одним<один 0|один 0|один 0|оден 0|оден 0|оден 0|> з
    <з 0|> головних<головний 0|головний 0|головний 0|> нервових<нервовий 0|нервовий 0|нервовий 0|> вузлів<вузол 2|вузол 1|> українського<український 0|український 0|український 0|Український 0|Український 0|Українське 0|> народу<народ 0|народ 0|нарід 0|нарід 0|>, найважливішим<найважливіший 0|найважливіший 0|найважливіший 0|> клапаном<клапан 0|> його<йога 0|воно 0|воно 0|він 0|він 0|> серця<серце 0|серце 0|серце 0|серце 0|>, вічним<вічний 0|вічний 0|вічний 0|> збудником<збудник 1|збудник 2|> честолюбства<честолюбство 0|>, гордості<гордість 0|гордість 0|гордість 0|> й<й 1|й 2|> потягу<потяг 2|потяг 2|потяг 2|потяг 1|потяг 1|потяг 1|потяг 1|потяга 0|Потяга 0|> до<до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 2|до 1|> волі<воліти 0|воля 0|воля 0|воля 0|Воля 2|Воля 2|Воля 2|Воля 1|Воля 1|Воля 1|Воля 1|Воля 1|воло 0|віл 0|>.





W dzisiejszym posiedzeniu komisji uczestniczy ekspert komisji pan profesor Jan Gajewski.

  • W dzisiejszym posiedzeniu komisji uczestniczy ekspert komisji pan profesor Jan Gajewski.









Схожі:

Metodologia, a nie osobna branża lingwistyki Metodologia, a nie osobna branża lingwistyki iconO korpusach ogólnie, metodologia tworzenia o korpusach ogólnie, metodologia tworzenia


Додайте кнопку на своєму сайті:
dok.znaimo.com.ua


База даних захищена авторським правом ©dok.znaimo.com.ua 2013
звернутися до адміністрації
dok.znaimo.com.ua
Головна сторінка