O korpusach ogólnie, metodologia tworzenia o korpusach ogólnie, metodologia tworzenia


НазваO korpusach ogólnie, metodologia tworzenia o korpusach ogólnie, metodologia tworzenia
Дата конвертації28.03.2013
Розмір445 b.
ТипПрезентации



O korpusach ogólnie, metodologia tworzenia

  • O korpusach ogólnie, metodologia tworzenia

  • Korpusy w Polsce i Ukrainie

  • PolUKR – Polsko-Ukraiński Korpus Równoległy

  • Zastosowanie korpusów w leksykografii



Metodologia, a nie osobna branża lingwistyki

  • Metodologia, a nie osobna branża lingwistyki

  • Rodzaje korpusów:

  • „surowy/łysy” - adnotowany

  • jednojęzyczny - dwu-/wielojęzyczne

  • równoległe - porównawcze

  • korpus referencyjny (benchmark korpus): BNC, ?IPI PAN



Zbiór par tekstów (eng. bitexts) w dwóch językach

  • Zbiór par tekstów (eng. bitexts) w dwóch językach



korpusowa lista mailingowa przy Uniwersytecie w Oslo (corpora mailing list)

  • korpusowa lista mailingowa przy Uniwersytecie w Oslo (corpora mailing list)

  • http://mailman.uib.no/listinfo/corpora

  • opis korpusowych resursów w świecie

  • http://aclweb.org/aclwiki/index.php?title=List_of_resources_by_language

  • polska lingwistyczna lista mailingowa

  • http://bach.ipipan.waw.pl/mailman/listinfo/ling



Multilingual Corpus Tool kit (Scott Piao)

  • Multilingual Corpus Tool kit (Scott Piao)

  • Xaira 1.23 (Beta wersja 1.24), BNC, Oxford

  • Brak takiego oprogramowania dla tworzenia korpusów równoległych, moduły:

  • programy pamięci maszynowej (Translation Memory), np. Omega TM, darmowy

  • alignery, np. Vanilla i Hunalign

  • wyszukiwarki, np. ParaConc, komercyjne



FREQ, wydział lingwistyki stosowanej UW (lata 1960-te) 600 tys.

  • FREQ, wydział lingwistyki stosowanej UW (lata 1960-te) 600 tys.

  • Korpus PWN (półkomercyjny) 8 mln; 100 mln

  • Korpus IPI PAN, 250 mln

  • “Narodowy” korpus JP (Uniwersytet Łódzki) =

  • Korpus “Krakowski” (teksty do XVII w.)

  • wewnętrzne korpusy na potrzeby osobnych projektów

  • Projekt Narodowego korpusu języka polskiego (2007-2009)



Adam Przepiórkowski

  • Adam Przepiórkowski

  • 100 mln słów (слововживань)

  • 15 mln “zrównoważonej” próbki

  • XML, XCES

  • adnotacja morfosyntaktyczna

  • dezambiguacja gramatyczna (ujednoznacznienie)

  • szkice banku drzew (SPEJD)

  • wyszukiwarka Poliqarp, 2 wersje



Korpus ULIF: ulif. org.ua (użytek wewnętrzny), książka Володимир Широков і ін. "Корпусна лінгвістика", Київ, "Довіра", 2005

  • Korpus ULIF: ulif. org.ua (użytek wewnętrzny), książka Володимир Широков і ін. "Корпусна лінгвістика", Київ, "Довіра", 2005

  • Koncepcja Narodowego Korpusu Języka Ukraińskiego, Орися Демська-Кульчицька, "Основи Національного корпусу української мови", Київ 2005, (teoria)

  • Konkordancje utworu Iwana Franki "Перехресні стежки", Sołomija Buk i Andrij Rowenczak (publikacja www)

  • Biblioteka elektroniczna utworów Iwana Franki i próbka korpusu "Для домашнього вогнища"/"Dla ogniska domowego" Oresty Tymczyszyn (na razie nie ma w internecie)

  • PolUKR (Instytut Slawistyki PAN, 2005-...) Natalia Kotsyba i Magdalena Turska (http://corpus.domeczek.pl)



Regensburg Parallel Corpus of Slavic languages, Ruprecht von Wandelfels, Uniwersytet w Ratysbonie http://www-cgi.uni-regensburg.de/Fakultaeten/Slavistik/Corpus/parallel/parallel.html

  • Regensburg Parallel Corpus of Slavic languages, Ruprecht von Wandelfels, Uniwersytet w Ratysbonie http://www-cgi.uni-regensburg.de/Fakultaeten/Slavistik/Corpus/parallel/parallel.html

  • otwarty dla użytku publicznego niekomercyjnego dla użytkowników zarejestrowanych

  • prawie wszystkie języki słowiańskie (oprócz górno- i dolnołużyckiego)

  • informacja gramatyczna dodana dla czeskiego i polskiego, a także angielskiego i niemieckiego

  • każdy z języków ma osobny zestaw znaczników gramatycznych, wykorzystywany w korpusach narodowych/większych tych języków

  • zawiera niewiele materiału tekstowego

  • nierównomierny podział między językami



http://corpus.domeczek.pl

  • http://corpus.domeczek.pl

  • baza danych odpowiedników słów i wyrażeń oraz ich kontekstów dla tłumaczy

  • baza danych dla konfrontatywnej analizy lingwistycznej

  • punkt wyjścia do konstrukcji wiarygodnych słowników dwujęzycznych









opiera się na wyrażeniach regularnych PERL

  • opiera się na wyrażeniach regularnych PERL

  • poszukiwany wyraz otoczony znakami “/”, np. /idea narodowa/

  • znaki specjlane:

  • І alternatywa; ) koniec fragmentu ciągu

  • [ i ] początek i koniec oznaczania klasy znaków

  • ? 1 albo 0 wystąpień; * 0 albo więcej wystąpień

  • + 1 albo więcej wystąpień

  • \s dowolny znak spacji, punktuacji

  • \w dowolna litera, liczba, znak podkreślenia

  • \b koniec wyrazu, \ escape



/jako/  „jako”

  • /jako/  „jako”

  • /jako\s/  „jako, niejako, dwojako”

  • /\bjako/  „jakość’

  • /norma\./  „norma” przed kropką



Dodawanie informacji gramatycznych (polski, ukraiński)

  • Dodawanie informacji gramatycznych (polski, ukraiński)

  • sprowadzenie do wspólnego formatu metadanych gramatycznych (tagset) -- opracowany algorytm, częściowo realizowany, NB: stopnie porównania dla przymiotników i przysłówków ukraińskich

  • Wyrównanie na poziomie zdań (obecnie jest poziom akapitów
    -
    )

  • problem podziału na zdania

  • Hunalign (wymaga słownik oraz lematyzację dla w miarę akceptowalnych wyników)



PolUKR jako część integrowanego sieciowego środowiska edytorskiego:

  • PolUKR jako część integrowanego sieciowego środowiska edytorskiego:

  • II korpus i II konkordancer

  • słowniki objaśniające

  • korpus porównawczy

  • sieciowy system edytowania haseł







PODEJŚĆ - PODCHODZIĆ (za słownikiem PWN)

  • PODEJŚĆ - PODCHODZIĆ (za słownikiem PWN)

  • 1. «posunąć się (pójść, rzadziej: pojechać) w jakimś kierunku, zbliżyć się do kogoś lub czegoś»

  • 2. «posunąć się pod górę; wspiąć się»

  • 3. zwykle dk «postąpić wobec kogoś podstępnie, chytrze, zdradziecko; oszukać kogoś»

  • 4. częściej ndk «zbliżać się do kogoś lub czegoś ostrożnie, ukradkiem, zwykle w celu dokonania napaści lub podpatrzenia; tropić»

  • 5. «wypełnić się od spodu cieczą (zwykle w połączeniu z formą narzędnika)»



- ідучи, наближатися до кого-, чого-небудь;

  • - ідучи, наближатися до кого-, чого-небудь;

  • - наближатися підїжджаючи, підпливаючи, підлітаючи і т.ін. до кого-, чого-небудь;

  • - прибувати куди-небудь;

  • - приступати до чого-небудь, братися за яку-небудь справу;

  • - виявляти своє ставлення до чого-небудь, оцінюючи;

  • - уміти привернути, прихилити кого-небудь до себе, завоювати довір’я

  • - звернутися до кого-небудь з прoханням, пропозицією, вимогою і т.ін

  • наближатися, наставати (про час, події, явища і т.ін.)

  • розміщуватися близько чого-небудь, бути в безпосередньому сусідстві з чимсь, межувати з ним

  • 6. - бути придатним, прийнятним, відповідаючи яким-небудь вимогам

  • - бути відповідним

  • - личити

  • - пристосовyватися, підроблятися

  • 7. переміщатися, підніматися догори

  • 8. ідучи, пройти яку-небудь відстань

  • 9. збільшуючись в об’ємі, підійматися (про тісто)

  • 10. насичуватись чим-небудь Сніг підійшов водою.



Zapytanie do korpusu IPI PAN [base=”podejść”] meta created>1960 zwróciło 244 próbki tekstów.

  • Zapytanie do korpusu IPI PAN [base=”podejść”] meta created>1960 zwróciło 244 próbki tekstów.

  • Zdecydowana większość użyć (ok. 80%) była w znaczeniu 1; w najbliższej dystrybucji wskazywano docelowe miejsce ruchu „podejść do + nazwa przedmiotowa” (np. do furtki, do koszyka, do nas; bliżej = do mówiącego).

  • Podobnie z zapytaniem [base=”podchodzić”] meta created>1960 - 203 próbki, proporcje te same



1. Grzegorz Kaliciak: - Mieliśmy grać to co zawsze. I choć Pogoń bardzo poważnie podeszła do meczu, to my jesteśmy lepiej przygotowani. Mieliśmy wprawdzie drobny kryzys po meczu w Parmą, ale to już przeszłość. => NOWE ZNACZENIE „mieć nastawienie” (nieakcjonalny, relacyjny) – ok. 20% użyć

  • 1. Grzegorz Kaliciak: - Mieliśmy grać to co zawsze. I choć Pogoń bardzo poważnie podeszła do meczu, to my jesteśmy lepiej przygotowani. Mieliśmy wprawdzie drobny kryzys po meczu w Parmą, ale to już przeszłość. => NOWE ZNACZENIE „mieć nastawienie” (nieakcjonalny, relacyjny) – ok. 20% użyć

  • 2. W okolicy miasta Mechelen musieli awaryjnie lądować. Podchodzący do lądowania samolot nie uszedł uwagi belgijskich żołnierzy pełniących służbę na znajdującym się nieopodal posterunku granicznym. => NOWE ZNACZENIE „zaczynać” (niepełnoznaczny, modyfikator fazowy)

  • 3. Z drugiej zaś strony Nathan, Michael, Shawn i Wanya z powodzeniem wcielają w czyn swoje indywidualne pomysły; na przykład podchodzące pod śpiew a cappella wokalizy. Innymi słowy: Boyz II Men nagrali sprytny, inteligentny, dość dobry album, który świadczy o tym => 2

  • 4. Na 5 pytań odpowiedział gładko, zapewniwszy sobie gwarantowany 1000 zł. Niestety, pytanie za 2000 zł, dotyczące El Greco, "nie podeszło ". => NOWE ZNACZENIE, „pasować, odpowiadać” (nieakcjonalny, relacyjny, porównawczy)



PODEJŚĆ - PODCHODZIĆ (analiza konkordancji i klasyfikacja semantyczna)

  • PODEJŚĆ - PODCHODZIĆ (analiza konkordancji i klasyfikacja semantyczna)

  • 1. «posunąć się (pójść, rzadziej: pojechać) w jakimś kierunku, zbliżyć się do kogoś lub czegoś» akcjonalny ruchu

  • 2. «mieć nastawienie do czegoś» nieakcjonalny relacyjny

  • 3. «oszukać kogoś» złożony predykat akcjonalny mentalny + kauzacja

  • 4. «pasować, odpowiadać» nieakcjonalny, relacyjny

  • 5. «zaczynać» niepełnoznaczny modyfikator fazowy

  • 6. «wypełnić się od spodu cieczą (zwykle w połączeniu z formą narzędnika)» nieakcjonalny stanowy



ПІДІЙТИ док. - ПІДХОДИТИ недок. (za słownikiem Biłodida)

  • ПІДІЙТИ док. - ПІДХОДИТИ недок. (za słownikiem Biłodida)

  • - ідучи, наближатися до кого-, чого-небудь;

  • - наближатися підїжджаючи, підпливаючи, підлітаючи і т.ін. до кого-, чого-небудь;

  • - прибувати куди-небудь;

  • - приступати до чого-небудь, братися за яку-небудь справу;

  • - виявляти своє ставлення до чого-небудь, оцінюючи;

  • - уміти привернути, прихилити кого-небудь до себе, завоювати довір’я

  • - звернутися до кого-небудь з прoханням, пропозицією, вимогою і т.ін

  • наближатися, наставати (про час, події, явища і т.ін.)

  • 5. розміщуватися близько чого-небудь, бути в безпосередньому сусідстві з чимсь, межувати з ним

  • 6. - бути придатним, прийнятним, відповідаючи яким-небудь вимогам; бути відповідним , личити , пристосовyватися, підроблятися

  • 7. переміщатися, підніматися догори

  • 8. ідучи, пройти яку-небудь відстань

  • 9. збільшуючись в об’ємі, підійматися (про тісто)

  • 10. насичуватись чим-небудь Сніг підійшов водою.



PODEJŚĆ - PODCHODZIĆ (analiza konkordancji i klasyfikacja semantyczna)

  • PODEJŚĆ - PODCHODZIĆ (analiza konkordancji i klasyfikacja semantyczna)

  • 1. «posunąć się w jakimś kierunku, zbliżyć się do kogoś lub czegoś»  підійти - підходити 1

  • 2. «mieć nastawienie do czegoś» nieakcjonalny, relacyjny підійти - підходити 2

  • 3. «oszukać kogoś» = złożony predykat akcjonalny mentalny, z kauzacją propozycji ошукати – ошукувати 1, надурити – надурювати 1

  • 4. «pasować, odpowiadać» nieakcjonalny, relacyjny підійти - підходити 3

  • 5. «zaczynać» niepełnoznaczny modyfikator fazowy починати

  • 6. «wypełnić się od spodu cieczą (zwykle w połączeniu z formą narzędnika)»  підійти - підходити 5



ПІДІЙТИ док. – ПІДХОДИТИ недок. (za słownikiem Biłodida)

  • ПІДІЙТИ док. – ПІДХОДИТИ недок. (za słownikiem Biłodida)

  • наближатися akcjonalny ruchu  podchodzić 1

  • мати ставлення nieakcjonalny relacji  podchodzić 2

  • пасувати nieakcjonalny rel.  podchodzić 4

  • починати(ся) niepełnoznaczny modyfikator fazowy  zaczynać się

  • бути близько чого-небудь nieakcjonalny relacyjny lokalizujący  znajdować się blisko

  • збільшуючись в об’ємі, підійматися (про тісто) nieakcjonalny stanowy  rosnąć 7

  • насичуватись чим-небудь (рідиною) nieakcjonalny stanowy  podchodzić 6



Wielojęzyczny korpus równoległy OPUS (Joerg Tiedemann):

  • Wielojęzyczny korpus równoległy OPUS (Joerg Tiedemann):

  • http://urd.let.rug.nl/tiedeman/OPUS/

  • Zalety: szybkie generowanie słowników wielojęzycznych

  • Problemy:

  • ograniczenie materiałowe

  • homonimia i wieloznaczność



Porównywalne

  • Porównywalne

  • Technologia "Web as corpus", projekt Wacky

  • "rewizja" słówników dwujęczycznych (Andriano Ferraresi i in.)

  • Zalety: dużo wiarygodnego i współczesnego (up-to-date) materiału

  • Problemy: słownik nie jest generowany automatycznie, korpus jest materiałem wspomagającym (reference), dużo pracy „ręcznej” dla leksykografów



Korpus Ratysboński

  • Korpus Ratysboński

  • Zastosowanie w gramatycznych studiach konfrontatywnych (wyniki można uwzględnić w słownikach też)

  • modalność epistemiczna w językach słowiańskich (Johan van der Auwera, Ewa Schalley & Jan Nuyt, "Epistemic possibility in a Slavonic parallel corpus―a pilot study")



PolUKR

  • PolUKR

  • Regensburg Parallel Corpus

  • OPUS

  • Korpus IPI PAN



Схожі:

O korpusach ogólnie, metodologia tworzenia o korpusach ogólnie, metodologia tworzenia iconMetodologia, a nie osobna branża lingwistyki Metodologia, a nie osobna branża lingwistyki


Додайте кнопку на своєму сайті:
dok.znaimo.com.ua


База даних захищена авторським правом ©dok.znaimo.com.ua 2013
звернутися до адміністрації
dok.znaimo.com.ua
Головна сторінка