Polnisch-Deutsches / Deutsch-Polnisches Parallelkorpus

Im Rahmen des Projekts Die Entwicklung des polnischen Aspekts in den letzten 250 Jahren auf dem Hintergrund der Nachbarsprachen entsteht das „Polnisch-Deutsche / Deutsch-Polnische Parallelkorpus“, welches genuine polnische und deutsche Texte und ihre jeweiligen Übersetzungen in die andere Sprache enthält. Mit Hilfe des Parallelkorpus soll während des Projekts untersucht werden, zu welchen grammatikalisch-semantischen Mitteln das Deutsche greift, das über keinen Aspekt verfügt, um auf dieselben funktionalen Oppositionen auf grammatischer und Diskursebene wie die Aspektsprachen zu reagieren.

Neben dem oben beschriebenen projektgebundenen Zweck soll das Parallelkorpus auch als Forschungs- und Abfrage-Instrument für Wissenschaftler, Übersetzer/Dolmetscher, Studierende und interessierte Laien fungieren, für die (Parallel)Korpora nicht primär zum Forschungs-, Lehr- und Arbeitsalltag gehören. Der Schlüssel zur Nutzung eines Parallelkorpus durch ein breiteres Publikum, insbesondere durch Korpus-„Laien“, ist ein intuitiv bedienbares Abfrage-Interface mit Eingabefeldern und Checkboxen, mit deren Hilfe eine Suche einfach und ohne besondere Kenntnisse einer speziellen, korpuseigenen Abfragesyntax formuliert werden kann. Als Beispiel für ein solches Abfrage-Interface soll zunächst das 2014-15 dank der Finanzierung durch die Forschungsförderung der Universität Mainz geschaffene Probekorpus dienen. Das im Rahmen des Projekts optimierte Abfrage-Interface mit dem ersten Teil der Texte wird gegen Ende 2018 der Öffentlichkeit zur Verfügung gestellt.

Struktur des „Polnisch-Deutschen / Deutsch-Polnischen Parallelkorpus“

Das Parallelkorpus umfasst polnische und deutsche Texte und ihre Übersetzungen aus der Zeit von ca. 1750 bis heute und deckt somit mehr als 250 Jahre der Sprachentwicklung ab. Es ist insgesamt auf 10 Mio. Textwörter angelegt und setzt sich zu etwa 55 % aus literarischen Texten und zu 45 % aus Presse-, Sach- und Rechtstexten zusammen. Eine Besonderheit ist die Schaffung eines Subkorpus der Rechtssprache, das etwa 2 Mio. Textwörter enthält. Das gesamte Parallelkorpus ist morphosyntaktisch annotiert und auf Satzebene aligniert.

Die Arbeiten am Parallelkorpus werden auf polnischer Seite von Prof. Dr. Marek Łaziński und auf deutscher Seite von Dr. Andreas Meger koordiniert.

Literaturhinweise zu Parallelkorpora:

Łaziński, Marek (2014): Praktyczny przewodnik po korpusach równoległych. Wiadomości wstępne. Korpus ParaSol i Korpus Polsko-Rosyjski UW. In: Hebal-Jezierska, Milena (Red.): Praktyczny przewodnik po korpusach języków słowiańskich. Warszawa: Uniwersytet Warszawski, Wydział Polonistyki. 198-206.

Łaziński, Marek / Kuratczyk, Magdalena (2016): Korpus-Polsko-Rosyjski Uniwersytetu Warszawskiego = The University of Warsaw Polish-Russian Parallel Corpus. In: Gruszczyńska, Ewa / Leńko-Szymańska, Agnieszka (Red.): Polskojęzyczne korpusy równoległe = Polish-language Parallel Corpora. Warszawa: Uniwersytet Warszawski, Wydział Lingwistyki Stosowanej, Instytut Lingwistyki Stosowanej. 83-95.

Meger, Andreas (2016): Über die Arbeit am Deutsch-Polnischen / Polnisch-Deutschen Parallelkorpus und seinem Subkorpus der Rechtssprache. In: Baglajewska-Miglus, Ewa / Vogel, Thomas (Hg.): Fachsprachenunterricht – Lehren und Lernen am Beispiel des Polnischen als Fremdsprache = Nauczanie języka specjalistycznego – Nauczanie i uczenie się na przykładzie języka polskiego jako obcego. Herzogenrath: Shaker. (Polnisch als Fremd- und Zweitsprache 2). S. 48–65.

Meger, Andreas; Woźniak, Michał & Waldenfels, Ruprecht von (2016): Jak stworzyć korpus ‘dla wszystkich’? O pracy nad Polsko-Niemieckim i Niemiecko-Polskim Korpusem Równoległym = How to create a parallel corpus ‘for all’? About the building of the Polish-German and German-Polish Parallel Corpus. In: Gruszczyńska, Ewa / Leńko-Szymańska, Agnieszka (Red.): Polskojęzyczne korpusy równoległe = Polish-language Parallel Corpora. Warszawa: Uniwersytet Warszawski, Wydział Lingwistyki Stosowanej, Instytut Lingwistyki Stosowanej. 97-118.

Polsko-niemiecki / niemiecko-polski korpus równoległy

W ramach projektu Rozwój polskiego systemu aspektowego w ostatnich 250 latach na tle sąsiednich języków słowiańskich powstaje „Polsko-niemiecki / niemiecko-polski korpus równoległy” zawierający oryginalne teksty polskie i niemieckie oraz ich przekłady (odpowiednio na język niemiecki lub polski). Korpus równoległy umożliwi w trakcie projektu zbadanie kategorii gramatycznych/językowych, którymi posługuje się język niemiecki, który wprawdzie nie ma kategorii gramatycznej aspektu, ale musi odpowiednio dostosować się do tych samych opozycji funkcjonalnych na poziomie struktury gramatycznej i dyskursu.

Poza wyżej opisanym celem w ramach projektu korpus równoległy ma stać się narzędziem badawczym dla naukowców, tłumaczy, studentów oraz niefachowców, którzy na co dzień nie posługują się korpusami (równoległymi). Kluczem do tego jest stworzenie prostego w użyciu interfejsu z checkboxami i okienkami do wpisywania słów. Za pomocą takiego interfejsu każdy potencjalny użytkownik będzie potrafił inuicyjnie i bez umiejętności stosowania odpowiedniej (dość skomplikowanej) składni zapytania używać nasz korpus. Przykładem tego jest stworzony w latach 2014-15 dzięki interfejsu oraz małego korpusu próbnego (pilotażowego) umożliwił Funduszowi Promocji Badań (niem. Inneruniversitäre Forschungsförderung) Uniwersytetu im. Jana Gutenberga w Moguncji. Ulepszony interfejs oraz pierwsza część tekstów zostanie udostępniona użytkownikom pod koniec 2018 roku.

Struktura „Polsko-niemieckiego / niemiecko-polskiego korpusu równoległego”

Korpus składa się z polskich i niemieckich tekstów oraz ich przekładów z lat od ok. 1750 roku do dzisiaj. Zawiera ok. 10 mln słów z tekstów pochodzących z literatury pięknej (55 proc.) oraz z literatury faktu, z prasy i prawa (45 proc.). Ponadto zaplanowany jest specjalistyczny podkorpus tekstów prawniczych (ok. 2 mln słów). Cały korpus jest anotowany morfosyntaktycznie oraz wyrównany na poziomie zdań.

Prace nad korpusem kieruje po stronie polskiej dr hab. Marek Łaziński, prof. UW, po stronie niemieckiej dr Andreas Meger.

Literatura nt. korpusów równoległych:

Łaziński, Marek (2014): „Praktyczny przewodnik po korpusach równoległych. Wiadomości wstępne. Korpus ParaSol i Korpus Polsko-Rosyjski UW“. In Hebal-Jezierska, Milena (red.): Praktyczny przewodnik po korpusach języków słowiańskich. Warszawa: Uniwersytet Warszawski, Wydział Polonistyki. 198-206.

Łaziński, Marek / Kuratczyk, Magdalena (2016): „Korpus-Polsko-Rosyjski Uniwersytetu Warszawskiego = The University of Warsaw Polish-Russian Parallel Corpus“. In: Gruszczyńska, Ewa / Leńko-Szymańska, Agnieszka (red.): Polskojęzyczne korpusy równoległe = Polish-language Parallel Corpora. Warszawa: Uniwersytet Warszawski, Wydział Lingwistyki Stosowanej, Instytut Lingwistyki Stosowanej. 83-95.

Meger, Andreas (2016): „Über die Arbeit am Deutsch-Polnischen / Polnisch-Deutschen Parallelkorpus und seinem Subkorpus der Rechtssprache“. In: Baglajewska-Miglus, Ewa / Vogel, Thomas (red.): Fachsprachenunterricht – Lehren und Lernen am Beispiel des Polnischen als Fremdsprache = Nauczanie języka specjalistycznego – Nauczanie i uczenie się na przykładzie języka polskiego jako obcego. Herzogenrath: Shaker. (Polnisch als Fremd- und Zweitsprache 2). 48–65.

Meger, Andreas; Woźniak, Michał & Waldenfels, Ruprecht von (2016): „Jak stworzyć korpus ‘dla wszystkich’? O pracy nad Polsko-Niemieckim i Niemiecko-Polskim Korpusem Równoległym = How to create a parallel corpus ‘for all’? About the building of the Polish-German and German-Polish Parallel Corpus”. In: Gruszczyńska, Ewa / Leńko-Szymańska, Agnieszka (red.): Polskojęzyczne korpusy równoległe = Polish-language Parallel Corpora. Warszawa: Uniwersytet Warszawski, Wydział Lingwistyki Stosowanej, Instytut Lingwistyki Stosowanej. 97-118.