Corpora

De kaarten en tabellen bij de kaarten op de website middelnederlands.nl zijn tot stand gekomen op basis van twee corpora, het Corpus-Van Reenen-Mulder van 14e-eeuwse oorkonden (CRM14) en het Corpus-Gysseling-Van Reenen van 13e-eeuwse oorkonden (CGR13), en een kaartprogramma. De corpora bestaan uit transcripties van originele oorkonden.

In de oorkonden staan veelal afkortingen. Bij het transcriberen zijn die afkortingen zo opgelost dat duidelijk blijft dat het om een oplossing gaat. (In het CGR13 is dat altijd het geval, in het CRM14 meestal.) Op basis van de transcripties kunnen alle vormen van een oorkonde op drie manieren worden gepresenteerd, gevolgd door het lemma:

  • Vorm1: de getranscribeerde vorm, waarin hoofdletters kunnen voorkomen en waarin de afkortingen of onleesbare passages zijn aangegeven met _
  • Vorm2: dezelfde vorm maar waarin de hoofdletters zijn vervangen door kleine letters
  • Vorm3: dezelfde vorm waarin ook de afkortingen zijn opgelost en de onleesbare passages aangevuld.
  • Vorm4: het lemma.
De onderzoeker kan daarmee in principe, afhankelijk van zijn onderzoek, uit vier vormen kiezen. Elke oorkonde heeft bovendien een eigen identificatienummer waaruit de plaats van herkomst en het jaar van redactie kunnen worden afgeleid. Daarmee kan elke vorm in de oorkonde geassocieerd worden. De vormen en het lemma hebben een taalkundige code in termen van woordsoorten, en zaken als enkelvoud en meervoud.

Voorbeeld:

H036p29002    En_ en_ ende  en  800
PlaatsTijdVlgnrVorm1Vorm2Vorm3LemmaWoordsoort
H036p29002En_en_endeen800
Brugge129002voegwoord
Vlgnr 02 is het volgnummer in de plaats en het jaar, zodat de oorkonden van hetzelfde jaar uit dezelfde plaats onderscheiden kunnen worden. Voor de kaarten is veelal voor Vorm2 gekozen

Plaats Tijd Volgnummer

Elke oorkonde - en daarmee elke woordvorm van een oorkonde - is voorzien van een plaats/regiocode en een datering: Kloekecode en jaartal samen een cijfer-lettercombinatie, die samen met het volgnummer een unieke identificatie vormt.

Alle oorkonden zijn dus gedateerd en gelokaliseerd. Dat wil zeggen, van elke oorkonde is vastgesteld in welk jaar hij geschreven is, en uit welke plaats (of streek) hij afkomstig is. De tekst van elke oorkonde kan nu worden beschouwd als een verzameling geschreven vormen uit de plaats (of streek) uit een bepaald jaar tussen 1236 (de oudste oorkonde in de corpora) en 1400. De plaats-tijdcode is opgebouwd uit een zogenaamd Kloekenummer, H036p, voor de lokalisering Brugge, en een jaartal, 290 = 1290, voor de datering. Sommige oorkonden kunnen niet helemaal zeker aan een plaats worden toegeschreven, maar wel aan de regio rond die plaats. Dat is verwerkt in het Kloekenummer. E597r staat voor de regio (r) rond E097p = Beverwijk, dus voor de regio Beverwijk. De streek is af te leiden uit de plaats door er 500 bij op te tellen en de p (van plaats) te vervangen door de r (van regio). Nog een paar voorbeelden van Kloekenummers: plaats of regio zijn F179p = Zutphen, O152p = Ninove, L023p = Arnhem. In plaats van de p van plaats staat soms a, b of c.)

Voor de lijst van Kloekenummers, zie hier.

Taalkundige codering en lemma

De taalkundige codering en lemmatisering is oorspronkelijk opgesteld voor het CRM14 (waarbij de opstellers zich hebben laten inspireren door de taalkundige code van het Oudfranse corpus dat aan de basis ligt van Dees et al. (1980).

Voor meer informatie over de cijfercode en de vertaling in letters, zie hier.

Het lemma is in principe ontleend aan het Middelnederlands Woordenboek (MNW), voor eigennamen is zo goed mogelijk aangesloten op de moderne vormen.

In deze opzet is het volledig aan de onderzoekers om de vormen uit een plaats al dan niet als dialectvormen uit een bepaald jaar uit die plaats te interpreteren. De kaarten op de website geven niet meer, maar ook niet minder, dan schrijfwijzen.

Het corpus is aanwezig op het Meertens Instituut en op het INT.