Kennen Sie schon … CoDeRooMor?

Logo der Spraakbanken

Im Rah­men der Språk­banken wurde eine mor­phol­o­gis­che Daten­bank veröf­fentlicht, in der über 16.000 Wörter aus zwei Kor­po­ra anhand ihrer mor­phol­o­gis­chen Bestandteile annotiert wur­den:

The CoDe­RooMor dataset (ver­sion 1.0) con­tains 16 230 lem­grams gen­er­at­ed from COCTAILL (course book cor­pus) and SweLL-pilot (learn­er essay cor­pus) to rep­re­sent vocab­u­lary rel­e­vant for learn­ers of Swedish as a sec­ond lan­guage, and hypo­thet­i­cal­ly con­tain­ing most fre­quent vocab­u­lary in Swedish. The lem­grams in CoDe­RooMor have been man­u­al­ly analysed for roots, pre­fix­es, suf­fix­es, infixes/binding mor­phemes (sv: foge­mor­fem) and oth­er mor­pheme types, e.g. o‑är-lig: „o“ pre­fix, „är“ root , „lig“ suf­fix.

The dataset rep­re­sents 4 429 unique roots, 259 unique deriva­tion­al suf­fix­es, 155 unique pre­fix­es, 12 unique bind­ing mor­phemes (infix­es), and a few inflec­tion­al mor­phemes that have been ana­lyzed as a part of lex­i­cal­ized forms or sim­i­lar.

Each lem­gram has an asso­ci­at­ed word for­ma­tion mech­a­nism, such as deriva­tion, com­pound­ing, root lex­eme.

Mor­pho­log­i­cal anno­ta­tion scheme fol­lows prin­ci­ples out­lined in Swedish Acad­e­my Gram­mar (SAG) and SAOL/SO.

ent­deckt im Nordeu­ropa-Blog

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.