|
|
|
Im Rahmen des DWDS digitalisierte die Grepect GmbH ca. 100 Millionen Textwörter für die Textcorpuserstellung.
Die Digitalisierung umfasste die manuelle Volltexterfassung sowie die Auszeichnung der Texte mit XML nach einer
Erfassungsanweisung des Auftraggebers. Die Texte wurden über Metadaten zu Autor(en), Titel, Erscheinungsjahr und
Textsorte erschlossen. Dabei lag die Genauigkeit der erfassten Texte bei 3 Fehlern pro 10.000 Zeichen.
Die Vorlagen waren zum großen Teil in Fraktur gedruckt und bestanden aus
• Zeitungen/Zeitschriften
• Belletristik
• Gebrauchsliteratur und
• Wissenschaftlichen Texten.
Website der Berlin-Brandenburgischen Akademie der Wissenschaften
|
|
|