# ERR2020 korpus
ERR2020 on kõnekorpus, mis sisaldab 389 tundi tele- ja raadiosaateid ERRi arhiivist koos käsitsi loodud transkriptsioonidega.
ERR2020 on loodud Haridus ja Teadusministeeriumi keeletehnoloogia teadus- ja arendustegevuse programmi „Eesti keeletehnoloogia 2018-2027“ raames.
Korpuse märgendamise teostas TTÜ keeletehnoloogia labor. Transkribeerimistöö eesmärk oli arendatava telesaadete ja pressikonverentside reaalajalise subtitreemissüsteemi kvaliteedi parandamine.
Korpus sisaldab järgmisi materjale:
* Vikerraadios eetris olnud intervjuud (481 faili, kokku 100 tundi 18 minutit)
* Telesaated ETV-st (249 faili, kokku 199 tundi)
* Raadiosaated ETV arhiivist (169 faili, kokku 89 tundi 22 minuti)
Transkriptsioonid on tehtud lähtuvalt juhendist (vt fail „Trankribeerimise juhend.pdf“).
## Litsents
See teos on antud Creative Commonsi litsentsi "Autorile viitamine + Jagamine samadel tingimustel 3.0 Eesti" alla.
Rohkem infot: https://creativecommons.org/licenses/by-sa/3.0/ee/
Korpuses olevate multimeedia-materjalide autoriõigus kuulub ERR-ile.
## Allalaadimine
[ERR2020.tar](ERR2020.tar) (114 GB)
## Kontakt
Tanel Alumäe
## Tsiteerimine
Tanel Alumäe, Joonas Kalda, Külliki Bode, and Martin Kaitsa. 2023. [Automatic Closed Captioning for Estonian Live Broadcasts](https://aclanthology.org/2023.nodalida-1.49/). In Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa), pages 492–499, Tórshavn, Faroe Islands. University of Tartu Library.
```
@inproceedings{alumae-etal-2023-automatic,
title = "Automatic Closed Captioning for {E}stonian Live Broadcasts",
author = {Alum{\"a}e, Tanel and
Kalda, Joonas and
Bode, K{\"u}lliki and
Kaitsa, Martin},
booktitle = "Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa)",
month = may,
year = "2023",
address = "T{\'o}rshavn, Faroe Islands",
publisher = "University of Tartu Library",
url = "https://aclanthology.org/2023.nodalida-1.49",
pages = "492--499"
}
```