# ERR2020 korpus ERR2020 on kõnekorpus, mis sisaldab 389 tundi tele- ja raadiosaateid ERRi arhiivist koos käsitsi loodud transkriptsioonidega. ERR2020 on loodud Haridus ja Teadusministeeriumi keeletehnoloogia teadus- ja arendustegevuse programmi „Eesti keeletehnoloogia 2018-2027“ raames. Korpuse märgendamise teostas TTÜ keeletehnoloogia labor. Transkribeerimistöö eesmärk oli arendatava telesaadete ja pressikonverentside reaalajalise subtitreemissüsteemi kvaliteedi parandamine. Korpus sisaldab järgmisi materjale: * Vikerraadios eetris olnud intervjuud (481 faili, kokku 100 tundi 18 minutit) * Telesaated ETV-st (249 faili, kokku 199 tundi) * Raadiosaated ETV arhiivist (169 faili, kokku 89 tundi 22 minuti) Transkriptsioonid on tehtud lähtuvalt juhendist (vt fail „Trankribeerimise juhend.pdf“). ## Litsents See teos on antud Creative Commonsi litsentsi "Autorile viitamine + Jagamine samadel tingimustel 3.0 Eesti" alla. Rohkem infot: https://creativecommons.org/licenses/by-sa/3.0/ee/ Korpuses olevate multimeedia-materjalide autoriõigus kuulub ERR-ile. ## Allalaadimine [ERR2020.tar](ERR2020.tar) (114 GB) ## Kontakt Tanel Alumäe <tanel.alumae@taltech.ee> ## Tsiteerimine Tanel Alumäe, Joonas Kalda, Külliki Bode, and Martin Kaitsa. 2023. [Automatic Closed Captioning for Estonian Live Broadcasts](https://aclanthology.org/2023.nodalida-1.49/). In Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa), pages 492–499, Tórshavn, Faroe Islands. University of Tartu Library. ``` @inproceedings{alumae-etal-2023-automatic, title = "Automatic Closed Captioning for {E}stonian Live Broadcasts", author = {Alum{\"a}e, Tanel and Kalda, Joonas and Bode, K{\"u}lliki and Kaitsa, Martin}, booktitle = "Proceedings of the 24th Nordic Conference on Computational Linguistics (NoDaLiDa)", month = may, year = "2023", address = "T{\'o}rshavn, Faroe Islands", publisher = "University of Tartu Library", url = "https://aclanthology.org/2023.nodalida-1.49", pages = "492--499" } ```