Joi, 21 ianuarie 2021, va avea loc conferința „CoRoLa. Accesul la textele scrise și la cele orale”, prezentată de dr. Verginica Barbu Mititelu, cercetător științific la Research Institute for Artificial Intelligence din cadrul Academiei Române. Evenimentul științific va avea loc online începând cu ora 18:00, pe platforma Google Meet. Persoanele interesate de participare sunt invitate să acceseze acest link pentru a lua parte la reuniune.
Conferința face parte din ciclul Conferințelor Centrului de Lingvistică Teoretică și Aplicată (CLTA), organizat de Departamentul de Lingvistică al Facultății de Litere al Universității din București.
Proiectul CoRoLa, printre programele prioritare ale Academiei Române
Proiectul CoRoLa (Corpusul de referință pentru limba română contemporană) a debutat în 2014 ca program prioritar al Academiei Române și a fost încredințat Institutului de Cercetări pentru Inteligență Artificială „Mihai Drăgănescu” din București (ICIA) și Institutului de Informatică Teoretică din Iași (IIT).
Corpusul conține texte diverse, datând din 1989 și până astăzi, scopul creării acestuia fiind să ofere o imagine obiectivă a limbii române actuale scrise și vorbite. Corpusul este deschis utilizării publice prin intermediul a două interfețe pentru căutare în date de tip text și una pentru căutare în date de tip audio.
Domeniile principale de utilizare a corpusului CoRoLa sunt:
- studii lingvistice;
- modelarea limbajului pentru procesarea automată a limbii române;
- dezvoltarea de modele de traducere;
- învățarea limbii;
- indexare și recuperare inteligentă și multi-criterială de informație textuală și orală;
- clasificare semantică de volume mari de date (text și audio);
- extragere de cunoștințe din date (text și audio);
- rezumare automată de documente; sisteme de întrebare-răspuns;
- recunoaștere și sinteza automată a vorbirii etc.
Procese elaborate în definitivarea corpusului de texte
Dezvoltarea corpusului a urmat standardele și bunele practici internaționale și reflectă toate stilurile funcționale ale limbii (cu denumirile în engleză, conform metadatelor textelor, Imaginative, Science, Journalistic, Law, Administrative, Memoirs, Blogpost), acoperă patru domenii generale (Arts&Culture, Nature, Science, Society). Acestea din urmă sunt clasificate în 70 de subdomenii.
Colectarea datelor s-a făcut în baza unor protocoale semnate cu furnizorii de texte, deținători ai drepturilor de proprietate intelectuală asupra textelor la care ne-au oferit acces. Textele sunt însoțite de metadate și au fost supuse unui lanț de prelucrare ce combină preprocesare manuală asistată de computer și procesare complet automată.
Curățarea (n.n.: eliminarea elementelor care nu aparțin textului ‒ antete, note, titluri, cuprins etc. ‒ din documente), verificarea utilizării corecte a diacriticelor și introducerea lor automată atunci când a fost nevoie, precum și crearea metadatelor pentru fiecare document s-au realizat folosind instrumente de procesare dezvoltate intern. Ulterior, datele au fost segmentate la nivel de propoziție și de cuvânt, adnotate morfosintactic, lematizate, grupurile sintactice au fost identificate. În plus, fișierele audio și traducerile lor au fost aliniate (la nivel de fonem, silabă și cuvânt).
Persoanele interesate pot afla mai multe detalii despre conferință aici. Mai multe informații despre activitățile derulate de CLTA pot fi consultate aici.
Date despre conferențiar
Dr. Verginica Barbu Mititelu este absolventă a Facultății de Litere din cadrul Universității din București, precum și al unui stagiu de cercetare Erasmus la Universitatea din Viena. În anul 2009, tânăra cercetătoare a obținut titlul de doctor în Filologie, cu calificativul Summa cum Laudae, cu teza Semantic Relations (synonymy, antonymy, hyponymy). A Theoretical and Computational Linguistics Perspective. În perioada 2011-2013, Verginica Barbu Mititelu urmează studii postdoctorale în cadrul Academiei Române, având ca temă de cercetare Semantic and Derivational Network for Romanian. În prezent, dr. Mititelu își desfășoară activitatea în cadrul Academiei Române.




