CoRoLa
Corpus computațional de referință pentru limba română contemporană

--> Căutați un cuvânt în CoRoLa! <--

-->
1+ Mld. de cuvinte
300 Ore de înregistrări
70 Subdomenii științifice
17 membri în proiect

CoRoLa Descriere Generală

Proiectul CoRoLa (Corpusul de referință pentru limba română contemporană) a debutat în 2014 ca program prioritar al Academiei Române și a fost încredințat Institutului de Cercetări pentru Inteligență Artificială „Mihai Drăgănescu” din București (ICIA) și Institutului de Informatică Teoretică din Iași (IIT). Corpusul conține texte diverse, datând din 1989 și până astăzi, scopul creării acestuia fiind să ofere o imagine obiectivă a limbii române actuale scrise și vorbite. Corpusul este deschis utilizării publice prin intermediul a două interfețe pentru căutare în date de tip text și una pentru căutare în date de tip audio. Domeniile principale de utilizare a corpusului CoRoLa sunt: studii lingvistice; modelarea limbajului pentru procesarea automată a limbii române; dezvoltarea de modele de traducere; învățarea limbii; indexare și recuperare inteligentă și multi-criterială de informație textuală și orală; clasificare semantică de volume mari de date (text și audio); extragere de cunoștințe din date (text și audio); rezumare automată de documente; sisteme de întrebare-răspuns; recunoaștere și sinteza automată a vorbirii; etc.

Dezvoltarea corpusului a urmat standardele și bunele practici internaționale și reflectă toate stilurile funcționale ale limbii (cu denumirile în engleză, conform metadatelor textelor, Imaginative, Science, Journalistic, Law, Administrative, Memoirs, Blogpost), acoperă patru domenii generale (Arts&Culture, Nature, Science, Society). Acestea din urmă sunt clasificate în 70 de subdomenii.

Colectarea datelor s-a făcut în baza unor protocoale semnate cu furnizorii de texte, deținători ai drepturilor de proprietate intelectuală asupra textelor la care ne-au oferit acces (vezi secțiunea Parteneri).

Textele sunt însoțite de metadate și au fost supuse unui lanț de prelucrare ce combină preprocesare manuală asistată de computer și procesare complet automată.

Curățarea (eliminarea elementelor ce nu aparțin textului - antete, note, titluri, cuprins etc. - din documente), verificarea utilizării corecte a diacriticelor și introducerea lor automată atunci când a fost nevoie, precum și crearea metadatelor pentru fiecare document s-au realizat folosind instrumente de procesare dezvoltate intern. Ulterior, datele au fost segmentate la nivel de propoziție și de cuvânt, adnotate morfosintactic, lematizate, grupurile sintactice au fost identificate. În plus, fișierele audio și traducerile lor au fost aliniate (la nivel de fonem, silabă și cuvânt).

CoRoLa
O resursă online pentru studiul și învățarea limbii române

Publicații despre CoRoLa

Statistici CoRoLa


Interogare Corola


KorAP: KorAP este o platformă modernă, realizată la Institutul Limbii Germane (IDS) din Manheim, capabilă să gestioneze corpusuri de foarte mari dimensiuni și să deschidă perspective pentru cercetarea lingvistică inovatoare. Este capabilă să administreze și să analizeze cantități foarte mari de date, atât primare, cât și adnotate, oferind utilizatorului acces la ambele versiuni ale textelor: adnotate și primare. Puteți vedea un manual de utilizare a platformei KorAP aici. Un scurt manual de utilizare a KorAP pentru CoRoLa este disponibil aici

KorAP

NLP-CQP: Interfață web pentru interogarea corpusului CoRoLa prin traducerea automată a unei interogări din limba română (în limbaj „controlat”) în limbajul formal de interogare CQP, folosit în motorul de indexare a corpusurilor IMS Open Corpus Workbench (CWB). Pentru a ușura învățarea limbajului de interogare, această interfață permite formularea parametrilor de interogare în limba română, cu niște constrângeri prezentate în manualul de utilizare, constrângeri care permit algoritmului să traducă mai bine în CQP.

NLP-CQP

Oral Corpus Query Platform (OCQP): Platformă ce permite identificarea modalității de pronunțare a unui cuvânt în corpusul oral, în diferitele contexte de apariție ale acestuia. Căutarea se poate face pornind de la forma sau lema cuvîntului și se poate asocia cu filtre în funcție de adnotările morfo-sintactice (MSD sau CTag). Puteți vedea o descriere detaliată a platformei aici.

OCQP

Pentru interogarea folosind cele trei aplicații sunt necesare cunoștințe privind cele două seturi de etichete morfosintactice (tagset-uri) utilizate în adnotarea CoRoLa precum și privind schema de codificare a adnotărilor în interfața KorAP:

Atenție! Textele din CoRoLa respectă două norme ortografice: cea actuală (datând din 1993) și cea anterioară (cu î și sînt). Când efectuați căutări de cuvinte care au suferit modificări ale grafiei prin schimbarea normei ortografice, asigurați-vă că faceți căutarea ambelor forme.
Exemplu: pentru a regăsi toate ocurențele cuvântului „când”, trebuie folosită în KorAP fraza de interogare: când | cînd

Exemplu de creare și de căutare într-un corpus virtual

Reprezentari vectoriale ale cuvintelor: "Word embeddings" calculate pe corpusul CoRoLa, utilizand Cuvinte complete, Leme ale cuvintelor din corpus si concatenare intre parte de vorbire (POS) si lema.


Liste de Frecvențe calculate pe corpusul CoRoLa, folosind cuvinte complete și lemme, în diferite forme: forma de apariție, lowercase, cu înlocuirea diacriticelor.

Liste de Frecvențe

CoRoLa. Tipuri primare de interogări KorAP.

Iată câteva tipuri de interogări ale corpusului. Ele sunt destul de simple, dar pot fi combinate pentru crearea unora complexe, care să răspundă intereselor dumneavoastră.

Tip I

Căutarea tuturor formelor cu care un cuvânt apare în corpus: de exemplu, speranță

Tip II

Căutări de tip mofologic: de exemplu, căutarea tuturor verbelor la mai mult ca perfect din corpus

Tip III

Căutarea unor sintagme (inclusiv concordanțe): de exemplu, căutarea tuturor combinațiilor verb (dar nu „a avea”) + substantivul „loc”

Tip IV

Căutarea unor combinații morfologice (coligații): de exemplu, căutarea verbelor la perfect compus cu adverbe intercalate între auxiliar și verb

Listă cuvinte exemplu

Totul despre echipă

Parteneri Corola

Realizarea proiectului CoRoLa a fost posibilă datorită contribuției reprezentanților unor importante edituri românești, ai mass media, a unor persoane care fie ne-au oferit textele cărților sau articolelor lor, fie ne-au deschis uși importante. O importanță deosebită pentru dezvoltarea corpusului CoRoLa o are colaborarea excelentă cu specialiștii IDS, realizatorii platformei KorAP. Mulțumim tuturor celor care au crezut în acest proiect și ne-au sprijinit!

Echipa KorAP

Adoptarea platformei KorAP pentru gestiunea corpusului CoRoLa a fost posibilă prin proiectul DRuKoLA , finanțat în cadrul programului Research Group Linkage Programme of the Alexander von Humboldt-Stiftung, parteneri fiind Institut für Deutsche Sprache, Mannheim, Universitatea București, Institutul de Cercetări pentru Inteligență Artificială al Academiei Române „Mihai Drăgănescu" și Institutul de Informatică Teoretică al Filialei Iași a Academiei Române.

Kick-off meeting of the DruKoLa project

DruKoLa kick-off meeting

Marc Kupietz (coordonare științifică)

Nils Diewald (KorAP)

Peter Harders (KorAP)

Oliver Schonefeld (servere)

Andreas Witt (coordonare științifică)

Ruxandra Cosma ( management proiect Drukola și cercetări comparative germană-română)

Furnizori de texte

S.C. Press Media Electronic S.R.L. (DCNEWS) (București)

Revista România literară (București)

Uniunea Compozitorilor ș i Muzicologilor din România (București)

Societatea Română de Radiodifuziune (București)

Revista Balcanii ș i Europa (București)

Gazeta de Artă Politică (București)

Ziarul Agenda (Timi ș oara)

Revista Medicală Română (București)

SC Dorithea Media SRL – RomanTV (Roman)

Stil Media SRL - Radio VIVA fm (Iaşi)

Radio România Iaşi (Iaşi)

Radio Universitas (Iaşi)

Revista Cronica Timpului (București)

Revista UZP (București)

Candela de Montreal (Canada)

Destine Literare (Canada)

Presa Online

INFOIaşi

Timpul

republica.ro

Editura Academiei Române

Editura Economică

Editura Humanitas

Editura POLIROM

Editura Simetria

Editura Universității din București

Editura Papirus Media

Editura Serafica

Fundaţia “Română 2000” SC AMO-PRODPRESS SRL

Casa Editorială Demiurg

Editura Babel

Editura Adenium

Editura PIM

Editura Gama

Editura Doxologia

Editura Institutul European

Editura ARS Longa

Luminiţa Cărăuşu

Zeno Fodor

Corneliu Leu

Liviu Petcu

Adrian Chircu

Andrei Anton Popescu

Adina Ciubotariu

Alexandru Iliescu

Alexandru Sălăvăstru

Pânzariu Anca

Mihaela Beța

Ana-Maria Timofciuc

Ana-Maria Creţu

Andreea Ţigănescu

Diana – Alexandra Soponaru

Ana-Maria Lungu

Alina Leonte

Mădălina Maria Bîrzu

Cosmin-Constantin Andrei

Lavinia Maria Băisan

Andreea Evelina Leviţchi

Cristian Radu

Purice Gabriela-Diana

Căciulă Ionuț Răducu

Luca Andrei Cristian

Ioan Baciu

Roxana Luminița Belciug

Adriana Moroșan

Ioana Curcă

Cătălina Cojocari

Roxana Hrăniciuc

Adriana Chiţac

Gabriela Torică

Evelina Zaporojanu

Maria-Tereza Barnea

Adina Zaharia

Sacaloş Francesca

Amalia Maria Tanasă

Monica Pălimariu

Simona Tache

Dragoș Bucurenci

Teodora Forăscu

Irina Șubredu

Andreea Ignat

Blog de părinţi

Belva

Iași4U – Oraşul tau online

Elena Filip

Sebastian Bârgău

Ramona Cervenciuc

printreranduri.eu

Asociația Scriitorilor Romani din Canada

Uniunea Ziariştilor Profesionişti din România

zilesinopti.ro

opiniastudenteasca.ro

wikipedia în limba română

legislație românească

legislație europeană (tradusă)

Ministerul de Justiție

Institutul de Lingvistică „Iorgu Iordan – Al. Rosetti”

Federația Română de Diabet, NutrițieșiBoli Metabolice

Colegiul Național Unirea (Focșani, jud. Vrancea)

Teatrul Naţional Târgu-Mureş (Târgu-Mureş)

Teatrul Național Cluj-Napoca (Cluj-Napoca)

Asociația Studenților din Facultatea de Limbi Străine, Universitatea din București

Universitatea „Alexandru Ioan Cuza”, Iași

Universitea din București

Voluntari

Adina Chircea

Alexandra Chirilă

Alexandra Coca

Alexandra Manole

Alexandra Ojica

Alexandru Bordea

Alexandru Iordache

Alexandru Stuparu

Alin Vasile

Ana Sabie

Ana Vijiiac

Anca Gabriela Apostol

Anca Bibiri

Andreea Agavriloaiei

Andreea Gagea

Andreea Marcu

Andreea Mastu

Andreea Mircea

Andreea Rotaru

Augusto Perez

Bogdan Crișan

Călin Birjoveanu

Claudia Moisiuc

Cornel Neghină

Cosmin Traicu

Costina Ilea

Cristi Giuclea

Dalia Alexandra Cucăilă

Diana Cătălina Martin

Diana Lupleac

Dinu Munteanu

Elena Psenita

Eliza Constantinescu

Ema Buliga

Florin Porusniuc

Gabriela Duțu

Georgiana Bîrlădeanu

Ion Florin

Ionela Bujor

Ionuț Bacău

Irina Felea

Irina Tanovici

Irina Vaida

Iulia Cimpanu

Iulia Ciubotariu

Iulian Bălan

Iulian Păvăloiu

Larisa Bulai

Laura Panciuc

Leo Epureanu

Magdalena Alexandra Cristache

Mari Ciobanu

Maria Clarisa Bătrânu

Maria Dumitraș

Maria Ganta

Maricica Caluian

Marina Chițu

Mădălina Iftime

Mădălina Palade

Mihaela Adăscăliței

Mihaela Mocanu

Mihaela Radu

Mihaela Roman

Mihai Rădulescu

Mircea Florin Ion

Mirela Gabriela Petrescu

Monica Musca

Nicoleta Nica

Octavian Gavrilă

Oprea Dana

Patricia Pădurariu

Paula-Iazmina Nedelcu

Petruța Gafincu

Raluca Munteanu

Ramona Lionti

Ramses Nestor

Răzvan Alexandru Secrieriu

Rebeca Beatrice Dragomir

Roxana Alexiu

Roxana Dediu

Roxana Marin

Sorin Geană

Ștefan Alexandru Rotariu

Ștefania Vulpe

Teodora Luca

Teofil-Ilie Ursache

Tudor Cocoș

Viorel Sima

Vlad Vasile