La cooperativa de Barcelona, especialitzada en intervenció sociocultural, dades i tecnologia, engega el primer motor de síntesi de veu en català que no té una veu robòtica i que està desenvolupat amb codi lliure.
Baybars Külebi és astrofísic, però des de 2016 forma part de l’equip que un any més tard es va formalitzar com a cooperativa Col·lectivaT, en la qual la majoria d’integrants provenen de Turquia. Ara treballen en un motor de síntesi de veu en llengua ladina, el castellà medieval que encara parlen prop de 40.000 jueus sefardites. “Aquesta feina ens emociona”, diu.
Külebi, com els seus companys Pelin Doğan, Özgür Güneş Öztürk i Alp Öktem, és d'origen turc. La cooperativa treballa per minvar la betxa digital que pateixen les llengües de les nacions sense estat o minoritzades. Külebi, que va aterrar a Barcelona per fer-hi un postdoctorat i ha pogut quedar-se, assegura que Catalunya és un punt estratègic des d'on treballar amb llibertat.
Els darrers dies, Col·lectivaT ha estat notícia pel Catotron, el primer motor de síntesi de veu en català. Desenvolupat amb codi lliure, és la interfície mitjançant la qual una persona dona ordres a una màquina, el punt d’entrada d’informació. Per aconseguir que una assistent de veu (com Alexa o Siri) interactuï amb nosaltres i executi ordres, primer cal assolir el reconeixement de la parla, que és la capacitat de transformar la parla en text. “Com que Catotron és de codi lliure, els desenvolupadors que vulguin millorar-lo poden fer-ho amb Common voice Mozilla, que és una font molt important pel català”, diu Bayrbaris Külebi.
Common Voice també és una creació de Col·lectivaT, en col·laboració amb Softcatalà l’any 2018, i el seu objectiu és tenir el màxim d’hores de gravacions diferents i variades de frases específiques en català, d’acord amb el principi que, a més parlants i dialectes, més varietat i millor capacitat per reconèixer la dicció catalana. Fins avui, Common Voice Mozilla té enregistrades 700 hores de parla, i qualsevol persona catalanoparlant pot fer que en siguin més.
Àlex Hinojo, viquipedista i activista digital que el 2019 es va viralitzar per subratllar la importància de “poder parlar en català a la teva torradora” i a la resta de dispositius electrònics, ho explica així: “Abans era el teclat, després la pantalla tàctil i ara la veu. El motor de síntesi substitueix el teclat i, en canvi, un assistent de veu (com Alexa o Siri) et permet tenir una conversa més o menys semàntica amb un dispositiu”. Al web de Catotron es pot fer parlar l’Ona i el Pau, les veus femenina i masculina que reprodueixen els textos escrits en català. L’únic inconvenient de tot plegat és que, a diferència d’Alexa o Siri, el Pau i l’Ona no poden respondre ni obeir: encara no s’ha desenvolupat una assistent de veu funcional en llengua catalana.
Contràriament al que s’ha escrit, doncs, les empreses grans i els usuaris particulars no poden integrar Catotron a Alexa o Siri, perquè aquests assistents de veus exigeixen utilitzar les seves arquitectures computacionals pròpies i perquè empreses grans com Amazon o Google no s’han interessat per fer que els seus assistents de veu parlin en català i d’altres llengües minoritàries o minoritzades. “Un usuari normal no desenvolupador no pot aprofitar el Catotron: el que es pot fer és comprovar aquest assistent virtual Mycroft, que és obert i lliure i que de moment només és un prototip difícil de fer servir per a una tasca interessant o útil. Estem buscant maneres de fer-ho més útil i fàcil d’instal·lar als dispositius de casa”, diu Külebi.
Les veus del Pau i l’Ona, que es poden sentir a la pàgina de Catotron i que llegeixen ordres escrites, s’han obtingut a partir d’un conjunt de dades auditives extretes dels discursos del Parlament de Catalunya i també a partir del FestCat, dissenyat per entrenar motors de síntesi de veu -no robòtica- com Catotron i creat entre el 2008 i el 2009 per uns investigadors de la Universitat Politècnica de Catalunya (UPC).
La col·laboració entre Col·lectivaT i les universitats catalanes per desenvolupar Catotron ha estat natural, perquè el company i lingüista computacional Alp Öktem està doctorat a la Universitat Pompeu Fabra (UPF), un dels seus tutors de tesi era de la UPC i el desenvolupador en cap del projecte era FestCat. “La professora d'Alp Öktem, Mireia Farrús, també ens va donar suport i vam poder aprofitar els recursos computacionals de la UPF”, expliquen des de la cooperativa, per la qual, gràcies a la introducció de la tecnologia neurològica, les veus de l’Ona i el Pau han canviat i ja sonen com a persones més que no pas com a robots.
Cal recordar que la tecnologia neurològica s’utilitza per crear models fàcils d’adaptar a la veu. “Podem fer servir poques hores de cada parlant de Common Voice i després entrenem el sistema amb un volum més alt però amb menys dades per cada parlant o locutor, la qual cosa ens permet generar molts parlants, locutors i dialectes diferents”, explica Baybars Külebi. Així, si els usuaris que no són desenvolupadors, poden millorar Catotron via Common Voice o via control qualitat, i per col·laborar tenen el canal de Telegram de tecnologia de la parla gestionat per Softcatalà, Mycroft en català: “en aquest canal ens fan comentaris sobre la qualitat de Catotron a fi que perquè nosaltres els integrem i fem millores al sistema”, apunta l’astrofísic de Col·lectivaT.
Segons una enquesta Omnibus, elaborada per l’empresa GESOP, l’any 2019 el 47% dels catalans eren usuaris de la Intel·ligència Artificial aplicada a diferents dispositius i, entre aquests, un 67% volia que els assistents de veu incloguessin el català com a opció lingüística.
De 2019 ençà, la demanda d’Intel·ligència Artificial aplicada als objectes s’ha estancat una mica, però així i tot, la previsió és que vagi a més i que, si pot ser, com diu Àlex Hinojo, “siguin en la nostra llengua”. En aquest sentit, l’activista apunta que mancances pel que fa a la domòtica i la Intel·ligència Artificial no només el té el català; també altres llengües que suposen pocs incentius comercials per a les grans empreses tecnològiques. Segons Hinojo, per primera vegada el català no es troba sol en el debat de la poca o nul·la representació en l’esfera d’Internet i de la IA i la domòtica. “Idiomes que tenen entre cinc i deu milions de parlants, com el suec, el danès o el grec, estan tenint el mateix problema”.
En el camp de la domòtica i els drets lingüístics, doncs, queda molt per recórrer, sobretot si tenim en compte que, com diu el viquipedista, per a molts catalanoparlants el castellà és una “llengua transparent”. Ell ho sap prou bé: “la Viquipèdia en català només rep el 3% de les visites de l’Estat perquè tothom té el PC i el mòbil configurat en castellà. Només cal mirar les captures de pantalla que fa l’starsystem català, molts encara tenen ordinadors i mòbils configurats en castellà, quan se suposa que són sensibles al tema”.
Amb tot i això, Hinojo confia que amb el sistema de veu la gent demani més el català i altres llengües que no són hegemòniques, una vegada ha augmentat la conscienciació social sobre el fet que les plataformes incideixen molt en quins continguts consumim, en quina llengua ens relacionem o creem continguts. Per tant, malgrat l’anunci recent d’un major percentatge obligatori d’assignatures en castellà a les escoles catalanes i amb el retrocés de la llengua entre els joves els darrers anys, Àlex Hinojo no perd l’esperança. “Catotron i col·lectius com Softcatalà, Col·lectivaT i similars són molt necessaris, ja que tenen una flexibilitat que no té l’administració”. Per a l’activista digital, aquests i altres projectes estan demostrant que portar el català a Internet i al camp de la domòtica és possible, escalable i factible. “La tecnologia avança amb aquests tipus d’ecosistemes”, conclou Hinojo, per qui Catotron és una conquesta decisiva perquè algun dia tinguem l’Alexa catalana.