Questa intervista con Tullio De Mauro, e con Guido Vetere, è pubblicata sul numero di Wired di settembre.
Che cos’è Senso Comune?
Allora, la premessa personale è che io avevo fatto dei dizionari.
Premessa superflua, abbiamo sfogliato il De Mauro tutti quanti. Però se partiamo così da lontano approfitto e chiedo come si fa un dizionario.
Si cercano dei bravi collaboratori – il mitico dizionario Johnson del Settceneto era fatto da una sola persona -, si costituiscono delle redazioni in parte tematiche e in parte no, e si coordina il loro lavoro dando indicazioni molto dettagliate ed esplicite in modo che sia garantita una grande coerenza nella stesura delle parole.
E come si fa a essere sicuri di non perdersi delle parole?
No: siamo sicuri di perdercele. Ma si cerca di non perdersi quelle essenziali.
Ci sono gerarchie di parole?
Le parole che hanno una circolazione vera nella lingua si stimano a molti milioni. Ma molte di queste parole hanno un “indice di cercabilità” bassissimo. Ci sono anche parole che intuitivamente ci sembrano frequenti ma compaiono poco: le pensiamo ma non le usiamo, come “abbottonare” e “sbottonare”. Sono parole di “alta disponibilità”: le abbiamo in testa ma non le usiamo. Sono un migliaio, forse 1500. Ma in tutto ci sono 260 mila parole nel nostro Grande Dizionario. Il grande Oxford inglese in dodici volumi ha circa trecentomila parole, poche di più ed è stato fatto in quarant’anni.
Voi quanto ci avete messo, più o meno?
Non più o meno: l’informatizzaione ci ha permesso rapidità e calcolabilità dei tempi: nove anni. Tra il 1990 e il 1999. Poi ne abbiamo fatto una seconda edizione e una terza.
E quella che era sta messa online?
Ci arrivo: ci sono state declinazioni per la scuola e un dizionario monovolume finito online e poi tolto per beghe editoriali. La storia è complessa, forse rientrerò nei diritti: ma adesso invece pensiamo di rimetterci le mani, farne una nuova versione e rimetterla online.
Chi l’aveva pubblicato?
Paravia, poi diventato Bruno Mondadori, poi diventato Pearson. Utet e Paravia avevano fatto una società assieme per la produzione del dizionario. Utet aveva pubblicato il Grande Dizionario (sei volumi nella prima edizione e otto nella seconda) Paravia l’edizione monovolume.
Torniamo a oggi.
Oggi con un gruppo di informatici e lessicografi che si chiama Senso Comune stiamo progettando la messa online del vocabolario “di base”: come le spiegavo, sono le duemila parole più frequenti, più altre 2500 di grande frequenza. Le duemila parole sono quelle che ricorrono tanto frequentemente da coprire il 90% delle occorrenze.
Ah, la coda lunga del dizionario è piuttosto esigua quindi.
Ancora di più se pensa che il 5-6% è coperto dalle altre 2500 che ho chiamato di grande frequenza.
Ma state solo mettendo online un dizionario o c’è altro nel progetto?
C’è altro eccome. Ci interessa che il materiale messo a disposizione consenta l’interattività, cioè che consenta all’utente di intervenire criticamente e propositivamente sull’impianto delle definizioni, proponendo correzioni, integrazioni, precisazioni.
Non mi dica che affidiamo agli utenti anche il dizionario e la definizione dei termini: demagogia linguistica?
No, no: non consegnamo questo materiale ai lettori, lo consegnamo a contributi che in un sistema wiki controlliamo e selezioniamo. Raccogliamo informazioni ma gli utenti non modificano immediatamente il repertorio. È una specie di consultazione popolare. Offriamo il nostro lavoro a una lettura che ha l’opportunità del controllo.
E non temete che questo controllo si traduca in capricci e giustizialismi grammaticali, nel trollismo da internet virato dizionario?
Non sono così preoccupato, filtreremo: i rompiscatole possono esistere, ma l’accesso non è “liberi tutti” . Chiediamo un autoidentificazione, ma non mi aspetto grandi molestie. È molto difficile sparare sentenze su “così non si può dire, così si deve dire”: c’è una complessità. Se poi si scopre che c’è un colonnello in pensione di Novara che tormenta il dizionario, vedremo…
Se è di Novara è sospetto, però…
Perché? Ah, no, noi siamo buoni amici della De Agostini.
A che punto siete?
Abbiamo già pronta una redazione idonea delle duemila parole fondamentali, stamo lavorando su quelle di base.
Tecnicamente chi se ne occupa?
Guido Vetere a Roma. Può parlare con lui.
Pronto, sono Luca Sofri, mi ha detto di chiamarla il professor De Mauro.
Lo ha detto anche a me, buongiorno.
Mi spiega cosa fa?
Sono il direttore del centro di studi avanzati di iIBM, dove facciamo ricerca avanzata in collaborazione con l’università: con una caratterizzazione specifica sull’intelligenza artificiale e le tecnologie cosiddette semantiche.
Ovvero?
Ovvero cose su cui i sistemi devono essere in grado di ragionare in rapporto col mondo reale: e questo ha una declinazione linguistica, perché la conoscenza linguistica è centrale in queste operazioni. L’informatica di oggi è molto interessata allo schema classico dell’ontologia ma ne ha una concezione abbastanza ingenua
E lei come è finito a occuparsi di queste cose?
Sono un linguista, mi sono laureato con De Mauro con una tesi di linguistica computazionale, e da lì sono entrato in IBM.
Mi parli del dizionario online di Senso Comune.
Ci sono altri dizionari online, non siamo a zero: ma manca uno della ricchezza e della preparazione di quello che la Paravia aveva messo online senza averne i diritti, e che quindi è stato rimosso.
Lo chiedo anche a lei: è solo un dizionario consultabile online?
No. L’idea è di non avere solo un vocabolario ma una base di conoscenza: ovvero un lavoro di associazione a qualcosa di ontologico. Per esempio se dico sedia nell’accezione diffusa sedia è un artefatto. Un artefatto dal punto di vista ontologico è un oggetto, non è un evento. L’artefatto deriva da un processo di fabbricazione (umano o no). Dire tutto questo serve a classificare la sedia. Costruiamo una rappresentazione della conoscenza che che dietro il linguaggio.
E dopo cosa ci fate?
Potenzialmente un sacco di cose. Potremo usare questo patrimonio di conoscenza come base per i sistemi di ricerca delle informazioni o per i sistemi di classificazione automatica di documenti di testo. Il tutto grazie alla partecipazione degli utenti, come le avrà detto il professor De Mauro.
Me lo ha detto, e mi ha spiegato che non è come Wikipedia.
Io sono un grande ammiratore di Wikipedia e penso che funzioni bene così com’è. Ma nel nostro caso il sistema è più “controllato”. Noi pensiamo che la conoscenza dietro il lessico sia molto strutturata e tecnicamente più specifica, e che ci voglia la conoscenza di elementi lessicografi che un utente qualsiasi non padroneggia. Gli utenti però possono testimoniare il loro uso linguistico.
Chi paga tutto questo?
Un parziale sostegno della fondazione IBM, diecimila euro all’anno, e poi il lavoro volontario.
Di chi?
Mio e dei miei studenti in IBM. Ma vogliamo collaborare con le università e i privati: la semantica appartiene a tutti, la conoscenza linguistica appartiene a tutti.
Ci sono prospettive di business online di qualche tipo?
No, non nel senso di farne un progetto remunerativo in sé. Ma io personalmente ritengo che in prospettiva potranno nascere opportunità interessanti sfruttabili anche commercialmente. Il contenuto del dizionario avrà comunque una licenza Creative Commons.
E quando partite sul serio?
Non partiamo “sul serio”: siamo online in alpha per una comunità ristretta di utenti registrati, ma non immaginiamo un lancio vero e proprio Pensiamo a una nostra politica di piccoli passi, non grandi annunci a cui non segue niente, vedi wolphram alpha.
Io però ho cercato ontologia e il dizionario online di Senso Comune mi ha detto “il lemma cercato non esiste”.
Perché ci sono ancora solo le parole fondamentali.
E io come faccio a sapere cosa vuol dire ontologia?
Aspetti, oppure cerchi su Wikipedia.
diecimila euri/anno ? Ho capito bene? Fischiaaa che investimento, Big Blue, e cosa ci comprano la gomma pane? Mi sia concesso lo sberleffo, ma i soliti studenti da soma, brufoli e ringraziate il barone, è la fotografia perfetta della ricerca – sia pubblica che privata – e del venture-capitalism nel bel paese. Poi ci si stupisce se, qualora, in senilità, arrivasse mai il manico dalla loro parte, tagliano le fette solo con amici e parenti.
Wolfram alpha, con la effe non con piacca (http://www.wolframalpha.com/)
il finale su “ontologia” è geniale
Pingback: links for 2010-10-20 : socks-studio