Ricerca - DILEF

Verso una lessicografia elettronica semiautomatica? ChatGPT per il mark-up in XML-TEI: primi test su raccolte paremiologiche
Barbara Patella
Pubblicato online: 13/06/2025
DOI: 10.35948/DILEF/2025.4366
Contenuto in: IV, 2024/4 (gennaio-dicembre), pp. 36

CC BY-NC-ND

Abstract

Testo integrale

L’articolo prende le mosse da una delle principali criticità che rendono piuttosto lenta e complessa l’informatizzazione delle risorse lessicali e lessicografiche: il mark-up manuale in XML-TEI. Accanto agli indubbi vantaggi offerti dalle versioni elettroniche – in primis l’accessibilità e la valorizzazione delle risorse – la conversione dei dizionari di seconda generazione (specialmente quelli di secondo livello, che prevedono l’informatizzazione del testo e della sua struttura) si rivela spesso onerosa in termini di tempo e risorse.

A partire da questa premessa, la ricerca propone un approccio sperimentale che prevede l’impiego dell’intelligenza artificiale – nello specifico ChatGPT – per marcare i testi in XML-TEI in modo semiautomatico: dopo una fase preliminare di formalizzazione del testo (il cosiddetto file pre-markup), orientata all’individuazione di pattern ricorrenti, il modello viene guidato attraverso istruzioni mirate per generare file .xml conformi alle linee guida TEI, con l’obiettivo di ottenere risultati di livello medio-alto pur riducendo significativamente i tempi di lavorazione, e favorire così la sostenibilità di progetti di lessicografia elettronica su larga scala.

This paper starts from one of the main critical issues that slow down and complicate the computerizing lexical and lexicographic resources: manual XML-TEI markup. Alongside the undeniable advantages offered by electronic versions – notably in terms of accessibility and resources enhancement – the conversion of retro-digitized dictionaries (especially second-level dictionaries, which involve the digital encoding of both the text and its internal structure) often proves time-consuming and resource-intensive.

Building on this premise, the study proposes an experimental approach involving the use of artificial intelligence – specifically ChatGPT – to perform semi-automatic XML-TEI markup. Following a preliminary phase of text formalization (the so-called pre-markup file), aimed at identifying recurring structural patterns, the model is guided through targeted instructions to generate .xml files compliant with TEI guidelines. The ultimate goal is to produce medium-to-high quality outputs while significantly reducing processing time, thereby promoting the sustainability of large-scale electronic lexicography projects.

La variazione linguistica nella quinta Crusca: primi sondaggi sulle marche diasistematiche
Antonio Vinciguerra
Pubblicato online: 04/12/2022
DOI: 10.35948/DILEF/2023.4310
Contenuto in: II, 2022/2 (gennaio-dicembre), pp. 17

CC BY-NC-ND

Abstract

Testo integrale

Il contributo, che si inserisce in una ricerca più ampia sulle marche diasistematiche nella lessicografia italiana otto-novecentesca, intende proporre un primo studio sull’uso in particolare di marche di tipo diafasico/diastratico nella quinta impressione del Vocabolario della Crusca. Questo tratto microstrutturale può essere infatti foriero di informazioni e indicazioni importanti sia per collocare, anche storicamente, una parola, una sua accezione o una locuzione nel suo appropriato livello di varietà della lingua, sia anche per approfondire la conoscenza delle idee linguistiche che sono alla base di un’opera lessicografica.

The essay, which is part of a broader research on diasystematic labels in 19th-20th century Italian lexicography, intends to propose an initial study on the use of diaphasic/diastratic labels in the fifth edition of the Vocabolario della Crusca. This microstructural trait can in fact offer important information and indications both for placing, also from a historical point of view, a word, its meaning or a locution in its appropriate level of linguistic variation, and also for getting to know the linguistic ideas behind a certain lexicographic work.

Utilizzo del DOI (Digital Object Identifier) per la diffusione di progetti lessicografici digitali
Giovanni Salucci
Pubblicato online: 11/07/2023
DOI: 10.35948/DILEF/2024.4327
Contenuto in: III, 2023/3 (gennaio-dicembre), pp. 18

CC BY-NC-ND

Abstract

Testo integrale

Nei progetti lessicografici digitali viene consigliato di utilizzare gli Identificatori persistenti. In questo contributo si esplora l’opportunità di utilizzare il DOI (Digital Object Identifier) come strumento per la diffusione e promozione di un progetto lessicografico digitale, usando Crossref come agenzia di registrazione. Occorre registrare una serie di DOI, in corrispondenza dei vari livelli gerarchici con cui la banca-dati lessicografica è organizzata, prevedendo la compilazione di metadati di qualità e ricchi di informazioni, con l’obiettivo di identificare il sistema più ampio di metadati che possa favorire la diffusione del progetto e massimizzarne l’impatto.

Nell’articolo viene quindi analizzato in dettaglio il tracciato di registrazione del DOI, mettendo in evidenza le informazioni necessarie e consigliate per la diffusione, esemplificando come collocarle nel sistema di tag previsti dallo schema di registrazione.

In digital lexicographic projects, the use of persistent identifiers is recommended. This contribution explores the opportunity to adopt Digital Object Identifiers (DOIs) as a tool for the dissemination and promotion of a digital lexicographic project, utilizing Crossref as the registration agency. To achieve maximum dissemination, a series of DOIs need to be registered, corresponding to the various hierarchical levels through which the lexicon database is organized. This necessitates the compilation of high-quality metadata that is rich in information.

This article provides a detailed analysis of the DOI registration process, highlighting the necessary and recommended information for dissemination. It exemplifies how to incorporate this information into the tag system specified by the registration schema.

La varia lectio nel Vocabolario Dantesco alla luce del PRIN 2022: problemi di metodo e risultati
Barbara Fanini
Pubblicato online: 10/04/2025
DOI: 10.35948/DILEF/2025.4363
Contenuto in: IV, 2024/4 (gennaio-dicembre), pp. 19

CC BY-NC-ND

Abstract

Testo integrale

Tra le novità del Vocabolario Dantesco spicca l'apertura del suo lemmario alla varia lectio testimoniata dalla ricca e complessa tradizione del poema. Il contributo si sofferma sul trattamento lessicografico di tale particolare materiale lessicale, mettendone a fuoco i criteri, i problemi metodologici e i risultati in acquisizione (anche alla luce del recente finanziamento PRIN, specificamente inteso alla valorizzazione della lezioni alternative lessicalmente rilevanti). Si discutono inoltre, come casi esemplari, le voci imbiancare (Purg. IX 2) e appulcrare (Inf. VII 60), con le relative varianti.

The Vocabolario Dantesco also considers, within its lemmarium, the words that come from the varia lectio of the poem, so rich and complex. The essay focuses on the innovative lexicographic treatment of this particular lexical material, focusing on the criteria, the methodological problems and the first results (also in light of the recent PRIN funding, specifically aimed at enhancing lexically relevant alternative lessons). The essay also discusses, as exemplary cases, the entries imbiancare (Purg. IX 2) and appulcrare (Inf. VII 60), with their relative variants.

Utilizzo del DOI (Digital Object Identifier) nei progetti di digital humanities
Giovanni Salucci
Pubblicato online: 25/01/2023
DOI: 10.35948/DILEF/2023.4307
Contenuto in: II, 2022/2 (gennaio-dicembre), pp. 12

CC BY-NC-ND

Abstract

Testo integrale

Nel mondo delle Digital Humanities (DH) i risultati prodotti sono spesso nella forma di banche dati, siti internet, blog o pubblicazioni digitali di varia forma; per gli autori è difficile ottenere il riconoscimento dei crediti e garantirne la tracciabilità. In questo articolo si descrive il sistema del DOI (utilizzato come identificatore persistente assegnato di norma a monografie e articoli scientifici per la loro identificazione e tracciabilità) proponendone l’adozione in alcuni contesti di progetti di DH per favorirne la identificazione e diffusione, attraverso anche un ampio set di metadati descrittivi.

In the world of Digital Humanities (DH), the results produced often take the form of databases, websites, blogs, or various digital publications. For authors, it is difficult to obtain recognition and ensure traceability of these results. This article describes the DOI system (used as a persistent identifier typically assigned to monographs and scientific articles for their identification and traceability), proposing its adoption in some DH project contexts to promote identification and dissemination, also through a wide set of descriptive metadata.

L’intelligenza artificiale è realmente intelligente?
Francesco Maria Cianciaruso
Pubblicato online: 03/12/2024
DOI: 10.35948/DILEF/2025.4359
Contenuto in: IV, 2024/4 (gennaio-dicembre), pp. 15

CC BY-NC-ND

Abstract

Testo integrale

La storia dell’intelligenza artificiale, dopo due decenni di sviluppi teorici e ingegneristici, sta attraversando una nuova svolta epocale. La diffusione dei modelli neurali sta rappresentando, infatti, un game-changer, sia in virtù delle incredibili possibilità di implementazione, dal riconoscimento di immagini alla produzione di linguaggio, che per le implcazioni filosofiche che tale diffusione porta con sé, dall’etica applicata all’epistemologia. Il presente scritto intende muovere proprio a partire da queste ultime. La competenza di macchine dalla configurazione ‘neuromorfica’, basate su reti di neuroni artificiali che trattano l’informazione in maniera sub-simbolica e dinamica, potrebbe infatti permettere di rimettere in discussione alcuni assunti del dibattito classico sull’intelligenza artificiale (e sull’intelligenza in generale) circa il rapporto tra sintassi, significati e substrati che li trasportano. Nel segno di una tradizione quasi secolare di intreccio tra ricerca cognitivista e AI, il presente articolo cercherà di far dialogare dialetticamente prospettive embodied della mente e modelli linguistici artificiali, esplorando le nuove, vibranti implicazioni che la ricerca e l’implementazione delle architetture neurali, su tutte i Large Language Models, stanno mettendo alla luce.

After two decades of theoretical and engineering developments, the history of artificial intelligence is going through a turning point. The spread of neural models in fact represents a game-changer, both in virtue of the incredible possibilities of implementation (from image recognition to language processing), and for the philosophical implications that such diffusion brings with it, from applied ethics to epistemology. This paper intends to start from the latter. The competence of machines with a ‘neuromorphic’ architecture, based on networks of artificial neurons that process information in a sub-symbolic and dynamic manner, could allow us to question certain assumptions of the classical debate on artificial intelligence (and on intelligence in general) regarding the relationship between syntax, meanings and the substrates that carry them. In the sign of an almost century-long tradition of intertwining cognitivist research and AI, this article will attempt to dialectically bring embodied perspectives of the mind and artificial language models into dialogue. It will explore the new, vibrant implications that research and implementation of neural architectures, above all Large Language Models, are bringing to light.

Per una terminologia museale diversificata in base a parametri sociolinguistici: stato dell’arte e alcune proposte
Marco Biffi e Kevin De Vecchis
Pubblicato online: 09/03/2026
DOI: 10.35948/DILEF/2026.4402
Contenuto in: V, 2025/5 (gennaio-dicembre), pp. 17

CC BY-NC-ND

Abstract

Testo integrale

Lo studio presenta le prime ricerche a cui è giunto il gruppo di ricerca dell’Università di Firenze dello «Spoke 4» del Partenariato Esteso 5 del Piano Nazionale di Ripresa e Resilienza (PE5 PNRR), in merito alla tematica «Cultura umanistica e patrimonio culturale come laboratori di innovazione e creatività». Dopo una breve introduzione, l’articolo si concentra sul problema delle didascalie nei musei e discute le indicazioni linguistiche offerte dalle linee guida oggi presenti in materia di allestimento di didascalie e pannelli esplicative nei musei. Successivamente, si riportano alcuni esempi pratici di didascalie di approfondimento per le sale del nascente MUNDI, ossia il Museo Nazionale dell’Italiano. Per ciascuna didascalia sono state realizzate tre diverse versioni pensate per tre tipologie di visitatori (persone con disabilità intellettive e difficoltà di lettura; studenti delle scuole secondarie di primo grado; studenti universitari di diversi corsi di laurea). Chiude l’articolo un approfondimento sui glossari aumentati.

The study presents the initial findings of the University of Florence research group «Spoke 4» of the Extended Partnership 5 of the National Recovery and Resilience Plan (PE5 PNRR) on the topic of «Humanistic culture and cultural heritage as laboratories of innovation and creativity». After a brief introduction, the article focuses on the issue of captions in museums and discusses the linguistic guidelines currently in place for the preparation of captions and panels in museums. Subsequently, some examples of captions for the rooms of the nascent MUNDI, the National Museum of Italian Language, are provided. Three different versions of each caption have been created for three types of visitors (people with intellectual disabilities and reading difficulties; secondary school students; university students from different degree courses). The article concludes with an in-depth look at augmented glossaries.

Conversione dei dati archivistici in pubblicazioni digitali Open Access. Un caso di studio: Carte d'autore online
Manuela Ferraro
Pubblicato online: 25/10/2022
DOI: 10.35948/DILEF/2023.4309
Contenuto in: II, 2022/2 (gennaio-dicembre), pp. 12

CC BY-NC-ND

Abstract

Testo integrale

Il Centro di Studi «Aldo Palazzeschi» ha promosso un progetto finalizzato alla pubblicazione in rete di inventari del materiale palazzeschiano tramite un processo innovativo che ha origine dai dati archivistici della piattaforma di schedatura. La pubblicazione è il frutto di un flusso di lavoro che ha previsto l’esportazione dei dati del programma d’archivio, basati sullo standard ISAD (International Standard Archival Description), nel nuovo modello dati EAD (Encoded Archival Description) che definisce la codifica elettronica in formato XML dei record di descrizione archivistica. Partendo da un’analisi approfondita della struttura archivistica del fondo Palazzeschi, sono stati progettati dei tracciati XML con l’obiettivo di estrapolare, in maniera organizzata, dati specifici contenuti nel Fondo. I tracciati sono stati la base di partenza di un lavoro editoriale multifase che mira alla pubblicazione in Open Access degli inventari dei manoscritti di Palazzeschi e della biblioteca palazzeschiana.

Study Center «Aldo Palazzeschi» has promoted a project for the purpose of the online publication of inventories of Palazzeschi's material through an innovative process that originates from the archival data of the cataloguing platform. The publication is the result of a workflow which involved exporting the archive program data, based on the ISAD (International Standard Archival Description) standard, into the new EAD (Encoded Archival Description) data model which defines the electronic coding in XML format of archival description records. Starting from an in-depth analysis of the archival structure of the Palazzeschi Fund, XML paths were designed with the aim of extrapolating, in an organized way, specific data contained in the Fund. XML paths were the starting point of a multi-phase editorial work in order to the Open Access publication of the inventories of Palazzeschi's manuscripts and the Palazzeschi’s library.

Risultati per " lessicografia elettronica"