Strumenti di supporto per lo studio del cinese

Esistono in rete innumerevoli risorse per lo studio della lingua cinese e lo sviluppo di software ad hoc per l’analisi dei testi. Tra queste, i corpus open source più comuni come CeDict, e altri contenenti informazioni sul PoS e dati ontologici. Tutte le risorse del consorzio Unihan per l’indicizzazione e la classificazione di tutti i caratteri del CJK codificati finora, tutti i dataset di Jim Breen sullo studio dei Kanji, gli estratti (KRad) per lo studio sulla decomposizione dei caratteri, dataset fonetici di vario tipo, di scrittura (ordine dei tratti) dei caratteri, algoritmi per il riconoscimento del carattere durante la scrittura, etc. Gli strumenti che possono essere raccolti, oltre che costituire un supporto digitale importante per lo studio del cinese possono rivelarsi un’ottima base di conoscenza per lo sviluppo di programmi di apprendimento personalizzati, studi analitici sui testi e studi statistici riguardanti caratteri e componentistica. Tramite questi ho contribuito al progetto sulla decomposizione dei caratteri cinesi (*) su wikicommons completando e rendendo consistenti le tavole con gli standard adottati per la codifica dei caratteri, e inizializzando le tavole con i nuovi set di caratteri previsti nell’ultima versione dell’unicode.

Strumenti per il supporto allo studio

Alcuni strumenti per il supporto allo studio della lingua cinese sono stati inseriti come moduli all’interno del software Chinese Supporter. Eccone alcune caratteristiche:

Modulo di ricerca in stile omnibox. Consente di (i) effettuare ricerche sul dizionario, sia classiche che con l’aggiunta di informazioni su caratteri singoli, decomposizione, contesto d’utilizzo, audio della pronuncia e altre informazioni contestuali; (ii) attivare una serie di funzionalità di supporto allo studio selezionabili dal menu Assistant, come ad esempio l’apertura automatica in seguito alla ricerca, automatizzabile mediante copia in memoria di una parola in cinese; (iii) ottenere una finestrella di supporto sempre in primo piano, utile per la ricerca o la consultazione dei dizionari durante lo studio;

Ricerca stile omnibox, finestra di assistenza

Ricerca stile omnibox, finestra di assistenza

Le funzionalità selezionabili e componibili attraverso l’interfaccia sono:

Dizionario: effettua ricerca e traduzione di parole e caratteri. Per ogni parola in cinese mette in evidenza i caratteri che la compongono e le parole che la contengono; per le parole o i caratteri cercati vengono presentate tutte le informazioni sui differenti significati e pinyin.

Interfaccia dopo la ricerca

Interfaccia dopo la ricerca

Decomposizione: per ognuno dei caratteri vengono mostrate le informazioni, e per ogni carattere viene mostrata la decomposizione per radicale, la decomposizione grafica e il conteggio del numero dei tratti totale e per componenti.

Pronuncia: Il programma pronuncia la parola cercata. È possibile tramite l’omnibox sentire la pronuncia cinese partendo direttamente dalla scrittura del pinyin con i toni (e.g., xiu1 xi5). Se non viene inserito il tono viene recitato tutto il bopomofo della sillaba. Utile per confrontare immediatamente pronuncie molto simili (e.g., chan, chang, cheng).

Esempi: su un tab parallelo, di ogni parola o carattere cercato vengono mostrati gli esempi di utilizzo, divisi per livello HSK e raccolti automaticamente da un database interno di circa 20.000 frasi. Ogni esempio è riportato con il PinYin e una traduzione per consentire una comprensione migliore del contesto di utilizzo di una parola.

Esempi di utilizzo della parola cercata

Esempi di utilizzo della parola cercata

Apertura siti contestuale: consente di aprire le pagine web relative ai caratteri selezionati. Se si vuole che queste pagine siano aperte automaticamente basta selezionare il checkbox, altrimenti basta cliccare con il tasto destro.

Mostra i siti utilizzati per l'assistenza allo studio

Mostra i siti utilizzati per l’assistenza allo studio

Supporto allo studio: consente di effettuare la ricerca semplicemente copiando nella memoria del pc (clipboard) la parola in cinese. Associata all’apertura contestuale dei siti, alla ricerca sul dizionario, alla pronuncia questa funzionalità vi consente di aumentare l’efficienza dello studio sopratutto su un documento digitale.

Altre funzionalità, non legate alla omnibox:

Brain Pusher: una volta raccolti i caratteri che creano più difficoltà, essi si possono salvare all’interno del Brain Pusher. Questo funzionerà in due modalità, mostrando prima il carattere e poi il suo significato, la pronuncia, gli esempi di utilizzo, nel caso si voglia memorizzare il significato del carattere, la sua pronuncia, etc. e viceversa, nel caso si voglia memorizzare la traduzione di una parola cinese. Tutto in maniera temporizzata, senza che si debba utilizzare la tastiera per cambiare la scheda.

Interfaccia di Brain Pusher per la memorizzazione

Interfaccia di Brain Pusher per la memorizzazione

Ricerca per componenti: Grazie agli studi sulla decomposizione grafica, ho creato un modulo per la ricerca a partire dalle componenti di base dei caratteri, siano essi radicali, o tutti i componenti grafici di base, non reperibili nei comuni dizionari.

Selezione dei componenti dal menu

Selezione dei componenti dal menu

Selezione dei componenti dalla pulsantiera

Selezione dei componenti dalla pulsantiera

Text Annotator: effettua l’annotazione in pinyin del testo cinese (utilizza il programma anki).

Sentence Speaker: legge un set di frasi selezionate da insiemi predefiniti divisi per livello HSK, o numeri in un range predefinito, e mostra caratteri e traduzione. Utilissimo per allenare l’orecchio alla pronuncia, o per esercitarsi a riscrivere il testo.

Consente l'esercizio su lettura e ascolto a partire da un frasario mediante schede di apprendimento

Consente l’esercizio su lettura e ascolto a partire da un frasario mediante schede di apprendimento

Message Encryptor: converte un testo in cinese, in un altro testo che utilizza caratteri completamente diversi, ma che hanno la stessa pronuncia. Leggendo questo testo senza alcun significato, si potrà comunque comprendere quello che era il testo originale.

Moduli secondari:

Anki Translator: un modulo per la traduzione dei set di caratteri anki in formato csv per il riutilizzo nei fogli di calcolo e per la creazione di fogli di studio.

Press Space on Anki: un modulo per automatizzare lo studio su anki senza dover interagire con mouse a tastiera.

Analisi statistiche su CCD: (Show Statistics CCD, Show Statistics Clipboard, PinYin Homophoneme Tones statistics): strumenti di analisi statistica su set di caratteri. Consentono di costruire tavole di frequenza, non solo di tipo classico ma anche informazioni sulla componentistica e sui radicali.

Elaborazione statistica a partire da testi

Elaborazione statistica a partire da testi

Strumenti e articoli correlati:

Decomposizione dei caratteri

Leggi questo articolo.

Grammatica

Sto lavorando alla scrittura di un compendio grammaticale compatto, ordinato e il più possibile esaustivo. Ci sono, oltre alla grammatica, dei cosiddetti quicksheet, ovvero delle mappe di apprendimento sintetiche o dei prontuari di regole che accorpino lo studio di concetti chiave, e tabelle di studio per gruppi concettuali come ad esempio, localizzatori, comparativi, le regole, le forme e le copule per la forma interrogativa. Ho raccolto ed elencato le tecniche più interessanti di memorizzazione e di utilizzo della lingua, anche nel settore fonetico. A livello di base di dati sono raccolte in gruppi tutte le preposizioni, gli avverbi più comuni, e i lemmi collegati a regole di particolari, come frasi a perno, verbi a doppio oggetto, etc. Ho in progetto di aggiungere informazioni sintetiche su storia e usanze; sebbene non debba diventare un trattato esaustivo sulla Cina, è comunque importante fornire a chi vuole studiare la lingua un’idea del contesto storico e sociale nel quale si sviluppa, per trovarsi preparati ad affrontare un confronto nella vita reale e non scolastica.

Hanzi Components

Hanzi Components - Appunti di Cinese - Versione 2011.11.05 - Sample

È fondamentale conoscere e comprendere le componenti che formano un carattere cinese: è ovvio che per ricordarsi i caratteri non si può memorizzare la somma dei tratti, così come la sola copiatura ad libitum può risultare limitativa e poco entusiasmante. Perciò si impara subito a riconoscerne le componenti, intuendo che i radicali Kangxi sono solo un sottoinsieme e spesso senza sapere che alcune composizioni sono pittografiche, associative pittofonetche, indicative, etc. Ben presto anche questa tecnica però si rivela inefficace per diversi motivi, il principale dei quali è che spesso non danno la possibilità di discernere tutte le parti costituenti. I modi in cui si superano questi ostacoli sono diversi: (i) ricordarsi l’insieme dei tratti (inefficiente); (ii) cercare delle somiglianze (e.g., questo è la forza con due buchi, o un albero con un cappuccio), pericoloso perché obbliga ad effettuare associazioni di volta in volta differenti; (iii) scomporre il carattere in troppe sotto componenti (e.g., questo è un privato con un coperchio e tre gambe), il che rende di nuovo difficoltosa la memorizzazione; (iv) riconoscere le super-componenti del carattere ma associarle a significati diversi da quelli che, etimologicamente parlando, sono più validi, il che spesso crea problemi quando il componente viene riconosciuto in nuovi caratteri, allontanandosi in genere da quella che è stata la vita evolutiva reale del carattere. Infatti molti non si trovano d’accordo con l’idea del metodo Heisig di utilizzare le soggettive interpretazioni dell’autore e soprattutto la sua incapacità di renderle generali. Inoltre per quale motivo non riportare la pronuncia del carattere durante lo studio? D’altronde anche il suono e il riconoscimento della componente fonetica possono apportare un vantaggio nella fase di memorizzazione, favorendo l’apprendimento parallelo (infatti i dizionari moderni inseriscono anche colori corrispondenti ai toni).

Alcuni degli strumenti che ho sviluppato, utili come ausilio allo studio, sfruttano infatti (i) il recupero di tutte le informazioni sui radicali conosciuti, in tutte le loro varianti, compreso il loro eventuale significato ancestrale, fondamentale per le considerazioni etimologiche legate all’utilizzo della componente. (ii) l’estrapolazione dei set di componenti di base non scomponibili e non riconosciute come radicali, (iii) l’analisi statistica delle componenti dei caratteri, non radicali, più comunemente reperibili durante lo studio di un certo set di caratteri.

Questa tabella (scarica) rappresenta il lavoro (in corso) di catalogazione esaustiva dei componenti base (non è inclusa la classificazione dei tratti, presente in ogni testo di studio) dei caratteri cinesi. Il documento originale contiene una classificazione effettuata secondo i seguenti criteri:

  1. Sono stati raccolti tutti i radicali del dizionario KangXi. Ad essi è stato associato il codice Knnn, con nnn pari al numero d’ordine del radicale nel dizionario KangXi. I radicali sono raccolti insieme a tutte le varianti conosciute e reperibili all’interno del set di caratteri dell’unihan database del consorzio unicode.
  2. Sono stati raccolti tutti i radicali mancanti dal set Kangxi e presenti nella lista dei 189 caratteri del dizionario XinHua, comunemente utilizzati per i dizionari semplificati. Ad essi è stato associato il codice Xnnn, con nnn pari al numero d’ordine del radicale nel dizionario XinHua.
  3. Sono stati aggiunti tutti i componenti mancanti presenti invece nella mappa dei caratteri unicode e riconoscibili come componenti nei caratteri cinesi, con il codice Cmnn, con nn numero d’ordine interno e in base a classificazione: m=0 significa che la componente non ha nessun significato semantico, m=1 significa che il componente ha significato semantico ma non è decomponibile in altre con significato semantico, m=x con x>1 significa che il componente è decomponibile in x componenti con significato semantico.
  4. Sono state aggiunte le categorie di caratteri relative ai tronchi celesti (Heavenly stems) con codice CHnn e ai rami terrestri (Earthly branches) con codice CEnn, con nn numero d’ordine interno.

Le colonne della tabella contengono le seguenti informazioni:

  • id – Codice identificativo del componente
  • comp – Componente o radicale, o carattere
  • type – Tipo di componente: v:variante, s:variante semplificata, t:tradizionale, r:solo radicale (non esiste come carattere)
  • name – Nome in pinyin con toni grafici del componente
  • meaning – Significato in inglese della componente
  • t – Numero dei tratti di base che lo compongono
  • e.g., (comp.) – Esempi di utilizzo del radicale come radicale o del componente
  • notes – Note
  • nome – Nome in pinyin con toni numerici del componente
  • significato – Significato in italiano del componente
  • freq – Frequenza estrapolata da Wikipedia in base a delle tavole statistiche
  • S – Codice interno per l’ordinamento.

La versione (data di ultima modifica) di questo documento: 05/11/2011 (notarize data: 10/03/2013).

Work in progress

  • Controllo e correzioni di lemmi e traduzioni
  • Riordinamento dei dati
  • Impostazione dei flag secondo il nuovo schema
  • Aggiunta di ulteriori informazioni etimologiche

FlashCards

Le Flashcard sono la rappresentazione, cartacea o elettronica, di un set di informazioni. In genere, ognuna di questa carte conserva la rappresentazione dell’informazione sul dorso e dall’altra la sua descrizione. Questa loro caratteristica consente un loro impiego pratico ed efficiente per la memorizzazione dell’informazione alla quale corrispondono. Mediante un esercizio di stimolazione attiva della memoria, possono infatti consentire l’apprendimento del dato rappresentato. Data una domanda (posta sul dorso della carta), allo studente è richiesto di produrre una risposta, che verrà poi confrontata con quella registrata (sul retro della carta).

L’utilità delle flashcard si può apprezzare particolarmente in ambito informatico per diversi motivi. Intanto la creazione dei deck è resa più semplice dalla possibilità di importare in maniera automatica basi di dati già esistenti, mentre la fruizione è facilitata dall’utilizzo delle interfacce software. Sopratutto, è possibile sfruttare gli algoritmi di ripetizione spaziata che personalizzano la revisione delle carte in base al riscontro sulla difficoltà di assimilazione che lo studente mostra nella fase di studio o di ripetizione. In pratica, monitorando il livello di difficoltà attribuito dallo studente alle informazioni presenti nelle carte e ai suoi errori in fase di ripetizione, è possibile concentrare maggiormente lo studio sulle categorie di studio che presentano più difficoltà.

Potete scaricare un template per la creazione di flashcard di tipo cartaceo. Un ottimo esempio di programma per l’utilizzo della tecnica delle flashcard elettroniche è Anki, un software gratuito, versatilissimo e dall’ottima interfaccia che sfrutta l’algoritmo di ripetizione spaziata per focalizzare lo studio sugli argomenti di maggiore difficoltà oggettiva.

Appunti di Cinese

Dopo il successo della prima edizione, ecco finalmente la nuova edizione di “Appunti di Cinese“.
Imparare le basi della lingua cinese significa comprenderne la grammatica e le raffinate regole della scrittura. Il resto dello studio riguarda l’indispensabile processo di sedimentazione dei caratteri nella memoria a lungo termine. Un cinese ne impara per tutta la sua vita. A parte la sintesi e l’utilizzo di metodi di studio che ne contraddistinguono la struttura, è nelle tecniche di memorizzazione dei caratteri e nel supporto di strumenti informatici che questo testo si diversifica da ogni altro corso classico.

Dopo aver solidificato le basi grammaticali, lo studente affronta lo studio e la memorizzazione delle componenti semantiche fondamentali dei caratteri, senza però trascurare aspetti più pratici, come ad esempio, la creazione di un vocabolario di base per la conversazione. Compendio esaustivo di esercizi per la lettura, la scrittura, e mappe per la memorizzazione dei caratteri, questo manuale raccoglie un metodo rapido, ragionato, innovativo per l’apprendimento della lingua più parlata al mondo.

Il Servo della Luna

“Ruotò lentamente il capo indietro sollevando il petto, la schiena si inarcò tanto da sembrare innaturale. Rise, prima piano, poi sempre più forte. Quel fluido vitale continuò a diffondersi dentro di lui, sostenendo il suo volere.” Da qualche anno una serie di omicidi si susseguono nel capoluogo della Sardegna, Cagliari. I corpi delle donne assassinate subiscono una serie di mutilazioni e l’incisione di una croce rovesciata. Non ci sono però elementi comuni che permettano di identificare una tipologia di vittima e la scarsità di risultati porta al dilagare della psicosi del maniaco, mettendo a dura prova Guido Melis, un commissario di polizia sull’orlo della depressione che dovrà dar fondo a tutte le sue energie per trovare una soluzione all’enigma. L’arrivo dell’FBI, imposto dal potere politico, non dà però i risultati sperati e solo una serie di eventi che si susseguono ad un ritmo serrato permetteranno a Guido di trovare una via per arrivare al serial killer, ma non tutto potrà essere spiegato.
Il primo romanzo di Massimiliano Saba, verrà presentato il 12 Giugno 2010 ore 18,00 al Teatro “Rubino” Ex-vetreria  Pirri.

Il romanzo è stato ripubblicato dalla AkenosArts, oltre che su Lulu e Amazon è disponibile nella libreria di Google Books.

Madrid Quick Sheet

Quartieri di MadridMadrid QuickSheet è finalmente disponibile per il download. Una guida semplice ed esaustiva per visitare i posti migliori della città di Madrid (Aggiornata al Maggio 2009). Immagine di copertina di KeyCrull.com.

Confusion Matrix and Metrics

The new confusion matrix and test’s accuracy quick sheet is available for download.

In Predictive Analytics, a Table of Confusion, also known as a confusion matrix, is a table with two rows and two columns that reports the number of True Negatives (TP), False Positives (FP), False Negatives (FN), and True Positives (TP).

Confusion

Some useful metrics provide a statistical scenario of the performance of a binary classification test. See also:

UltraLatex

UltraLatex è un pacchetto di funzionalità che facilita la creazione di documenti \LaTeX predisponendo macro e operatori, per l’esecuzione di operazioni comuni e per la strutturazione di documenti complessi. UltraLatex importa i packages necessari al proprio funzionamento. Oltre a suggerimenti sulla formattazione del documento, contiene moduli preimpostati per l’impostazione delle sue proprietà.

Funzionamento. La cartella UltraLatex deve essere in genere copiata all’interno della root del proprio progetto Latex, e comprende:

  • \begin{itemize}
  • \item Il file .tex UltraLatex: per l’inclusione di comandi e stili avanzati in un progetto.
  • \item Altri file .tex che verranno inclusi durante la creazione di progetti particolari (e.g., Curriculum)
  • \item Una cartella con dei Templates (che vanno copiati per l’eventuale utilizzo nella root del progetto)
  • \item Il file “CleanLatex.bat” per la pulizia della cacca creata nella compilazione dei file Latex
  • \end{itemize}

\subsection{Alcuni esempi}:

  • \item[todo] Inserisce un testo rosso su sfondo giallo, utile per inserire un’indicazione sulle modifiche da effettuare
  • \item[omage] Inserisce del testo nascosto
  • \item[gloss, defin] Per la creazione di glossario e definizioni
  • \item[figuremacro] Per l’inserzione di figure float, centrate con caption e dimensione
  • \item[…] e altri
  • \end{itemize}

\subsection{Template “Curriculum”}

Per compilare il curriculum è sufficiente (i) inserire i propri dati personali all’interno del file principale, (ii) selezionare la lingua preferita, (iii) scegliere quali sezioni inserire nel curriculum, (iv) selezionare eventuali file pdf da allegare alla stampa. Eseguire queste operazioni seguendo le istruzioni poste all’interno del file. Il template \textit{Curriculum} importa \textit{MacroCurriculum.tex} che contienele macro utili per la compilazione del documento. Le macro possono essere modificate per personalizzare la veste grafica del vostro documento per fare in modo che risulti elegante e professionale.

Per conoscere nel dettaglio i comandi vedere l’help all’interno del file delle macro contenenti le sezioni, e i file d’esempio.

Canta in Piazza

Parte Cantainpiazza, una mnifestazione canora

The Malawares

I Malawares in concerto. Ultimo evento nella loro tournée estiva del 2007.

etc