Estrattore di parole multiple indipendente dalla lingua.
Questo è un servizio PANACEA. Estrae tutte le possibili multiparole candidate dal testo con tag POS in formato conll a partire da una coppia di POS (della prima e dell’ultima parola del pattern) in una data dimensione di finestra. L’utente deve conoscere il tagset utilizzato nei dati per impostare correttamente i parametri.
Input: un file di testo con tag POS conll-07 (l’analisi delle dipendenze non è richiesta, ma è accettato il testo annotato delle dipendenze)
Opzioni di output:
TSV: formato di testo tabellare
XML: dati del lessico LMF-XML
Parametri facoltativi:
apos = POS della prima parola dello spazio di ricerca
bpos = POS dell’ultima parola dello spazio di ricerca
domain = etichetta per il dominio tematico o tecnico del corpus (ad esempio: LAVORO, NOTIZIE ecc.)
filtering_type = tipo di filtraggio per l’intera multiparola (First, Overmean, Sigma)
max_entry_num = il numero di candidati totali da mostrare nei risultati/inseriti nel lessico di output (per impostazione predefinita il servizio stampa tutte le possibili multiparole candidate che superano le soglie del filtro)
order_by: imposta l’ordine in cui i candidati vengono visualizzati in base a frequenza grezza (frequency), frequenza relativa (frelativa), verosimiglianza del registro (ll), informazione reciproca puntuale (mi)
output_type: tsv o lmf
prefiltering_type: si tratta di un filtro basato sulle statistiche sulle coppie di parole, cioè prima che vengano estratte le effettive espressioni MW complete; opzioni possibili: frequenza media (averagef), frequenza massima (maxf)
property_file: l’utente può impostare tutti questi parametri in un unico file di testo da passare al servizio
window: una cifra che indica la dimensione della finestra per lo spazio di ricerca, ovvero la dimensione massima in termini di parole delle espressioni candidate da estrarre (ad esempio: 3)
Notate bene: il servizio funziona potenzialmente su finestre di dimensione n; tuttavia, è stato testato con un valore massimo di 5.
Le funzionalità dello strumento ed i metodi di filtraggio sono dettagliati qui.
Il codice è disponibile qui.
URL: SCF Extractor (lang indip) (WSDL)