Servizi linguistici.
Questo è il porting su Java del tokenizzatore basato su perl sviluppato nell’ambito del progetto OpeNER.
Il nostro porting Java è disponibile su GitHub e Docker.
Versione attuale del software 0.2, rilasciata il 04/10/2017.
ILC4CLARIN fornisce tre serie di servizi web distinti per eseguire la tokenizzazione sui testi per le seguenti lingue:
- ita (o it)
- fra (o fr)
- deu (o deu)
- eng (o en)
- esp (o es)
- nld (o nl)
L’applicazione presenta un’Eccezione Lingua Non Supportata se la lingua fornita non è nell’elenco.
I servizi offerti eseguono la stessa operazione (tokenizzazione) ma, a seconda degli endpoint, possono essere prodotti file TCF, KAF o a schede validi.
Il servizio che produce TCF può leggere sia un testo semplice che un documento TCF valido. Il tipo mime è impostato di conseguenza.
Come usufruire dei servizi offerti
Gli endpoint sono i seguenti:
- wl/tokenizer/plain (servizio POST per tokenizzare testo semplice e produrre un documento TCF valido)
- wl/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato da URL e produrre un documento TCF valido)
- wl/tokenizer/tcf (servizio POST per tokenizzare il documento TCF e produrre un documento TCF valido)
- kaf/tokenizer/plain (servizio POST per tokenizzare testi semplici e produrre un documento KAF valido)
- kaf/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato da URL e produrre un documento KAF valido)
- tab/tokenizer/plain (servizio POST per tokenizzare testi semplici e produrre un documento a schede)
- tab/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato dall’URL e produrre un documento a schede)
La lingua è fornita come parametro:
- wl/tokenizer/plain?lang=iso_3_or_2_codes_lang
- kaf/tokenizer/plain?lang=iso_3_or_2_codes_lang
- tab/tokenizer/plain?lang=iso_3_or_2_codes_lang
SI PREGA DI NOTARE QUESTA CHIAMATA. Per TCF quando un documento TCF viene inviato in input, NESSUNA LINGUA FORNITA COME PARAMETRO.
- wl/tokenizer/tcf
Per la Language Resource Switchboard (si prega di notare lrs nel percorso) abbiamo aggiunto tre endpoint aggiuntivi.
Gli endpoint sono i seguenti:
- wl/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato da URL e produrre un documento TCF valido)
- kaf/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato da URL e produrre un documento KAF valido)
- tab/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato dall’URL e produrre un documento a schede)
Sia la lingua che l’URL sono forniti come parametri:
- wl/tokenizer/lrs?lang=iso_3_or_2_codes_lang&url=URL
- kaf/tokenizer/lrs?lang=iso_3_or_2_codes_lang&url=URL
- tab/tokenizer/lrs?lang=iso_3_or_2_codes_lang&url=URL
Questo perché l’integrazione dei servizi nella Language Resource Switchboard richiede l’URL passato come parametro di input.
Come testare il servizio
Potete testare gli endpoint del servizio utilizzando curl o wget come segue:
Inviate il file di input agli endpoint per l’elaborazione:
- con curl:
curl -H ‘content-type: text/plain’ –data-binary @plain-file.txt -X POST https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/plain?lang=ita
curl -H ‘content-type: text/tcf+xml’ –data-binary @tcf-file.txt -X POST https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/tcf
curl -H ‘content-type: text/plain’ –data-binary @plain-file.txt -X POST https://ilc4clarin.ilc.cnr.it/services/ltfw/kaf/tokenizer/plain?lang=ita
curl -H ‘content-type: text/plain’ –data-binary @plain-file.txt -X POST https://ilc4clarin.ilc.cnr.it/services/ltfw/tab/tokenizer/plain?lang=ita
- con wget:
wget –post-file=plain-file.txt –header=’Content-Type: text/plain’ https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/plain?lang=ita
wget –post-file=tcf-file.txt –header=’Content-Type: text/tcf+xml’ https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/tcf?lang=ita
wget –post-file=plain-file.txt –header=’Content-Type: text/plain’ https://ilc4clarin.ilc.cnr.it/services/ltfw/kaf/tokenizer/plain?lang=ita
wget –post-file=plain-file.txt –header=’Content-Type: text/plain’ https://ilc4clarin.ilc.cnr.it/services/ltfw/tab/tokenizer/plain?lang=ita
Per testare i servizi per la Language Resource Switchboard:
- con curl:
curl -X GET “https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt”
curl -X GET “https://ilc4clarin.ilc.cnr.it/services/ltfw/kaf/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt”
curl -X GET “https://ilc4clarin.ilc.cnr.it/services/ltfw/tab/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt”
- con wget:
wget “https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt” [-O out_file]
wget “https://ilc4clarin.ilc.cnr.it/services/ltfw/kaf/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt” [-O out_file]
wget “https://ilc4clarin.ilc.cnr.it/services/ltfw/tab/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt” [-O out_file]
Si prega di notare che i servizi progettati per la Language Resource Switchboard funzionano chiaramente da soli invocando i comandi sopra.
Quanto al testo semplice potete usare:
Mi chiamo Riccardo. Abito a Roma
Quanto al testo TCF potete utilizzare:
<?xml version="1.0" encoding="UTF-8"?> <?xml-model href="http://de.clarin.eu/images/weblicht-tutorials/resources/tcf-04/schemas/latest/d-spin_0_4.rnc" type="application/relax-ng-compact-syntax"?> <D-Spin xmlns="http://www.dspin.de/data" version="0.4"> <md:MetaData xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:cmd="http://www.clarin.eu/cmd/" xmlns:md="http://www.dspin.de/data/metadata" xsi:schemaLocation="http://www.clarin.eu/cmd/ http://catalog.clarin.eu/ds/ComponentRegistry/rest/registry/profiles/clarin.eu:cr1:p_1320657629623/xsd"> </md:MetaData> <tc:TextCorpus xmlns:tc="http://www.dspin.de/data/textcorpus" lang="it"> <tc:text> Mi chiamo Alfredo. Abito a Roma. </tc:text> </tc:TextCorpus> </D-Spin>
Contatti
In caso di problemi, si prega di scrivere una e-mail allo Staff Tecnico di ILC4CLARIN con tutte le informazioni necessarie per risolvere i problemi, incluso il numero di versione.