LTFW (Linguistic Tools For Weblicht)

en_GBit_IT

Servizi linguistici.

Questo è il porting su Java del tokenizzatore basato su perl sviluppato nell’ambito del progetto OpeNER.

Il nostro porting Java è disponibile su GitHubDocker.

Versione attuale del software 0.2, rilasciata il 04/10/2017.

ILC4CLARIN fornisce tre serie di servizi web distinti per eseguire la tokenizzazione sui testi per le seguenti lingue:

  • ita (o it)
  • fra (o fr)
  • deu (o deu)
  • eng (o en)
  • esp (o es)
  • nld (o nl)

L’applicazione presenta un’Eccezione Lingua Non Supportata se la lingua fornita non è nell’elenco.

I servizi offerti eseguono la stessa operazione (tokenizzazione) ma, a seconda degli endpoint, possono essere prodotti file TCF, KAF o a schede validi.

Il servizio che produce TCF può leggere sia un testo semplice che un documento TCF valido. Il tipo mime è impostato di conseguenza.

Come usufruire dei servizi offerti

Gli endpoint sono i seguenti:

  • wl/tokenizer/plain (servizio POST per tokenizzare testo semplice e produrre un documento TCF valido)
  • wl/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato da URL e produrre un documento TCF valido)
  • wl/tokenizer/tcf (servizio POST per tokenizzare il documento TCF e produrre un documento TCF valido)
  • kaf/tokenizer/plain (servizio POST per tokenizzare testi semplici e produrre un documento KAF valido)
  • kaf/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato da URL e produrre un documento KAF valido)
  • tab/tokenizer/plain (servizio POST per tokenizzare testi semplici e produrre un documento a schede)
  • tab/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato dall’URL e produrre un documento a schede)

La lingua è fornita come parametro:

  • wl/tokenizer/plain?lang=iso_3_or_2_codes_lang
  • kaf/tokenizer/plain?lang=iso_3_or_2_codes_lang
  • tab/tokenizer/plain?lang=iso_3_or_2_codes_lang

SI PREGA DI NOTARE QUESTA CHIAMATA. Per TCF quando un documento TCF viene inviato in input, NESSUNA LINGUA FORNITA COME PARAMETRO.

  • wl/tokenizer/tcf

Per la Language Resource Switchboard (si prega di notare lrs nel percorso) abbiamo aggiunto tre endpoint aggiuntivi.

Gli endpoint sono i seguenti:

  • wl/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato da URL e produrre un documento TCF valido)
  • kaf/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato da URL e produrre un documento KAF valido)
  • tab/tokenizer/lrs (servizio GET per tokenizzare un testo recuperato dall’URL e produrre un documento a schede)

Sia la lingua che l’URL sono forniti come parametri:

  • wl/tokenizer/lrs?lang=iso_3_or_2_codes_lang&url=URL
  • kaf/tokenizer/lrs?lang=iso_3_or_2_codes_lang&url=URL
  • tab/tokenizer/lrs?lang=iso_3_or_2_codes_lang&url=URL

Questo perché l’integrazione dei servizi nella Language Resource Switchboard richiede l’URL passato come parametro di input.

Come testare il servizio

Potete testare gli endpoint del servizio utilizzando curl o wget come segue:

Inviate il file di input agli endpoint per l’elaborazione:

  • con curl:

curl -H ‘content-type: text/plain’ –data-binary @plain-file.txt -X POST https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/plain?lang=ita

curl -H ‘content-type: text/tcf+xml’ –data-binary @tcf-file.txt -X POST https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/tcf

curl -H ‘content-type: text/plain’ –data-binary @plain-file.txt -X POST https://ilc4clarin.ilc.cnr.it/services/ltfw/kaf/tokenizer/plain?lang=ita

curl -H ‘content-type: text/plain’ –data-binary @plain-file.txt -X POST https://ilc4clarin.ilc.cnr.it/services/ltfw/tab/tokenizer/plain?lang=ita

  • con wget:

wget –post-file=plain-file.txt –header=’Content-Type: text/plain’ https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/plain?lang=ita

wget –post-file=tcf-file.txt –header=’Content-Type: text/tcf+xml’ https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/tcf?lang=ita

wget –post-file=plain-file.txt –header=’Content-Type: text/plain’ https://ilc4clarin.ilc.cnr.it/services/ltfw/kaf/tokenizer/plain?lang=ita

wget –post-file=plain-file.txt –header=’Content-Type: text/plain’ https://ilc4clarin.ilc.cnr.it/services/ltfw/tab/tokenizer/plain?lang=ita

Per testare i servizi per la Language Resource Switchboard:

  • con curl:

curl -X GET “https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt”

curl -X GET “https://ilc4clarin.ilc.cnr.it/services/ltfw/kaf/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt”

curl -X GET “https://ilc4clarin.ilc.cnr.it/services/ltfw/tab/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt”

  • con wget:

wget “https://ilc4clarin.ilc.cnr.it/services/ltfw/wl/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt” [-O out_file]

wget “https://ilc4clarin.ilc.cnr.it/services/ltfw/kaf/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt” [-O out_file]

wget “https://ilc4clarin.ilc.cnr.it/services/ltfw/tab/tokenizer/lrs?lang=ita&url=https://raw.githubusercontent.com/clarin-eric/LRS-Hackathon/master/samples/resources/txt/hermes-it.txt” [-O out_file]

Si prega di notare che i servizi progettati per la Language Resource Switchboard funzionano chiaramente da soli invocando i comandi sopra.

Quanto al testo semplice potete usare:

Mi chiamo Riccardo. Abito a Roma

Quanto al testo TCF potete utilizzare:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-model href="http://de.clarin.eu/images/weblicht-tutorials/resources/tcf-04/schemas/latest/d-spin_0_4.rnc" type="application/relax-ng-compact-syntax"?>
    <D-Spin xmlns="http://www.dspin.de/data" version="0.4">
        <md:MetaData xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:cmd="http://www.clarin.eu/cmd/" 
            xmlns:md="http://www.dspin.de/data/metadata" 
            xsi:schemaLocation="http://www.clarin.eu/cmd/ http://catalog.clarin.eu/ds/ComponentRegistry/rest/registry/profiles/clarin.eu:cr1:p_1320657629623/xsd">
        </md:MetaData>
            <tc:TextCorpus xmlns:tc="http://www.dspin.de/data/textcorpus" lang="it">
                <tc:text>
                    Mi chiamo Alfredo. Abito a Roma.
                </tc:text>
            </tc:TextCorpus>
    </D-Spin>


Contatti

In caso di problemi, si prega di scrivere una e-mail allo Staff Tecnico di ILC4CLARIN con tutte le informazioni necessarie per risolvere i problemi, incluso il numero di versione.