Suomeksi : Suomeksi

Lisätietoa [käyttö-]

[mahdollisuuksista]

Käännä [sivu] [suomeksi]

BBC Uutiset suomeksi
Maailma
Tiede
Liiketoiminta
Terveys

Käynnissä oleva työ:

Elektronisten kirjojen Kääntäminen

< www.teemapoint.com >

Ohjelmisto, räätälöidyt työkalut ja palvelut Luonnollisen Kielen Käsittely (NLP) tehtäville.

< Demot > -

Luonnollisen kielen jäsennin englannille. Syntaktisen jäsentimen lisäksi, samaa liittymää voidaan käyttää lauseiden kääntäminen englannista suomeen.

Enemmän demoista (suomeksi/ englanti)
Konekääntäminen
Jäsennin
Sanastotietokannat
Sanamerkitys disambiguointi
Informaation poiminta
Luonnollisen kielen liittymät
Järjestelmä arkkitehtuuri, Xml annotaatio

Läheisesti liittyvät Artikkelit:

Käännä

TR

Java Web Start Teknologia

< Tuotteet > -

NLP Työasema sisältää käännös ohjelmiston joka on esitetty demossa. Valinnaisesti, muita työkaluja voidaan myös sisältää.

Muut tuotteet Suomen kielelle:
Morfologinen jäsennin
Syntaktinen jäsennin
Suomalainen WordNet (WordNetin käännös)

< Copyright> -

Copyright © 2004-2008 Alpo Lind. Kaikki Oikeudet Reserved.

< Ota yhteyttä > -

Konekääntäminen (Machine Translation)

 

 

Englanti-suomi käännösohjelma

 

 

 

Verkkosivujen käännökset

 

Yläpuolella on esimerkki verkko-osoitteen www.teemapoint.com/english.html käännöstuloksesta.
Muitakin osoitteita voi kokeilla, vaikkakaan sivujen lukuohjelma ei pysty kunnolla käsittelemään kaikkia html-ominaisuuksia.

- Syötä englanninkielisen webbisivun osoite vasemmalla olevaan kenttään ja paina "Translate".
- Käännös avaa selaimessa uuden ikkunan.
- Sivun 5000 ensimmäistä merkkiä tulevat käännökseen mukaan.  

 

Uutissähkeissä on suomennos tuoreimmille (BBC:n) uutisotsikoille sekä linkit alkuperäisiin uutisartikkeleihin ja käännöksen tekevään ohjelmistoon.

 

 

Nettikirjoja suomeksi käännösohjelmalla

 

Lue aiheesta enemmän sivulla
nettikirjojen suomentaminen työasemassa.

 

 

 

Lauseiden/tekstin käännökset

 kääntää tekstiä englannista suomeksi.
Hakasuluissa oleville sanoille ei ole vielä käännösvastineita tietokannassa taikka ohjelmisto ei ole pystynyt valitsemaan sopivaa vaihtoehtoa vastineiden joukosta.
Ohjelma kääntää maksimissaan 3000 merkin mittaisen tekstin.

Käännösdemoon pääsee linkistä Natural Language Parser for English (englannin kielen jäsennin).
Käännöksiä varten tarvitaan käyttäjätunnus: joko määräaikainen testitunnus taikka työasemaohjelmiston tuotelisenssi.
Toinen käyttöliittymä tälle käännösohjelmalle on osoitteessa:
http://www.teemapoint.fi/nlpdemo/servlet/Translator 

 

 

Options-sivun asetuksilla voi tekstin lauseet ja niiden käännökset  saada tulostettua myös erikseen. Näkyviin voi saada myös vaihtoehtoisia käännöstuloksia, joista ohjelmisto pyrkii valitsemaan parhaimman.

 

 

Lauseenjäsennin (Natural Language Parser)

Keskeinen komponentti eri käyttökohteissa. Lauseenjäsennin tekee lauseen sisällöstä tietorakenteen tiettyjen käsittelysääntöjen perusteella ja näitä rakenteita käytetään edelleen hyväksi eri sovelluskohteissa kuten englanti-suomi konekääntämisessä.
 jäsentää lauseita.

About -- Jäsenninteknologiasta
Help -- Toiminnot lyhyesti

 

 

 

Sanastotietokannat (Lexical databases)

Yksi osa lauserakenteiden muodostamiseen tarvittavasta informaatiosta saadaan sanastotietokannoista. WordNet on osa  järjestelmän sanastotietokantaa. 
tulostaa kantasanat ja tekee linkit sanojen merkitysten kuvauksiin.

  

 

Sanamerkitysten purkaminen (Word Sense Disambiguation)

Jäsennin pystyy selvittämän hyvin sanaluokan, kuten onko sana verbi, substantiivi, adjektiivi tai adverbi. Sanojen monitulkinnan purkamisessa tarvitaan jäsentimen lisäksi myös muita  menetelmiä, jotta oikea sanamerkitys voidaan valita asiayhteyksien perusteella.

Esimerkiksi substantiivilla "coat" kolme eri merkitystä WordNet-tietokannassa..


 

Käännösvastineet "takki", "kerros" ja "turkki" allaolevissa esimerkeissä asiayhteyksien mukaisesti.

 

 

 

Muita käyttökohteita

Seuraavissa malleissa käytetään WordNet-tietokannan sanojen käyttöesimerkkejä ja selitysosioita (glosses) esimerkkiaineistona.  Aihealue (domain) voi olla myös mikä muu tahansa tekstitietokanta ja siihen  voidaan käyttää näitä työkaluja apuna tiedon strukturoinnissa.  Saatua tulosta hyödynnetään sitten tehtäessä hakuja tietokantaan.

 

Tiedon poiminta (Information Extraction)

  
- Haut  merkkijonoja, sanoja (mukaanlukien taivutusmuodot ja synonyymit)
- Haut sisällön perusteella. Esimerkki: poimitaan aikaa ilmaisevia lausekkeita

 

 

 

Käyttöliittymät (Natural Language Interfaces)


- Tekstihaut kyselynä luonnollisella kielellä
 
- Lähtökohta: Poimitaan kyselylausekkeesta avainsanoja joita käytetään parametreina tekstihaussa. Huomioidaan tarvittaessa taivutusmuodot ja synonyymit.
- Räätälöinti aihe/aluekohtaisesti:  Käsittelysääntöjä voidaan muuttaa "älykkäämmäksi" niin, että tekstistä voidaan hakea tietoa esimerkiksi merkitysten ja asiayhteyksien perusteella.

 

 

 

 

Sovellusarkkitehtuuri (System architecture, XML annotation)

Järjestelmäarkkitehtuuri, Java & servlet-teknologia, mahdollistaa, että näitä resursseja voidaan testata myös hajautetussa ympäristössä.  Asiakassovellus voi vastaanottaa tuloksia esimerkiksi XML-formaatissa  ja prosessoida niitä koneellaan.
 tulostaa malleja xml-formatoidusta tuloksesta.  Rakennetta sovitetaan tarpeen mukaan.

 

 

Muita tuotteita suomen kielelle

Sanojen taivutusohjelma

 

Taivutusgeneraattori suomen kielen nomineille, verbeille ja adjektiiveille ( Java API ).

Ohjeita: Valitse "Options". Syötä Finnish inflection generator kenttään "fgen" ja palaa Submit-näppäimellä takaisin demoon. FGen-painike (kuva vanhasta liittymästä jossa on Stem-näppäin) tekee taivutukset:
Syötä yksi tai useampi sana kerralla, eri sanaluokat kuitenkin eri kerroilla.

Nominit: (#n tai ilman)
rata omena suunnitelma

Adjektiivit:
#a hieno suuri matala terävä

Verbit:
#v syödä lukea

 Alla olevissa kuvissa on esimerkkejä nominien ja verbien taivutusmuodoista. Kaikki taivutukset eivät ole kuvissa mukana.

 

Morfologinen jäsennin

tekee perusmuodot suomen kielen taivutusmuodoista.

 

Ohjelmaa voi kokeilla jäsennindemossa valitsemalla ensin Options-sivu, jossa Morphological Parser kenttään kirjoitetaan "fmorpho" ja palataan takaisin demoon Submit-näppäimellä.
Morpho-näppäin tulostaa tekstin sanojen kantamuodot.. 

 

 

 

Syntaktinen jäsennin

Englannin kielen syntaktiseen jäsentimeen kehitettyä ohjelmistoa on myös testattu suppealla suomen kielen syntaksilla [huomattavasti laajempi kuvaus tarvittaisiin, sopivaa suomen kielen BNF-kuvausta etsitään..]. 
Kuvan oikeassa puoliskossa on tulostettu  morfologisen jäsentimen tuottamat kantasanat.

 

Suomenkielinen (suomennettu) WordNet

Järjestelmässä on suurelle osalle WordNetin sanoista suomenkieliset vastineet (yli 50.000 kpl). Lisäksi käännösohjelmisto tekee myös suomennoksen englanninkielisten sanojen käyttöesimerkeistä.
Tekstilaatikkoon voi syöttää myös pidemmän tekstin, josta ohjelmisto tulostaa kunkin sanan sanaluokat ja kantasanat (tämä välivaihe kohdassa: morfologinen analysaattori).  Valitsemalla jokin näistä kantasanoista saadaan suomennetut WordNet-tietueet näkyviin.

 

 

Käyttömahdollisuuksia

 

Kieliteknologia ei ole aiheena uusi vaikkakin termi on melko tuore.  Muun muassa konekääntäminen ja tiedon poiminta kuuluvat niihin ensimmäisten sovellusten joukkoon, joita on ajateltu tietokoneilla käyttää, ja esimerkiksi tässä kuvatun jäsentimen määrityksiä on alettu kehittämään jo 50-luvulla.  Seuraavassa enemmän uusimpien ja hieman vanhempien tekniikoiden soveltamisesta ja tuloksista.

 

 Yhteenvetoa tähän mennessä tehdystä:

  • Englannin kielen jäsennin (parseri) ja monia muita tähän yhteydessä olevia komponentteja ja tekniikoita.
  • Tuotteistettu tekstiä suomentava ohjelma.
  • Protovaiheessa käyttöliittymiin ja tiedon poimintaan liittyvät ohjelmat.
  • Testivaiheessa kantasanojen johtaminen suomen kielen taivutusmuodoista.
  • Suomen kielen syntaksi ja jäsentimen kielikohtaiset (suomen) käsittelysäännöt alkuvaiheissa.

 

 Jäsentimessä tarvittavia komponentteja, jotka ovat irrotettavissa muiden sovellusten käyttöön:

  • Sanastot. Mahdollista käyttää eri sanastolähteitä ja tiedostoformaatteja.  Sanastot voivat olla esimerkiksi relaatiotietokanta-formaatissa, jossa tiedostojen käsittely ja sanahaut hoidetaan SQL-lauseilla.
  • Morfologinen ohjelma.  Tekee taivutusmuodoista kantasanat; huomioi englannin kielen yhdyssanat ja kollokaatiot.
  • Lauserajojen tunnistus.

 

 Sovelluskohteita/tiedonhaut, informaation poiminta:

  • Alkuperäisenä ajatuksena on ollut toteuttaa menetelmiä, joiden avulla vapaamuotoista tekstiä voitaisiin strukturoida niin, että tulokset olisivat käytettävissä tekstiin tehtävissä hauissa ja tekstin sisältöön liittyvissä kyselyissä  Eräs toteutustapa on käyttää lauseenjäsennintä - yhtenä vaiheena - apuna tässä prosessissa.
  • Taivutusmuotojen ja kantasanojen vertailulla saavutetaan jo monia etuja pelkkiin merkkijono- ja sanahakuihin perustuviin ratkaisuihin nähden.

 

 Konekäännös:

  • Tietokoneavusteisia työkaluja käännöstöihin; valmisteilla mahdollisuus omien sanastojen laadinnalle.
  • Opetuksessa/opiskelussa; sovellusten muokkaaminen opetusohjelmiin soveltuviksi.

 

 Joitain visioita:

  • Semanttiset verkot (Semantic Web); semanttisten rakenteiden johtaminen ja luonti teksteistä
    (demo: Semanttinen verkko eKirjojen aihesisällöistä).
    Luonnollisen kielen käyttö semanttisten verkkojen kyselyliittymissä.
  • Verkkokirjat; automaattinen käännös sovellettavissa parhaiten asiatekstiin kuten tiedejulkaisuihin. Mahdollista jo nyt. Ks. myös elektronisten kirjojen kääntäminen työasemaohjelmistossa.
  • Konekääntäminen ja tiedonhaut kääntäjien ja kielten opiskelun apuvälineenä; haetaan tekstiä aiheiden perusteella ja tehdään käännökset löydetyistä tekstikatkelmista. Esimerkiksi aikaa ilmaisevien lausekkeiden poiminta (ks. esimerkki aiemmin) ja niiden käännös, tai monipuolisemmin: haetaan ilmaisuja, faktoja, tapahtumia ja näiden suhteita toisiinsa....

 

 Valmiudet:

  • Jäsentimen tulosten hyödyntäminen vaatii melko perusteellista käytössä olevan syntaksin tuntemusta. Tuloksia voidaan kuitenkin konvertoida myös toiseen muotoon (xml-esimerkki), josta halutut tiedot pomitaan muiden sovellusten käyttöön.
  • Järjestelmässä on tekniset valmiudet toteuttaa jäsennin myös muille kielille kuin englannille. Suomen kielen syntaksin kuvaus on samalla tavoin rakenteilla käyttäen BNF-notaatiota. Tarkemmat kielten käsittelysäännöt hoidetaan ohjelmallisesti.
  • Projektissa voidaan lähteä liikkeelle esimerkiksi alla olevien vaiheiden mukaisesti.  

 

 Vaiheita ja tapoja nlp-projektin toteutukselle:

  • Aluksi demoihin tutustuminen.
  • Systeemityökulun vaiheita tarpeiden määrityksistä, ohjelmiston ja tietokantojen suunnittelusta järjestelmän toteutukseen, jossa esimerkiksi:
  • sovelluksia rakennetaan räätälöidysti ja ensin verkossa testattaviksi. Testisovellukset voidaan ottaa käyttöön vaikka samalla tavalla kuin miten osa Parser Servlet -demon toiminnoista asetetaan Options-sivun kautta.
  • tai kuten NLP Workstation/käännösohjelmistossa -  käytetään Java Web Start:ia sovellusten ja datatiedostojen  lataamiseen ja automaattisiin päivityksiin.
  • Integrointi asiakassovelluksiin (Java/J2EE-tekniikat).
  • Java-komponenttien lisensointi.

 

Jos  olet kiinnostunut tämäntyyppisistä kieliteknologiaa hyödyntävistä ratkaisuista osana tuotteitasi, taikka muuten olet kiinnostunut yhteistyössä kehittämään näitä sovelluksia, niin ota yhteyttä!

 

 

www.teemapoint.com

Copyright © 2004-2008 Alpo Lind. All Rights Reserved 

Yhteystiedot  Contact Information