Discussion:
Suomen kielen puhesynteesi ja ortografia
(too old to reply)
Jukka K. Korpela
2003-10-20 17:34:18 UTC
Permalink
Under Subject: Re: MTV3-chatin puhuva pää
[clip]
Kiintoisaa sinänsä, että vaikka esim. Macintosh-käyttisten sisässä
on ollut tekstin puhunta ilmaisena ominaisuutena jo varmaan
vuosikymmenen, niin sitä ei ole vielä saatu väännettyä suomeksi
toimivaan muotoon millekään tarjolla olevista äänistä. Liekkö
suomen puhunta hiukan vaikeampaa toteuttaa kuin englanti?
Eipä oikeastaan, ongelmat vain on erilaisia. Voi oikeastaan olla
juuri päinvastoin: suomen kielen kirjaimethan on maailman helpointa
muuttaa äänteksi.
Ei pidä paikkaansa. Suurinta osaa maailman tuhansista kielistä
kirjoitetaan - jos niitä lainkaan kirjoitetaan - järjestelmällä, jossa
kirjoituksen ja ääntämyksen vastaavuus on vähintään yhtä hyvä kuin
suomessa. Tämä tosin johtuu lähinnä siitä, että niin monille kielille
on vasta hiljattain kehitelty kirjoitusjärjestelmä, yleensä melko
foneettiselle perustalle.

Asia tuskin kuuluu ainakaan TV-ryhmään, joten siirrän keskustelun
kielityhmään.
"Luetaan niin kuin kirjoitetaan", tai on suomessa
oikeastaan 5 poikkeusta tähän sääntöön plus vierasperäiset sanat.
Ei pidä paikkaansa. Poikkeuksia on paljon enemmän, ks.
http://www.cs.tut.fi/~jkorpela/orto.html
Ongelma voi olla juuri päin vastainen: koska kirjainten muuttaminen
äänteiksi
on niin helppoa, niin jokainen insinööri osaa rakentaa oman
syntikan. Englannin puolella sama säännöstä on niin monimutkainen,
että tekijän on ymmärrettävä ihmiskielestäkin jotakin...
Ei pidä paikkaansa. Englannin puhesynteesissä voidaan hyvin käyttää
esimerkiksi menetelmää, jossa ohjelman sanastoon on tallennettu
jokaisen sanan ääntämys foneettisesti kirjoitettuna. Koska englannissa
taivutus on niin vähäistä, tämä ei aiheuta suuriakaan ongelmia, raakaa
työtä vain.
--
Yucca, http://www.cs.tut.fi/~jkorpela/
Nicholas Volk
2003-10-21 01:24:54 UTC
Permalink
Post by Jukka K. Korpela
Under Subject: Re: MTV3-chatin puhuva pää
[clip]
Kiintoisaa sinänsä, että vaikka esim. Macintosh-käyttisten sisässä
on ollut tekstin puhunta ilmaisena ominaisuutena jo varmaan
vuosikymmenen, niin sitä ei ole vielä saatu väännettyä suomeksi
toimivaan muotoon millekään tarjolla olevista äänistä. Liekkö
suomen puhunta hiukan vaikeampaa toteuttaa kuin englanti?
Eipä oikeastaan, ongelmat vain on erilaisia. Voi oikeastaan olla
juuri päinvastoin: suomen kielen kirjaimethan on maailman helpointa
muuttaa äänteksi.
Ei pidä paikkaansa. Suurinta osaa maailman tuhansista kielistä
kirjoitetaan - jos niitä lainkaan kirjoitetaan - järjestelmällä, jossa
kirjoituksen ja ääntämyksen vastaavuus on vähintään yhtä hyvä kuin
suomessa. Tämä tosin johtuu lähinnä siitä, että niin monille kielille
on vasta hiljattain kehitelty kirjoitusjärjestelmä, yleensä melko
foneettiselle perustalle.
Kirjoitusjärjestelmät ovat tasapainoilua ääntämyksen ja muun,
lähinnä morfologian, välillä. Toki tärkein muuttuja aakkosellista
kirjoitusjärjestelmää kehitettäessä.
Jos kirjoitusjärjestelmä laaditaan latinalaiselle
aakkostolle, niin kirjaimet eivät välttämättä riitä tai siksi niitä on
lisättävä (esim. suomen å, ä ja ö).

Riippumatta siitä kumartaako kirjoitusjärjestelmä ääntämyksen
tai jonkun muun (esim. morfologian) suuntaan voidaan kuitenkin
kaikkia kirjoitusjärjestelmiä pitää säännöllisinä
(Richard Sproat, 2000: Computational Theory of Writing Systems.)
Oman tulkintani tämä tarkoittaa sitä, että kaikki puhuttujen
ja kirjoitettujen muotojen välillä vallitsee säännöllinen relaatio,
joka on mallinnettavissa. Eri asia sitten on, osaako kukaan mallintaa
ihmisen kielitajua käytännön tasolla näin hyvin.
Ja todettakoon, ettei mikään kirjotettu kieli koodaa kaikkea puheessa
olevaa ja käänteisesti kirjoitussa kielessä on koodattuna asiota,
joita ei puheessa ole.

Jos ajatellaan kieliä, joille tehdään puhesynteesiä, niin suomen
grafeemi-foneemi-konversio, lienee kuitenkin yksi helpoimmista.
Myönnetään, että tuli kärjistettyä väittämää.

Äh, tiivistäen siis alkuperäisen kommenttini:
suomen kielen kirjaimet on riittävän helppo muuttaa
äänteiksi olemattomalla opiskelulla.
Post by Jukka K. Korpela
"Luetaan niin kuin kirjoitetaan", tai on suomessa
oikeastaan 5 poikkeusta tähän sääntöön plus vierasperäiset sanat.
Ei pidä paikkaansa. Poikkeuksia on paljon enemmän, ks.
http://www.cs.tut.fi/~jkorpela/orto.html
Olen lukenut joskus, nyt kommentoin enemmänkin muistini perusteella.

oma listani on

-alkukahdennus
-äng-äänne
-leksikaaliset poikkeukset (sydämen, jossa m luetaan pitkänä, mitä
pituus nyt sattuu tarkoittamaankaan)
-assimilaatio (järvenpää -> järvempää)
-ja se viides, jota en juuri koskaan muista

Lainasanat dumpataan poikkeuksiksi: ne noudattavat mahdollisuuksien
mukaan oman kielensä ääntämissääntöjä. Samaten esim heitton käyttö
sanoissa
"raa'an" tms. on systemaattista, joten niitäkään en lue poikkeuksiksi
foneemiperiaatteeseen.
Eli käytännössä luen kaiken muun joko leksikalisoituneiksi
poikkeuksiksi
tai säännönmukaisiksi, vaikkei sääntö heti pintaa tarkasteltaessa
olisikaan
ilmeinen.

Sivukommenttina/täsmennyksenä yhteen kohtaan em. sivultasi:
"Pitäisikö meidän muuten muuttaa Platonin ja Aristoteleen nimet
kielessämme muotoon Plato ja Aristotle, koska ne lienevät
tieteellisessä kirjallisuudessa yleisimmät ja siten
kansainvälisimmät?"

Kreikankieliset nimet ovat menneet englannin kieleen latinan kautta,
sieltä nuo "korruptiot", joista pahin lienee "Ulysseus".
Suomeen sanat ovat tulleet Saksan (maan ja kielen) kautta, ja
siellä kreikkailaismaisempi muoto on käytössä. Itse asiassa
käsittäkseni (maallikkona tosin) sakemannit lienevät tutkineet enemmän
ja laadullisesti paremmin muinaisia kreikkalaisia kuin anglosaksit.
Post by Jukka K. Korpela
Ongelma voi olla juuri päin vastainen: koska kirjainten muuttaminen
äänteiksi
on niin helppoa, niin jokainen insinööri osaa rakentaa oman
syntikan. Englannin puolella sama säännöstä on niin monimutkainen,
että tekijän on ymmärrettävä ihmiskielestäkin jotakin...
Ei pidä paikkaansa. Englannin puhesynteesissä voidaan hyvin käyttää
esimerkiksi menetelmää, jossa ohjelman sanastoon on tallennettu
jokaisen sanan ääntämys foneettisesti kirjoitettuna. Koska englannissa
taivutus on niin vähäistä, tämä ei aiheuta suuriakaan ongelmia, raakaa
työtä vain.
Eli englanninkaan puolella syntikan tekijän ei tarvitse ymmärtää
luonnosesta
kielestä mitään? (No joo, ymmärsin tarkoituksella väärin. Ja itse
asiassa
näin on: olen tavannut henkilön, joka työskenteli autohin
suunnistussyntetisaattoreita tekevän yrityksen leksikko-osastolla,
joten käänteisesti löytyy varmasti myös luonnollisesta puheesta täysin
irrallisia singaalinkäsittelijöitä tms.)

Leksikko on pelkää ihmisen tekevää käsityötä, joka ei aina/koskaan ole
täydellistä.
Vrt. esim. Festivalin mukana jaettava cmu-leksikko.
Toisaalta valmiit leksikot eivät taivu murteisiin tms., joille
niillekin
voidaan kirjoittaa kelvollisia esim. kirjakieli->turun murre
-konvertoijia.
(Edinburghissa on tutkittu tuota murre vs. leksikko -ongelmaa, mutta
en täysin muistä/tiedä miten hyvin he onnistuivat.)
Ja leksikon tekeminenkin vaatii jo ymmärrystä kielestä. Kaikkia kielen
sanoja ei kuitenkaan pystytä koskaan listaamaan, joten tarvitaan
letter-to-sound-sääntöjä tai jotain kehittyneempää.

-niko
Tommi Nieminen
2003-10-21 07:01:05 UTC
Permalink
Post by Nicholas Volk
oma listani on
-alkukahdennus
-äng-äänne
-leksikaaliset poikkeukset (sydämen, jossa m luetaan pitkänä, mitä
pituus nyt sattuu tarkoittamaankaan)
-assimilaatio (järvenpää -> järvempää)
-ja se viides, jota en juuri koskaan muista
Listassasi assimilaatiokin on jo turha, koska assimilaatio- ja
koartikulaatiosäännöt ovat automaattisia eivätkä siksi (a) ole
poikkeuksia foneemi-grafeemi-suhteeseen, (b) aiheuta ongelmia
teksti-puhe-syntetisaattorille. Eihän ole virhe, vaikka kone sanoisi
[järvenpää] -- korkeintaan tuotos kuulostaisi ylihuolitellulta. Kyllä
[np]- ja [nk]-yhtymiä tapaa ihmistenkin puheesta.

Alku- (tai loppu-) -kahdennuskaan ei ole ongelma, jos pannaan syntikka
tuottamaan kaakkoismurretta :-)

Itse asiassa en usko, että segmentaalisfonologisella tasolla suomen
oikeinkirjoituksessa on mitään ongelmia puhesyntetisaattoriohjelmalle.
Ongelmia sen sijaan piisaa -- myös muissa kielissä kuin suomessa --, kun
yritetään saada *prosodia* luonnolliseksi. Kaikki tunnistanevat
konepuheen edelleen parhaiten sen luonnottomasta Joka Sanan
Painotuksesta, kummallisista tauoista, rumpukonemaisesta rytmistä ja
vaihteluttomasta intonaatiosta.
--
.... Tommi Nieminen ....
It is dangerous to be sincere unless you are also stupid.
-G. B. Shaw-
.... mailto:***@luukku.com.invalid ....
Nicholas Volk
2003-10-21 14:55:06 UTC
Permalink
Post by Tommi Nieminen
Post by Nicholas Volk
oma listani on
-alkukahdennus
-äng-äänne
-leksikaaliset poikkeukset (sydämen, jossa m luetaan pitkänä, mitä
pituus nyt sattuu tarkoittamaankaan)
-assimilaatio (järvenpää -> järvempää)
-ja se viides, jota en juuri koskaan muista
Listassasi assimilaatiokin on jo turha, koska assimilaatio- ja
koartikulaatiosäännöt ovat automaattisia eivätkä siksi (a) ole
poikkeuksia foneemi-grafeemi-suhteeseen, (b) aiheuta ongelmia
teksti-puhe-syntetisaattorille. Eihän ole virhe, vaikka kone sanoisi
[järvenpää] -- korkeintaan tuotos kuulostaisi ylihuolitellulta. Kyllä
[np]- ja [nk]-yhtymiä tapaa ihmistenkin puheesta.
Käytännössä koartikulaatiosäännöt joudutaan eksplisiitisesti kertomaan
koneelle.
Vaikka toisaalta niin kerrotaan myös a-kirjain -> a-äänne -muutoskin.
Itseasiassa syntikan käyttökonteksti on yleensä sellainen, että
tuo ylihuolittelu on se parempi vaihtoehto.
Samansukuinen hauskuus on arvailla milloin "sh" tarjoittaa suhuässää
ja milloin kahta eri äännettä.
Post by Tommi Nieminen
Alku- (tai loppu-) -kahdennuskaan ei ole ongelma, jos pannaan syntikka
tuottamaan kaakkoismurretta :-)
Hih. Tai odotetaan muutama sata vuotta ja toivotaan parasta.
Post by Tommi Nieminen
Itse asiassa en usko, että segmentaalisfonologisella tasolla suomen
oikeinkirjoituksessa on mitään ongelmia puhesyntetisaattoriohjelmalle.
Ongelmia sen sijaan piisaa -- myös muissa kielissä kuin suomessa --, kun
yritetään saada *prosodia* luonnolliseksi. Kaikki tunnistanevat
konepuheen edelleen parhaiten sen luonnottomasta Joka Sanan
Painotuksesta, kummallisista tauoista, rumpukonemaisesta rytmistä ja
vaihteluttomasta intonaatiosta.
Juu, suomen ongelmana tekstin kanssa on numerot ja tietyt lyhenteet,
kuten
"ns." ja "em.", jotka mokomat voivat kongruoida pääsanansa kanssa.
Tosin tätäkin voi pitää pitkälti ratkaistuna ongelmana.
Välillä toki mennään metsään: kerran lauseke "[X oli] ns. kusessa"
kirjoitettin auki muodossa "niin sanotussa kusessa", mutta ilman
virheitä
elo olisi tylsää.

Painotusongelmaa helpottaa jo kun listaa N yleisintä sanaa ja jättää
ne painottamatta. Lingvistisellä analyysilla voidaan sitten tehdä
homma
"kunnolla", esim. tunnistaa kaikki pronominit ja jättää ne
painottamatta
elleivät ne satu olemaan topikalisoituneita. Prosodiapuolella on
erilaisia
ratkaisuja, esim. suopuheen syntikka
(http://www.ling.helsinki.fi/suopuhe/demo.shtml) käyttää ns. Fujisakin
mallia,
joka *väittää* olevansa fysiologisesti motivoitunut (liityy prosodian
ja keuhkojen suhteeseen). Joskus toimii, joskus ei.

-niko
Jarkko Setälä
2003-10-21 16:18:26 UTC
Permalink
Öhöm, nyt tuntuisi, kuin syntikantekijöiltä olisi lähdössä mopo
komeasti käsistä kohti palatsikäytäviä, eli pyritään liian
"snobistiseen" lopputulokseen.

Tosin tähän vaikuttaa puhesynteesin käyttötarkoituskonteksti.
Näkövammaiset eivät useimmiten, siis useimmiten, eivät aina, vaadi
puhesynteesiltä täydellisyyttä, tärkeintä on se, että asia, jonka
masiina haluaa sanoa, sanotaan ymmärrettävästi. On tietysti
tilanteita, joissa Suopuheen kaltainen mahdollisimman luonnolliseen
puheeseen pyrkivä syntikka on paikallaan, kuten esim. siinä, jos
vaikkapa nykyään ihmisen lukemia kaunokirjallisia teoksia aletaankin
lukea äänitallenteille puhesynteesillä. Tätäkin tuotantotapaa on
näkövammaispiireissä pohdittu, ja jopa kokeiltukin.

Sen sijaan silloin, kun syntikkaa käytetään puhtaana apuvälineenä,
pienet ortografian ja fonologian epäsymmetrisyydet voidaan sallia,
kunhan se ei aiheuta tulkintavirheitä. Minua ei häiritse se, että
puhesyntetisaattorini (Mikropuhe 5), sanoo "hernekeitto", eikä
"hernekkeitto". Samasta sopastahan siinä on kummassakin tapauksessa
kyse, eikä virhetulkintaa voi tulla.

Sen sijaan ehkä näkevien maailmassa voi sillä olla merkitystä, miltä
puhesynteesin pitää kuullostaa, eli luonnollisilla sävelkuluilla on
iso painoarvo.

Asia on sikäli paradoksaalinen, että luulisi sen olevan toisinpäin,
että näkövammaiset haluavat mahdollisimman luonnollista synteettistä
puhetta, ja näkeville ei ole väliä, mutta totuus taitanee olla
toisenmoinen.

---Jacke---
Jukka K. Korpela
2003-10-21 17:15:14 UTC
Permalink
Post by Jarkko Setälä
Öhöm, nyt tuntuisi, kuin syntikantekijöiltä olisi lähdössä mopo
komeasti käsistä kohti palatsikäytäviä, eli pyritään liian
"snobistiseen" lopputulokseen.
Minä en ole huomannut varsinaista tulokseen pyrkimistä, pikemminkin
käsitteiden ja termien esittelyä. Mutta varmaan sieltä jostain alta
löytyy myös ajatus pyrkimisestä hyvään puhesynteesiin
Post by Jarkko Setälä
Näkövammaiset eivät useimmiten, siis useimmiten, eivät aina, vaadi
puhesynteesiltä täydellisyyttä, tärkeintä on se, että asia, jonka
masiina haluaa sanoa, sanotaan ymmärrettävästi.
Arviointiperusteet ovat todellakin erilaiset silloin, kun on kyse
jatkuvasta käytöstä tekstien kuunteluun, kuin silloin, kun tähdätään
laadukkaan, luonnolliselta kuulostavan lausunnan tuottamiseen.
Pelkästään käytön luonne vaikuttaa tähän. Jos käyttää syntetisaattoria
paljon, se säädetään tuottamaan nopeaa puhetta - sellaista, joka
minusta ensi kuulemalta tuntui täysin käsittämättömältä, mutta siihen
tottuu asteittain, etenkin jos ohjelmassa voi liukuvasti säädellä
puhenopeutta. Nopeassa puheessa ei tietenkään ole mahdollisuuksia
hienoihin vivahteisiin ja painotuksiin.
Post by Jarkko Setälä
Minua ei häiritse se, että
puhesyntetisaattorini (Mikropuhe 5), sanoo "hernekeitto", eikä
"hernekkeitto".
Tokihan siihenkin tottuu - aika nopeastikin. Toisaalta minusta on
selvää, että tällaisissa asioissa pitää vaatia laatua. Ei kahdennusten
tuottaminen ole missään tapauksessa ylivoimaista, vaikka se vaatiikin
korkeamman tason analyysia eli ei onnistu pelkästään tulkitsemalla
kirjaimia äänteiksi.
Post by Jarkko Setälä
Samasta sopastahan siinä on kummassakin tapauksessa
kyse, eikä virhetulkintaa voi tulla.
Yleensä ns. loppukahdennuksella eli ns. alkukahdennuksella ei ole
distinktiivistä merkitystä, mutta joskus on. Valitettavasti tilanteet,
joissa niin on, ovat myös sellaisia, että loppukahdennuksen tarve
selviäisi vasta semanttisessa analyysissa, jos siinäkään. Esimerkiksi
virke "Pekka haluaa ostaa syntikan ja kirjoittaa kirjoja" on
kaksiselitteinen aika ratkeamattomalla tavalla: onko "kirjoittaa"
predikaatti (siis Pekka todellisuudessa kirjoittaa kirjoja) vai onko se
predikaatille "haluaa" alisteinen infinitiivi (siis Pekka vain haluaa
kirjoittaa kirjoja)?

Mutta silti loppukahdennus kuuluu synteettiseen puheeseen - ellei
käyttäjä sitten halua sen jäävän pois, koska se ei kuulu hänen
murteeseensa. Sellaiset lauseet kuin "en ole tullut" ovat useimpien
suomalaisten kielikorvan mukaan luonnottomia, vieraasti äännettyjä,
ilman loppukahdennusta.
Post by Jarkko Setälä
Sen sijaan ehkä näkevien maailmassa voi sillä olla merkitystä, miltä
puhesynteesin pitää kuullostaa, eli luonnollisilla sävelkuluilla on
iso painoarvo.
Tällä on toisaalta merkitystä myös näkövammaisille ja muille, jotka
välttämättä tarvitsevat puhesynteesiä. (Puhesynteesiähän tarvitsevat
myös esimerkiksi vaikeasti lukihäiriöiset, jotka kyllä näkevät lukea
mutta joille lukeminen tuottaa suuria vaikeuksia, kuunteleminen ei.)
Laadukas puhesynteesi nimittäin osaltaan tekee puhesynteesistä myös
niin sanottua suurta yleisöä kiinnostavan asian. On monta hyvää syytä
kuunnella tekstejä silloinkin, kun ne voisi myös lukea, mutta sitä
varten tarvitaan niin sanottua normaalia ihmistä miellyttävä
synteettinen puhe. Puhesynteesin yleistyminen taas lisää
todennäköisyyttä sille, että yhä useampaan ohjelmaan, sovellukseen ja
tietoaineistoon liitetään valmiudet siihen.
--
Yucca
Nicholas Volk
2003-10-21 22:00:02 UTC
Permalink
Post by Jarkko Setälä
Sen sijaan ehkä näkevien maailmassa voi sillä olla merkitystä, miltä
puhesynteesin pitää kuullostaa, eli luonnollisilla sävelkuluilla on
iso painoarvo.
Asia on sikäli paradoksaalinen, että luulisi sen olevan toisinpäin,
että näkövammaiset haluavat mahdollisimman luonnollista synteettistä
puhetta, ja näkeville ei ole väliä, mutta totuus taitanee olla
toisenmoinen.
Joku teoria oli, että robotti-intonaatio on parempi kuin
usein virheitä tekevä intonaatio, joten sen takia näkövammaiset
preferoivat
monotoniaa. Eli parempi tasalaatuinen robotti, kuin satunnaisesti
huomion kiinnittäviä kiekaisuja tekevä luonnollisuutta jäljittelevä
syna. Lisäksi luonnollisuutta tavoittelevan lause- ja sanapainon
yhdistäminen pikapuheeseen
on ... öö .. mielenkiintoista.

Luonnollisuutta tavoitellaan puhtaasti taloudellisistä syistä tai
selkokielellä
ahneuden takia. Näkevä ei ole valmis maksamaan robottiäänestä.
Useista puhelin tms. palveluista käyttäjälle on jäänyt mieleen
robottisyntikka,
ei taustalla olleet sofistikoituneet puheentunnistus ja dialogin
mallinnus...
Näkövammaiset käyttävät syntetisaattoria pakosta,
joten he ovat valmiita sietämään enemmän virheitä
syntetisaattroisessaan,
kuin keskivertosukankuluttujat.
(On olemassa hirveän hintaisia pistekirjoitusvekottimia tietokoneen
käyttöön, myönnetään, eli syntikkaa ei tietokoneen kanssa ole ihan
pakko käyttää.)

Kaupallisesti ajatellen näkövammaiset ovat kuitenkin suhteellisen
pieni ja vähävarainen markkinasegmentti, joiden erityistarpeita
(lähinnä pikapuhe)
tuskin mikään bisnestaho tulee tietyn pisteen yli huomioimaan ilman
valtion tms. huomattavaa subventointia.

Äh, nyt rönsyiltiin kieliteemasta ulos. Pahoittelen.

Niko
MR
2003-10-22 12:59:39 UTC
Permalink
Post by Jarkko Setälä
Minua ei häiritse se, että
puhesyntetisaattorini (Mikropuhe 5), sanoo "hernekeitto", eikä
"hernekkeitto".
Minua ei häiritse se, että pari tuttuani
puhuu tuota "hernekeitto"-kieltä. Ihan syntyperäisiä
suomalaisia ovat luovutetusta Salmin kunnasta.
Post by Jarkko Setälä
Samasta sopastahan siinä on kummassakin tapauksessa
kyse, eikä virhetulkintaa voi tulla.
No, ehkä tuo hernekkeitto on hitusen 'sakiampaa' ;)

Jukka K. Korpela
2003-10-21 07:17:23 UTC
Permalink
[Korjatkaa jos olen väärässä, mutta minusta tämä ei todellakaan ole
TV-aiheista keskustelua. Siksi pudotin TV-ryhmän pois jakelusta,
asetettuani jo aiemmin follarit, joita ei noudatettu. Jos
noudattamattomuuden syynä oli viestien lähettäminen Google Groupsin
kautta, niin tässä tuli taas yksi syy olla lähettämättä sillä.]
Post by Nicholas Volk
Kirjoitusjärjestelmät ovat tasapainoilua ääntämyksen ja muun,
lähinnä morfologian, välillä.
Kirjoitusjärjestelmiä on hyvin monenlaisia, eikä suurin osa niistä
tasapainoile missään vaan on varsin vakiintuneita. Silloin, kun
nostetaan esille joitakin epäkohtina pidettyjä piirteitä ja vaaditaan
niiden korjaamista, saattaa toki syntyä tuollainenkin vaikutelma.
Tasapainoilusta ei yleensä ole kyse vaan riidasta. Jos kumpikaan
osapuoli ei pääse selvästi voitolle, niin voihan tulosta sanoa
tasapainoiluksi, koska se määräytyy jonkinlaisten voimasuhteiden
mukaan.

Todellisuudessa morfologia vaikuttaa kirjoitusjärjestelmiin vain vähän.
Se kuuluu tilanteisiin, joissa kirjoitusjärjestelmän vanhentuneita
piirteitä halutaan säilyttää ja perusteluksi tuodaan muun ohessa
"morfologia".
Post by Nicholas Volk
Riippumatta siitä kumartaako kirjoitusjärjestelmä ääntämyksen
tai jonkun muun (esim. morfologian) suuntaan voidaan kuitenkin
kaikkia kirjoitusjärjestelmiä pitää säännöllisinä
Kaikkihan on "säännöllistä", kun määritellään tarpeeksi monta
"sääntöä", esimerkiksi miljoona yksittäistä "sääntöä", jotka arkijärjen
mukaan ovat poikkeuksia. Siinä mielessä "voidaan - - pitää" on aivan
oikea muotoilu!
Post by Nicholas Volk
Ja todettakoon, ettei mikään kirjotettu kieli koodaa kaikkea
puheessa olevaa ja käänteisesti kirjoitussa kielessä on koodattuna
asiota, joita ei puheessa ole.
Miksi tämä pitää todeta? Kuulostaa jopa hiukan implisiittiseltä
olkiukolta tässä yhteydessä.
Post by Nicholas Volk
Jos ajatellaan kieliä, joille tehdään puhesynteesiä, niin suomen
grafeemi-foneemi-konversio, lienee kuitenkin yksi helpoimmista.
Jos verrataan suomea, englantia ja japania, niin väite varmaankin pitää
paikkansa. Ja maailman ns. valtakielet ovat enimmäkseen kieliä, joita
on kirjoitettu jo vuosisatoja, jolloin ääntämys ja kirjoitus ovat
ehtineet erota toisistaan aika lailla. Mutta kuten mainitsin, tuon
konversion helppous on suhteellisen vähämerkityksinen asia
puhesynteesin kokonaisuudessa.
Post by Nicholas Volk
oma listani on
-alkukahdennus
-äng-äänne
-leksikaaliset poikkeukset (sydämen, jossa m luetaan pitkänä, mitä
pituus nyt sattuu tarkoittamaankaan)
-assimilaatio (järvenpää -> järvempää)
-ja se viides, jota en juuri koskaan muista
Noihin sisältyy kuhunkin suuri määrä erilaisia poikkeuksia. Varsinkin
viidenteen. :-) Määrät saadaan näyttämään pieniltä, kun ryhmitellään
asiat klimpeiksi, joista yksi - tai tässä kaksikin - on todella
sekalaisia kaatopaikkoja.
Post by Nicholas Volk
Samaten esim heitton käyttö
sanoissa
"raa'an" tms. on systemaattista, joten niitäkään en lue
poikkeuksiksi foneemiperiaatteeseen.
En muista esittäneeni, että heittomerkki olisi poikkeus
foneemiperiaatteeseen. Heittomerkki on itsessään vain kirjoituksen
apumerkki, ei äänteen symboli, eikä se kuulu foneemiperiaatteeseen
enempää kuin pisteet ja pilkut, ellei sille erikseen määritellä roolia
kirjoituksen ja ääntämyksen vastaavuudessa.

Jossakin hiljattain lukemassani jutussa kyllä väitettiin, että sanassa
"vaa'an" on heittomerkin kohdalla glottaaliklusiili. Joten on kyllä
mahdollista, että tämä ortografinen konventio ymmärretään väärin, ehkä
siksi, että joissakin kirjoitusjärjestelmissä heittomerkin tapainen
merkki todella tarkoittaa klusiilia.
Post by Nicholas Volk
"Pitäisikö meidän muuten muuttaa Platonin ja Aristoteleen nimet
kielessämme muotoon Plato ja Aristotle, koska ne lienevät
tieteellisessä kirjallisuudessa yleisimmät ja siten
kansainvälisimmät?"
Kreikankieliset nimet ovat menneet englannin kieleen latinan
kautta, sieltä nuo "korruptiot",
Eivät ne ole korruptiota sen enempää kuin nimien mukautuminen suomen
kieleen, kuten Stockholm > Tukholma. Retorisen kysymykseni ydin on,
että jos kansainvälisyys on kovin keskeinen kriteeri, niin meidän
pitäisi omaksua erään toisen kielen, nimittäin englannin, mukaisia eikä
oman kielemme mukaisia mukautumia. Se, miten mukautuminen englantiin on
tapahtunut, on sitten oma lukunsa. Aristoteleen nimi on kyllä latinassa
"Aristoteles".
Post by Nicholas Volk
joista pahin lienee "Ulysseus".
Odysseuksen nimi on latinaksi Ulixes, englanniksi Ulysses (tai
joidenkin hakuteosten mukaan vaihtoehtoisesti Odysseus).

(Eihän tämä juurikaan aiheeseen liity, mutta täytynee huomauttaa, sillä
_tässä_ oli todella tapahtunut kirjoitusasun turmeltumista eli
korruptiota. :-) )
--
Yucca
Vastauksia ryhmässä sfnet.keskustelu.kieli usein kysyttyihin
kysymyksiin: http://www.cs.tut.fi/~jkorpela/kielet/vukk.html
Nicholas Volk
2003-10-21 14:39:53 UTC
Permalink
Post by Jukka K. Korpela
[Korjatkaa jos olen väärässä, mutta minusta tämä ei todellakaan ole
TV-aiheista keskustelua. Siksi pudotin TV-ryhmän pois jakelusta,
asetettuani jo aiemmin follarit, joita ei noudatettu. Jos
noudattamattomuuden syynä oli viestien lähettäminen Google Groupsin
kautta, niin tässä tuli taas yksi syy olla lähettämättä sillä.]
Juu, mun moka... Käyttää erinäisistä syistä satunnaisesti Googlea.
Aikanaan käytti pine(-in-the-aase)a, mutta HY:n csl-linuxeista
hävisi nyyssiominaisuus joskus, ja tin ei inspiroinut.
Toisaalta kaupallisella käyttöjärjetelmällä varustetun kannettavani
olen jaksanut konffata toimimaan vasta yhdessä paikassa, jossa en itse
ole.
Eli tämäkin tulee Googlelta...
Post by Jukka K. Korpela
Post by Nicholas Volk
Kirjoitusjärjestelmät ovat tasapainoilua ääntämyksen ja muun,
lähinnä morfologian, välillä.
Kirjoitusjärjestelmiä on hyvin monenlaisia, eikä suurin osa niistä
tasapainoile missään vaan on varsin vakiintuneita. Silloin, kun
nostetaan esille joitakin epäkohtina pidettyjä piirteitä ja vaaditaan
niiden korjaamista, saattaa toki syntyä tuollainenkin vaikutelma.
Tasapainoilusta ei yleensä ole kyse vaan riidasta. Jos kumpikaan
osapuoli ei pääse selvästi voitolle, niin voihan tulosta sanoa
tasapainoiluksi, koska se määräytyy jonkinlaisten voimasuhteiden
mukaan.
Juu, oikeassa olet: piirre x kuvaataan kirjoitusjärjestelmässä aina
samalla tavalla. Tarkoitti ennemminkin, että eri kirjoitusjärjestelmät
sijoittuvat eri kohtiin ääntämys-muu -akselilla.
Post by Jukka K. Korpela
Todellisuudessa morfologia vaikuttaa kirjoitusjärjestelmiin vain vähän.
Se kuuluu tilanteisiin, joissa kirjoitusjärjestelmän vanhentuneita
piirteitä halutaan säilyttää ja perusteluksi tuodaan muun ohessa
"morfologia".
On siellä muutakin kun morfologia. Välimerkit ja isot alkukirjaimet
antavat tietoa mm. syntaksista.
Ja on morfologia mukana monessa paikkaa, jossa sitä ei tule
ajatelleeksi:
Kirjoitusasu "sanopa" johtuu morfofonogiasta, samaten
englannissa tehtävä ero un- ja in-etuliitteiden kirjoittamisessa
on morfologinen piirre:

un-believer
im-personate

eli iN muuttuu kirjoituksessa ja uN ei, vaikka huolittelemattomassa
puheessa molemmat N-arkkifoneemit realistuvat m-äänteinä.
(Äh, meni jargonin puolelle.)
Post by Jukka K. Korpela
Post by Nicholas Volk
Riippumatta siitä kumartaako kirjoitusjärjestelmä ääntämyksen
tai jonkun muun (esim. morfologian) suuntaan voidaan kuitenkin
kaikkia kirjoitusjärjestelmiä pitää säännöllisinä
Kaikkihan on "säännöllistä", kun määritellään tarpeeksi monta
"sääntöä", esimerkiksi miljoona yksittäistä "sääntöä", jotka arkijärjen
mukaan ovat poikkeuksia. Siinä mielessä "voidaan - - pitää" on aivan
oikea muotoilu!
Säännöllisyys riippuu juu kovin määrityksestä...
Väittäisin kuitenkin, että jopa sekakielten kuninkaassa,
englannissakin, kirjamet 99-prosenttisesti oikein äänteiksi muuttavan
säännöstön ei tarvitse olla kuin muutaman sadan säännön kokoinen.
(Tätä tosin kukaan ei tietääkseni ole onnistunut tekemään.)
Toki tarvitaan lingvististä analyysiä auttamaan sanan painollisen
tavun löytämisessä, sillä paino pitkälti määrää milloin vokaali
redusoituu
schwaaksi ja milloin ei. Pelkästä merkkijonosta tätä tietoa ei voi
repiä
irti. Eli poikkeuksia kuten "I" on kuitenkin hyvin vähän.

Vierasperäiset sanat (kooltaan ääretön luokka) ovat oikeastaan jätetty
tylysti
luokitteluni ulkopuolelle. (Vaikka lähes kaikki sanat ovat lainasanoja
:)
Jollain viiveellä ("viipeellä"-muoto on hyperkorrektiota, sanoisin)
ne ovat ennen mukautuneet kohdekieleen. Nykyään informaatioaikana
eivät enää
välttämättä mukaudu, koska ollaan tietoisia taustalla olevasta
kielestä.
Latvialla on kyllä mielenkiintoinen suhtautuminen propreihin, mutta
toivottavasti nativisointi ei yleisty muissa kielissä.
Tai mitä väliä, tappio/voitto ei ole suuren suuri.
Post by Jukka K. Korpela
Jossakin hiljattain lukemassani jutussa kyllä väitettiin, että sanassa
"vaa'an" on heittomerkin kohdalla glottaaliklusiili. Joten on kyllä
mahdollista, että tämä ortografinen konventio ymmärretään väärin, ehkä
siksi, että joissakin kirjoitusjärjestelmissä heittomerkin tapainen
merkki todella tarkoittaa klusiilia.
Glottaaliklusiili esiintyy joskus tuolla ja joskus ei.
Sama esiintyy alkukahdennuksessa, kun alkukahdennuksen laukaisua
seuraa vokaali:
"anna olla". Joskus tulee, joskus ei. Riippuu päivästä, säästä,
bridgeparista
ja arpakuution silmäluvuista. Hämärästi muistelen, että
sitä yritettiin joskus saada erääseen yliopistolliseen syntikkaan
äänteeksi
(voin kyllä muistaa väärinkin), mutta lukija ei ollut
mitenkään konsistenssi lukieassaan. Tosin toki lukeminen eroaa
vapaasta puheesta.

-n
Continue reading on narkive:
Search results for 'Suomen kielen puhesynteesi ja ortografia' (Questions and Answers)
6
replies
Kuinka "fianchetto" todella lausutaan?
started 2020-01-23 21:28:21 UTC
shakki
Loading...