lingwistyka informatyczna.PDF

(364 KB) Pobierz
645690310 UNPDF
Celeizadanialingwistykiinformatycznej
MaciejPiasecki
Lingwistykainformatyczna (inaczej komputerowa )wyłoniłasi¦zpotrzebybu-
dowaniasystemówinformatycznychanalizuj¡cychwpewiensposóbwypowiedziw
j¦zykunaturalnymirzadkokiedyokre±lasi¦,czympowinnasi¦zajmowa¢,najcz¦-
±ciejrejestrujesi¦to,czymbadaczewjejbardzoszerokichiniejasnychgranicachsi¦
zajmuj¡,np.(Sproat etal. ,2000,Mitkov,2003).Poniewa»trudnojestopisywa¢cele
izadaniadziedziny,którejzakresjestniejasny,rozpoczniemyrozwa»aniaodpróby
okre±leniasubiektywnienacechowanejcz¦±ciwspólnejró»norodnychpogl¡dównato,
czymjest lingwistykainformatyczna .Spróbujemyznale¹¢tonajbardziejcharakte-
rystycznemiejscepomi¦dzymetodamiinformatykiaobszaramibada«lingwistyki,
którenajlepiejreprezentujespecyfik¦lingwistykiinformatycznej.Nast¦pnieprzyj-
rzymysi¦silenap¦dowejcałejdziedziny—marzeniomokonstruowaniuniezwykłych
systemówinformatycznych.Przedstawionezostan¡dwapodstawoweparadygmaty
uprawianialingwistykiinformatycznej.Naszkicowanezostan¡pó¹niejtypoweetapy
przetwarzaniaj¦zykanaturalnegowsystemieinformatycznym.Nakoniecwybrane
problemyimetodypoddamyszczegółowejanaliziejakomikro-ilustracjecałejdzie-
dziny.
1Zakreslingwistykiinformatycznej
Angielskanazwa ComputationalLinguistics pojawiłasi¦porazpierwszywlatach
sze±¢dziesi¡tychwsłynnymraporciekomitetu AutomaticLanguageProcessingAdvi-
soryCommittee (ALPAC,1966)ameryka«skiejagencji NationalAcademyofScience
(NSC)dotycz¡cymdalszychperspektywrozwoju automatycznegotłumaczenia (ang.
MachineTranslation ).AutoremnazwybyłDavidHays(Kay,2003).Wnioskidoty-
cz¡ceautomatycznegotłumaczeniabyłynegatywneiautorzyraportuwskazywalina
konieczno±¢przesuni¦cia±rodkówfinansowychnabardziejfundamentalnebadaniaw
zakresiemodelij¦zykanaturalnegoi przetwarzaniaj¦zykanaturalnego (ang. Natural
LanguageProcessing ,cz¦stoNLP)(dalejPJN).Taksi¦jednakniestało,fundusze
zostaływstrzymanenadługiczas,alenazwadlarodz¡cejsi¦dziedzinypozostała
ju»wj¦zykuangielskim.
Pracanaukowafinansowanaze±rodkównanauk¦wlatach2005-2008przezMinisterstwoNauki
iSzkolnictwaWy»szegojakoprojektbadawczynr3T11C01829.Chciałbymwyrazi¢gor¡ce
podzi¦kowaniadrAdamowiPrzepiórkowskiemuzabardzownikliw¡iszczegółow¡recenzj¦niniejszej
pracyorazcenneuwagi,którebyłybardzopomocnewopracowaniuostatecznejwersji.Dzi¦kuj¦
równie»innymosobomkomentuj¡cymwst¦pn¡wersj¦pracy,mi¦dzyinnymiMagdalenieIwa«skiej,
drAgnieszcePiaseckiej,prof.drhab.PiotrowiStalmaszczykowiorazmgrPawłowiMazurowi.
InstytutInformatykiStosowanej,PolitechnikaWrocławska, maciej.piasecki@pwr.wroc.pl
1
Wprzypadkupolskiejnazwydziedziny,pierwszaw¡tpliwo±¢powstajeju»wkwe-
stii,jakiegoprzymiotnikapowinni±myu»ywa¢wnazwie: informatyczna ,czyte»
komputerowa .Redaktorzy Encyklopediij¦zykoznawstwaogólnego (Pola«ski,1993)
preferuj¡okre±lenie„informatyczna”,podobniejaknp.JanuszBie«(2003,2006).
ZkoleinawielustronachWWW,np.(Przepiórkowski,2006),jakiwwielupra-
cachu»ywasi¦okre±lania„komputerowa”,np.(Lewandowska-Tomaszczyk,2006).
Patrz¡cnaangielski¹ródłosłów— ComputationalLinguistics —słowo computatio-
nal literalnieodnosisi¦dooblicze«,mo»emyjejednakwspółcze±nieopisywa¢jako
wyra»aj¡ceprocesprzetwarzaniainformacji.Nawi¡zuj¡cdopolskiejtradycjiu»y-
waniasłowa informatyka orazdofaktu,»ekomputeryobecnies¡wykorzystywane
przedewszystkimdo przetwarzaniainformacji ,wersjanazwy lingwistykainforma-
tyczna wydajesi¦by¢bli»szaistotysprawy 1 .
Dziedzinalingwistykiinformatycznej(LI)jestpojmowanawbardzozró»nico-
wanysposób.Wdu»ymuproszczeniujestonanieustaj¡coprzesuwanazobszaru
informatykiwobszarzahaczaj¡cyolingwistyk¦.Mo»nate»dostrzecokresowetren-
dywpojmowaniuzakresuLI.
RuslanMitkovokre±laogólnieLIjako„interdyscyplinarn¡dziedzin¦zajmuj¡c¡
si¦przetwarzaniemj¦zykaprzezkomputery”(Mitkov,2003,pp.ix).ZygmuntSaloni
w„Encyklopediij¦zykoznawstwaogólnego”(Pola«ski,1993)postrzegaLIjakosztu-
k¦tworzeniatechnologiipomocnychwuprawianiulingwistykiorazjakodziedzin¦
zajmuj¡c¡si¦konstruowaniemsystemówprzetwarzaj¡cychj¦zyknaturalny.Spro-
at etal. (2000)wartykule ComputationalLinguistics zamieszczonymw Handbook
ofLinguistics uchylaj¡si¦oddefiniowaniapoj¦cialingwistykiinformatycznej.Nie
podaj¡nawetpełnegojejzakresu.Zamiastdefinicjiwyró»niaj¡jedynieniektórejej
dziedziny: parsingskładniowy (ang.„ syntacticparsing ”), analizadyskursu (ang.„ di-
scourseanalysis ”), morfologiaifonologiainformatyczna (ang.„ computationalmor-
phologyandphonology ”), metodyopartenakorpusie (ang.„ corpusbasedmethods ”).
Swójwybórmotywuj¡historycznie,koncentruj¡csi¦nadziedzinachonajdłu»szej
historiirozwoju.Wida¢jednakztychprzykładów,»enaciskjestpoło»onyraczejna
metodyprzetwarzania,ni»namodeleopisuj¡cej¦zyk.
Zbada«ankietowychporównuj¡cychprogramynauczaniaLInaró»nychuni-
wersytetach±wiataprzeprowadzonychprzezBonnieDorr(1993)wyłaniasi¦silna
dominacjazagadnie«zwi¡zanychzbudow¡programówprzetwarzaj¡cychj¦zykna-
turalny.Wtymuj¦ciuLIjestpoprostucz¦±ci¡sztucznejinteligencji.Wtymsamym
czasie,podobneopiniewyra»aJohnNerbonne(1996),twierdz¡c,»eLIopierasi¦na
teoriachlingwistycznychi»ezadaniemLIjestkonstruowaniealgorytmóworazar-
chitekturumo»liwiaj¡cychprzetwarzaniej¦zykanaturalnegowoparciuoteteorie.
Jednakniejesttopogl¡ddominuj¡cywewspółczesnymnauczaniuLI,np.Janusz
S.Bie«wopisieprowadzonegoprzezsiebiekursuLIpisze:
„Przezlingwistyk¦informatyczn¡rozumiemybadaniej¦zykanatu-
ralnegozpunktuwidzeniapotrzebimo»liwo±ciprzetwarzaniatekstów.”
(Bie«,2006)
1 Przecie»komputertotylkonarz¦dzieu»ytedoprzetwarzaniainformacji,ato,cojestistotne
wzastosowaniachinformatykitoprocesprzetwarzaniainformacjizapomoc¡narz¦dzikomputero-
wych.
2
BonnieWebber(2001)wychodziodPJNjakoszerokiejdziedzinyobejmuj¡cej
wszystko,comacokolwiekwspólnegozzastosowaniemkomputerówdoanalizywy-
ra»e«wj¦zykunaturalnym.Nast¦pnieformułujedwapodstawowecelePJN:
„modelowanieludzkiegorozumieniaigeneracjij¦zykanaturalnego
jakosystemuprocesówprzetwarzaj¡cychinformacj¦.Pracewtej
dziedzinies¡zwyklenazywane lingwistyk¡informatyczn¡ .”
„wyposa»eniekomputerówwmechanizmyanalizyigenerowaniaj¦-
zykanaturalnegowceludostarczeniau»ytecznejusługi.Pracewtej
dziedziniebyłynazywane stosowanymprzetwarzaniemj¦zykanatu-
ralnego (ang. AppliedNLP ), in»ynieri¡j¦zykanaturalnego (ang.
NaturalLanguageEngineering ),lubostatnio technologi¡j¦zykow¡
(ang. LanguageTechnology ).”
Wuj¦ciuWebberLIiin»ynieriaj¦zykanaturalnegotodwiepoddziedzinyPJN.
Jeszczedalejwstron¦lingwistykiprzesuwaLIRolandHausser(2001),któryjako
podstaw¦LIpostrzegamodelowaniekomunikacjiczłowiekazkomputerem.Według
Haussera,LIpowinnakoncentrowa¢si¦nakonstruowaniumodeliwyja±niaj¡cych
„naturalnyprzekazinformacji”wsposób: spójnyfunkcjonalnie , precyzyjnymatema-
tycznie i efektywnyobliczeniowo .PonadtoLIpowinnazapewni¢empiryczniewy-
czerpuj¡cyopisdlawszystkichpoziomówanalizyj¦zykanaturalnego,tj.:leksykonu,
morfologii,składni,semantykiipragmatyki.Stopie«precyzjitegoopisupowinien
by¢„wystarczaj¡cydlaprzetwarzania”.
Powy»ejzaprezentowanychzostałojedyniekilkawybranychstanowisk.U±rednia-
j¡c,nale»ałobylokowa¢LIwobszarzesztucznejinteligencji.Mo»najednakpostawi¢
przekornepytanie:poconamwtedy‘lingwistyka’wnazwietejpoddziedzinyinfor-
matyki?Dlategote»,wdu»ejmierzebior¡cpoduwag¦ mójsubiektywnypunktwidze-
nia ,jakopodstaw¦dalszychrozwa»a«, proponuj¦ przyj¡¢dwaostatnie,współczesne
głosy,tj.(Hausser,2001,Webber,2001).Upraszczaj¡cznacznie:LIjestdziedzin¡
wiedzyzajmuj¡c¡si¦tworzeniem‘implementowalnych’modelij¦zykanaturalnego 2 .
CelemLIjestkonstruowaniemodeliopisuj¡cychj¦zyknaturalnyjakonarz¦-
dziekomunikacji.Modeli,którebior¡poduwag¦adekwatno±¢empiryczn¡opisu,
mo»liwo±cirealizacyjnepostronieinformatykiorazskuteczno±¢działaniawkon-
kretnychzastosowaniach.Lingwistykainformatycznastanowipomostpomi¦dzynie-
ograniczon¡utylitarnymcelemlingwistyk¡ogóln¡askoncentrowan¡nametodach
przetwarzaniasztuczn¡inteligencj¡(lub±ci±lejPJN,chocia»mo»elepiejtuu»y¢
któr¡±zbardziejwspółczesnychnazwwymienianychponi»ej).
Wdalszejcz¦±cirozdziału,krótkoprzeanalizujemyte»relacjepomi¦dzyLIa
innymipokrewnymidziedzinami(poszczególneznichnies¡rozł¡czne),takimijak:
PJN, lingwistykaformalna (wtym semantykaformalna ), in»ynieriaj¦zykanatural-
nego (dalejIJN), in»ynierialingwistyczna czyte» technologiej¦zykowe .
2 Wartotujeszczerazuczciwiepodkre±li¢,»etradycjaobejmowaniamianemLIpraktyczniecałe-
goobszaruPJN,wł¡czaj¡cwtoalgorytmy,przetwarzaniajestbardzosilnawliteraturze.Definicja
zakresuLIproponowanawniniejszejpracyjestpocz¦±cipolemicznazpogl¡demtradycyjnym,apo
cz¦±cistanowipropozycj¦opisuwyłaniaj¡cegosi¦podziałunaLIiinnedziedzinynaukipowi¡zane
zautomatyczn¡analiz¡j¦zykanaturalnego.
3
2Marzenia
Chybanajlepszymbod¹cemdorozwojusztucznejinteligencjis¡marzenia,abyzbu-
dowa¢urz¡dzenie,systemczyte»programkomputerowyonieosi¡galnychdotej
porywłasno±ciach.Aktualnie,wramachtakichwymarzonychrozwi¡za«mo»nawy-
mieni¢:
1.systempotrafi¡cyznale¹¢wsieciWWWdokładnieteitylkoteinformacje,
którychpotrzebujejegou»ytkownik;systemktóremumo»emydokładnieopisa¢
to,czegopotrzebujemy;
2.system,którypotrafiuczy¢si¦ztekstowychpodr¦czników,który‘przeczyta’
podr¦czniknapisanydlaucznia-człowiekairozwi¡»epozytywnietestsformu-
łowanydlaucznia-człowieka;
3.systemumo»liwiaj¡cydost¦pdoinformacjizapisanejwinnymj¦zykunatural-
nymni»j¦zykiznaneu»ytkownikowilubnawetumo»liwiaj¡cykomunikowanie
si¦zapomoc¡nieznanegoj¦zyka,tzn.systemzapewniaj¡cypewienrodzaj
automatycznegotłumaczenia;
4.orazsystemumo»liwiaj¡cyprost¡głosow¡komunikacj¦zkomputerem.
Systemwymienionywpunkcieczwartymjesttolokalnyproblem,specyficznydla
j¦zykapolskiego.Ci¡glebrakujerozwi¡za«wdziedzinierozpoznawaniamowyci¡głej
wj¦zykupolskim,chocia»bynapoziomieosi¡gni¦tymju»dlaj¦zykaangielskiego.
Pozostałepunktywydaj¡si¦by¢do±¢uniwersalne.Punktpierwszydajewyraz
ogólnejzmianieorientacji,jak¡przyniósłwIJNrozwójsieciWWW.Ogromnemasy
tekstuzalegaj¡ceWWWs¡pozazasi¦giemmo»liwo±cipoznawczychpojedyncze-
goczłowieka.Celemtechnologiiznanychpodnazw¡ wydobywaniainformacji (ang.
InformationExtraction )jestumo»liwienieprecyzyjnegoopisywaniaposzukiwanej
informacjiprzezu»ytkownika,anast¦pniejejodnajdywaniawdokumentachzgro-
madzonychwsieciInternetiwyra»aniajejwformieumo»liwiaj¡cejszybkieprze-
gl¡daniedu»ejliczbyzgromadzonychinformacji.Zadaniemsystemówwydobywania
informacjijestnietylkoprzeanalizowanieinformacjiwyra»onejwj¦zykunatural-
nym,alete»uczynienietegowbardzoograniczonymczasiedlabardzodu»ejliczby
dokumentów.Wymagatostosowania płytkiejanalizy wyra»e«j¦zykowych,por.pod-
rozdz.4.5,przyjednoczesnymzachowaniuskuteczno±ci.
Punktdrugitostosunkowonowaidea.Takjaktechnikiwydobywanieinforma-
cjikład¡nacisknauproszczon¡szybk¡analiz¦składniowo-semantyczn¡tekstu,tak
przy uczeniusi¦ztekstu (ang. LearningbyReading )(Hovy,2006)analizawyra»e«
j¦zykowychmusiby¢dokładnaipoł¡czonazodpowiedni¡reprezentacj¡wydobytej
wiedzywsystemieinformatycznym.Uczeniesi¦ztekstuprzezsystemyinformatycz-
netobardzoodległemarzenie,alejednocze±niewielkiewyzwaniedladziedzinLIi
IJN.
Punkttrzeciprzypomina,»ewieluludziposługujesi¦tylkojednymj¦zykiemna-
turalnym,informacjawsieciWWWjestzapisanawwieluj¦zykach,a automatyczne
tłumaczenie (ang. MachineTranslation ),np.(Arnold etal. ,1994,Senellart etal. ,
2001,Jassem,2006),stałosi¦»yciowymproblememdlawieluludzikorzystaj¡cych
zsieciInternetlubb¦d¡cychwpodró»y(np.nawakacjach).
4
3Trendy
Zanimprzeprowadzimyanaliz¦zakresupracbadawczychwdziedzinieLIniezb¦d-
nychdozrealizowaniamarze«opisanychwpoprzednimrozdziale,wartoprzyjrze¢
si¦ogólnymtrendomwrozwojumetod.
HistoryczniepierwszymparadygmatemprowadzeniapracwramachLIjestkon-
strukcjaprecyzyjnychmodeliodnosz¡cychsi¦doposzczególnychpoziomówopisu
j¦zykanaturalnego.Modeleteformułowanes¡wpostaciwyra»e«pewnegoprecy-
zyjnegoj¦zykaformalnego,np.gramatykawpostacizbioruprecyzyjnych,formal-
nychregułalboleksykonwpostacirekordów(zbiorówcech)ookre±lonymformacie.
Modeletakiewymagaj¡du»ejdbało±ciospójno±¢setekanawettysi¦cywyra»e«
składowych(np.regułgramatyki).Naichpodstawiekonstruowanes¡narz¦dzia
przetwarzaj¡cej¦zyknaturalny,np. parser 3 zob.4.5,jestbudowanynapodstawie
formalnejgramatyki.Du»ymproblemem,pozaspójno±ci¡,jestuzyskiwaniedobrego
pokryciaopisywanegopodzbioruj¦zykowego.Wrazzrozbudow¡teorii,zwykleco-
razwi¦cejpracykosztujerozszerzanieopisywanegopodzbioru.Jednakbardzocz¦sto
paradygmatr¦cznego,deklaratywnegoopisudominujewkonstrukcjipraktycznych
systemów,np.stanowipodstaw¦budowysystemuautomatycznegotłumaczenia Po-
leng (Grali«ski,2002,Jassem,2002,2006).
Jaksłuszniezauwa»aYorickWilks(2003),wostatnimokresieobserwujemyre-
nesansmetodempirycznychwLIiIJN,tzn.metodopartychnaanalizieibudo-
waniumodeliopisuj¡cychdaneempirycznez korpusów ,np.(McEneryiWilson,
2001,McEnery,2003,Lewandowska-Tomaszczyk,2005,2006,Mykowiecka,2007),
dodajmymo»liwiedu»ychkorpusów.
Ponadtonaciskzostałprzeniesionyzr¦cznejbudowydu»ych zasobów (np.ró»-
negorodzajusłownikówlubgramatyk,zob.rozdz.4),nametody(paradygmat)ich
automatycznejakwizycji zkorpusów.LIjesttu±ci±leł¡czonazmetodami maszyno-
wegouczeniasi¦ i statystycznegouczeniasi¦ .Zadaniemlingwistówinformatycznych
jestopracowaniemodelu,okre±lenietego,copozyskujemyzkorpusui,cojestnie-
stety»mudne,przygotowaniesamegokorpusu,najcz¦±ciej anotowanego naró»nych
poziomachopisuj¦zykanaturalnego,zob.podrozdz.4.3.
Przygotowywanieanotowanychkorpusówjestzaj¦ciemnajcz¦±ciejmozolnym,
jednakparadygmatautomatycznejakwizycjizasobówwydajesi¦by¢jedynymroz-
s¡dnymrozwi¡zaniemdlaIJN.Problememjestnietylkopracochłonno±¢r¦cznie
konstruowanychzasobów,alerównie»zdolno±¢dopanowanianadtworemtakdu»ej
wielko±ci.Szczególniejesttowidocznewkonstruowaniudu»ychgramatyk,np.do-
±wiadczeniatwórcówsystemuautomatycznegotłumaczenia Rosetta (Rosetta,1994),
jakrównie»wdziedziniekonstruowaniazasobówsemantykileksykalnej,A.Lenci
etal. (2001)konkluduj¡:
„Całkowityrozmiarwiedzyniezb¦dnydowyja±nieniasposobu,wjaki
znaczeniasłówwchodz¡wewzajemnerelacjewkontek±cielubdystrybu-
3 Programdokonuj¡cyautomatycznejanalizyskładniowej,inaczej analizatorskładniowy ,wyni-
kiemjegodziałaniajestopisstrukturyskładniowejwypowiedzij¦zykowejzapisanywkategoriach
przyj¦tegoformalizmuopisuskładni.Bardzocz¦stojesttodrzeworozbioruskładniowegozapisane
wpewnymformalizmieskładniowym.
5
Zgłoś jeśli naruszono regulamin