lingwistyka informatyczna.PDF
(
364 KB
)
Pobierz
645690310 UNPDF
Celeizadanialingwistykiinformatycznej
MaciejPiasecki
†
Lingwistykainformatyczna
(inaczej
komputerowa
)wyłoniłasi¦zpotrzebybu-
dowaniasystemówinformatycznychanalizuj¡cychwpewiensposóbwypowiedziw
j¦zykunaturalnymirzadkokiedyokre±lasi¦,czympowinnasi¦zajmowa¢,najcz¦-
±ciejrejestrujesi¦to,czymbadaczewjejbardzoszerokichiniejasnychgranicachsi¦
zajmuj¡,np.(Sproat
etal.
,2000,Mitkov,2003).Poniewa»trudnojestopisywa¢cele
izadaniadziedziny,którejzakresjestniejasny,rozpoczniemyrozwa»aniaodpróby
okre±leniasubiektywnienacechowanejcz¦±ciwspólnejró»norodnychpogl¡dównato,
czymjest
lingwistykainformatyczna
.Spróbujemyznale¹¢tonajbardziejcharakte-
rystycznemiejscepomi¦dzymetodamiinformatykiaobszaramibada«lingwistyki,
którenajlepiejreprezentujespecyfik¦lingwistykiinformatycznej.Nast¦pnieprzyj-
rzymysi¦silenap¦dowejcałejdziedziny—marzeniomokonstruowaniuniezwykłych
systemówinformatycznych.Przedstawionezostan¡dwapodstawoweparadygmaty
uprawianialingwistykiinformatycznej.Naszkicowanezostan¡pó¹niejtypoweetapy
przetwarzaniaj¦zykanaturalnegowsystemieinformatycznym.Nakoniecwybrane
problemyimetodypoddamyszczegółowejanaliziejakomikro-ilustracjecałejdzie-
dziny.
1Zakreslingwistykiinformatycznej
Angielskanazwa
ComputationalLinguistics
pojawiłasi¦porazpierwszywlatach
sze±¢dziesi¡tychwsłynnymraporciekomitetu
AutomaticLanguageProcessingAdvi-
soryCommittee
(ALPAC,1966)ameryka«skiejagencji
NationalAcademyofScience
(NSC)dotycz¡cymdalszychperspektywrozwoju
automatycznegotłumaczenia
(ang.
MachineTranslation
).AutoremnazwybyłDavidHays(Kay,2003).Wnioskidoty-
cz¡ceautomatycznegotłumaczeniabyłynegatywneiautorzyraportuwskazywalina
konieczno±¢przesuni¦cia±rodkówfinansowychnabardziejfundamentalnebadaniaw
zakresiemodelij¦zykanaturalnegoi
przetwarzaniaj¦zykanaturalnego
(ang.
Natural
LanguageProcessing
,cz¦stoNLP)(dalejPJN).Taksi¦jednakniestało,fundusze
zostaływstrzymanenadługiczas,alenazwadlarodz¡cejsi¦dziedzinypozostała
ju»wj¦zykuangielskim.
Pracanaukowafinansowanaze±rodkównanauk¦wlatach2005-2008przezMinisterstwoNauki
iSzkolnictwaWy»szegojakoprojektbadawczynr3T11C01829.Chciałbymwyrazi¢gor¡ce
podzi¦kowaniadrAdamowiPrzepiórkowskiemuzabardzownikliw¡iszczegółow¡recenzj¦niniejszej
pracyorazcenneuwagi,którebyłybardzopomocnewopracowaniuostatecznejwersji.Dzi¦kuj¦
równie»innymosobomkomentuj¡cymwst¦pn¡wersj¦pracy,mi¦dzyinnymiMagdalenieIwa«skiej,
drAgnieszcePiaseckiej,prof.drhab.PiotrowiStalmaszczykowiorazmgrPawłowiMazurowi.
†
InstytutInformatykiStosowanej,PolitechnikaWrocławska,
maciej.piasecki@pwr.wroc.pl
1
Wprzypadkupolskiejnazwydziedziny,pierwszaw¡tpliwo±¢powstajeju»wkwe-
stii,jakiegoprzymiotnikapowinni±myu»ywa¢wnazwie:
informatyczna
,czyte»
komputerowa
.Redaktorzy
Encyklopediij¦zykoznawstwaogólnego
(Pola«ski,1993)
preferuj¡okre±lenie„informatyczna”,podobniejaknp.JanuszBie«(2003,2006).
ZkoleinawielustronachWWW,np.(Przepiórkowski,2006),jakiwwielupra-
cachu»ywasi¦okre±lania„komputerowa”,np.(Lewandowska-Tomaszczyk,2006).
Patrz¡cnaangielski¹ródłosłów—
ComputationalLinguistics
—słowo
computatio-
nal
literalnieodnosisi¦dooblicze«,mo»emyjejednakwspółcze±nieopisywa¢jako
wyra»aj¡ceprocesprzetwarzaniainformacji.Nawi¡zuj¡cdopolskiejtradycjiu»y-
waniasłowa
informatyka
orazdofaktu,»ekomputeryobecnies¡wykorzystywane
przedewszystkimdo
przetwarzaniainformacji
,wersjanazwy
lingwistykainforma-
tyczna
wydajesi¦by¢bli»szaistotysprawy
1
.
Dziedzinalingwistykiinformatycznej(LI)jestpojmowanawbardzozró»nico-
wanysposób.Wdu»ymuproszczeniujestonanieustaj¡coprzesuwanazobszaru
informatykiwobszarzahaczaj¡cyolingwistyk¦.Mo»nate»dostrzecokresowetren-
dywpojmowaniuzakresuLI.
RuslanMitkovokre±laogólnieLIjako„interdyscyplinarn¡dziedzin¦zajmuj¡c¡
si¦przetwarzaniemj¦zykaprzezkomputery”(Mitkov,2003,pp.ix).ZygmuntSaloni
w„Encyklopediij¦zykoznawstwaogólnego”(Pola«ski,1993)postrzegaLIjakosztu-
k¦tworzeniatechnologiipomocnychwuprawianiulingwistykiorazjakodziedzin¦
zajmuj¡c¡si¦konstruowaniemsystemówprzetwarzaj¡cychj¦zyknaturalny.Spro-
at
etal.
(2000)wartykule
ComputationalLinguistics
zamieszczonymw
Handbook
ofLinguistics
uchylaj¡si¦oddefiniowaniapoj¦cialingwistykiinformatycznej.Nie
podaj¡nawetpełnegojejzakresu.Zamiastdefinicjiwyró»niaj¡jedynieniektórejej
dziedziny:
parsingskładniowy
(ang.„
syntacticparsing
”),
analizadyskursu
(ang.„
di-
scourseanalysis
”),
morfologiaifonologiainformatyczna
(ang.„
computationalmor-
phologyandphonology
”),
metodyopartenakorpusie
(ang.„
corpusbasedmethods
”).
Swójwybórmotywuj¡historycznie,koncentruj¡csi¦nadziedzinachonajdłu»szej
historiirozwoju.Wida¢jednakztychprzykładów,»enaciskjestpoło»onyraczejna
metodyprzetwarzania,ni»namodeleopisuj¡cej¦zyk.
Zbada«ankietowychporównuj¡cychprogramynauczaniaLInaró»nychuni-
wersytetach±wiataprzeprowadzonychprzezBonnieDorr(1993)wyłaniasi¦silna
dominacjazagadnie«zwi¡zanychzbudow¡programówprzetwarzaj¡cychj¦zykna-
turalny.Wtymuj¦ciuLIjestpoprostucz¦±ci¡sztucznejinteligencji.Wtymsamym
czasie,podobneopiniewyra»aJohnNerbonne(1996),twierdz¡c,»eLIopierasi¦na
teoriachlingwistycznychi»ezadaniemLIjestkonstruowaniealgorytmóworazar-
chitekturumo»liwiaj¡cychprzetwarzaniej¦zykanaturalnegowoparciuoteteorie.
Jednakniejesttopogl¡ddominuj¡cywewspółczesnymnauczaniuLI,np.Janusz
S.Bie«wopisieprowadzonegoprzezsiebiekursuLIpisze:
„Przezlingwistyk¦informatyczn¡rozumiemybadaniej¦zykanatu-
ralnegozpunktuwidzeniapotrzebimo»liwo±ciprzetwarzaniatekstów.”
(Bie«,2006)
1
Przecie»komputertotylkonarz¦dzieu»ytedoprzetwarzaniainformacji,ato,cojestistotne
wzastosowaniachinformatykitoprocesprzetwarzaniainformacjizapomoc¡narz¦dzikomputero-
wych.
2
BonnieWebber(2001)wychodziodPJNjakoszerokiejdziedzinyobejmuj¡cej
wszystko,comacokolwiekwspólnegozzastosowaniemkomputerówdoanalizywy-
ra»e«wj¦zykunaturalnym.Nast¦pnieformułujedwapodstawowecelePJN:
•
„modelowanieludzkiegorozumieniaigeneracjij¦zykanaturalnego
jakosystemuprocesówprzetwarzaj¡cychinformacj¦.Pracewtej
dziedzinies¡zwyklenazywane
lingwistyk¡informatyczn¡
.”
•
„wyposa»eniekomputerówwmechanizmyanalizyigenerowaniaj¦-
zykanaturalnegowceludostarczeniau»ytecznejusługi.Pracewtej
dziedziniebyłynazywane
stosowanymprzetwarzaniemj¦zykanatu-
ralnego
(ang.
AppliedNLP
),
in»ynieri¡j¦zykanaturalnego
(ang.
NaturalLanguageEngineering
),lubostatnio
technologi¡j¦zykow¡
(ang.
LanguageTechnology
).”
Wuj¦ciuWebberLIiin»ynieriaj¦zykanaturalnegotodwiepoddziedzinyPJN.
Jeszczedalejwstron¦lingwistykiprzesuwaLIRolandHausser(2001),któryjako
podstaw¦LIpostrzegamodelowaniekomunikacjiczłowiekazkomputerem.Według
Haussera,LIpowinnakoncentrowa¢si¦nakonstruowaniumodeliwyja±niaj¡cych
„naturalnyprzekazinformacji”wsposób:
spójnyfunkcjonalnie
,
precyzyjnymatema-
tycznie
i
efektywnyobliczeniowo
.PonadtoLIpowinnazapewni¢empiryczniewy-
czerpuj¡cyopisdlawszystkichpoziomówanalizyj¦zykanaturalnego,tj.:leksykonu,
morfologii,składni,semantykiipragmatyki.Stopie«precyzjitegoopisupowinien
by¢„wystarczaj¡cydlaprzetwarzania”.
Powy»ejzaprezentowanychzostałojedyniekilkawybranychstanowisk.U±rednia-
j¡c,nale»ałobylokowa¢LIwobszarzesztucznejinteligencji.Mo»najednakpostawi¢
przekornepytanie:poconamwtedy‘lingwistyka’wnazwietejpoddziedzinyinfor-
matyki?Dlategote»,wdu»ejmierzebior¡cpoduwag¦
mójsubiektywnypunktwidze-
nia
,jakopodstaw¦dalszychrozwa»a«,
proponuj¦
przyj¡¢dwaostatnie,współczesne
głosy,tj.(Hausser,2001,Webber,2001).Upraszczaj¡cznacznie:LIjestdziedzin¡
wiedzyzajmuj¡c¡si¦tworzeniem‘implementowalnych’modelij¦zykanaturalnego
2
.
CelemLIjestkonstruowaniemodeliopisuj¡cychj¦zyknaturalnyjakonarz¦-
dziekomunikacji.Modeli,którebior¡poduwag¦adekwatno±¢empiryczn¡opisu,
mo»liwo±cirealizacyjnepostronieinformatykiorazskuteczno±¢działaniawkon-
kretnychzastosowaniach.Lingwistykainformatycznastanowipomostpomi¦dzynie-
ograniczon¡utylitarnymcelemlingwistyk¡ogóln¡askoncentrowan¡nametodach
przetwarzaniasztuczn¡inteligencj¡(lub±ci±lejPJN,chocia»mo»elepiejtuu»y¢
któr¡±zbardziejwspółczesnychnazwwymienianychponi»ej).
Wdalszejcz¦±cirozdziału,krótkoprzeanalizujemyte»relacjepomi¦dzyLIa
innymipokrewnymidziedzinami(poszczególneznichnies¡rozł¡czne),takimijak:
PJN,
lingwistykaformalna
(wtym
semantykaformalna
),
in»ynieriaj¦zykanatural-
nego
(dalejIJN),
in»ynierialingwistyczna
czyte»
technologiej¦zykowe
.
2
Wartotujeszczerazuczciwiepodkre±li¢,»etradycjaobejmowaniamianemLIpraktyczniecałe-
goobszaruPJN,wł¡czaj¡cwtoalgorytmy,przetwarzaniajestbardzosilnawliteraturze.Definicja
zakresuLIproponowanawniniejszejpracyjestpocz¦±cipolemicznazpogl¡demtradycyjnym,apo
cz¦±cistanowipropozycj¦opisuwyłaniaj¡cegosi¦podziałunaLIiinnedziedzinynaukipowi¡zane
zautomatyczn¡analiz¡j¦zykanaturalnego.
3
2Marzenia
Chybanajlepszymbod¹cemdorozwojusztucznejinteligencjis¡marzenia,abyzbu-
dowa¢urz¡dzenie,systemczyte»programkomputerowyonieosi¡galnychdotej
porywłasno±ciach.Aktualnie,wramachtakichwymarzonychrozwi¡za«mo»nawy-
mieni¢:
1.systempotrafi¡cyznale¹¢wsieciWWWdokładnieteitylkoteinformacje,
którychpotrzebujejegou»ytkownik;systemktóremumo»emydokładnieopisa¢
to,czegopotrzebujemy;
2.system,którypotrafiuczy¢si¦ztekstowychpodr¦czników,który‘przeczyta’
podr¦czniknapisanydlaucznia-człowiekairozwi¡»epozytywnietestsformu-
łowanydlaucznia-człowieka;
3.systemumo»liwiaj¡cydost¦pdoinformacjizapisanejwinnymj¦zykunatural-
nymni»j¦zykiznaneu»ytkownikowilubnawetumo»liwiaj¡cykomunikowanie
si¦zapomoc¡nieznanegoj¦zyka,tzn.systemzapewniaj¡cypewienrodzaj
automatycznegotłumaczenia;
4.orazsystemumo»liwiaj¡cyprost¡głosow¡komunikacj¦zkomputerem.
Systemwymienionywpunkcieczwartymjesttolokalnyproblem,specyficznydla
j¦zykapolskiego.Ci¡glebrakujerozwi¡za«wdziedzinierozpoznawaniamowyci¡głej
wj¦zykupolskim,chocia»bynapoziomieosi¡gni¦tymju»dlaj¦zykaangielskiego.
Pozostałepunktywydaj¡si¦by¢do±¢uniwersalne.Punktpierwszydajewyraz
ogólnejzmianieorientacji,jak¡przyniósłwIJNrozwójsieciWWW.Ogromnemasy
tekstuzalegaj¡ceWWWs¡pozazasi¦giemmo»liwo±cipoznawczychpojedyncze-
goczłowieka.Celemtechnologiiznanychpodnazw¡
wydobywaniainformacji
(ang.
InformationExtraction
)jestumo»liwienieprecyzyjnegoopisywaniaposzukiwanej
informacjiprzezu»ytkownika,anast¦pniejejodnajdywaniawdokumentachzgro-
madzonychwsieciInternetiwyra»aniajejwformieumo»liwiaj¡cejszybkieprze-
gl¡daniedu»ejliczbyzgromadzonychinformacji.Zadaniemsystemówwydobywania
informacjijestnietylkoprzeanalizowanieinformacjiwyra»onejwj¦zykunatural-
nym,alete»uczynienietegowbardzoograniczonymczasiedlabardzodu»ejliczby
dokumentów.Wymagatostosowania
płytkiejanalizy
wyra»e«j¦zykowych,por.pod-
rozdz.4.5,przyjednoczesnymzachowaniuskuteczno±ci.
Punktdrugitostosunkowonowaidea.Takjaktechnikiwydobywanieinforma-
cjikład¡nacisknauproszczon¡szybk¡analiz¦składniowo-semantyczn¡tekstu,tak
przy
uczeniusi¦ztekstu
(ang.
LearningbyReading
)(Hovy,2006)analizawyra»e«
j¦zykowychmusiby¢dokładnaipoł¡czonazodpowiedni¡reprezentacj¡wydobytej
wiedzywsystemieinformatycznym.Uczeniesi¦ztekstuprzezsystemyinformatycz-
netobardzoodległemarzenie,alejednocze±niewielkiewyzwaniedladziedzinLIi
IJN.
Punkttrzeciprzypomina,»ewieluludziposługujesi¦tylkojednymj¦zykiemna-
turalnym,informacjawsieciWWWjestzapisanawwieluj¦zykach,a
automatyczne
tłumaczenie
(ang.
MachineTranslation
),np.(Arnold
etal.
,1994,Senellart
etal.
,
2001,Jassem,2006),stałosi¦»yciowymproblememdlawieluludzikorzystaj¡cych
zsieciInternetlubb¦d¡cychwpodró»y(np.nawakacjach).
4
3Trendy
Zanimprzeprowadzimyanaliz¦zakresupracbadawczychwdziedzinieLIniezb¦d-
nychdozrealizowaniamarze«opisanychwpoprzednimrozdziale,wartoprzyjrze¢
si¦ogólnymtrendomwrozwojumetod.
HistoryczniepierwszymparadygmatemprowadzeniapracwramachLIjestkon-
strukcjaprecyzyjnychmodeliodnosz¡cychsi¦doposzczególnychpoziomówopisu
j¦zykanaturalnego.Modeleteformułowanes¡wpostaciwyra»e«pewnegoprecy-
zyjnegoj¦zykaformalnego,np.gramatykawpostacizbioruprecyzyjnych,formal-
nychregułalboleksykonwpostacirekordów(zbiorówcech)ookre±lonymformacie.
Modeletakiewymagaj¡du»ejdbało±ciospójno±¢setekanawettysi¦cywyra»e«
składowych(np.regułgramatyki).Naichpodstawiekonstruowanes¡narz¦dzia
przetwarzaj¡cej¦zyknaturalny,np.
parser
3
zob.4.5,jestbudowanynapodstawie
formalnejgramatyki.Du»ymproblemem,pozaspójno±ci¡,jestuzyskiwaniedobrego
pokryciaopisywanegopodzbioruj¦zykowego.Wrazzrozbudow¡teorii,zwykleco-
razwi¦cejpracykosztujerozszerzanieopisywanegopodzbioru.Jednakbardzocz¦sto
paradygmatr¦cznego,deklaratywnegoopisudominujewkonstrukcjipraktycznych
systemów,np.stanowipodstaw¦budowysystemuautomatycznegotłumaczenia
Po-
leng
(Grali«ski,2002,Jassem,2002,2006).
Jaksłuszniezauwa»aYorickWilks(2003),wostatnimokresieobserwujemyre-
nesansmetodempirycznychwLIiIJN,tzn.metodopartychnaanalizieibudo-
waniumodeliopisuj¡cychdaneempirycznez
korpusów
,np.(McEneryiWilson,
2001,McEnery,2003,Lewandowska-Tomaszczyk,2005,2006,Mykowiecka,2007),
dodajmymo»liwiedu»ychkorpusów.
Ponadtonaciskzostałprzeniesionyzr¦cznejbudowydu»ych
zasobów
(np.ró»-
negorodzajusłownikówlubgramatyk,zob.rozdz.4),nametody(paradygmat)ich
automatycznejakwizycji
zkorpusów.LIjesttu±ci±leł¡czonazmetodami
maszyno-
wegouczeniasi¦
i
statystycznegouczeniasi¦
.Zadaniemlingwistówinformatycznych
jestopracowaniemodelu,okre±lenietego,copozyskujemyzkorpusui,cojestnie-
stety»mudne,przygotowaniesamegokorpusu,najcz¦±ciej
anotowanego
naró»nych
poziomachopisuj¦zykanaturalnego,zob.podrozdz.4.3.
Przygotowywanieanotowanychkorpusówjestzaj¦ciemnajcz¦±ciejmozolnym,
jednakparadygmatautomatycznejakwizycjizasobówwydajesi¦by¢jedynymroz-
s¡dnymrozwi¡zaniemdlaIJN.Problememjestnietylkopracochłonno±¢r¦cznie
konstruowanychzasobów,alerównie»zdolno±¢dopanowanianadtworemtakdu»ej
wielko±ci.Szczególniejesttowidocznewkonstruowaniudu»ychgramatyk,np.do-
±wiadczeniatwórcówsystemuautomatycznegotłumaczenia
Rosetta
(Rosetta,1994),
jakrównie»wdziedziniekonstruowaniazasobówsemantykileksykalnej,A.Lenci
etal.
(2001)konkluduj¡:
„Całkowityrozmiarwiedzyniezb¦dnydowyja±nieniasposobu,wjaki
znaczeniasłówwchodz¡wewzajemnerelacjewkontek±cielubdystrybu-
3
Programdokonuj¡cyautomatycznejanalizyskładniowej,inaczej
analizatorskładniowy
,wyni-
kiemjegodziałaniajestopisstrukturyskładniowejwypowiedzij¦zykowejzapisanywkategoriach
przyj¦tegoformalizmuopisuskładni.Bardzocz¦stojesttodrzeworozbioruskładniowegozapisane
wpewnymformalizmieskładniowym.
5
Plik z chomika:
vlik
Inne pliki z tego folderu:
Slownik mowy ciala Polakow.pdf
(1839 KB)
Historical Issues in Hamito Semitic and Indo European languages Zagadnienia historyczne w chamito semickich i indoeuropejskich jezykach.pdf
(949 KB)
psychologia-wywierania-wplywu-i-psychomanipulacji.pdf
(1446 KB)
Palaea Historica The Second Slavonic Translation Commentary and Text.pdf
(1023 KB)
Lingwistyka kulturowa i międzykulturowa 2018.pdf
(921 KB)
Inne foldery tego chomika:
Antysemityzm
DRUGA RzeczPospolita
Encyklopedya_obrazowa_systematyczna_z_226_tablic_w_PDF
Fizjologia
J. POLSKI
Zgłoś jeśli
naruszono regulamin