- Oct 2019
-
sites.google.com sites.google.com
-
a 2. úrovni tokenizace lze spojit tři tokeny z 1. fáze (Hodinová, spojovník a Spurná) v jediný:
Je otázka, jestli je to praktické, vzniká nám tím jakási introflexe... Spíš bych nechal i na 2. úrovni roztokané.
-
- Sep 2019
-
sites.google.com sites.google.com
-
Agregát popisuje slovní tvar, který zastupuje dva nebo více slovních tvarů (složek agregátu) a většinou mu není možné přiřadit jednoduše slovní druh.
Domníváme se se Sašou, že by bylo žádoucí definovat v rámci NovaMorf u agregátů i (možné) dělení ortografických slov na syntaktická slova. Ortografické slovo by zůstalo jako "hlavní", ale jasně se řekne, že pro účely syntaktického zpracování lze agregát rozdělit na syntaktická slova, odpovídající níže v kapitole uvedeným kombinacím lemma+tag: naň: na|ň očs: o|č|s dělals: dělal|s abyste: a|byste kdybychom: kdy|bychom. U "abyste", "kdybychom" je to poněkud nepřirozené, ale asi nejlepší řešení. Nežádáme "interpretované tokeny" jako v UD.
-
Jejich rozpoznání je velmi snadné – odtržení koncového -s u neznámých slov ponechá rozpoznatelný slovní tvar.
To bohužel není úplně spolehlivé, tj. zdaleka ne každé nerozpoznané slovo končící na "s", které po odejmutí koncového "s" je rozpoznáno jako slovo běžně se v češtině vyskytující (dejme tomu substantivum), je skutečně agregátem. Pletou se do toho frekventovaná slova s anglickým původem, dále překlepy a slití předložky "s" s předchozím slovem v důsledku OCR a podobně. Nicméně to je věc spíše technická, ne koncepční.
-
sse
se
-
-
sites.google.com sites.google.com
-
Pokud je tvar nespisovný, ale v úzu častý, chápe se jako synonymní se standardním tvarem.
Rozhodující je tedy frekvence? A kde je hranice? Bude-li třeba překlep / "chybný" tvar jako "jesm" nebo "vísledek" frekventovaný (jak moc?), má se s ním zacházet jako s variantou slova, které pisatel zřejmě zamýšlel?
-
ři
či
-
naprosto nesrozumitelný překlep
Text si tu protiřečí. Na jednom místě "naprosto nesrozumitelný překlep" (což podle mě implikuje, že překlepy "srozumitelné" se značkují), o kousek níže se jako příklady neznámých slov vzniklých překlepy uvádějí právě tyto "srozumitelné" překlepy: překep, jesm, vísledek... Prosím o vyjasnění.
-
-
sites.google.com sites.google.com
-
lemma(?!!!!?!!!?) =?
Výše v tabulce normalizováno (asi správné řešení) takto: ?!
-
lemma(!??????!?) =!
Výše v tabulce normalizováno (asi správné řešení) takto: !?
-
jinak je to levá, resp. pravá závorka.
Pozn. relativně často také jako improvizovaná šipka, "->", "--->" apod., cca 1000 výskytů v SYNv7 (oproti cca 2000 výskytů užití jako závorky).
-
-
sites.google.com sites.google.com
-
spojovníkem, mezerou, lomítkem
Pozn. může být i kombinace uvedených, např. lomítko plus spojovník: Součet dílčích základů daně vašeho/-í manžela/-ky
-
-
sites.google.com sites.google.com
-
NovaMorf ovšem pracuje pouze s jednoslovnými výrazy a stejně tak tomu je i u odpověďových částic.
Asi by bylo namístě upřesnit, že (jak vyplývá z jiných částí koncepce) součásti víceslovných částicových výrazů NovaMorf neiterpretuje nutně jako částice, např. v "jasně že ne" je "že" jen spojka, je to tak? A "jasně"? To může být i jednoslovná pozitivní odpověď ("Jdeš na oběd?" "Jasně!")?
-
-
sites.google.com sites.google.com
-
2 – genitiv (hradů)
Prosím o vyjasnění zde, mám dojem, neřešeného jevu "Palackého náměstí". V "pražské" morfologické anotaci se "Palackého" považuje v tomto kontextu za adjektivum (nesklonné). Jak se k tomu staví NovaMorf? Považuje typ Palackého náměstí a Negrelliho viadukt za genitiv substantiva nebo nesklonné adjektivum z tohoto genitivu odvozené?
-
-
sites.google.com sites.google.com
-
(mezi členy rovnocennými)
?? Zkopírováno od koordinačních, ale v subordinačním vztahu členy na stejné úrovni nejsou, opravit prosím.
-
-
sites.google.com sites.google.com
-
Lemmatem obou podob je vícenásobné lemma
Takže předložka "od" bude mít čtyřnásobné lemma {od, ode, vod, vode}? Není to zbytečně komplikované, opravdu je k něčemu užitečné dávat do vícenásobného lemmatu vokalizovanou variantu? Ovšem bude-li mít celé vícenásobné lemma jednoho reprezentanta, jak navrhuji už v odd. 04, pak je to OK.
V závěru tohoto oddílu se ale říká něco jiného: vícenásobné lemma jen pro složitější případy, ne pro vokalizaci, ne pro protetické v.
-
(i) buď globální mutací a lemmatem identickým se základní podobou předložky (u vokalizovaných předložek a předložek s protetickým v-)
Toto řešení se mi zamlouvá více než výše popisované řešení s vícenásobným lemmatem i pro vokalizované předložky a předložky s protetickým v {od, ode, vod, vode}. Nicméně je v rozporu s výše uvedeným.
-
a) jednoznačně desambiguovat – toto řešení volíme
S volbou souhlasím, jen by bylo dobře doplnit kritérium volby jednoho z více možných řešení: frekvence? Tj. častěji se (v určitém kontextu) vyskytující rekce se volí v případě víceznačnosti (třeba spor o 4 je výrazně častější než spor o 6, tudíž v případě víceznačnosti se volí spor o 4?).
-
anotují se pouze předložky jednoslovné. Anotace víceslovných předložek (víceslovných struktur) se může svěřit nějakému modulu v rámci šíře pojatého syntaktického zpracování textu.
Nejde o to, jaký systém bude provádět jakou anotaci. Tady by mělo hlavně zaznít, zda se v koncepci NovaMorf jednotlivé složky toho, co se třeba v PDT považuje za víceslovné předložky, budou anotovat jako samostatná slova bez jakékoli předložkové interpretace (tedy v souvislosti s: předložka, substantivum, předložka), nebo ne. Je to rozhodnutí, které má svá pro a proti, ale formulace zde by měla jasněji říct, co a jak.
-
hodnota „V“
Hodnota "F" (vzhledem k: vzhledem má "RF-----").
-
-
sites.google.com sites.google.com
-
(1) Vícenásobné lemma globální mutace
Z čistě praktického hlediska je žádoucí, aby mělo vícenásobné lemma, např. {okénko, okýnko, vokýnko} nebo {skrz, skrze, skrzevá, krz, krze, krzevá} jednoho reprezentanta, je jasné, že nebude vždy jednoznačné, které z lemmat zvolit, ale dostat v nějakém frekvenčním seznamu šesti- (nebo více) položkový seznam místo jednoho lemmatu by nebylo praktické. Primárně asi lemma s nulovou globální mutací, bude-li takových více, pak (asi) to frekventovanější, těžko říct...
-
-
sites.google.com sites.google.com
-
u pravidelně tvořených deadjektivních adverbií
Opravit formulaci... kategorie DEG se bude "sledovat" u všech adverbií; u těch, která nejsou pravidelně tvořena z adjektiv, bude jiná lemmatizace, ale kategorie DEG se bude určovat také.
-
Ze screenshot
Já screenshot nevidím...
-
pododíly
pododdíly ?
-
-
sites.google.com sites.google.com
-
vypouštíme možnost tvoření přechodníku přítomného pro dokonavá slovesa
Přechodník přítomný u dokonavých sloves se skutečně téměř neužívá a většina výskytů v SYNv7 jsou nesmysly, ale je opravdu nutné doložené (jakžtakž) smysluplné tvary záměrně vyřazovat ze slovníku, když už tam jsou? Zastaralé, ale užívané: řka, řkouc, řkouce; vezma ... Nešikovné, ale užívané: přijda, přijdouce, nechaje, nechajíc, počnouc ...
-
guesseru
Za předpokladu, že se takový guesser využije... O guesseru se v koncepci mluví několikrát, ale vždy velmi vágně. Pokud by se nějaký guesser měl využívat, je třeba popsat jeho funkci přesněji.
-
-
sites.google.com sites.google.com
-
Takovéto řetězce nutno tokenizovat výhradně takto: n-tý
Není to v rozporu s principy tokenizace dvou úrovní? Na první úrovni by se dle obecnějších pravidel tokenizace mělo tokenizovat jako n - tý ? Týká se také x-tý, k-tý, i-tý, j-tý apod. (v SYNv7 se vyskytují všechny víckrát, nejčastěji samozřejmě x-tý).
-
Jednou
Je reálné rozlišovat automatickou desambiguací (bez ohledu na postup) "jednou" ve smyslu "jedenkrát" a "jednou" ve smyslu "někdy/kdysi"? V některých kontextech asi ano (např. "ještě jednou"), ale obecně?
-
mí
dosavadními
-
pododíly
pododdíly
-
-
sites.google.com sites.google.com
-
3.1.1 Osobní zájmena (v užším smyslu)
Možná by stálo za to dát sem poznámku, že tvary osobních zájmen třetí osoby po předložce a bez předložky (jemu / k němu; jemuž / k němuž) se řeší v bodě 4.2 (flektivní mutace).
-
- Aug 2019
-
sites.google.com sites.google.com
-
Vzhledem k tomu, že jde o problém velmi rozsáhlý a mnohotvárný, domníváme se, že jednoduché řešení ani neexistuje.
OK, jednoduché řešení zřejmě skutečně neexistuje, ale pro praktické nasazení je nutné podrobněji popsat, jak konkrétně bude značkování mutací vypadat, jak s ním bude moci pracovat uživatel. Přímo v tagu? A pozičně? Pak by byly tagy neprakticky dlouhé... Přímo v tagu, ale stylem atribut - hodnota? Tím by se narušila praktičnost pozičního systému :-( Samostatně jako dodatečný atribut?
Navrhněte prosím řešení...
-
z-s klauzule-klausule z-s
Co když bude v jednom slově více globálních mutací stejného typu s odlišnou hodnotou, viz výše uvedený izomorfismus?
-
15 Mutace
Rozumím-li tomu správně, nemohou být mutace (na rozdíl od všech výše uvedených gram. kategorií) pojaty jako jeden znak v pozičním tagsetu. Bylo by asi vhodné popsat, jak se s tím v tagsetu vyrovnat, zda navrhujete, aby byly v pozičním tagsetu hodnoty mutací uvedeny samostatně mimo tag, nebo máte nějaké jiné řešení...
-
Proto jmenný tvar nemůže být hodnotou kategorie poddruh
Možná zde rovnou poznamenat, že informace o jmenném tvaru je v tagu jinde, bod 13.
-
v omezené míře i substantiva (hlava nehlava)
V jak moc omezené míře? V první větě se píše o omezené míře a uvedený příklad je skutečně specifický (hlava nehlava), což naznačuje, že by se za negativní považovala jen substantiva s negací ve specifických spojeních (např. Zeman Nezeman, Sobotka Nesobotka, Zaorálek Nezaorálek). O něco níže je ale formulace jiná: pro záporné slovní tvary substantivní (nevýhoda)... Což je i ve shodě s bodem 6.2 u substantiv, kde se hodnota negace přiřazuje (až na výjimky) všem substantivům s prefixem ne-, u nichž existuje pozitivní tvar... Takže je tu drobný rozpor, chtělo by to asi upravit formulaci zde (v omezené míře číslovky (nemnoho).
-
)
Chybí uzavření druhé závorky.
-
substantiva
Adjektiva ! Substantiva asi ne...
-
Tyto kategorie je v případě zkratek vhodné podspecifikovat (ponecháním nedesambiguovaných alternativ), tedy nesnažit se za každou cenu jim přiřadit konkrétní hodnotu.
U mnoha zkratek, zvláště těch víceznačných, skutečně nelze (bez dokonalého porozumění textu) určit gramatické kategorie jako rod, číslo, leckdy i pád. Jinde však uvádíte "Nepřipouštíme proměnné (sdružené hodnoty)" (což je asi dobře). Budeme-li muset gram. kategorie u zkratek podspecifikovat, zbývá tedy jen možnost předložit uživateli více tagů pro jednu zkratku, v případě neznámého rodu, čísla a pádu třeba 50 tagů??? To by bylo velmi nepraktické. Nebylo by lepší u zkratek kategorie prostě neurčovat?
-
poprvé, zaprvé…
"Poprvé", "zaprvé" jsou opravdu řadové? A bude to nějak (v tagu) odlišeno od klasických řadových (druhý, několikátý)?
-
pomocná
Rozlišuje se tedy mezi slovesem "být" pomocným a slovesem "být" existenčním a sponovým?
-
kombinace a otazníků
Zřejmě kombinace vykřičníků a otazníků.
-
-
sites.google.com sites.google.com
-
nikoli jako tři tokeny-tečky
A co případy, kdy je v textu teček za sebou více než tři?
-
tokenizovat jako jediný token
Rozpoznání případů, kdy čárka patří do čísla a kdy ne, je velmi problematické. Opět vycházíme-li z ideálního textu zcela dle typografických norem, bude vše v pořádku, ale v reálných textech leckdy chybí po čárce (myšlené jako čárka oddělující čísla, nikoli jako čárka desetinná) mezera. Tudíž bych raději držel čísla a interpunkci odděleně. Lingvisticky to samozřejmě zajímavé není, pokud ta čárka náhodou nemá oddělovat dvě klauze.
-
Řetězec?!,?!?!,?!?!?!...
Body 5. a 6. jdou zbytečně do detailu. Je-li skutečně třeba sjednocovat (normalizovat) posloupnosti interpunkčních znaků, pak by v jednom bodu mohl být seznam takových. Normalizuje-li se ?!?!?!, asi by se mělo podobně zacházet s ????? nebo !!!!!, ???!!!, !!!??? (v SYNv7 častější než ?!?!?!) a podobně.
-
Jednotlivé typy se liší podle případné tokenizace na 2. úrovni.
Uvedené typy zdaleka nepokrývají všechny (ani ty frekventované), viz např. Praha-Západ (jak na 2. úrovni tokenizace)? Není asi na místě pokoušet se zde o úplný výčet všech relevantních typů, chtělo by to ale podrobněji vysvětlit obecné principy, kterými se navrhovaná tokenizace na 2. úrovni má řídit, tedy obecně co se má spojit a co se má držet rozdělené a proč.
-
5kilovému
Z hlediska zpracování jakéhokoli textu (např. velkého korpusu typu SYN) je problematické povolit jakoukoli kombinaci písmen a číslic. V dokonalém, bezchybném textu klidně, ale platí to i pro shluky jako "v18hodin"?
-
-
sites.google.com sites.google.com
-
českých textů
Návrh by měl být aplikovatelný / rozšiřitelný i na texty nestandardní, jak dialektické, tak např. žákovské korpusy, korpusy nerodilých mluvčích aj.
-
případně parsery
Parsery bych nezmiňoval, součástí NovaMorf není návrh syntaktického značkování.
-