Hypothesis

48 Matching Annotations

Oct 2019
sites.google.com sites.google.com

02 Tokenizace - NovaMorf

1
1. tomas_jelinek 09 Oct 2019
  
  in Public
  
  a 2. úrovni tokenizace lze spojit tři tokeny z 1. fáze (Hodinová, spojovník a Spurná) v jediný:
  
  Je otázka, jestli je to praktické, vzniká nám tím jakási introflexe... Spíš bych nechal i na 2. úrovni roztokané.
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/02
Sep 2019
sites.google.com sites.google.com

08-15 Agregáty - NovaMorf

3
1. tomas_jelinek 23 Sep 2019
  
  in Public
  
  Agregát popisuje slovní tvar, který zastupuje dva nebo více slovních tvarů (složek agregátu) a většinou mu není možné přiřadit jednoduše slovní druh.
  
  Domníváme se se Sašou, že by bylo žádoucí definovat v rámci NovaMorf u agregátů i (možné) dělení ortografických slov na syntaktická slova. Ortografické slovo by zůstalo jako "hlavní", ale jasně se řekne, že pro účely syntaktického zpracování lze agregát rozdělit na syntaktická slova, odpovídající níže v kapitole uvedeným kombinacím lemma+tag: naň: na|ň očs: o|č|s dělals: dělal|s abyste: a|byste kdybychom: kdy|bychom. U "abyste", "kdybychom" je to poněkud nepřirozené, ale asi nejlepší řešení. Nežádáme "interpretované tokeny" jako v UD.
2. tomas_jelinek 16 Sep 2019
  
  in Public
  
  Jejich rozpoznání je velmi snadné – odtržení koncového -s u neznámých slov ponechá rozpoznatelný slovní tvar.
  
  To bohužel není úplně spolehlivé, tj. zdaleka ne každé nerozpoznané slovo končící na "s", které po odejmutí koncového "s" je rozpoznáno jako slovo běžně se v češtině vyskytující (dejme tomu substantivum), je skutečně agregátem. Pletou se do toho frekventovaná slova s anglickým původem, dále překlepy a slití předložky "s" s předchozím slovem v důsledku OCR a podobně. Nicméně to je věc spíše technická, ne koncepční.
3. tomas_jelinek 16 Sep 2019
  
  in Public
  
  sse
  
  se
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-15
sites.google.com sites.google.com

08-14 Neznámá slova - NovaMorf

3
1. tomas_jelinek 16 Sep 2019
  
  in Public
  
  Pokud je tvar nespisovný, ale v úzu častý, chápe se jako synonymní se standardním tvarem.
  
  Rozhodující je tedy frekvence? A kde je hranice? Bude-li třeba překlep / "chybný" tvar jako "jesm" nebo "vísledek" frekventovaný (jak moc?), má se s ním zacházet jako s variantou slova, které pisatel zřejmě zamýšlel?
2. tomas_jelinek 16 Sep 2019
  
  in Public
  
  ři
  
  či
3. tomas_jelinek 16 Sep 2019
  
  in Public
  
  naprosto nesrozumitelný překlep
  
  Text si tu protiřečí. Na jednom místě "naprosto nesrozumitelný překlep" (což podle mě implikuje, že překlepy "srozumitelné" se značkují), o kousek níže se jako příklady neznámých slov vzniklých překlepy uvádějí právě tyto "srozumitelné" překlepy: překep, jesm, vísledek... Prosím o vyjasnění.
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-14
sites.google.com sites.google.com

08-13 Symboly - NovaMorf

3
1. tomas_jelinek 16 Sep 2019
  
  in Public
  
  lemma(?!!!!?!!!?) =?
  
  Výše v tabulce normalizováno (asi správné řešení) takto: ?!
2. tomas_jelinek 16 Sep 2019
  
  in Public
  
  lemma(!??????!?) =!
  
  Výše v tabulce normalizováno (asi správné řešení) takto: !?
3. tomas_jelinek 16 Sep 2019
  
  in Public
  
  jinak je to levá, resp. pravá závorka.
  
  Pozn. relativně často také jako improvizovaná šipka, "->", "--->" apod., cca 1000 výskytů v SYNv7 (oproti cca 2000 výskytů užití jako závorky).
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-13
sites.google.com sites.google.com

08-12 Afixové segmenty - NovaMorf

1
1. tomas_jelinek 16 Sep 2019
  
  in Public
  
  spojovníkem, mezerou, lomítkem
  
  Pozn. může být i kombinace uvedených, např. lomítko plus spojovník: Součet dílčích základů daně vašeho/-í manžela/-ky
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-12
sites.google.com sites.google.com

08-10 Částice - NovaMorf

1
1. tomas_jelinek 16 Sep 2019
  
  in Public
  
  NovaMorf ovšem pracuje pouze s jednoslovnými výrazy a stejně tak tomu je i u odpověďových částic.
  
  Asi by bylo namístě upřesnit, že (jak vyplývá z jiných částí koncepce) součásti víceslovných částicových výrazů NovaMorf neiterpretuje nutně jako částice, např. v "jasně že ne" je "že" jen spojka, je to tak? A "jasně"? To může být i jednoslovná pozitivní odpověď ("Jdeš na oběd?" "Jasně!")?
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-10
sites.google.com sites.google.com

08-01 Substantiva - NovaMorf

1
1. tomas_jelinek 06 Sep 2019
  
  in Public
  
  2 – genitiv (hradů)
  
  Prosím o vyjasnění zde, mám dojem, neřešeného jevu "Palackého náměstí". V "pražské" morfologické anotaci se "Palackého" považuje v tomto kontextu za adjektivum (nesklonné). Jak se k tomu staví NovaMorf? Považuje typ Palackého náměstí a Negrelliho viadukt za genitiv substantiva nebo nesklonné adjektivum z tohoto genitivu odvozené?
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-01
sites.google.com sites.google.com

08-08 Spojky - NovaMorf

1
1. tomas_jelinek 06 Sep 2019
  
  in Public
  
  (mezi členy rovnocennými)
  
  ?? Zkopírováno od koordinačních, ale v subordinačním vztahu členy na stejné úrovni nejsou, opravit prosím.
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-08
sites.google.com sites.google.com

08-07 Předložky - NovaMorf

5
1. tomas_jelinek 06 Sep 2019
  
  in Public
  
  Lemmatem obou podob je vícenásobné lemma
  
  Takže předložka "od" bude mít čtyřnásobné lemma {od, ode, vod, vode}? Není to zbytečně komplikované, opravdu je k něčemu užitečné dávat do vícenásobného lemmatu vokalizovanou variantu? Ovšem bude-li mít celé vícenásobné lemma jednoho reprezentanta, jak navrhuji už v odd. 04, pak je to OK.
  
  V závěru tohoto oddílu se ale říká něco jiného: vícenásobné lemma jen pro složitější případy, ne pro vokalizaci, ne pro protetické v.
2. tomas_jelinek 06 Sep 2019
  
  in Public
  
  (i) buď globální mutací a lemmatem identickým se základní podobou předložky (u vokalizovaných předložek a předložek s protetickým v-)
  
  Toto řešení se mi zamlouvá více než výše popisované řešení s vícenásobným lemmatem i pro vokalizované předložky a předložky s protetickým v {od, ode, vod, vode}. Nicméně je v rozporu s výše uvedeným.
3. tomas_jelinek 06 Sep 2019
  
  in Public
  
  a) jednoznačně desambiguovat – toto řešení volíme
  
  S volbou souhlasím, jen by bylo dobře doplnit kritérium volby jednoho z více možných řešení: frekvence? Tj. častěji se (v určitém kontextu) vyskytující rekce se volí v případě víceznačnosti (třeba spor o 4 je výrazně častější než spor o 6, tudíž v případě víceznačnosti se volí spor o 4?).
4. tomas_jelinek 06 Sep 2019
  
  in Public
  
  anotují se pouze předložky jednoslovné. Anotace víceslovných předložek (víceslovných struktur) se může svěřit nějakému modulu v rámci šíře pojatého syntaktického zpracování textu.
  
  Nejde o to, jaký systém bude provádět jakou anotaci. Tady by mělo hlavně zaznít, zda se v koncepci NovaMorf jednotlivé složky toho, co se třeba v PDT považuje za víceslovné předložky, budou anotovat jako samostatná slova bez jakékoli předložkové interpretace (tedy v souvislosti s: předložka, substantivum, předložka), nebo ne. Je to rozhodnutí, které má svá pro a proti, ale formulace zde by měla jasněji říct, co a jak.
5. tomas_jelinek 06 Sep 2019
  
  in Public
  
  hodnota „V“
  
  Hodnota "F" (vzhledem k: vzhledem má "RF-----").
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-07
sites.google.com sites.google.com

04 Lemmatizace - NovaMorf

1
1. tomas_jelinek 06 Sep 2019
  
  in Public
  
  (1) Vícenásobné lemma globální mutace
  
  Z čistě praktického hlediska je žádoucí, aby mělo vícenásobné lemma, např. {okénko, okýnko, vokýnko} nebo {skrz, skrze, skrzevá, krz, krze, krzevá} jednoho reprezentanta, je jasné, že nebude vždy jednoznačné, které z lemmat zvolit, ale dostat v nějakém frekvenčním seznamu šesti- (nebo více) položkový seznam místo jednoho lemmatu by nebylo praktické. Primárně asi lemma s nulovou globální mutací, bude-li takových více, pak (asi) to frekventovanější, těžko říct...
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/04
sites.google.com sites.google.com

08-06 Adverbia - NovaMorf

3
1. tomas_jelinek 06 Sep 2019
  
  in Public
  
  u pravidelně tvořených deadjektivních adverbií
  
  Opravit formulaci... kategorie DEG se bude "sledovat" u všech adverbií; u těch, která nejsou pravidelně tvořena z adjektiv, bude jiná lemmatizace, ale kategorie DEG se bude určovat také.
2. tomas_jelinek 05 Sep 2019
  
  in Public
  
  Ze screenshot
  
  Já screenshot nevidím...
3. tomas_jelinek 05 Sep 2019
  
  in Public
  
  pododíly
  
  pododdíly ?
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-06
sites.google.com sites.google.com

08-05 Slovesa - NovaMorf

2
1. tomas_jelinek 05 Sep 2019
  
  in Public
  
  vypouštíme možnost tvoření přechodníku přítomného pro dokonavá slovesa
  
  Přechodník přítomný u dokonavých sloves se skutečně téměř neužívá a většina výskytů v SYNv7 jsou nesmysly, ale je opravdu nutné doložené (jakžtakž) smysluplné tvary záměrně vyřazovat ze slovníku, když už tam jsou? Zastaralé, ale užívané: řka, řkouc, řkouce; vezma ... Nešikovné, ale užívané: přijda, přijdouce, nechaje, nechajíc, počnouc ...
2. tomas_jelinek 05 Sep 2019
  
  in Public
  
  guesseru
  
  Za předpokladu, že se takový guesser využije... O guesseru se v koncepci mluví několikrát, ale vždy velmi vágně. Pokud by se nějaký guesser měl využívat, je třeba popsat jeho funkci přesněji.
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-05
sites.google.com sites.google.com

08-04 Číslovky - NovaMorf

4
1. tomas_jelinek 05 Sep 2019
  
  in Public
  
  Takovéto řetězce nutno tokenizovat výhradně takto: n-tý
  
  Není to v rozporu s principy tokenizace dvou úrovní? Na první úrovni by se dle obecnějších pravidel tokenizace mělo tokenizovat jako n - tý ? Týká se také x-tý, k-tý, i-tý, j-tý apod. (v SYNv7 se vyskytují všechny víckrát, nejčastěji samozřejmě x-tý).
2. tomas_jelinek 05 Sep 2019
  
  in Public
  
  Jednou
  
  Je reálné rozlišovat automatickou desambiguací (bez ohledu na postup) "jednou" ve smyslu "jedenkrát" a "jednou" ve smyslu "někdy/kdysi"? V některých kontextech asi ano (např. "ještě jednou"), ale obecně?
3. tomas_jelinek 04 Sep 2019
  
  in Public
  
  mí
  
  dosavadními
4. tomas_jelinek 04 Sep 2019
  
  in Public
  
  pododíly
  
  pododdíly
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-04
sites.google.com sites.google.com

08-03 Zájmena - NovaMorf

1
1. tomas_jelinek 04 Sep 2019
  
  in Public
  
  3.1.1 Osobní zájmena (v užším smyslu)
  
  Možná by stálo za to dát sem poznámku, že tvary osobních zájmen třetí osoby po předložce a bez předložky (jemu / k němu; jemuž / k němuž) se řeší v bodě 4.2 (flektivní mutace).
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/08-03
Aug 2019
sites.google.com sites.google.com

05 Morfologické kategorie a jejich hodnoty - NovaMorf

11
1. tomas_jelinek 14 Aug 2019
  
  in Public
  
  Vzhledem k tomu, že jde o problém velmi rozsáhlý a mnohotvárný, domníváme se, že jednoduché řešení ani neexistuje.
  
  OK, jednoduché řešení zřejmě skutečně neexistuje, ale pro praktické nasazení je nutné podrobněji popsat, jak konkrétně bude značkování mutací vypadat, jak s ním bude moci pracovat uživatel. Přímo v tagu? A pozičně? Pak by byly tagy neprakticky dlouhé... Přímo v tagu, ale stylem atribut - hodnota? Tím by se narušila praktičnost pozičního systému :-( Samostatně jako dodatečný atribut?
  
  Navrhněte prosím řešení...
2. tomas_jelinek 14 Aug 2019
  
  in Public
  
  z-s klauzule-klausule z-s
  
  Co když bude v jednom slově více globálních mutací stejného typu s odlišnou hodnotou, viz výše uvedený izomorfismus?
3. tomas_jelinek 14 Aug 2019
  
  in Public
  
  15 Mutace
  
  Rozumím-li tomu správně, nemohou být mutace (na rozdíl od všech výše uvedených gram. kategorií) pojaty jako jeden znak v pozičním tagsetu. Bylo by asi vhodné popsat, jak se s tím v tagsetu vyrovnat, zda navrhujete, aby byly v pozičním tagsetu hodnoty mutací uvedeny samostatně mimo tag, nebo máte nějaké jiné řešení...
4. tomas_jelinek 09 Aug 2019
  
  in Public
  
  Proto jmenný tvar nemůže být hodnotou kategorie poddruh
  
  Možná zde rovnou poznamenat, že informace o jmenném tvaru je v tagu jinde, bod 13.
5. tomas_jelinek 09 Aug 2019
  
  in Public
  
  v omezené míře i substantiva (hlava nehlava)
  
  V jak moc omezené míře? V první větě se píše o omezené míře a uvedený příklad je skutečně specifický (hlava nehlava), což naznačuje, že by se za negativní považovala jen substantiva s negací ve specifických spojeních (např. Zeman Nezeman, Sobotka Nesobotka, Zaorálek Nezaorálek). O něco níže je ale formulace jiná: pro záporné slovní tvary substantivní (nevýhoda)... Což je i ve shodě s bodem 6.2 u substantiv, kde se hodnota negace přiřazuje (až na výjimky) všem substantivům s prefixem ne-, u nichž existuje pozitivní tvar... Takže je tu drobný rozpor, chtělo by to asi upravit formulaci zde (v omezené míře číslovky (nemnoho).
6. tomas_jelinek 09 Aug 2019
  
  in Public
  
  )
  
  Chybí uzavření druhé závorky.
7. tomas_jelinek 09 Aug 2019
  
  in Public
  
  substantiva
  
  Adjektiva ! Substantiva asi ne...
8. tomas_jelinek 09 Aug 2019
  
  in Public
  
  Tyto kategorie je v případě zkratek vhodné podspecifikovat (ponecháním nedesambiguovaných alternativ), tedy nesnažit se za každou cenu jim přiřadit konkrétní hodnotu.
  
  U mnoha zkratek, zvláště těch víceznačných, skutečně nelze (bez dokonalého porozumění textu) určit gramatické kategorie jako rod, číslo, leckdy i pád. Jinde však uvádíte "Nepřipouštíme proměnné (sdružené hodnoty)" (což je asi dobře). Budeme-li muset gram. kategorie u zkratek podspecifikovat, zbývá tedy jen možnost předložit uživateli více tagů pro jednu zkratku, v případě neznámého rodu, čísla a pádu třeba 50 tagů??? To by bylo velmi nepraktické. Nebylo by lepší u zkratek kategorie prostě neurčovat?
9. tomas_jelinek 09 Aug 2019
  
  in Public
  
  poprvé, zaprvé…
  
  "Poprvé", "zaprvé" jsou opravdu řadové? A bude to nějak (v tagu) odlišeno od klasických řadových (druhý, několikátý)?
10. tomas_jelinek 08 Aug 2019
  
  in Public
  
  pomocná
  
  Rozlišuje se tedy mezi slovesem "být" pomocným a slovesem "být" existenčním a sponovým?
11. tomas_jelinek 08 Aug 2019
  
  in Public
  
  kombinace a otazníků
  
  Zřejmě kombinace vykřičníků a otazníků.
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/05
sites.google.com sites.google.com

02 Tokenizace - NovaMorf

5
1. tomas_jelinek 06 Aug 2019
  
  in Public
  
  nikoli jako tři tokeny-tečky
  
  A co případy, kdy je v textu teček za sebou více než tři?
2. tomas_jelinek 06 Aug 2019
  
  in Public
  
  tokenizovat jako jediný token
  
  Rozpoznání případů, kdy čárka patří do čísla a kdy ne, je velmi problematické. Opět vycházíme-li z ideálního textu zcela dle typografických norem, bude vše v pořádku, ale v reálných textech leckdy chybí po čárce (myšlené jako čárka oddělující čísla, nikoli jako čárka desetinná) mezera. Tudíž bych raději držel čísla a interpunkci odděleně. Lingvisticky to samozřejmě zajímavé není, pokud ta čárka náhodou nemá oddělovat dvě klauze.
3. tomas_jelinek 06 Aug 2019
  
  in Public
  
  Řetězec?!,?!?!,?!?!?!...
  
  Body 5. a 6. jdou zbytečně do detailu. Je-li skutečně třeba sjednocovat (normalizovat) posloupnosti interpunkčních znaků, pak by v jednom bodu mohl být seznam takových. Normalizuje-li se ?!?!?!, asi by se mělo podobně zacházet s ????? nebo !!!!!, ???!!!, !!!??? (v SYNv7 častější než ?!?!?!) a podobně.
4. tomas_jelinek 06 Aug 2019
  
  in Public
  
  Jednotlivé typy se liší podle případné tokenizace na 2. úrovni.
  
  Uvedené typy zdaleka nepokrývají všechny (ani ty frekventované), viz např. Praha-Západ (jak na 2. úrovni tokenizace)? Není asi na místě pokoušet se zde o úplný výčet všech relevantních typů, chtělo by to ale podrobněji vysvětlit obecné principy, kterými se navrhovaná tokenizace na 2. úrovni má řídit, tedy obecně co se má spojit a co se má držet rozdělené a proč.
5. tomas_jelinek 06 Aug 2019
  
  in Public
  
  5kilovému
  
  Z hlediska zpracování jakéhokoli textu (např. velkého korpusu typu SYN) je problematické povolit jakoukoli kombinaci písmen a číslic. V dokonalém, bezchybném textu klidně, ale platí to i pro shluky jako "v18hodin"?
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/02
sites.google.com sites.google.com

01 Projekt NovaMorf - NovaMorf

2
1. tomas_jelinek 06 Aug 2019
  
  in Public
  
  českých textů
  
  Návrh by měl být aplikovatelný / rozšiřitelný i na texty nestandardní, jak dialektické, tak např. žákovské korpusy, korpusy nerodilých mluvčích aj.
2. tomas_jelinek 06 Aug 2019
  
  in Public
  
  případně parsery
  
  Parsery bych nezmiňoval, součástí NovaMorf není návrh syntaktického značkování.
Visit annotations in context

Annotators

tomas_jelinek

URL

sites.google.com/site/koncepcenovamorf/01

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL