2019.03.26Arhaluk Рейхсканцлер, а Вы читали Курдюмова?
Нет, особо не читал. У него вроде все исследования узкопрофильные, только для китайского языка, к европейским не очень применимо?
2019.03.26Arhaluk Рейхсканцлер, а Вы читали Курдюмова? Нет, особо не читал. У него вроде все исследования узкопрофильные, только для китайского языка, к европейским не очень применимо? 2019.03.26
2019.03.26yf102 Arhaluk, Конечно, существительное. Вы де-факто пытаетесь вывести морфологию из синтаксиса. По-моему, это не такие уж связанные вещи. 1) Синтаксис, то есть деление на члены предложения - управляет распределением смысла по фразе: смысл идет от подлежащего к сказуемому, затем растекается по обстоятельствам и дополнениям; любые вещи типа выноса темы вперед, инверсии слов и тд - все это оказывается важно. 2) Морфология, то есть деление слов по частям речи и все то, что вы перечисляли (склонения существительных, спряжения глаголов и тд) отвечает нашему представлению о мире, в котором нужно как минимум отличать объект, его действие и его состояние, то есть существительные, глаголы и прилагательные. Попробуйте, например, такой ключевой момент морфологии как наличие или отсутствие гендерных окончаний у имен существительных (мужского, женского, среднего рода) вывести из анализа структуры предложения (например, из того факта, что существительное часто является подлежащим, или что там вы говорили выше) и увидите, насколько это несвязанные вещи. По-моему, это не очень перспективный путь - искать морфологические корреляты синтаксических закономерностей. 2019.03.26
2019.03.25Arhaluk Рейхсканцлер, простите, если глупый вопрос. Что такое chinese-gsd, почему это "модель"? Пакет udpipe хранит описания внутренней логики каждого языка в специальных контейнерах, называемых "моделями". Каждый язык имеет свою модель, которую надо подгружать перед работой с конкретным языком. Одна и та же фраза на русском и белорусском может оказаться совершенно разной по грамматической структуре (например, слово "собака" в белорусском будет мужского рода). Для китайского стандартная модель называется "chinese-gsd", в ней в 14 мегабайтах описана вся основная грамматика (но, видимо, все-таки не вся, раз эксперимент показывает, что разбивка на слова хромает) 2019.03.25
Попробовал применить для этой цели R.
Код такой: Код: library(udpipe) И вот что на выходе: Сначала проверяем на заведомо простых данных Код: f(c('她','很','好','看')) Видно, что все в порядке. Теперь берем примеры выше: Код: f(c('光临', '不好意思', '隔壁', '怪不得', '难怪', '如今', '舍不得', '业余', '宁可', '未必', '往返')) Тут уже видны косяки (未必 явно не VERB), да и вообще детектирование многосложных слов прихрамывает. Но все-таки это уже лучше чем ничего. Если кто R пользуется и у него есть своя натренированная модель вместо стандартной chinese-gsd, то можно поделиться на форуме. Если кто R не пользуется, но интересно пощупать, что это вообще такое - есть хорошие бесплатные курсы для лингвистов, к примеру, тут. 2019.03.25
|