Словарь эвфемизмов китайского языка

Yaroslav

Arhaluk, постараюсь написать, пишу диссер по ним в Германии, но в данный момент в поездке. Главная проблема - разграничить эвфемизмы, ставшие частью общего лексикона, "фоссилизировавшиеся" в слова и обороты обычного носителя, и эвфемизмы, воспринимающиеся как литературные цитаты, как приём, как новинка. Тут поможет только опрос носителей в таком масштабе, который диссертанту в одиночку едва ли возможен...

Рейхсканцлер

2019.04.05Yaroslav Arhaluk, постараюсь написать, пишу диссер по ним в Германии, но в данный момент в поездке. Главная проблема - разграничить эвфемизмы, ставшие частью общего лексикона, "фоссилизировавшиеся" в слова и обороты обычного носителя, и эвфемизмы, воспринимающиеся как литературные цитаты, как приём, как новинка. Тут поможет только опрос носителей в таком масштабе, который диссертанту в одиночку едва ли возможен...

Какие опросы, вы что? Эти все задачи решаются стандартными статистическими методами: во-первых, все интересующие слова делятся на группы сходных слов (через кластеризацию на базе любой метрики, хоть даже Левенштейна), затем берутся массивы текстовых данных (блоги, форумы, соцсети) за разные периоды времени и для каждой группы слов строится модель по типу нелинейной регрессии, описывающая изменение частоты использования слов в каждой группе с течением времени. Визуально это - кучка графиков, по одному графику на каждую группу сходных слов.

Далее на основе этих моделей уже делается классификация, выделяющая те группы, слова которых относятся к устойчивым языковым единицам (стабильный тренд), те, которые относятся к новинкам (восходящий тренд), и те, которые стремительно превращаются в архаизмы (нисходящий тренд).

То есть, весь метод = кластеризация + регрессия + классификация. Все делается автоматически, полсотни строк в любом R, надо только сунуть на вход кучку текстовых файлов.

Опросы пары десятков людей на улицах - это годится только для курсовой на первом курсе, но не для диплома и уж тем более не для диссертации.

Ветер

Рейхсканцлер, однако на выходе мы получим данные, которые будут отражать ответ на вопрос "как все это происходит среди определенной прослойки населения". Скорее всего мы получим перекос в сторону возрастной группы молодежи, скорее всего получим людей с высоким уровнем образования и более-менее высокими доходами итд итп. А все возрастные категории или, например, жители небольших городов выпадут нафик...\
В этом смысле опрос разных категорий лиц на улице будет выглядеть убедительнее...

Рейхсканцлер

2019.04.05Ветер Рейхсканцлер, однако на выходе мы получим данные, которые будут отражать ответ на вопрос "как все это происходит среди определенной прослойки населения". Скорее всего мы получим перекос в сторону возрастной группы молодежи, скорее всего получим людей с высоким уровнем образования итд итп. А все возрастные категории или, например, жители небольших городов выпадут нафик...\
В этом смысле опрос разных категорий лиц на улице будет выглядеть убедительнее...

Тут много всяких факторов.

Во-первых, тренды складываются из составляющих разного уровня значимости. Одно дело - реконструкция картины средней по стране, другое дело - учет влияния возрастных, религиозных, гендерных факторов. Некоторые локальные вещи нельзя поймать текстовым анализом, потому что, действительно, не все сидят "в интернетах".

Во-вторых, очень трудно представить респондента, который при предъявлении ему сотни эвфемизмов смог бы отрефлексировать и надежно отделить устойчивые выражения от литературных новинок. Поэтому возникает влияние субъективно-оценочного фактора, которое может убить всю ценность опроса. Статистический анализ текстов более объективен.

В-третьих, лексика отдельно взятого пожилого человека меняется мало. Поэтому лучшей средой отыскивания трендов является анализ наиболее восприимчивой к "трендам" среды - то есть молодежной, а в ней все уже оцифровано.

Но все эти сомнения разрешаются одним простым способом: сужением и уточнением темы исследования таким образом, чтобы предмет и метод стали лучше пригнаны друг к другу.

Yaroslav

Рейхсканцлер, спасибо, на выходных смогу показать эти рассуждения научнику и идти по менее затратному пути уже имеющихся корпусов вместо опросов. Как знать, может, Вы спасли меня: я человек очень внушаемый, Вы убеждаете!