![](../avatar.php?hash=39a89ca880fbcb4402bc57fcf0f4c9c4&size=60.png)
![]() 2019.04.05
2019.04.05 Какие опросы, вы что? Эти все задачи решаются стандартными статистическими методами: во-первых, все интересующие слова делятся на группы сходных слов (через кластеризацию на базе любой метрики, хоть даже Левенштейна), затем берутся массивы текстовых данных (блоги, форумы, соцсети) за разные периоды времени и для каждой группы слов строится модель по типу нелинейной регрессии, описывающая изменение частоты использования слов в каждой группе с течением времени. Визуально это - кучка графиков, по одному графику на каждую группу сходных слов. Далее на основе этих моделей уже делается классификация, выделяющая те группы, слова которых относятся к устойчивым языковым единицам (стабильный тренд), те, которые относятся к новинкам (восходящий тренд), и те, которые стремительно превращаются в архаизмы (нисходящий тренд). То есть, весь метод = кластеризация + регрессия + классификация. Все делается автоматически, полсотни строк в любом R, надо только сунуть на вход кучку текстовых файлов. Опросы пары десятков людей на улицах - это годится только для курсовой на первом курсе, но не для диплома и уж тем более не для диссертации. 2019.04.05
![]() В этом смысле опрос разных категорий лиц на улице будет выглядеть убедительнее...
百花齐放,百家争鸣
2019.04.05
2019.04.05 Тут много всяких факторов. Во-первых, тренды складываются из составляющих разного уровня значимости. Одно дело - реконструкция картины средней по стране, другое дело - учет влияния возрастных, религиозных, гендерных факторов. Некоторые локальные вещи нельзя поймать текстовым анализом, потому что, действительно, не все сидят "в интернетах". Во-вторых, очень трудно представить респондента, который при предъявлении ему сотни эвфемизмов смог бы отрефлексировать и надежно отделить устойчивые выражения от литературных новинок. Поэтому возникает влияние субъективно-оценочного фактора, которое может убить всю ценность опроса. Статистический анализ текстов более объективен. В-третьих, лексика отдельно взятого пожилого человека меняется мало. Поэтому лучшей средой отыскивания трендов является анализ наиболее восприимчивой к "трендам" среды - то есть молодежной, а в ней все уже оцифровано. Но все эти сомнения разрешаются одним простым способом: сужением и уточнением темы исследования таким образом, чтобы предмет и метод стали лучше пригнаны друг к другу. 2019.04.05
![]() 2019.04.05
|