1
Добрый день, меня заинтересовал такой вопрос, в современном китайском когда вы слышите какой-то звук, с какой вероятность это такой-то иероглиф. Например hui4, с какой вероятность это иероглиф 会? здесь так же всплывает вопрос частотности иероглифов и слов, биграмм, триграмм. Однако нужно будет решить задачу разбиение предложений на слова.
Для анализа, мне нужны современные произведения на китайском, желательно если есть в оцифрованном виде, т.е. в виде текста.

Можете, кстати, подсказать возможно кто-то уже сталкивался с подобными анализами китайского.

Всем заранее спасибо.
2014.01.17
Ответить
2
Это надо брать частотные списки (гуглите 汉字使用频率表), по ним такое легко такое высчитать.


Только я не понимаю какая практическая польза от такой статистики.
2014.01.17
Ответить
3
бкрс, практической может и нет, мне просто интересно. Хотя да, тут всё сводится к частоте иероглифов, которая уже сто раз подсчитана.
2014.01.17
Ответить
4
бкрс, кстати, вспомнил про поиск, задача именно частотности слов интересна, так например в БКРС при поиске по пиньину сортировки по частотности использования слов, я так понимаю, нет, верно? Поэтому результат в поиске не очень релевантно выстроен и скать нужное слово не очень удобно.
2014.01.17
Ответить
5
alexamur, списков частотных слов более менее плотных найти сложно, самое большое это у Вэньлиня.
Это разве что для иероглифов актуально, но искать иероглифы по пиньин достаточно редко нужно. Было бы неплохо, но польза маленькая, а труда куча.
2014.01.17
Ответить
6
Зависит от положения в предложении. Например если идет речь 我有一件 то здесь 90% что это счетное слово, а не 见 贱 剑. А если это 我一 jian то это скорее всего 见. А если это 一把jian то это 剑. В одинаковых ситауациях редко попадаются двусмысленные трактования, поэтому зачастую выбор такой не стоит даже.
百花齐放,百家争鸣
2014.01.17
Ответить
7
Ветер, да, тема намного сложней чем я сразу прикинул, оставлю я эту затею.
2014.01.17
Ответить