11
2014.07.03萨沙 бкрс, а можно прикрутить кнопку поднять слово как это сделано в катологе ссылок, пользователи смогут поднимать более полезные слова выше по списку и опускать менее?
Было бы интересно, но не факт что-то что-то разумное получится, опираться то не на что, кроме единичных слов, которые явно не на своём месте. Если будет время, можно попробовать.
2014.07.03
Ответить
12
2014.07.03小熊 бкрс, в самом деле, моя старая идея и то дала бы более полезный список.
Там совсем другой случай. Список будет слишком сулчайным, простые слова ищут не так часто, как сложные.
Но я и не отказывался, там только систему от накрутки тяжело созадвать, поэтому пока руки не дошли. Может что-то и годное получится.
2014.07.03
Ответить
13
если предположить что новичек будет смотреть слова с начала списка, а гуру китайского языка с конца то видеть слова на 55230ом месте 电子词典 на 35920ом 阿拉伯数字, на 38197ом 帅哥 на 36256ом 行李箱 не хотелось бы ни одному, ни второму
2014.07.03
Ответить
14
А есть более точный список? Всё остальное не более нескольких тысяч. Этот единственный такого масштаба. Несмотря на некоторые странности вполне логичный.

В идеале, конечно, его бы подшртиховать, но опираться не на что.
2014.07.03
Ответить
15
2014.07.03бкрс А есть более точный список? Всё остальное не более нескольких тысяч. Этот единственный такого масштаба. Несмотря на некоторые странности вполне логичный.

В идеале, конечно, его бы подшртиховать, но опираться не на что.

тысячи их, только не все дают скачать вот тут есть список на основе синета 2005ого года, но туда почемуто попали популярные в синете английские слова

а нельзя сказать какой список точный, если корпус на основе новостей это одно, он представляет интерес в академических кругах, для молодежи конечно 帅哥, 性生活, 老姑娘 будут важнее освободительной армии Мао Дзе Дуна
2014.07.03
Ответить
16
2014.07.03萨沙 тысячи их, только не все дают скачать вот тут есть список на основе синета 2005ого года, но туда почемуто попали популярные в синете английские слова
Тысячи не увидел, но та ссылка хорошая. Большинство совпадает с этим списком, но есть новая лексика.
Надо будет заменить.
мусор вычестить несложно
2014.07.04
Ответить
17
2014.07.04бкрс Тысячи не увидел, но та ссылка хорошая. Большинство совпадает с этим списком, но есть новая лексика.
Надо будет заменить.
мусор вычестить несложно
вот тут еще есть очень хороший корпус на over 100k слов собранных из китайского кино/сериалов

для сравнения

5826 性生活
7774 帅哥
10724 行李箱
29259 老姑娘
2014.07.04
Ответить
18
раз пошла такая пьянка, ещё xerxes9000sx скинул какой-то, вроде толковый, список в личку
Цитата:Есть у меня некоторые файлики, уже не помню где нашел.
Маленький https://yadi.sk/i/7LRH637PVvGS5
И поболее https://yadi.sk/i/Zz_5bHOuVvGoe
2014.07.04
Ответить
19
大家好!

обнаружил интересную статистику, её только пришлось расшифровывать, как думаете верно расшифровал? :

"Первые 58 иероглифов покрывают 50% корпуса текстов, 100 иероглифов - 62,24%. Критический уровень понимания текста 75% достигается 205 иероглифами"

источник:

http://cheloveknauka.com/v/462848/a?#?page=18

http://cheloveknauka.com/problemy-razrabotki-lingv...perevoda-nauchn

Наибольшая частота в исследуемом микрошдъязьке падает га знаки грегмнания (запятую и точку), имекице соответствен!» ранг 1 и 2, которые вместе с именами собственньии и наименованиями орга-шв управления (ранги з-б) составляют 15,762 анализируемого пакета текстов. Первые 58 иероглифов покрывают 50Х корпуса текстов, 100 иероглифов - 62,24*. Критический уровень понимания текста (754)' достигается 205 иероглифами. .795 иероглифов покрывают 95* текстов всех документов. 21словарных величин (40* словаря) покрывают 97* всего цредставлеиюго массива. Редкие иероглифы (с частотой от 1 до 4) составляет 60,09* от объема словаря и покрывает 3,04* корпуса текста.

Диссертации по гуманитарным наукам - http://cheloveknauka.com/problemy-razrabotki-lingv...n#ixzz3rGv3xy4q
С уважением,
尤金
--- --- ---
Вы можете стать автором статьи о Китае http://www.kitay-v-mire.com/o-bloge-kitai-v-mire/#avtoram
2015.11.12
Ответить
20
2015.11.12Youjin Критический уровень понимания текста 75% достигается 205 иероглифами"

Звучит классно, на деле - полная хрень. Всем же понятно, что надо знать слова, а не только иероглифы.
2015.11.12
Ответить