1
Обычно говорят, что для того, чтобы получить хорошую оценку на экзамене HSK, ваш словарный запас должен быть примерно в два раза больше, чем официальный список ханбанского словаря. Например, чтобы получить хороший результат на HSK 6 (5 тысяч слов в текущем официальном словарном списке), ваш словарный запас должен состоять примерно из 10 тысяч слов. Но сколько правды в этой эвристике?

Я загрузил корпус из 21 официального тестового документа для HSK уровня 6 через некоторый код Python , чтобы выполнить частотный анализ слов (сегментация была сделана с помощью jieba ). График ниже суммирует результат этого анализа.

Если бы вы выучили 10 тысяч слов из первых шести случайно выбранных тестовых работ в этом анализе, вы бы знали около 91% слов в тесте.
Если бы вы следовали (нецелесообразной) стратегии обучения, изучая весь свой словарный запас с помощью практических тестов, после запоминания словарного запаса из 20 тестов и накопления словарного запаса примерно в 20 тысяч слов вы все равно поняли бы только около 95% слов в тесте.


Прикрепленный CSV-файл содержит более 20 000 слов и их частоту встречаемости в этом корпусе

разное Свойства тренировочного теста:

содержит сценарии для всего разговорного аудио
средняя длина слова = 10508
общая длина слова = 220675


идеи для будущей работы:

•сравнить список слов со списком слов HSK
•сравнить частоты слов со списками частот слов из опубликованных корпусов



2022.11.20
ЛС Ответить
2
5Кроме того, очевиден тот факт, что даже если вы знаете 95% символов в данном тексте, оставшиеся 5% часто являются теми символами, которые имеют решающее значение для понимания основной мысли текста. Человек, для которого английский язык не является родным, читая статью с заголовком «ДЖАКУЗИ ОБНАРУЖЕНЫ ЭФФЕКТИВНОСТЬ ПРИ ЛЕЧЕНИИ ФЛЕБИТА», не уйдет далеко, если не знает слов «джакузи» или «флебит».
2022.11.20
ЛС Ответить
3
Я думаю, что ключевым выводом из этих данных является то, что Hanban не упрощает материал, представленный в текущем тесте HSK 6. Если бы они пытались ограничить объем словарного запаса в тесте каким-то сверхсекретным списком слов, мы бы увидели, что уровень уникального количества слов снижается быстрее.



Как только я смогу получить практические тесты для HSK 7-9, я сравню его с этим корпусом, чтобы увидеть, похоже ли, что исходный материал для этого теста находится на более высоком уровне чтения. Возможно, они будут использовать одни и те же источники, но будут задавать более сложные вопросы.
2022.11.20
ЛС Ответить
4
То есть, получается, сдача ХСК6 старой редакции на 270+ баллов означает, что словарный запас китайского около 10к слов? Если очень упрощать ваши выводы
2022.11.20
ЛС Ответить
5
Бро, ну ты даёшь! Крутое исследование, и тема интересная, но график нечитабельный, как и почти все описание. Можно еще раз пожалуйста, но для тупых?

Единственное, что удалось понять, так это интересные факты с "выучить 20.000 слов = понять лишь 95% информации".

К слову, это не проблема. Или же проблема, но с которой сталкивается в том числе и носитель языка. Вы, когда классическую литературу читаете, не замечаете, что там каждое второе слово вы видите впервые? И тем не менее, это не мешает воспринимать текст.

Возьмём ваш пример - "ДЖАКУЗИ ОБНАРУЖЕНЫ ЭФФЕКТИВНОСТЬ ПРИ ЛЕЧЕНИИ ФЛЕБИТА". Я лично не знаю что такое флебит - и что? Зато я могу понять, что дело идёт о болезни. Не будем забывать, что по иероглифам можно вообще догадаться о приблизительном смысле слова!
2022.11.20
ЛС Ответить
6
>https://github.com/JackElsey/hsk6-vocab-analysis/
Глянул его список слов. Проблема классическая: парсер неправильно делит слова. Вот примеры отдельных слова оттуда:
我愿
又惊又喜
他俩
高高兴兴
教他
很累

儿童文学
其他人

他读

一二三四五
二年级

Ещё, например, всё вот это считается за отдельные абсолютно самостоятельные слова:
社会
社会化
社会科学
社会性
社会感染
社会关系
社会心理学
社会习俗
社会交往
原始社会
社会学

Если почистить от таких коллокаций, очевидных производных, ошибок деления на слова и прочего, скорее всего будет не сильно больше формальных требований для HSK.

Хотя всё равно будет больше, там на все 20к слов 3200 уникальных иерогов, из них ~500 нету даже в новом HSK 3.0. Почти все встречаются только один раз, самые частотные бывают в собственных именах, типа 虞国, 虢国, 纪晓岚, 周瑜, 丁俊晖 и т.д. — она там наверное по ходу повествования должны объясняться. Часть из них ещё явно ошибки OCR.
2022.11.20
ЛС Ответить