Обычно говорят, что для того, чтобы получить хорошую оценку на экзамене HSK, ваш словарный запас должен быть примерно в два раза больше, чем официальный список ханбанского словаря. Например, чтобы получить хороший результат на HSK 6 (5 тысяч слов в текущем официальном словарном списке), ваш словарный запас должен состоять примерно из 10 тысяч слов. Но сколько правды в этой эвристике?
Я загрузил корпус из 21 официального тестового документа для HSK уровня 6 через некоторый код Python , чтобы выполнить частотный анализ слов (сегментация была сделана с помощью jieba ). График ниже суммирует результат этого анализа.
Если бы вы выучили 10 тысяч слов из первых шести случайно выбранных тестовых работ в этом анализе, вы бы знали около 91% слов в тесте.
Если бы вы следовали (нецелесообразной) стратегии обучения, изучая весь свой словарный запас с помощью практических тестов, после запоминания словарного запаса из 20 тестов и накопления словарного запаса примерно в 20 тысяч слов вы все равно поняли бы только около 95% слов в тесте.
Прикрепленный CSV-файл содержит более 20 000 слов и их частоту встречаемости в этом корпусе
разное Свойства тренировочного теста:
содержит сценарии для всего разговорного аудио
средняя длина слова = 10508
общая длина слова = 220675
идеи для будущей работы:
•сравнить список слов со списком слов HSK
•сравнить частоты слов со списками частот слов из опубликованных корпусов
Я загрузил корпус из 21 официального тестового документа для HSK уровня 6 через некоторый код Python , чтобы выполнить частотный анализ слов (сегментация была сделана с помощью jieba ). График ниже суммирует результат этого анализа.
Если бы вы выучили 10 тысяч слов из первых шести случайно выбранных тестовых работ в этом анализе, вы бы знали около 91% слов в тесте.
Если бы вы следовали (нецелесообразной) стратегии обучения, изучая весь свой словарный запас с помощью практических тестов, после запоминания словарного запаса из 20 тестов и накопления словарного запаса примерно в 20 тысяч слов вы все равно поняли бы только около 95% слов в тесте.
Прикрепленный CSV-файл содержит более 20 000 слов и их частоту встречаемости в этом корпусе
разное Свойства тренировочного теста:
содержит сценарии для всего разговорного аудио
средняя длина слова = 10508
общая длина слова = 220675
идеи для будущей работы:
•сравнить список слов со списком слов HSK
•сравнить частоты слов со списками частот слов из опубликованных корпусов