Поиск слов, содержащих заданные иероглифы?

Павел

Думаю, очень пригодилась бы в БКРС такая фукнция:
1. загружаю список иероглифов.
2. получаю список всех слов, которые можно из них составить.
Таким образом, даже из минимума 170 иероглифов для ХСК1 можно составить вполне неплохой словарик.

В чем польза?
1. Студенты расширяют словарный запас без необходимости учить дополнительные иероглифы.
2. Заодно получают возможность усваивать правила словообразования на относительно больших массивах слов.
3. Экономия времени преподавателя и студента (нет необходимости вспоминать или придумывать сочетания иероглифов).

Как еще можно было бы это применить ?

бкрс

Как уже отвечал, тут логичней брать частотный список слов и по нему уже фильтровать.
Достаточно интересно написать, если кто захочет. В идеале на js с формой, смотря как она будет с массивом на ван и больше слов работать.
Списки например тут.

С другой стороны, если цель изучать язык зубрением слов, то почему не взять тот же частотный список слов и идти по нему? Если там будут новые иероглифы. логично их выучить, если они в частых словах встречаются. Лучше выучить частые слова с новыми иероглифами, чем редкие со старыми.

Рейхсканцлер

...

Рейхсканцлер

2018.01.05бкрс Достаточно интересно написать, если кто захочет. В идеале на js с формой, смотря как она будет с массивом на ван и больше слов работать.

Может, проще держать оба списка в БД (список слов и подгруженный список иероглифов для поиска) и дальше работать на стороне сервера (полнотекстовым поиском или join-ом двух таблиц), с сортировкой результатов по частотности и возможностью тыкнуть на слово и открыть bkrs-страницу этого слова. Еще наверное было бы полезно иметь выбор вида "в слове хотя бы один иероглиф есть в загруженном списке" / "в слове все иероглифы есть в списке".

Вполне полезная была бы фича, помогающая привыкнуть к смысловому диапазону отдельного иероглифа.

脸在笑

У меня немного другой связанный фича реквест — а нельзя ли сделать поиск по маске как было на zhonga.ru?

бкрс

2018.01.05脸在笑 У меня немного другой связанный фича реквест — а нельзя ли сделать поиск по маске как было на zhonga.ru?

Не знаю как там, но тут поиск по маске изначально был. Но не у всех, т.к. очень ресурсоёмок по большой базе искать. У вас очень давно.

бкрс

2018.01.05Рейхсканцлер Может, проще держать оба списка в БД (список слов и подгруженный список иероглифов для поиска)

Как минимум, это точно не проще. БД тут не имеет смысла, т.к. поиск внутри слов по каждому символу, сомневаюсь, что возможно написать запрос, а если и можно, база крякнет от такого.

Тут всё в лоб - берётся слово и проверяется каждый иероглиф. Повозиться немного лишь над оптимизацией можно.
js тут идеален из-за готовой веб формы. Интересно как оно переварит большие массивы, по идеи, десятки тысяч это не так уж и много. А для подобного и одного десятка хватит, т.к. явно для начинающих.

бкрс

Цитата:Вполне полезная была бы фича

Это было бы интересно написать и глянуть, но есть сомнение в практической пользе.

Как я уже писал, если хочется зубрить новые слова вне контекста (что само по себе не очень), нужно использовать частотный список. Новые старые иероглифы вообще не должно влиять, увидел один раз иероглиф и он уже не новый.

Это как выбирать русские слова только с определёнными буквами.

Но было бы замечательно подобною программку иметь, кому нужно сам решит.
Может кто напишет, я может в будущем, как захочется "что-нибудь написать", сейчас хватает. Там вроде не сложно, несколько часиков со всеми чаями.

脸在笑

2018.01.06бкрс Не знаю как там, но тут поиск по маске изначально был. Но не у всех, т.к. очень ресурсоёмок по большой базе искать. У вас очень давно.

Работает, спасибо.

Рейхсканцлер

2018.01.06бкрс Как минимум, это точно не проще. БД тут не имеет смысла, т.к. поиск внутри слов по каждому символу, сомневаюсь, что возможно написать запрос, а если и можно, база крякнет от такого.

Нет, это обычный индексный поиск, разумеется без "поиска внутри слов", а чисто по индексу. Каждое слово словаря bkrs поиероглифно транспонируется в виде набора строк в таблице типа "id слова/первый иероглиф слова", "id слова/второй иероглиф" и тд, потом этот единственный столбец с иероглифом (в котором тем самым будет каждый иероглиф каждого слова словаря) индексируется и обычным join-ом сопоставляется со второй табличкой, где лежит подгруженный список иероглифов. Если база Oracle, то будет в пределах 1 сек. работать при миллионе слов в словаре и тысяче иероглифов в предложенном списке, для Mysql надо смотреть. Впрочем, это общий случай, а для словаря / списка иероглифов гораздо меньших объемов (10 тыс. в словаре / сто иероглифов в подгруженном списке) сгодится любое решение на JS / PHP, даже без базы.

Но неважно, это все технические моменты, извиняюсь за оффтоп.