Начал делать "ядро" словаря, но пока только зачатки, так как не очень понятно как это лучше использовать и будет ли актуально вообще.
Смысл "ядра" - выделить в 大БКРС часть слов, которые будут словарём в традиционном представлении, там будет большинство это слова (настоящие неделимые) и лишь немного очень устойчивых выражений. Цели выделения ядра три:
1) Наличие качественной мини-версии словаря, это будет актуально на практике в некоторых случаях
2) Концентрация усилий на ядре повысит качество словаря, так как ядро покроет 99% частотности, даже если оно будет менее 1/10 от словаря. Это повлияет на поверку правок, будет достаточно проверить правки "ядра", остальные по возможности.
3) Расширение границ словаря. Благодаря наличию "ядра" будет легче добавлять всё остальное, далеко несловарное, но обладающее устойчивостью.
Но чтобы обладать такой радостью, ядро надо создать и поддерживать, а это немало усилий. Поэтому я не уверен на счёт его жизнеспособности. Единственное, что вселяет оптимизм - ядро достаточно ограничено и не будет сильно меняться после его создания. Словарь 大БКРС теоретически можно развивать бесконечно, а вот ядро нужно лишь один раз создать с определённым количеством слов, а потом лишь изредка добавлять новые, шлифовать старые. Как у настоящих бумажных словарей.
Но тут интересен момент, что даже если ядро не взлетит, цель №3 всё равно реализуется, поэтому затраты на эту возню как минимум окупятся. А если выстрелит, то будет выше ожиданий.
На данный момент сделано:
1. Само понятие ядра появилось в базе словаря.
2. Все слова с 3мя иероглифами с чтением + все иероглифы (у некоторых нет чтения) выделены в ядро. Получилось 266 008 слов.
3. Возможность переключения ядро/неядро на странице слова. История изменений в правках сохраняется.
Дальше решил пока не продолжать, так как высока вероятность, что будет сделано не то, что надо. Пусть сначала отлежится и осознается в каком ключе это лучше развивать, если вообще стоит.
Как минимум нужно определение какие слова должны быть в ядре.
Смысл "ядра" - выделить в 大БКРС часть слов, которые будут словарём в традиционном представлении, там будет большинство это слова (настоящие неделимые) и лишь немного очень устойчивых выражений. Цели выделения ядра три:
1) Наличие качественной мини-версии словаря, это будет актуально на практике в некоторых случаях
2) Концентрация усилий на ядре повысит качество словаря, так как ядро покроет 99% частотности, даже если оно будет менее 1/10 от словаря. Это повлияет на поверку правок, будет достаточно проверить правки "ядра", остальные по возможности.
3) Расширение границ словаря. Благодаря наличию "ядра" будет легче добавлять всё остальное, далеко несловарное, но обладающее устойчивостью.
Но чтобы обладать такой радостью, ядро надо создать и поддерживать, а это немало усилий. Поэтому я не уверен на счёт его жизнеспособности. Единственное, что вселяет оптимизм - ядро достаточно ограничено и не будет сильно меняться после его создания. Словарь 大БКРС теоретически можно развивать бесконечно, а вот ядро нужно лишь один раз создать с определённым количеством слов, а потом лишь изредка добавлять новые, шлифовать старые. Как у настоящих бумажных словарей.
Но тут интересен момент, что даже если ядро не взлетит, цель №3 всё равно реализуется, поэтому затраты на эту возню как минимум окупятся. А если выстрелит, то будет выше ожиданий.
На данный момент сделано:
1. Само понятие ядра появилось в базе словаря.
2. Все слова с 3мя иероглифами с чтением + все иероглифы (у некоторых нет чтения) выделены в ядро. Получилось 266 008 слов.
3. Возможность переключения ядро/неядро на странице слова. История изменений в правках сохраняется.
Дальше решил пока не продолжать, так как высока вероятность, что будет сделано не то, что надо. Пусть сначала отлежится и осознается в каком ключе это лучше развивать, если вообще стоит.
Как минимум нужно определение какие слова должны быть в ядре.