大БКРС, БРуКС и примеры в html файле

остроwok

2023.12.07dsx А у вас на сайте есть аналогичный список по синоглифам ? (разнопись, 嗎 = 吗) А то нашел базу на ~10тыс и не знаю насколько она полна.

бкрс, если не ошибаюсь, в какой-то момент Вы говорили, что у нас самая полная. Интересно, как сейчас обстоят дела корона

etsune

2023.12.07dsx А у вас на сайте есть аналогичный список по синоглифам ? (разнопись, 嗎 = 吗) А то нашел базу на ~10тыс и не знаю насколько она полна. Думаю добавить в dsx поиск по синоглифам.

Какая-то странная база, если честно.
Если вам нужны списки для конвертации традиционки/упрощёнки, возьмите из OpenCC, довольно популярный конвертер, так что думаю базы там плюс минус полные https://github.com/BYVoid/OpenCC/tree/master/data/dictionary

бкрс

2023.12.08остроwok бкрс, если не ошибаюсь, в какой-то момент Вы говорили, что у нас самая полная. Интересно, как сейчас обстоят дела

Наверное, я говорил об обычных списках в китайском интернете. Специализированные списки, где по шрифту идёт, а не по китайскому, полнее.

dsx

2023.12.08etsune Какая-то странная база, если честно.
Если вам нужны списки для конвертации традиционки/упрощёнки, возьмите из OpenCC, довольно популярный конвертер, так что думаю базы там плюс минус полные https://github.com/BYVoid/OpenCC/tree/master/data/dictionary

Да, возможно её нужно просеять. Пока мало время чтобы погрузиться в поиск должным образом. Это первое что попалось.
Спасибо за ссылку, посмотрю. В идеале бы найти официальный список от самих реформаторов, если он существует. Ещё я смотрю на эту проблему шире - мне нужны все синоглифы последней версии юникода.

2023.12.04dsx Это не прежний 400мб, там была и версия старая и слова без чтения.
https://disk.yandex.ru/d/zMUaGWF36WK4oA
250мб, настоящее испытание. Очень интересно как пойдет открытие и поиск. Прошу всех неравнодушных уделить немного времени потестить на разных устройствах и рассказать тут. Спасибо

Нормально ищет, лишь подвисает при открытии.
На старте потребление оперативки двойное 250х2. Можно разбить словари на части и загружать очередью

dsx

2023.12.13праща голиафа Нормально ищет, лишь подвисает при открытии.
На старте потребление оперативки двойное 250х2. Можно разбить словари на части и загружать очередью

Спасибо 👍. Замечал в диспетчере всплеск потребления памяти, как бы логично, сначало html скачивается/читается, потом парсится-компилируется в рабочий вид и в конце исходник удаляется. Позже загляну подумаю.

dsx

Файлы пока не обновлял, поделюсь данными новых тестов с применением "загрузки частями". Результаты меня удивили:

2023.12.05dsx У меня такие данные ПК 4гб ОЗУ, процессор не знаю, скорее всего слабый типа intel Atom-а, Win10. Открывает ~~1 минута~~ 27 секунд, ищет слово в начале строки в первых столбцах всех массивов за 5 секунд. Кажется результат неплох, использовать уже можно, если понадобится.
Смартфон Samsung A03s , ОЗУ 2-3гб, бюджетный девайс. Открывает ~~8 минут~~ 55 секунд, ищет с теми же параметрами 4-5 секунд.

Теперь можно избавиться от облегчённого варианта . Учитывая ещё как быстро тут обновляются словарные базы, постараюсь в обновленную версию включить и обновлённые базы.

芮回

2023.10.24dsx Одним файлом БКРС + БРуКС + примеры (250Мб):

А если сжать это 7z то получится 49 Мб.

бкрс

2023.12.15dsx Файлы пока не обновлял, поделюсь данными новых тестов с применением "загрузки частями". Результаты меня удивили:

Значит у вас в оперативку упирается. Как я понимаю, если её достаточно, разницы большой не будет.
Хотя я не понимаю что именно там загружается, всё равно при поиске всё целиком загружено будет.

dsx

2023.12.16бкрс Хотя я не понимаю что именно там загружается, всё равно при поиске всё целиком загружено будет.

В итоге так и есть, но javascript движок браузера устроен непонятно, если один большой массив-словарь поместить в один тег <script> то он будет дольше его переваривать при открытии html. Планшет digma a100, 1гб ОЗУ мог открыть только облегченный вариант ~50мб.
Если же массив разбить на кусочки, каждый поместить в отдельный <script> и сращивать эти кусочки по мере загрузки каждого <script> , то открытие html ускоряется значительно, и памяти использует меньше. Теперь дигма открывает полный вариант ~100мб, и даже примеры тянет, но если отдельным.