2023.12.07dsx А у вас на сайте есть аналогичный список по синоглифам ? (разнопись, 嗎 = 吗) А то нашел базу на ~10тыс и не знаю насколько она полна. Думаю добавить в dsx поиск по синоглифам.
Какая-то странная база, если честно.
Если вам нужны списки для конвертации традиционки/упрощёнки, возьмите из OpenCC, довольно популярный конвертер, так что думаю базы там плюс минус полные https://github.com/BYVoid/OpenCC/tree/master/data/dictionary
2023.12.08etsune Какая-то странная база, если честно.
Если вам нужны списки для конвертации традиционки/упрощёнки, возьмите из OpenCC, довольно популярный конвертер, так что думаю базы там плюс минус полные https://github.com/BYVoid/OpenCC/tree/master/data/dictionary
Да, возможно её нужно просеять. Пока мало время чтобы погрузиться в поиск должным образом. Это первое что попалось.
Спасибо за ссылку, посмотрю. В идеале бы найти официальный список от самих реформаторов, если он существует. Ещё я смотрю на эту проблему шире - мне нужны все синоглифы последней версии юникода.
2023.12.04dsx Это не прежний 400мб, там была и версия старая и слова без чтения.
https://disk.yandex.ru/d/zMUaGWF36WK4oA
250мб, настоящее испытание. Очень интересно как пойдет открытие и поиск. Прошу всех неравнодушных уделить немного времени потестить на разных устройствах и рассказать тут. Спасибо
Нормально ищет, лишь подвисает при открытии.
На старте потребление оперативки двойное 250х2. Можно разбить словари на части и загружать очередью
2023.12.13праща голиафа Нормально ищет, лишь подвисает при открытии.
На старте потребление оперативки двойное 250х2. Можно разбить словари на части и загружать очередью
Спасибо 👍. Замечал в диспетчере всплеск потребления памяти, как бы логично, сначало html скачивается/читается, потом парсится-компилируется в рабочий вид и в конце исходник удаляется. Позже загляну подумаю.
Файлы пока не обновлял, поделюсь данными новых тестов с применением "загрузки частями". Результаты меня удивили:
2023.12.05dsx У меня такие данные ПК 4гб ОЗУ, процессор не знаю, скорее всего слабый типа intel Atom-а, Win10. Открывает 1 минута 27 секунд, ищет слово в начале строки в первых столбцах всех массивов за 5 секунд. Кажется результат неплох, использовать уже можно, если понадобится.
Смартфон Samsung A03s , ОЗУ 2-3гб, бюджетный девайс. Открывает 8 минут 55 секунд, ищет с теми же параметрами 4-5 секунд.
Теперь можно избавиться от облегчённого варианта . Учитывая ещё как быстро тут обновляются словарные базы, постараюсь в обновленную версию включить и обновлённые базы.
2023.12.15dsx Файлы пока не обновлял, поделюсь данными новых тестов с применением "загрузки частями". Результаты меня удивили:
Значит у вас в оперативку упирается. Как я понимаю, если её достаточно, разницы большой не будет.
Хотя я не понимаю что именно там загружается, всё равно при поиске всё целиком загружено будет.
2023.12.16бкрс Хотя я не понимаю что именно там загружается, всё равно при поиске всё целиком загружено будет.
В итоге так и есть, но javascript движок браузера устроен непонятно, если один большой массив-словарь поместить в один тег <script> то он будет дольше его переваривать при открытии html. Планшет digma a100, 1гб ОЗУ мог открыть только облегченный вариант ~50мб.
Если же массив разбить на кусочки, каждый поместить в отдельный <script> и сращивать эти кусочки по мере загрузки каждого <script> , то открытие html ускоряется значительно, и памяти использует меньше. Теперь дигма открывает полный вариант ~100мб, и даже примеры тянет, но если отдельным.
|