<<< 1 ... 5 6 7 ... 12 >>> Переход на страницу  +  i   🔎
51
2023.12.03бкрс Что за "похожие символы и омоглифы"? Как я понимаю, со словарём это не связано?
Вероятно связано. Примеры из БКРС:
Омоглифы (думаю не участвуют в ошибках):
⾏ u{2f8f}    ⾏李箱 чемодан
行 u{884c}
行 u{fa08}

...возможно много разных, надо смотреть.

Похожие (могут участвовать в ошибках):
郎 u{90ce}
郞 u{90de} 《字彙》蘇甘切,音三。《海篇》𣬛,...

土 и 士
㩁 и 搉
㫚 и 曶
䑃 и 朦
勞 и 勞
嘆 и 嘆
朓 и 脁
... возможно много.

Независимо от того участвуют они в ошибках или нет, легко выпадают из результатов поиска если поисковый двигатель их не учитывает.
В нескольких предустановленных схемах поиска стоит обработчик ввода, который позволяет учитывать омоглифы и похожие символы, то есть при поиске они так же равны как и А=а, о=0 и так далее.
Причины появления их в БКРС наверняка разные: дефекты оцифровки, ...графические ошибки, разнообразие устройств ввода, ...
Полные списки по словарям можно посмотреть так:
настройки > символы и ввод > омоглифы. Эти списки как раз и формирует вышеупомянутая функция cache, на основе массива confusables (взят с сайта консорциума юникода home.unicode.org), который также можно посмотреть в #cmd.
Наверняка ещё много что скрыто и предстоит учитывать в поиске искомого.
2023.12.03
ЛС Ответить
52
Проверил, работает, лингво не нужен). Быстрый проц, ищет секунд 4-6.
2023.12.03
ЛС Ответить
53
Предельно бесполезно в текущих реалиях, но как pet-проект - не плохо.
2023.12.04
ЛС Ответить
54
2023.12.04Прибытие Предельно бесполезно в текущих реалиях, но как pet-проект - не плохо.
Если "не плохо", поставьте лайк. Но важно зарегаться чтобы сказать "бесполезно", зачем, все и так это знают) Хотя есть те, кому он уже смог оказаться сверхполезным. Желаю большего конструктива.

Чтобы dsx.html стал проектом ему нужен хотя бы удобный интерфейс для добавления/обновления словарей. Такой планируется в числе прочего на следующем этапе, потом,..
2023.12.04
ЛС Ответить
55
2023.12.04dsx Если "не плохо", поставьте лайк. Но важно зарегаться чтобы сказать "бесполезно", зачем, все и так это знают) Хотя есть те, кому он уже смог оказаться сверхполезным. Желаю большего конструктива.

Чтобы dsx.html стал проектом ему нужен хотя бы удобный интерфейс для добавления/обновления словарей. Такой планируется в числе прочего на следующем этапе, потом,..

Лол, ну что за ребячество
2023.12.04
ЛС Ответить
56
Не стоит этих бесполезников слушать, пдобная тема вообще лакмусовая бумажка для понимания оболочек
2023.12.04
ЛС Ответить
57
2023.12.03dsx Вероятно связано. Примеры из БКРС:
Омоглифы (думаю не участвуют в ошибках):
⾏ u{2f8f}    ⾏李箱 чемодан

Не дуаю, что это сильно нужно, скорее для того, чтобы найти ошибки и исправить в самой базе один раз. Все хоть сколько-нибудь частые слова должны быть исправлены, а ради единиц такая система это слишком жирно.
行李箱 (тоже слово но с правильным иероглифом, неправильный нужно удалить)


Про confusables не знал, нужно будет посмотреть чего у нас на сайте нет
http://www.unicode.org/Public/security/8.0.0/confusables.txt
2023.12.04
ЛС Ответить
58
2023.12.03生世呀 Проверил, работает, лингво не нужен). Быстрый проц, ищет секунд 4-6.

Да, может полностью заменить оффлайн словарь, если вы им пользуетесь не слишком часто и словари не слишком большие. Тут даже полная версия является усечённой, т.к. сильно большие файлы плохо перевариваются.

Словарь загружается в память полностью, а не ищется по индексу в базе, поэтому ограничения всё же есть в отличии от специализированных словарей. Сейчас мощности устройств и продвинутось браузеров позволяют очень многое.

Это идеально для того, чтобы лежал на диске "на всякий", если не хотите оболочками заморачиваться. Лучше чем ничего.
2023.12.04
ЛС Ответить
59
2023.12.04бкрс Про confusables не знал, нужно будет посмотреть чего у нас на сайте нет
http://www.unicode.org/Public/security/8.0.0/confusables.txt

Там свежая есть 15.1
https://ftp.unicode.org/Public/security/15.1.0/
но это прото-массив, его можно развернуть в большее количество часто встречающихся "конфузов". В вышеупомянутом #cmd есть функция confusables+, она покажет развёрнутый вариант.
2023.12.04
ЛС Ответить
60
2023.12.04бкрс Да, может полностью заменить оффлайн словарь, если вы им пользуетесь не слишком часто и словари не слишком большие. Тут даже полная версия является усечённой, т.к. сильно большие файлы плохо перевариваются.

Словарь загружается в память полностью, а не ищется по индексу в базе, поэтому ограничения всё же есть в отличии от специализированных словарей. Сейчас мощности устройств и продвинутось браузеров позволяют очень многое.

Это идеально для того, чтобы лежал на диске "на всякий", если не хотите оболочками заморачиваться. Лучше чем ничего.

Памяти 16 гигов, xeon (типа i5 или чуть лучше), быстрый диск - моя конфигурация.

А сателлиты можно в один файл добавить? Иногда они очень полезны для понимания значений.
2023.12.04
ЛС Ответить
<<< 1 ... 5 6 7 ... 12 >>> Переход на страницу  +  i   🔎