2023.12.03Вероятно связано. Примеры из БКРС:бкрс
Что за "похожие символы и омоглифы"? Как я понимаю, со словарём это не связано?
Омоглифы (думаю не участвуют в ошибках):
⾏ u{2f8f} ⾏李箱 чемодан
行 u{884c}
行 u{fa08}
...возможно много разных, надо смотреть.
Похожие (могут участвовать в ошибках):
郎 u{90ce}
郞 u{90de} 《字彙》蘇甘切,音三。《海篇》𣬛郞,...
土 и 士
㩁 и 搉
㫚 и 曶
䑃 и 朦
勞 и 勞
嘆 и 嘆
朓 и 脁
... возможно много.
Независимо от того участвуют они в ошибках или нет, легко выпадают из результатов поиска если поисковый двигатель их не учитывает.
В нескольких предустановленных схемах поиска стоит обработчик ввода, который позволяет учитывать омоглифы и похожие символы, то есть при поиске они так же равны как и А=а, о=0 и так далее.
Причины появления их в БКРС наверняка разные: дефекты оцифровки, ...графические ошибки, разнообразие устройств ввода, ...
Полные списки по словарям можно посмотреть так:
настройки > символы и ввод > омоглифы. Эти списки как раз и формирует вышеупомянутая функция cache, на основе массива confusables (взят с сайта консорциума юникода home.unicode.org), который также можно посмотреть в #cmd.
Наверняка ещё много что скрыто и предстоит учитывать в поиске искомого.