остроwok, надо какие-то правила насчёт эризации выводить. а то некоторые всем известные товарищи как увидели 儿 в конце слова, так тут же клац по кнопке "удалить", и не важно обязательна она или нет
идеально, конечно не должно быть никаких ссылок. ABC/Wenlin/Pleco просто ставят 儿 в конце слова в скобки, если эризация опциональна, и соответственно без, если она обязательна. но наш формат, насколько я знаю, не поддерживает такой фишки, будут проблемы с индексацией
в Лингво есть такая возможность, если что. Лингво поддерживает множественные заголовки для одной статьи и фигурные скобки в заголовках для убирания элементов заголовка из индексации. вот пример:
上班{(儿)}
上班{(}儿{)}
shàngbān(r)
[m1]идти на работу; заступить на смену[/m]
и неважно, наберёт пользователь 上班儿 или 上班, Лингво всё равно переправит его на одну статью с заголовком 上班(儿)
小熊, у нас не получится, хотя бы потому, что это усложнит конвертацию под другие форматы. Да и слова в любом случае хранятся как разные, даже в том же Лингве, просто у нас нет компиляции (что хорошо).
А удаляет эрризацию частенько google.com, хотя конкретно это история не сохранилась.
小熊, хранятся во всех словарях такие слова раздельно как и у нас. Они объединяются скобкаки вне словаря, перед компиляцией. Так что если такое делать, то будет то же самое, что и сейчас, только гораздо сложнее. Вобщем, технически не получится.
бкрс, я за все словарные форматы отвечать не собираюсь, но за mysql, dsl и stardict ответить могу
на сайте всех проще, просто делаем проверку на "(儿)" в конце слова и обрабатываем оба варианта при поиске слова пользователем. про Лингво -- смотреть постом выше. в Stardict эти так называемые "синонимы" идут отдельным индексом, который ссылается опять же на уже существующие статьи, дупликации не происходит
откомпилированные Лингво файлы мы пока не распространяем, да и нужды в этом я не вижу, особенно учитывая, что сейчас всё больше и больше людей переходят на GoldenDict и другие свободные аналоги, которые НЕ требуют компиляции
小熊, как это в GoldenDict не надо, я точно помню, когда файл открываешь, он его компилирует. Не может же он из текстового файла дёргать при поиске, это было бы слишком сложно. Разница с лингво лишь в том, что компилятор не отдельная программа, а встроен и запускается автоматически при добавлении словаря.
Сама база не важна, принцип везде один. То что вы предлагаете - добавить на сайт компилятор, вряд ли это оправдано только из-за 儿. То что мы сейчас используем - буквальное написание гораздо проще и лучше. Надо только отдельным товарищам настучать по пальцам за удаление. Это с софтом никак не связано, какая разница откуда они будут это удалять.
小熊, если так делать, то придётся сильно допиливать с неизвестным профитом. Иначе слова ХХ и XX儿 не найдутся из-за скобок, нужно чтобы они явно в словаре были. Т.е. как у того же GoldenDict, у которого каждое слово всё-таки существует отдельно от скобок.
Но я идею понял, если будет возможность, посмотрю как сделать.
тоже мне умники
идеально, конечно не должно быть никаких ссылок. ABC/Wenlin/Pleco просто ставят 儿 в конце слова в скобки, если эризация опциональна, и соответственно без, если она обязательна. но наш формат, насколько я знаю, не поддерживает такой фишки, будут проблемы с индексацией
上班{(儿)}
上班{(}儿{)}
shàngbān(r)
[m1]идти на работу; заступить на смену[/m]
и неважно, наберёт пользователь 上班儿 или 上班, Лингво всё равно переправит его на одну статью с заголовком 上班(儿)
А удаляет эрризацию частенько
а какие другие форматы нам важны? stardict? там, кстати, тоже множественные заголовки есть, просто строчку в скрипте конвертации добавить и всё
на сайте всех проще, просто делаем проверку на "(儿)" в конце слова и обрабатываем оба варианта при поиске слова пользователем. про Лингво -- смотреть постом выше. в Stardict эти так называемые "синонимы" идут отдельным индексом, который ссылается опять же на уже существующие статьи, дупликации не происходит
откомпилированные Лингво файлы мы пока не распространяем, да и нужды в этом я не вижу, особенно учитывая, что сейчас всё больше и больше людей переходят на GoldenDict и другие свободные аналоги, которые НЕ требуют компиляции
Сама база не важна, принцип везде один. То что вы предлагаете - добавить на сайт компилятор, вряд ли это оправдано только из-за 儿. То что мы сейчас используем - буквальное написание гораздо проще и лучше. Надо только отдельным товарищам настучать по пальцам за удаление. Это с софтом никак не связано, какая разница откуда они будут это удалять.
я просто предлагаю добавлять "(儿)" в слова на сайте, а потом скрипт будет все такие слова в .dsl словаре делить на два заголовка
Но я идею понял, если будет возможность, посмотрю как сделать.