правка слова
蝈蝈
guōguo
см. 蝈蝈儿
蝈蝈
guōguo
кузнечик
13.06
остроwok
кто-то какого-то фига удалил кузнечика, теперь конечно ссылка нерабочая
13.06
小熊
остроwok, если и удалять, то нужно было удалять вариант БЕЗ эризации, а не наоборот

тоже мне умники
13.06
остроwok
小熊, не знаю, что делать. За всеми удалениями ведь не уследишь. Прям хоть какой-то ликбез проводи среди тех, кто в автопроверке.
13.06
小熊
остроwok, надо какие-то правила насчёт эризации выводить. а то некоторые всем известные товарищи как увидели 儿 в конце слова, так тут же клац по кнопке "удалить", и не важно обязательна она или нет

идеально, конечно не должно быть никаких ссылок. ABC/Wenlin/Pleco просто ставят 儿 в конце слова в скобки, если эризация опциональна, и соответственно без, если она обязательна. но наш формат, насколько я знаю, не поддерживает такой фишки, будут проблемы с индексацией

бкрс?
13.06
小熊
в Лингво есть такая возможность, если что. Лингво поддерживает множественные заголовки для одной статьи и фигурные скобки в заголовках для убирания элементов заголовка из индексации. вот пример:

上班{(儿)}
上班{(}儿{)}
shàngbān(r)
[m1]идти на работу; заступить на смену[/m]

и неважно, наберёт пользователь 上班儿 или 上班, Лингво всё равно переправит его на одну статью с заголовком 上班(儿)
13.06
бкрс
小熊, у нас не получится, хотя бы потому, что это усложнит конвертацию под другие форматы. Да и слова в любом случае хранятся как разные, даже в том же Лингве, просто у нас нет компиляции (что хорошо).

А удаляет эрризацию частенько google.com, хотя конкретно это история не сохранилась.
13.06
小熊
бкрс, chuanzhekuzi тоже часто удаляет

а какие другие форматы нам важны? stardict? там, кстати, тоже множественные заголовки есть, просто строчку в скрипте конвертации добавить и всё
13.06
бкрс
小熊, хранятся во всех словарях такие слова раздельно как и у нас. Они объединяются скобкаки вне словаря, перед компиляцией. Так что если такое делать, то будет то же самое, что и сейчас, только гораздо сложнее. Вобщем, технически не получится.
13.06
小熊
бкрс, я за все словарные форматы отвечать не собираюсь, но за mysql, dsl и stardict ответить могу

на сайте всех проще, просто делаем проверку на "(儿)" в конце слова и обрабатываем оба варианта при поиске слова пользователем. про Лингво -- смотреть постом выше. в Stardict эти так называемые "синонимы" идут отдельным индексом, который ссылается опять же на уже существующие статьи, дупликации не происходит

откомпилированные Лингво файлы мы пока не распространяем, да и нужды в этом я не вижу, особенно учитывая, что сейчас всё больше и больше людей переходят на GoldenDict и другие свободные аналоги, которые НЕ требуют компиляции
13.06
бкрс
小熊, как это в GoldenDict не надо, я точно помню, когда файл открываешь, он его компилирует. Не может же он из текстового файла дёргать при поиске, это было бы слишком сложно. Разница с лингво лишь в том, что компилятор не отдельная программа, а встроен и запускается автоматически при добавлении словаря.

Сама база не важна, принцип везде один. То что вы предлагаете - добавить на сайт компилятор, вряд ли это оправдано только из-за 儿. То что мы сейчас используем - буквальное написание гораздо проще и лучше. Надо только отдельным товарищам настучать по пальцам за удаление. Это с софтом никак не связано, какая разница откуда они будут это удалять.
13.06
小熊
бкрс, GoldenDict просто создаёт свои личные индексы, данные он всё равно из .dsl берёт

я просто предлагаю добавлять "(儿)" в слова на сайте, а потом скрипт будет все такие слова в .dsl словаре делить на два заголовка
13.06
бкрс
小熊, если так делать, то придётся сильно допиливать с неизвестным профитом. Иначе слова ХХ и XX儿 не найдутся из-за скобок, нужно чтобы они явно в словаре были. Т.е. как у того же GoldenDict, у которого каждое слово всё-таки существует отдельно от скобок.
Но я идею понял, если будет возможность, посмотрю как сделать.
13.06