<<< 1 ... 3 4 5 ... 11 >>> Переход на страницу  🔎
31
Понятно, а что делать со ссылками на другие слова ([ref]...[/ref])?
Кодировка текстовика должна быть utf-16le или другая?
Базу лучше разбить на три файла или сделать одним? Будет >200 МБ.
Что писать в начале файла вместо этого:
Цитата:#NAME "大БКРС v46-1/3 (2011.09.05)"
#INDEX_LANGUAGE "Chinese"
#CONTENTS_LANGUAGE "Russian"
?
2011.09.26
ЛС Ответить
32
Сорри, что снова вмешиваюсь в разговор больших гуру. :-) Ээээ... у вас самой переводилки, то бишь dzx-990, для опытов нету что ли? В чём проблема-то? Ну так попоробовать, иначе, как-то получится. У меня есть... И следующая неделя свободна... Не пинайте сильно, ещё раз сорри, что отвлёк :-)
2011.09.26
ЛС Ответить
33
2011.09.26Sapomaro Понятно, а что делать со ссылками на другие слова ([ref]...[/ref])?
Кодировка текстовика должна быть utf-16le или другая?
Базу лучше разбить на три файла или сделать одним? Будет >200 МБ.
Что писать в начале файла вместо этого:
Цитата:#NAME "大БКРС v46-1/3 (2011.09.05)"
#INDEX_LANGUAGE "Chinese"
#CONTENTS_LANGUAGE "Russian"
?

кодировка для файла .txt - Unicode (вы такие для меня "тонкости" спрашиваете про utf-16le, даже не знаю, ответил ли я на Ваш вопрос).
Удобнее пользоваться общей базой из одного файла. Но 200 МБ для текстовика многовато. Может это и не будет проблемой... Если возможно будет разбить после, то попробовать сначала как общая база в 1 файл.
В заголовке ничего писать не нужно, указание на версию словаря дать в названии файла (тогда в 990-м база будет аналогично поименована в общем списке его баз) и в отдельном readme (в архиве при скачивании).
Ссылки на другие слова - говорите об отсылке с традиционного написания к упрощенному варианту? Эти метки заменить на Табуляцию (сложное написание - Табуляция - упрощенное написание). Тогда, зайдя в словарную статью для традиционного написания, увидим его упрощенный вариант, и перекрестным поиском зайдём в словарную статью значений его упрощенного написания.
В 990-м нет возможности искать традиционные иероглифы, но отображаться они могут.
2011.09.26
ЛС Ответить
34
2011.09.26yko Сорри, что снова вмешиваюсь в разговор больших гуру. :-) Ээээ... у вас самой переводилки, то бишь dzx-990, для опытов нету что ли? В чём проблема-то? Ну так попоробовать, иначе, как-то получится. У меня есть... Не пинайте сильно, ещё раз сорри, что отвлёк :-)

Пробовали? Wink
2011.09.26
ЛС Ответить
35
2011.09.26krab Ссылки на другие слова - говорите об отсылке с традиционного написания к упрощенному варианту?

Не только, там полно других ссылок. Как это реализовать?

С традиционным написанием тоже не совсем ясно. Дело в том, что у одного слова может быть несколько полных вариантов, например, 一发 имеет 一發 и 一髪.
2011.09.26
ЛС Ответить
36
2011.09.26krab
2011.09.26yko Сорри, что снова вмешиваюсь в разговор больших гуру. :-) Ээээ... у вас самой переводилки, то бишь dzx-990, для опытов нету что ли? В чём проблема-то? Ну так попоробовать, иначе, как-то получится. У меня есть... Не пинайте сильно, ещё раз сорри, что отвлёк :-)

Пробовали? Wink

Не, я ж говорю, пользы не хватает словарь скачать. Но кажись на этой переписке я её себе и наберу :-) Уже 3 наверное :-)

2011.09.26
ЛС Ответить
37
Спасибо! Пошел думать как прикрутить БКРС к переводилке. :-)
2011.09.26
ЛС Ответить
38
2011.09.26Sapomaro
2011.09.26krab Ссылки на другие слова - говорите об отсылке с традиционного написания к упрощенному варианту?

Не только, там полно других ссылок. Как это реализовать?

С традиционным написанием тоже не совсем ясно. Дело в том, что у одного слова может быть несколько полных вариантов, например, 一发 имеет 一發 и 一髪.

Другие ссылки....
если это ссылки-переходы, то в 990-м переходы никак отображаться не смогут. будет просто текст. как в примере выше. текст (слово или любой иероглиф/несколько иероглифов) можно будет выделить и просмотреть значение в родной базе 990-го.
если ссылки имеют содержательную ценность, заменять метки ссылок на знаки скобок. которые в тексте визуально отделят содержание ссылки от основного текста статьи. если примеры - заменить метки примеров на курсив и т.п. примерно как-то так... а конкретнее - нужно говорить конкретно, о каких ссылках идет речь, какие их виды вообще имеются.

Традиционное написание и несколько вариантов...
Если говорить о поиске упрощенного начертания, отобразить разные варианты возможно в словарной статье. Традиционные иероглифы в этой модели вообще не могут быть найдены по поиску, не предусмотрено, понимаешь.
Все вопросы редакторского характера, как кажется, можно разрешить... Структуру материала статей, может быть, невозможно оставить в текущем виде...
2011.09.27
ЛС Ответить
39
Выложил часть базы для тестирования - http://dump.ru/file/5400496
Идёт / не идёт?
Полные варианты не прикручивал. Если очень нужно, можно их добавить не через табуляцию, а самостоятельно, приделав рядом содержание статей соответствующих упрощённых, правда это увеличит объём словаря примерно вдвое.
2011.09.27
ЛС Ответить
40
2011.09.27Sapomaro Выложил часть базы для тестирования - http://dump.ru/file/5400496
Идёт / не идёт?
Полные варианты не прикручивал. Если очень нужно, можно их добавить не через табуляцию, а самостоятельно, приделав рядом содержание статей соответствующих упрощённых, правда это увеличит объём словаря примерно вдвое.

Перекинул в *.dic. Вот, что получается http://dump.ru/file/5400887
Идёт. Ищет быстро, замедления с выводом результатов нет. Если добавить традиционные - база станет еще полнее... Но смысл пожалуй был бы, если их можно было искать.
Не озвучивается транскрипция некоторых статей, в общем-то некритично.
2011.09.28
ЛС Ответить
<<< 1 ... 3 4 5 ... 11 >>> Переход на страницу  🔎