Страницы (2): 1 2 Следующая »
1
По сравнению с прошлой версией мусорных заголовков стало меньше.
Упрощённые и традиционные единичные иероглифы теперь имеют одну карточку.

Всего:
2 910 883 заголовков
1 516 148 карточек
2 831 заголовков и карточек удалено (они повторяли другие)

dde (при компиляции одним файлом) {{Ошибок: 0. Предупреждений: 0.}}
{{Количество заголовков: 2910883. Количество карточек: 1516148.}}

Исходники (*.dsl): http://dump.ru/file/5374494
Один файл под Лингво х3 (*.lsd): http://dump.ru/file/5374498
Пароль как обычно.

Я пришёл к выводу, что добавление полных иероглифов на лету в онлайне будет сильно нагружать сервер, т. к. нужно постоянно будет подгружать базу данных в 1,5 метра (её можно сократить, но над этим придётся сильно чесать репу), а также перепроверять всю базу данных словаря на наличие повторяющихся заголовков.
2011.09.06
Тема Ответить
2
Отлично, спасибо!
2011.09.06
Тема Ответить
3
Ссылки потом на страницу закачки перемещу.

Что за дублирование 4 749 заголовков? Дайте хоть один дубликат.
Уникальных слов должно быть порядка 1 519 000, как на главной показано. Как раз в сумме с этими получается.


Цитата:что добавление полных иероглифов на лету в онлайне будет сильно нагружать сервер
Проблема не в технологии, проблема в том что вы не знаете что нужно тому кто ищет. Некоторым, действительно, нужны традиционные. А некоторые будут рады упрощенным, даже если вбили традиционные. Всем не угодишь.
2011.09.06
Тема Ответить
4
2011.09.06бкрс Что за дублирование 4 749 заголовков? Дайте хоть один дубликат.
Уникальных слов должно быть порядка 1 519 000, как на главной показано. Как раз в сумме с этими получается.

Это практически все единичные традиционные иероглифы (с английским переводом) и слова с такими иероглифами, которые были в словаре (в онлайн версии к ним доступа нет): 體, 氣, 上昇, 一夥儿 и т. д. Не думаю, что под нож попало много ценного.

Хотя есть кое-что, ща сяду делать исправление.
2011.09.06
Тема Ответить
5
Ясно, это с конвертированием связано. Если не единичные иероглифы, то надо удалять из словаря (если есть упрощенные).
2011.09.06
Тема Ответить
6
Шапка со ссылками обновилась.

Около 2000 слов удалось реабилитировать (они были в БКРС на полных вариантах и не имели упрощённого аналога). Остальные удалённые заголовки тоже есть в словаре, но уже в других карточках.
2011.09.07
Тема Ответить
7
Может там какая-то система есть, чтобы эти 2000 конвертировать в словаре. Напр. несколько традиционных иероглифов, которые можно автоматически пройтись.

Ссылки в загрузку поставил, отсюда потом уберу.
2011.09.08
Тема Ответить
8
2011.09.08бкрс Может там какая-то система есть, чтобы эти 2000 конвертировать в словаре. Напр. несколько традиционных иероглифов, которые можно автоматически пройтись.

Я к ним приставил ещё упрощённое написание, должно работать (судя по статистике, оно есть к ~1000 из них, значит, не все они были только на полных вариантах, или, вероятнее, простые написания не добавились, потому что уже существовали в других карточках).
2011.09.09
Тема Ответить
9
Ребят, подскажите, какой пароль, пожалуйста. Я еще не в курсе)
2011.09.09
Тема Ответить
10
2011.09.09mingliya Ребят, подскажите, какой пароль, пожалуйста. Я еще не в курсе)

Он в https://bkrs.info/download.php под ссылками (везде одинаковый)
2011.09.09
Тема Ответить
Страницы (2): 1 2 Следующая »