BOM в словах

бкрс

2015.04.25Mr.K Еще один случай.

Слово: 色差

Как я уже сказал, это разные слова. У ондоно из них невидемый символ, который у вас кто-то обрезает.

в урл на сайте он виден:
bkrs.info/slovo.php?ch=%EF%BB%BF色差
bkrs.info/slovo.php?ch=色差
в текстовом файле он не виден, но он есть и компиляторы словарей за дублирование это не считают

будет время, разберус и поудаляю слова с ним. Похоже что вот этот - http://en.wikipedia.org/wiki/Byte_order_mark

Mr.K

Еще один случай.

Слово: 脱泥筛

Употребляется в качестве самостоятельного слова в двух файлах: 大БКРС_v65_2.dsl и 大БКРС_v65_3.dsl

бкрс

2015.04.25Mr.K Он ставится в начале файла и обозначает порядок байтов в UNICODE тексте.

Это круто, но нужно решение, как его выбрать в SQL

Цитата:Поскольку моя программа работает в UTF-8, а не в UTF-16 (в котором написаны ваши тексты), то подобное легко отсеивается - и дубликаты вылазят наружу.

Символы просто так не пропадают, в какой бы кодировке они не были. Кто-то у вас обрабатывает слова.
На сайте всё в UTF-8 и он прекрасно хранится.

Какой-то глюк споймал, ваше сообщение нечайно удалил (или вы сами, хз).

Mr.K

2015.04.25бкрс будет время, разберус и поудаляю слова с ним.

Еще добавлю, что просто удалив слова, в начале которых стоит этот код, вы скорее всего удалите в том числе нужные, не повторяющиеся слова. Потому что этим символом могли быть "помечены" все слова, стоящие в начале тех текстов, из которых потом объединялся существующий текст.
И перед удалением нужно будет проверять, повторяется ли это слово где-нибудь еще или оно уникально. Если оно уникально, то удалять будет нужно не все слово, а только этот код.

Mr.K

2015.04.25бкрс Символы просто так не пропадают, в какой бы кодировке они не были. Кто-то у вас обрабатывает слова.

Лишние символы удаляются автоматически в текстовом редакторе (потому что ВОМ-байт является лишним в середине текста по спецификации) во время перевода вашего текста из UTF-16 в UTF-8.

Mr.K

2015.04.25бкрс Какой-то глюк споймал, ваше сообщение нечайно удалил (или вы сами, хз).

Я пост не удалял.

Mr.K

2015.04.25бкрс На сайте всё в UTF-8 и он прекрасно хранится.

Конечно хранится. Это законный двухбайтовый символ. Но только если его хранить в середине текста и не трогать.
Если же ваш текст прогнать через обычный текстовый редактор, то он, вероятнее всего, сам избавится от лишних ВОМ-байтов в середине текста.

Mr.K

Хочу особо отметить, что если вы просто возьмете и прогоните (как я сказал выше) текст словаря через текстовый редактор для "очистки" от ВОМ-байтов и сохраните текст, то рискуете получить дубликаты слов, о которых я не сообщал - и ваша база начнет валиться в любом словаре на повторяющихся ключах.
А я не анализировал в вашем словаре те слова, которые не имеют транскрипции - и там все еще могут оставаться повторы.

бкрс

2015.04.25Mr.K Хочу особо отметить, что если вы просто возьмете и прогоните (как я сказал выше)

Что такое "прогнать"?

Этот символ такой же как и любой другой, как и любая буква/иеролиф. Он не может сам исчезнуть. Текстовые редакторы манипулируют с ним только если он в самом начале, если вы меняете кодировку. В любом другом месте это обычный символ.

Те примеры, что вы дали, они не верны, т.к. в dsl файлах, которые вы скачиваете с этого сайта он присутствует и дубликатов там нет. Как в UTF-16, так и UTF8 (ежедневная).
Но в нашем случае это однозначно мусор, который нужно удалить.

Mr.K

2015.04.25бкрс Те примеры, что вы дали, они не верны, т.к. в dsl файлах, которые вы скачиваете с этого сайта он присутствует и дубликатов там нет.

О найденных мной дубликатах В ЭТИХ ФАЙЛАХ я вам сообщаю.
Вы их не обнаруживаете как дубликаты, потому что перед ними стоят ВОМ-байты.
С технической точки зрения - это не дубликаты (по байтам ведь они разные). Но с точки зрения китайского языка - в вашем словаре присутствуют РАЗЛИЧНЫЕ словарные записи для ОДНИХ и тех же слов. Так что по факту - это дубликаты.