21
По факту, технически, это как раз это не дубликаты 1

А по китайскому да, я это и не отрицаю - мусор.

Скорее всего ваш компилятор делает trim всем словам.


SQL запрос не могу сообразить или выгуглить. Придётся все слова прогонять и пыхом проврять каждое. Попозже сделаю.
2015.04.25
ЛС Ответить
22
К сожалению я никогда не сталкивался с SQL, так что не смогу подсказать автоматическое решение.

Я бы предложил такой вариант: прогнать весь текст и найти те слова, перед которыми стоят ВОМ-байты. Их всяко будет не много (если они вообще еще остались).
И потом вручную сделать по ним поиск в словаре - найти есть ли к ним дубликаты. И соответственно сделать правку.
2015.04.25
ЛС Ответить
23
2015.04.25Mr.K Я бы предложил такой вариант: прогнать весь текст и найти те слова, перед которыми стоят ВОМ-байты.
А как их найти?

По сути я это и предложил, но там надо скрипт воять и тоже разбираться с символом, но в php это попроще.

Может какая-то регулярка есть?
2015.04.25
ЛС Ответить
24
2015.04.25бкрс А как их найти?

По сути я это и предложил, но там надо скрипт воять и тоже разбираться с символом, но в php это попроще.

Может какая-то регулярка есть?

Не вопрос - я сейчас сам вручную их найду, в текстовом редакторе.
2015.04.25
ЛС Ответить
25
да, лучше дайте список, если у вас там показывается
если не больше пары десятков, то проще в ручную разобраться
2015.04.25
ЛС Ответить
26
Перечень слов, затронутых (справа или слева) невидимыми байтами oxFEFF

大БКРС_v65_1.dsl:

穿堂
世界专利索引

大БКРС_v65_2.dsl:
色差

大БКРС_v65_3.dsl:
挖掘机边齿
神钢
脱泥筛
棒条给料机
甲带给料机
立式冲击破碎机
中间罐车
结晶器振动装置
取出器
司机室
缓冲器
电控箱
滑触线
防爆起重机
单梁柔性梁起重机
光纤熔接机
MPO配线盒
日光浴灯
拐枣
转载机
乳化液泵站
注液枪
真空馈电开关
二连杆式支撑掩护式液压支架
翻边法兰
对焊带颈法兰
盲板法兰
翅片管
油管
经纱机
染色机
浆烫机
榨水车
高空清洗机
洗衣房车
脚踏垃圾桶
丁腈手套
鳕鱼
[m1][p]см.[/p] [ref]鳕[/ref][/m] - здесь слово в ссылке
2015.04.25
ЛС Ответить
27
а я думал это только у меня косяк... а эти BOM байты только в начале слова или могут быть перед/после любого иероглифа и внутри слова?
2015.04.25
ЛС Ответить
28
подтверждаю.  "дубликаты" имеются.  причем питоновский
Код:
>>> unicode.strip(u"\xfeff") == u"\xfeff"
True
его за пробельный символ не считает и убирать не хочет.
2015.04.25
ЛС Ответить
29
блина, многовато

Короче кому не лень, нужно врунчую сравнивать и удалять (или править, если есть что). Искать через маску. Сверху вниз, если нет, значит уже исправили. По урл виден эти байты (мышкой навести), в самом правке слова ничего нет.

Список с ссылками - https://bkrs.info/tmp/bom.html


2015.04.25萨沙 а я думал это только у меня косяк... а эти BOM байты только в начале слова или могут быть перед/после любого иероглифа и внутри слова?
Теоретически, только в начале. С них начинаются файлы с кодировкой "с бом", кто-то их умудрился порезать в сателлит.
2015.04.25
ЛС Ответить
30
сделал до 电控箱.
2015.04.25
ЛС Ответить