Отключен JavaScript

У вас отключен JavaScript. Некоторые возможности системы не будут работать. Пожалуйста, включите JavaScript для получения доступа ко всем функциям.

Вопрос - ОтветЗадал вопрос - получил ответ...

Автор BAD, 18.04.2003, 13:41

Авторизуйтесь для ответа в теме

Сообщений в теме: 764

#481
topcraze

Отправлено 12.08.2014, 16:48:05

В доску свой
2 009 сообщений

Люди, помогите решить проблему.

чтобы корректно работать с казахскими буквами надо использовать UTF8.. чтобы и файл был UTF8 и читать его так же..

Наверх

#482
Fail

Отправлено 12.08.2014, 17:02:35

Постоялец
406 сообщений

чтобы корректно работать с казахскими буквами надо использовать UTF8.. чтобы и файл был UTF8 и читать его так же..

файлов уже принято много. Перекодировать их нереально.

Если только не написать программку по пакетной перекодировке.

Спасибо.

Буду думать.

Наверх

#483
Квазимодо

Отправлено 13.08.2014, 15:14:04

В доску свой
3 230 сообщений

чтобы корректно работать с казахскими буквами надо использовать UTF8.. чтобы и файл был UTF8 и читать его так же..

файлов уже принято много. Перекодировать их нереально.

Если только не написать программку по пакетной перекодировке.

... или скачать тут.

Наверх

#484
.ctor

Отправлено 15.08.2014, 16:59:00

Свой человек
988 сообщений

Люди, помогите решить проблему.
Есть текстовые файлы.
Notepad++ говорит, что у них кодировка ANSI.

В программке (на c#) я считываю содержимое построчно
string[] lines = System.IO.File.ReadAllLines(File,Encoding.GetEncoding(1251));

Но при дальнейшей работе с этой строкой казахские символы отображаются некорректно.

Не важно записываю ли я в базу или вывожу в MessageBox.

Как указать кодировку 1251 со специфическими казахскими буквами?

В свое время (98-й, XP) была такая хреновина как 1251k.
Вообщем идея была в том, чтобы заменить часть специфичных буржуйских (редко используемых) символов казахскими. На винду ставилась 1251_k.nls и, ура, мы видим эти символы правильно. Эта таблица представляля собой некую карту для сопоставления ANSI символам их Unicode аналогам.
Вам нужно просто открыв файл в бинарном виде, сделать подмену.
есть второй вариант. В настройке языков выбрать язык поддержи не юникод приложений с русского на казахский.
locales.jpg?gl=RU

Если повезет и файлы были записаны в подходящем формате, все отразится правильно при открытии анси.

Сообщение отредактировал .ctor: 15.08.2014, 17:00:10

Наверх

#485
.ctor

Отправлено 15.08.2014, 17:04:29

Свой человек
988 сообщений

чтобы корректно работать с казахскими буквами надо использовать UTF8.. чтобы и файл был UTF8 и читать его так же..

Не обязатально. Винда с utf8, utf16 и т.п. не работает. работает она только с юникодом. Все остальное конвертируется в юникод при чтении и выводе.

Наверх

#486
topcraze

Отправлено 15.08.2014, 17:11:28

В доску свой
2 009 сообщений

Не обязатально. Винда с utf8, utf16 и т.п. не работает. работает она только с юникодом. Все остальное конвертируется в юникод при чтении и выводе.

вообще не поняла, что вы имеете в виду

поясните, плиз?

юникод - это стандарт

utf-8 и utf-16(а также другие, менее распространенные) - это кодировки, разработанные по стандарту UNICODE

мало того, я вам больше скажу - имена файлов хранятся в семействе NT именно в utf-16..

Наверх

#487
.ctor

Отправлено 15.08.2014, 17:30:39

Свой человек
988 сообщений

вообще не поняла, что вы имеете в виду
поясните, плиз?

юникод - это стандарт
utf-8 и utf-16(а также другие, менее распространенные) - это кодировки, разработанные по стандарту UNICODE
мало того, я вам больше скажу - имена файлов хранятся в семействе NT именно в utf-16..

UTF-8 (от англ. Unicode Transformation Format, 8-bit — «формат преобразования Юникода, 8-битный») — одна из общепринятых и стандартизированных кодировок текста, которая позволяет хранить символы Unicode. ©wiki

чтобы работать с казахским не обязательно использовать UTF-8, вот что я хотел сказать. Все эти кодировки это только способ преобразования символов для последующего отображения и сравнения между собой.

про имена файлов:

NTFS stores file names in Unicode. In contrast, the older FAT12, FAT16, and FAT32 file systems use the OEM character set. For more information, see Code Pages.

взято отсюда, MSDN
NT может сидеть как на NTFS, так и на Fat32 (не знаю точно про семейство выше XP, XP точно может)

Сообщение отредактировал .ctor: 15.08.2014, 17:31:54

Наверх

#488
.ctor

Отправлено 15.08.2014, 17:35:05

Свой человек
988 сообщений

небольшая поправка)

В API Win32, распространённом в современных версиях операционной системы Microsoft Windows, имеется два способа представления текста: в форме традиционных 8-битных кодовых страниц и в виде UTF-16.

В файловых системах NTFS, а также FAT с поддержкой длинных имён, имена файлов записываются в UTF-16LE.

©wiki

Сообщение отредактировал .ctor: 15.08.2014, 17:35:40

Наверх

#489
topcraze

Отправлено 15.08.2014, 17:39:38

В доску свой
2 009 сообщений

©wiki

ну, и я об этом же..

взято отсюда, MSDN NT может сидеть как на NTFS, так и на Fat32 (не знаю точно про семейство выше XP, XP точно может)

в чем взятое утверждение противоречит тому, что я сказала?

чтобы работать с казахским не обязательно использовать UTF-8, вот что я хотел сказать. Все эти кодировки это только способ преобразования символов для последующего отображения и сравнения между собой.

не обязательно

можно и utf-16, и другие юникод-кодировки, согласна

но на практике, с utf-8 меньше всего проблем ))

про ср1251каз.. теоретически, можно

практически - требует распространения этой кодировки на компьютеры пользователей, неудобно

впрочем, если я что-то тут путаю или недопонимаю, прошу поправить..

Наверх

#490
.ctor

Отправлено 15.08.2014, 17:46:50

Свой человек
988 сообщений

в чем взятое утверждение противоречит тому, что я сказала?

There is another way!)

не обязательно
можно и utf-16, и другие юникод-кодировки, согласна
но на практике, с utf-8 меньше всего проблем ))

У человека есть определенная проблема, и ее надо решить)
мало того, у меня на работе до сих пор каз символы хранятся в ANSI, т.к. база не Unicode. Все прекрасно дружит, и занимает мало места)

про ср1251каз.. теоретически, можно
практически - требует распространения этой кодировки на компьютеры пользователей, неудобно
впрочем, если я что-то тут путаю или недопонимаю, прошу поправить..

Тот самый другой путь. Распространение требовалось на XP, на более новых ОС это уже изобретено до нас.
Я картинку высылал. Вообщем в некоторых случаях можно обойтись малой кровью)

Наверх

#491
.ctor

Отправлено 15.08.2014, 17:48:42

Свой человек
988 сообщений

И да, 1251каз (codepage) это не кодировка, а сопоставление символов ANSI (8байт) матрице Unicode символов.
Где часть символов просто ссылается на казахские, а не на спецсимволы, редко используемые.

существует для разных языков, включая русский.

Сообщение отредактировал .ctor: 15.08.2014, 17:58:32

Наверх

#492
topcraze

Отправлено 15.08.2014, 18:11:27

В доску свой
2 009 сообщений

У человека есть определенная проблема, и ее надо решить)

да, надо ))

вопрос еще, сможет ли .NET подтянуть cp1251k? Хотя! Можно же юзать P/Invoke и через WinAPI сделать все..

мало того, у меня на работе до сих пор каз символы хранятся в ANSI, т.к. база не Unicode. Все прекрасно дружит, и занимает мало места)

если оно никуда не ходит и не планирует, то почему бы и нет?

Распространение требовалось на XP, на более новых ОС это уже изобретено до нас.

и хранится в кодировках юникод!

И да, 1251каз это не кодировка, а сопоставление символов ANSI (8байт) матрице Unicode символов.

при всем уважении

cp2151kaz - это разновидность кодировки cp1251..и она к юникоду не имеет никакого отношения

Сообщение отредактировал topcraze: 15.08.2014, 18:12:05

Наверх

#493
.ctor

Отправлено 15.08.2014, 18:22:20

Свой человек
988 сообщений

при всем уважении
cp2151kaz - это разновидность кодировки cp1251..и она к юникоду не имеет никакого отношения

А я чего написал? О_о
https://ru.wikipedia...одовая_страница

Сообщение отредактировал .ctor: 15.08.2014, 18:27:51

Наверх

#494
.ctor

Отправлено 15.08.2014, 18:23:35

Свой человек
988 сообщений

да, надо ))
Хотя! Можно же юзать P/Invoke и через WinAPI сделать все..

ОМГ, вы говорите очень страшные вещи)) Все вразы проще.

Сообщение отредактировал .ctor: 15.08.2014, 18:29:07

Наверх

#495
.ctor

Отправлено 15.08.2014, 18:25:09

Свой человек
988 сообщений

и хранится в кодировках юникод!

тут я вообще не понял мысль) что хранится?

Наверх

#496
.ctor

Отправлено 15.08.2014, 18:29:53

Свой человек
988 сообщений

Можно нескромный вопрос девушке?))) Вы на чем пишете или писали?

Наверх

#497
topcraze

Отправлено 15.08.2014, 18:40:58

В доску свой
2 009 сообщений

ОМГ, вы говорите очень страшные вещи)) Все вразы проше.

покажите простой путь

на примере кода вопрошающего ))

тут я вообще не понял мысль) что хранится?

казсимволы в старших виндах хранятся в юникоде (utf16)

А я чего написал? О_о

так вот

1) cp1251k - это кодировка

2) она не сопоставляется символам Unicode, а символам национальных таблиц. Если хотите доказать обратное, покажите, плиз, код китайского символа в кодировке cp1251

Можно нескромный вопрос девушке?))) Вы на чем пишете или писали?

c++, с#

пишу

Сообщение отредактировал topcraze: 15.08.2014, 18:42:39

Наверх

#498
.ctor

Отправлено 15.08.2014, 18:52:54

Свой человек
988 сообщений

покажите простой путь
на примере кода вопрошающего ))

Мне бы файлик посмотреть для примера.

казсимволы в старших виндах хранятся в юникоде (utf16)

А на диске они в чем хранятся? Вот пользователь говорит что нифига не в юникоде.

вы написали, что cp1251k - [/size]
это не кодировка, а сопоставление символов ANSI (8байт) матрице Unicode символов.©[/size]

так вот
1) cp1251k - это кодировка
2) она не сопоставляется символам Unicode, а символам национальных таблиц. Если хотите доказать обратное, покажите, плиз, код китайского символа в кодировке cp1251

ок. Вот у вас диапазон от 0 до 255. В нем нужно хранить эпическое количество символов > 256 (для разных языков и систем DOS, Mac, Win)
есть фонты, которые имеют диапазон в от 0..ffff, например. Как сделать возможность отобразить текст на русском и скажем корейском языках (не берем иероглифы китайские, с ними все совсекм грустно) и сделать это в 1 байте. Одновременно языки не встречаются. Что бы вы сделали?

c++, с#
пишу

Низкий поклон) развелось адинэсников)

Сообщение отредактировал .ctor: 15.08.2014, 18:54:42

Наверх

#499
topcraze

Отправлено 16.08.2014, 16:37:32

В доску свой
2 009 сообщений

Мне бы файлик посмотреть для примера.

подождем, может вопрошающий появится и покажет ))

А на диске они в чем хранятся? Вот пользователь говорит что нифига не в юникоде.

Имена файлов на диске - в юникоде.. содержимое файлов в той кодировке, в которой угодно пользователю

Что бы вы сделали?

придумала бы юникод

а если серьезно, то значение 0xFFFF не влезет в байт, как ни крути ))

да и cp1251 - это исключительно кириллическая кодировка, а корейский уже не при чем

в разных кириллицах(например, каз, рус и какая-нидь болгарская(у них есть спецбуквы?)) - в специфичных cp1251 заменяются разные спецсимволы на национальные буквы.. и все, суть идеи совсем не сложна: один язык - одна таблица.. проблемы начинаются тогда, когда хочется все языки впихнуть в одну таблицу и не париться с тем, прочтут ли пользователи в Болгарии нашу казахскую cp1251, не имея ее установленной в системе ))

а еще большие проблемы появляются, когда на сцену выходят китайцы и 8 байт становится мало

Низкий поклон) развелось адинэсников)

спасибо ))

и вам.. судя по подписи

Наверх

#500
.ctor

Отправлено 16.08.2014, 19:22:15

Свой человек
988 сообщений

придумала бы юникод
а если серьезно, то значение 0xFFFF не влезет в байт, как ни крути ))
да и cp1251 - это исключительно кириллическая кодировка, а корейский уже не при чем
в разных кириллицах(например, каз, рус и какая-нидь болгарская(у них есть спецбуквы?)) - в специфичных cp1251 заменяются разные спецсимволы на национальные буквы.. и все, суть идеи совсем не сложна: один язык - одна таблица.. проблемы начинаются тогда, когда хочется все языки впихнуть в одну таблицу и не париться с тем, прочтут ли пользователи в Болгарии нашу казахскую cp1251, не имея ее установленной в системе ))
а еще большие проблемы появляются, когда на сцену выходят китайцы и 8 байт становится мало

Воот. На правильном направлении мыслите вы. Собственно этим и занимается кодовая страница. Это некая карта, которая указывает соответствие каждому байту его позицию в большом массиве (шрифты например или Юникод соответствующее значение). Поменяв карту (с 1251 на 1251каз, например) мы имеете отличия в 22 символа, которые будут ссылаться на казахский алфавит, а не на спецсимволы.
Дальше, пользователь нужно сделать что-то подобное, заменить байт на 2 соответсвующих правельным символам каз.алфавита, иначе конвертация пойдет по таблице 1251. locales.jpg?gl=RU

тут это настраивается стандартными средствами винды. Если повезет, и у пользователя файлы в правильном соответствии со стандартной кодировкой, то мы получим верный текст. Если нет, то сделать простым алгоритмом подмены в массиве символов. Дальше, получив нормальный юникод текс в .net, сохраняйте его как надо.
Вот вам карта 1251

Кодировки же (например UTF-8, KOI8-R) это стандарты преобразования, которые позволятет обойти стандартную кодовую страницу в вашей системе и описывает точное соответствие 2-х байтовому юникод-символу. Полезны они в интернетах, т.к. позволяют часть текста (английский, пробелы, цифры и спецсимволы) передавать в 1 байт, а все остальное 2-мя, 3-мя и т.д. имеем экономию трафика. Тут не используются спецсиволы (к примеру ACK, NAK, EOF, EOL и т.п. для передачи текста)

Наверх

Обратно в Программирование

Количество пользователей, читающих эту тему: 2

пользователей: 0, неизвестных прохожих: 1, скрытых пользователей: 0

Bing (1)

Вопрос - ОтветЗадал вопрос - получил ответ...

#481 topcraze Отправлено 12.08.2014, 16:48:05

#482 Fail Отправлено 12.08.2014, 17:02:35

#483 Квазимодо Отправлено 13.08.2014, 15:14:04

#484 .ctor Отправлено 15.08.2014, 16:59:00

#485 .ctor Отправлено 15.08.2014, 17:04:29

#486 topcraze Отправлено 15.08.2014, 17:11:28

#487 .ctor Отправлено 15.08.2014, 17:30:39

#488 .ctor Отправлено 15.08.2014, 17:35:05

#489 topcraze Отправлено 15.08.2014, 17:39:38

#490 .ctor Отправлено 15.08.2014, 17:46:50

#491 .ctor Отправлено 15.08.2014, 17:48:42

#492 topcraze Отправлено 15.08.2014, 18:11:27

#493 .ctor Отправлено 15.08.2014, 18:22:20

#494 .ctor Отправлено 15.08.2014, 18:23:35

#495 .ctor Отправлено 15.08.2014, 18:25:09

#496 .ctor Отправлено 15.08.2014, 18:29:53

#497 topcraze Отправлено 15.08.2014, 18:40:58

#498 .ctor Отправлено 15.08.2014, 18:52:54

#499 topcraze Отправлено 16.08.2014, 16:37:32

#500 .ctor Отправлено 16.08.2014, 19:22:15

Количество пользователей, читающих эту тему: 2

Войти

#481
topcraze

Отправлено 12.08.2014, 16:48:05

#482
Fail

Отправлено 12.08.2014, 17:02:35

#483
Квазимодо

Отправлено 13.08.2014, 15:14:04

#484
.ctor

Отправлено 15.08.2014, 16:59:00

#485
.ctor

Отправлено 15.08.2014, 17:04:29

#486
topcraze

Отправлено 15.08.2014, 17:11:28

#487
.ctor

Отправлено 15.08.2014, 17:30:39

#488
.ctor

Отправлено 15.08.2014, 17:35:05

#489
topcraze

Отправлено 15.08.2014, 17:39:38

#490
.ctor

Отправлено 15.08.2014, 17:46:50

#491
.ctor

Отправлено 15.08.2014, 17:48:42

#492
topcraze

Отправлено 15.08.2014, 18:11:27

#493
.ctor

Отправлено 15.08.2014, 18:22:20

#494
.ctor

Отправлено 15.08.2014, 18:23:35

#495
.ctor

Отправлено 15.08.2014, 18:25:09

#496
.ctor

Отправлено 15.08.2014, 18:29:53

#497
topcraze

Отправлено 15.08.2014, 18:40:58

#498
.ctor

Отправлено 15.08.2014, 18:52:54

#499
topcraze

Отправлено 16.08.2014, 16:37:32

#500
.ctor

Отправлено 16.08.2014, 19:22:15