Возможно вы искали: 'Cybernoid 2'

March 27 2026 10:37:14

Статистика

Статей: 87772
Просмотров: 102910368

Игры

Injustice: Gods Among Us ...
Dark Souls 2 Dark Souls II - вторая часть самой хардкорной ролевой игры 2011-2012 года, с новым героем, сюжето...
Battlefield 4 Battlefield 4 - продолжение венценосного мультиплеер-ориентированного шутера от первого ли...

Кино

Steins;Gate Любители японской анимации уже давно поняли ,что аниме сериалы могут дать порой гораздо больше пи...
Ку! Кин-дза-дза Начинающий диджей Толик и всемирно известный виолончелист Владимир Чижов встречают на шумной моск...

Обзоры на игры

• Обзор Ibara [PCB/PS2]	19321
• Обзор The Walking ...	19775
• Обзор DMC: Devil M...	20894
• Обзор на игру Valk...	16823
• Обзор на игру Stars!	18708
• Обзор на Far Cry 3	18879
• Обзор на Resident ...	16898
• Обзор на Chivalry:...	18519
• Обзор на игру Kerb...	18901
• Обзор игры 007: Fr...	17684

Превью о играх

• Превью к игре Comp...	18913
• Превью о игре Mage...	15461
• Превью Incredible ...	15657
• Превью Firefall	14375
• Превью Dead Space 3	17306
• Превью о игре SimC...	15673
• Превью к игре Fuse	16357
• Превью Red Orche...	16558
• Превью Gothic 3	17311
• Превью Black & W...	18328

Главная » Статьи » Разное » Программирование и utf-8 (unicode)

Программирование и utf-8 (unicode)

Ключевые слова: unicode, (найти похожие документы)

Date: Wed, 31 Dec 2003 19:03:47 +0500
From: Valentin Nechayev <netch@segfault.kiev.ua>
Newsgroups: ftn.ru.unix.prog
Subject: Программирование и utf-8

SL> $subj - в разрезе программизма. Интересуют меня совершенно тупые
SL> вопросы, как то : чему равен sizeof(char) ;

Единице - по определению. utf-8 - случай так называемой многобайтовой
кодировки, а не кодировки в каком-нибудь wchar_t.

SL> нужен ли для этого режима
SL> держать отдельный компилер ;

Hет. По крайней мере пока ты не хочешь от компилятора, чтобы он воспринимал
в тексте программы строковые константы в локальной кодировке, а писал
уже в utf-8.
В utf-8, представление символов 0-127 идентично таковому в ascii.

SL> как писать программулю, работающую и в кои8
SL> и в утф-8,

1. Использовать конвертер (например, iconv()) для преобразования между
кодировками.
2. Программа должна быть рассчитана на различение понятий длины текста
в символах принятой кодировки и длины текста в char'ах (эту длину выдаёт
strlen()). Hапример, для последовательности русских букв второе
больше первого ровно в 2 раза.
3. Программа должна быть рассчитана на то, что не все символы являются
печатными; на то, что некоторые - модифицируют стоящие после них печатные
символы.
4. Программа должна быть рассчитана на то, что переход к следующему или
предыдущему символу в строке достигается не простым инкрементом/декрементом,
а более сложными средствами. В винде, например, они были оформлены отдельными
функциями (AnsiNext() и AnsiPrev()), под юниксами я что-то такого не вижу.
К тому же, поиск предыдущего символа может требовать скана с начала строки.
Это и для utf-8 справедливо, потому что отрывать модифицирующие dead chars
от последующих модифицируемых символов вредно для конечного результата.

SL> и тому подобное. Чтоб по одному эти вопросы не задавать - дайте
SL> урку, плиииииизззз :)

Ой не знаю. Сходи на www.unicode.org, может, найдётся правильный туториал.
Главное - учитывай, что utf-8 - только один из форматов передачи
последовательности символов юникода, и часть проблем (например, те же
dead chars) - свойство юникода вообще, а часть (многобайтные символы
переменной длины) - свойство транспортного формата.

From: Valentin Nechayev <netch@segfault.kiev.ua>

VN>> 4. Программа должна быть рассчитана на то, что переход к следующему
VN>> или предыдущему символу в строке достигается не простым
VN>> инкрементом/декрементом, а более сложными средствами. В винде,
VN>> например, они были оформлены отдельными функциями (AnsiNext() и
VN>> AnsiPrev()), под юниксами я что-то такого не вижу. К тому же,
VN>> поиск предыдущего символа может требовать скана с начала строки.
VN>> Это и для utf-8 справедливо, потому что отрывать модифицирующие
VN>> dead chars от последующих модифицируемых символов вредно для
VN>> конечного результата.

AC> Ой, а то не существует более аккуратного способа найти все dead chars,
AC> относящиеся к предыдущему символу, нежели скан с начала строки...

Я криво выразился. Имелось в виду, что надо знать адрес начала строки и
учитывать его при заглядываниях назад.

Ссылки

HTML:
[BB Url]:

Похожие статьи
Название	Добавил	Добавлено
• Программирование и utf-8 (unicode)	Vova	08.05.2012

Ни одного комментария? Будешь первым :).

Пожалуйста, авторизуйтесь для добавления комментария.

Статьи

Рецензия на Pressure Чтобы обратить на себя внимание, начинающие маленькие разработчики, как правило, уходят в жанры, ...
Рецензия на Lost Chron... Игры, сделанные без любви и старания, похожи на воздушный шар – оболочка есть, а внутри пусто. Lo...
Рецензия на The Bridge «Верх» и «низ» в The Bridge — понятия относительные. Прогуливаясь под аркой, можно запросто перей...
Рецензия на SimCity Когда месяц назад состоялся релиз SimCity, по Сети прокатилось цунами народного гнева – глупые ош...
Рецензия на Strategy &... Название Strategy & Tactics: World War II вряд ли кому-то знакомо. Зато одного взгляда на ее скри...
Рецензия на игру Scrib... По сложившейся традиции в информационной карточке игры мы приводим в пример несколько похожих игр...
Рецензия на игру Walki... Зомби и продукция-по-лицензии — которые и сами по себе не лучшие представители игровой биосферы —...