Почему Unicode не будет работать в сети Интернет: языковые, политические и технические ограничения

Резюме

Unicode, полукоммерческий эквивалент UCS-2 (ISO 10646-1), было принято считать, что комплексное решение для электронного отображения всех символов из языков мира, является 16-битный символ определение позволяет теоретически максимум более 65000 символов. Тем не менее, комплекты характер мира добавить до более чем 170 000 символов. В настоящем документе кратко политических потрясений и технической несовместимости, которые начинают проявлять себя в Интернете, как следствие этого надзора. (Для более технически склонны: Unicode 3.1 не будет работать.)

Примечание редактора: В китайском, как Wade-Giles и пиньинь romanizations используются, в зависимости от которых лучше известен определенное слово. Справочные материалы по восточным языкам и политика достаточно обстоятельную; читателей связана с непосредственной технические последствия бумаги, возможно, пожелают перейти непосредственно к “неспособности Unicode для полного удовлетворения восточных символов”.

Китай (китайский)

Китайские является одним из старейших устных и письменных языков можно найти на сегодняшний день. Мандарин говорят более 1,3 млрд. человек, а это и новые, упрощенные метод написания этого используются людей материкового Китая не что иное, как модификация процесса, который слышал в разговорах на протяжении более двух тысячелетий. Многие другие страны продолжали использовать его таким же образом, что он был впервые использован в Китае. Среди них Япония, Корея, Тайвань и Вьетнам. В первые три, китайцы по-прежнему является основой всех нормальных устной и письменной речи.

Основополагающей книги Wieger о персонажах и строительство китайской, опубликованной в 1915 году, должен был стать де-факто источником, по которому все другие будут (и все еще должны) по сравнению – с несколькими оговорками. Среди них заметное смещение с его стороны против даосизма, который становится все более очевидным в своем анализе Тао Цанг (то есть даосский канон Писания Официальный [написано 'DaoZang »в латиницу материкового Китая])

Это было связано как с его религиозной и культурной подготовки, как отец иезуитов в Китае (в то время это было в ужасающих процесс рвется от своих тысяч лет, как тоталитарное государство управляется иерархии императоров и имперских чиновников), а также из-за общего Западной ущерб день против восточной культуры и общества.

Где это небольшое присутствует в теме под рукой есть настройка Wieger дела, впервые в популярной печати, формализация того мнения, что было огромное количество «лишних» персонажей, как ненужных и мешающих быстрым маршем в современную эпоху Китай, с которым шел в борьбу (был ли он хотел или нет). Сущность заключается в том, что этот уклон, и его вопиющие незнание реальной стоимости такого большого количества так называемых «избыточности» продолжается и по сей день, и, следовательно, по-прежнему является трение между точкой Востока и Запада ошибочной .

Следует также известно, что было больше, чем несколько ошибок, некоторые явно очевидно, некоторые нет, что Weiger определили в своей книге как “чрезмерное размножение», в котором свою неприязнь становится все более ясно: “1. Причины чрезмерное размножение символы … Во-первых, незнание книжников, которые постоянно выявила неисправность формы, которые тупо воспроизводить потомство, а затем, чувствовал необходимость давать имена новым вещам империя росла, обучение распространяется;. написания стало общественным вещь, процесс син-шэн [фонетических комплексов, в которых одна часть имеет смысл, а другой указывает на произношение] бытия из легких, все взял его из этого беспорядочного брожения, без направления, без контроля, без критики. , оба бросились с полезными символами, тысячи бесполезных парном разряде. ” Чтобы дать обзор того, что ему так ужасающе хаотично, различного количества символов заключаются в следующем:

Из около 800 до н.э. [До нашей (христианской) эры], и до того времени, около 300-200 г. до н.э., количество символов в использовании не оставался практически неизменным, а когда их около 3300 в общей сложности. В конце этой эпохи, количество стало расти быстрыми клипа, так что за сто лет до начала первого тысячелетия было около 7380 индексироваться. Эта сумма раздулась до чуть более 10 000 первым CE год. Как шли годы, все больше и больше символов, были добавлены к общей до Большой толковый словарь Кан Си (завершена в 1716 CE) кодифицированный набор в состояние, увидеть и сегодня.

Weiger в своей книге, что это (и, следовательно, весь набор санкционированных приводится в качестве последней инстанции, так как в то время) “… содержит 40 000 символов, которые могут быть прямо распределены следующим образом: 4000 символов в общем пользовании; 2000 имен собственных и парном ограниченного использования;. 34000 чудовищам никакого практического применения Мы далеки от легендарного число 80000 обычные символы, приписываемые китайского языка “. Что касается количества идет, Кан Си действительно содержит почти на 40000 символов жирным шрифтом, но в его пояснительными текстами дается вместе с каждым из этих персонажей, и уполномоченным конечным дополнением символов отсутствовали в ходе процесса его Первое издание, есть по крайней мере несколько тысяч больше, так что можно с уверенностью сказать, что Weiger неверны и что нормальное количество ближе к сорока пяти до пятидесяти тысяч общего.

Конкретный размер и содержание коммунистической уполномоченным сейчас множество народом на материке очень трудно отследить – это, кажется, меняется в зависимости от обстоятельств. Основные усилия начали – после свержения националистов в Тайвань – рационализировать и модернизировать воспитание масс, так что Китай может начаться реальная попытка догнать страны Запада. Реформа общей минимальный набор символов, достаточной для наиболее общего пользования и образования на уровень средней школы, был введен в действие, и мандарин, на котором говорят на севере страны было объявлено в качестве первого национального языка. Многие персонажи считается слишком сложным, чтобы писать и помнить и большой процент дубликаты были полностью удалены, так что список, как учили в школе чуть более 6000.

Новый и очень эффективный набор буквенно-цифровых символов известный как пиньинь латинизации был введен – это гениальное устройство очень похожие по действию Romaji японцев, но с добавлением “Акценты”, которые дают “Мелодии” (мандарин использует четыре), так необходимые для понимания смысла самих слов. Кроме того, значительная часть символов, которые остаются были подвергнуты процессу Джанхуа Hanzi («упрощенный китайских иероглифов»), так что они также легче писать.

Но это последнее изменение оказало глубокое влияние на несколько поколений студентов, которые в настоящее время учит новый набор, исключая остальные символы прошлого. Джанхуа Hanzi могли бы также быть совершенно новую письменность, ибо она имеет эффект отказа в доступе к тысячи лет литературы, которые предшествовали прихода к власти коммунистов в 1949 году. Это потребовало переписывания стандартных работ, в том числе ядро ​​старой классики, так что они могут быть изучены – ретрансляции является признаком того, что молчаливое такие работы “, утвержденного” правительства и, следовательно, также имеет официального утверждения мыслей и понятий, найденных внутри.

Потому что это «обрезание» произведения прошлого оказалась настолько серьезной, и в некоторых случаях, профессионально неловко, спрос китайского правительства, что новый 6000 + ядро ​​Джанхуа Hanzi быть включены наряду с несанкционированной количество старше, классических персонажей Hanzi (вплоть до полной суммы, если она когда-нибудь будет сочтено необходимым) не является необоснованным вообще, учитывая обстоятельства. И это приносит дополнительный эффект, что, хотя основное ядро ​​символов преподается в начальной через вторичные уровни государственного образования остается до некоторой степени постоянным, сам факт, что коммунистический Китай оставляет за собой право добавлять или вычитать или изменять от Кан Си компиляции означает, что попытки на Западе, чтобы укрепить и индексировать письменности Китая всегда будет также неустойчив.

Тайвань (Китайский)

Тайвань (Формоза ранее) пришел в поле зрения в 1949 году, когда националистическое правительство Чан Кайши отступили туда с материка после поражения от сил Мао Цзэдуна [Мао Цзэ Дун] и коммунистами. После того, как малоизвестный производитель сельскохозяйственной продукции, Тайвань сегодня имеет один из самых ярких хозяйств в мире. Так как большая часть некоренного людей, которые населяют остров пришли из соседней провинции Fujianin в юго-востоке Китая, его основные отношения остаются не только в общей оппозиции к коммунистам и их правила, но и содержит большой элемент гораздо старше недовольство присоединением к маньчжуров с севера районе Китая от правящей династии Мин Юга в 1544 CE Несмотря на это, официальным языком Тайваня Мандарин (потому что это высшего класса языка, на котором говорит правительство с тех пор увольнение Mings, и последующее создание столицы страны в Пекине на Севере).

Тайвань по-прежнему имеет чрезвычайно сильные и тесные связи с “Зарубежные китайцы”, который можно найти по всей планете, работает расширенная торговля и коммерция, сохраняя жизнь линии на Тайване и Гонконге. Точка зрения, что никто не может сократить формальные корни прошлом безнаказанно яростно состоялся. Тайвань продолжает оставаться оплотом за наследие докоммунистической Китай и его древнее прошлое. Наряду с Кореей и Японией, большие слои населения являются буддийскими и Confucist в их религиозным и философским мировоззрением. Тайвань имеет дополнительное условие, что, хотя его основной религией является буддизм, даосизм проходит второе место. Это означает, что они хотят иметь возможность доступа Труды этих трех систем, в основном это “Конфуция” (записано вскоре после смерти Конфуция в 479 г. до н.э.) и его союзников корпус работ, буддийского канона (Дазанг) бытия полученные с пали Canon записано в пятом веке до нашей эры, и даосские Canon (DaoZang), написание которого началось еще в 300 г. до н.э., хотя его философские корни гораздо старше. (Даосский Canon работает только до 1270 объемов 200 страниц письма и рисунки каждый.)

Это почти пустой тратой времени сказать, сколько влияние этих трех наборов работ только имели на прошлое и настоящее состав стран Дальнего Востока. Для изучения этих работ требуется только умение читать классических персонажей, и это одна из самых больших причин для отказа в тайваньской от них отказываться.

Сингапур (китайский)

Эта крошечная страна, экономически важных и далеко за ее размера, в основном используется та же система написания символов, использование мандарин в качестве своего официального разговорного языка, те же правила применяются к нему, как делать те коммунистического Китая. На самом деле, Сингапур является единственной другой страной, в союзе так тесно таким образом на независимой основе, с пиньинь и Джанхуа Hanzi преподается в школах наряду глубокой связи для классической Кан Си основе полного структура характера в прошлом.

Корея (корейский)

“Продолжающееся использование китайских иероглифов в [] японского и корейского языков привело к широко распространенное заблуждение, что существует тесная связь между этими тремя языками. Пристальный взгляд показывает, что на этом сходство заканчивается с получением заемных персонажами, когда одна система письма не существовало и дальнейшее использование кредитного ‘слова в корейском и японском от китайских.

“Исторически сложилось, что тесные культурные связи между Китаем и Кореей привел к неизбежному заимствование слов. Однако корейская грамматика и перегиба которые полностью отличаются от китайских. Фактически Брюс Грант заявил в предисловии к Руководство по корейских символов,” Китайский и английский больше общего, чем китайский и корейский. Корейская, скорее всего, членом урало-алтайской семьи языков и похож на японский, это интересно отметить, что финские также суб-член группы “[Цитируется по корейской с китайскими иероглифами, 1, Ричард Б. Rucci]

Обратите внимание, что то, что сформулированы в выше ссылки является использование разговорного языка, а не письменного ideographics (регулярные китайские «персонажей», которые находятся в большинстве случаев, а не пиктографическую фонетические, это называют Hancha от корейцев). Корейцы решили создать свой собственный фонетической основе письменности, хангыль, в 1446 году н.э., и его можно считать самым блестящим строительства, и по сей день. Технически, он был разработан с самого начала, чтобы быть в состоянии описать любой звук человеческого горла и полости рта способен производить в речи, а для этого в пространстве не больше того, что может быть записано с ясностью, в 24 X 24 [точка на дюйм] пространства.

Однако вплоть до самых последних времен, около 60% от общей лексике не было еще сделано с слов, заимствованных из китайского. После освобождения Кореи от японского контроля в 1945 году, а тем более после большому притоку западных вещей принесла союзникам во время корейского конфликта, и эта тенденция была установлена ​​которое продолжается по сей день, что является зависимость все больше и больше на скорость и простота фонетические хангыль.

Этот недавний период времени представляет собой лишь краткий всплеск в общем существовании корейской письменности и литературы. Это, конечно, еще до японской использование формализованной системы письма, так как последний узнал о китайских иероглифов через контакт с корейского суда, а Confucist и буддийские ученые, чуть раньше 100 CE С другой стороны Кореи, безусловно, может оказаться уже используют обычный китайский письменный язык по крайней мере с начала периода Воюющих царств (403-221 до н.э.) в Китае, когда по всей стране резню и разрушения вынужденной миграции на тех, кто не могли (или не будет) выживают за счет чисто физических способностей и хитрость. Многие искали убежища в более мирное климате – на Корейском полуострове, чтобы быть таким убежищем в течение многих десятилетий постоянной борьбы.

В эти дни, он является общим для газет и подзаголовки на зарубежном телевидении, которые будут напечатаны полностью в фонетическом языке хангыль. Но в сфере образования она по-прежнему остается то, что средние выпускники школ должны стать экспертами в области около 900 китайских иероглифов, и тех, кто собирается на завершение средней школе нужно учиться еще 900, в результате чего их общее количество до 1800.

Только быть грамотным в использовании хангыль, конечно, не полная грамотность. Корейские ученые говорят, что она требует уровня владения языком гораздо больше, чем эта сумма, чтобы понять написания прошлого. (Это часто думают как до 1945 освобождению русских на севере и западных сил на юге от японской оккупации. Точнее, прошлое следует считать время до начала этой оккупации, в 1910 году , когда использование корейской письменности и языка было запрещено законом Imperial).

Корейские ученые по праву утверждать, что истинная грамотность, имеющих возможность чтения произведений всех предметов из этих писателей прошлого, и такие вещи, как правило, содержат баланс не более 30% хангыль в 70% китайских иероглифов. Колледжи и университеты всегда знал это, и даже в наши дни эти учреждения требуют использования сплит 70-30 процентов во всех письменно них создается дюйма С другой стороны, в газетах Hancha теперь официально ограничена примерно сумму, которая узнала в средней школе, так что однородность понимание может быть достигнуто в обычном населения.

Еще одна область, раздора в использовании имен. Даже если это сейчас часто можно увидеть хангыль использованы для объяснения имя человека, люди по-прежнему гордятся возможность написать свое имя классическим способом, а это значит больше, чем просто понимание Hancha (и сопутствующие использованию каллиграфии ) необходимо, чтобы иметь возможность не появляются необразованные в таких вопросах.

Японии (японский)

Япония является частным случаем в использовании символов Хан, как использование письменности в этой стране имеет уровень сложности, которая даже превосходит, чем в Китае. В 1946 году только что установленную правительство издало постановление, что отныне будут официально база 1850 кандзи (японские произношение китайских иероглифов Hantzu он использует). Известный как Toyo кандзи (то есть “ежедневного использования” кандзи), заметные в этом указе было утверждение, что с того времени, данная [то есть, личный] имена всех японских может быть принято только от него и никакой другой источника. Это было также одобрено, ограниченный набор кандзи, которые будут использоваться в прессе. Как такое серьезное изменение скоро оказались слишком обременительными, список впоследствии был изменен несколько лет спустя (1951), чтобы еще 92 символов для использования в собственных имен. Кроме того, 28 символов добавляли в основной корпус 1850 Toyo кандзи, это время обычно используются и признанных сокращений и избыточный вариантах (с точное количество 28 символов быть соответственно удалена от основного корпуса таким образом, что сумма 1850 может оставаться в качестве константа). Тем не менее, Toyo кандзи не могли надеяться также распространяется на использование семьи [т.е. фамилий] и географических названий. Они работают в десятках тысяч; различные возможности просто ошеломляют. Также отметим, что в общей сложности 1850 символов недавно (в 1977) был изменен еще раз, и в настоящее время насчитывает 1950 символов в общей сложности, это существо известно как Kyoiku кандзи (или «образовательных» кандзи).

Это только начало того, что должно быть одним из самых сложных и интенсивных систем письменности в мире. Но сначала краткий исторический тур, так что некоторые из причин для этого основной запутанности можно понять.

Как и в случае с Кореей, разговорный язык Японии не была представлена ​​на самой ранней формой записи. Это была нормальная китайских иероглифов (Hantzu) исключительно. Свидетельством этого используются даты еще в 100 CE чуть позже, он был введен в страну двух корейских ученых, Ван В и Ajikki, которые были посланы к императорскому двору в качестве учителя, в третьем веке Словари CE были отправлены в более 285, так что эту дату можно считать, что из официального введения письменности и его структуры.

Буддизм прибыл в 552, а вместе с ней много текстов и основы своего Canon. Монахи считались такими же, как учителя, и чтение и письмо было необходимо для дальнейшего изучения и просвещения, почитание и уважение уделяется письменных материалов и обучения, которая была превышена только у корейцев, которые первоначально подал им.

Вот на этом сходство заканчивается. Япония имеет четыре различных типа письма. Существует оригинальный кандзи, а два других, которые основаны фонетически, эти являющиеся хирагана и катакана. Кроме того, есть Romaji, который является латинской основе символов мы знакомы на Западе. Kanji могут быть использованы для формирования “живописное” глифы рядом с его использованием в качестве источника звука, насколько это по-китайски. Слоговые, хирагана и катакана составляют полнофункциональной схемы письменно в себе. Хирагана, что несколько скорописи, могут быть использованы для увеличения кандзи – на самом деле, все в кандзи можно записать в хирагана. Катакана, что намного больше жидкости, по внешнему виду, чем хирагана, используется для записи любого слова, которое не имеет своих корней в кандзи, например, много иностранных слов и идей, которые на протяжении веков дрейфовали в общее употребление.

Таким образом, можно сказать, что хирагана могут образовывать фотографии, но катакана может сформировать только звуки, и современная наука это подтвердили. Люди с определенными заболеваний головного мозга или реального физического повреждения иногда может распознавать и функционировать в одной, а не другой, так как эти методы работают из двух различных полушарий. Romaji используется, чтобы попытаться сохранить все написанные вещи выйти из-под контроля, поскольку большинство западных концепций и нужные слова внедряется в язык с помощью этого механизма. Через некоторое время эти слова (хотя они все еще сохраняют свои “римские” формы на некоторое время дольше) станет неузнаваемым для людей, которых они были первоначально заимствованы из, например, фраза: “Персональный компьютер”, который в настоящее время “pasokon» или “persacom” в Японии (последний распространен в Нагасаки и прилегающих районах).

Перед натиском Английский за последние несколько десятилетий, было обнаружено, что 41% слов, используемых в общей беседе и письма основаны на китайских (в виде символов и звуков). В качестве одной поднимается выше в сферы государственных и научных кругов, этот процент увеличивается соответственно. Увеличивается, как учили в школе в следующем. 850 кандзи учат в начальной школе, 46 символов в один класс, 105 в два класса, 187 в три класса, 205 в четыре класса, 194 в пятом классе и 144 в шестой класс. Остальные 1950 должны быть полностью запомнил к моменту окончания средней школы в двенадцати классам. Пожалуйста, помните, что это только общая законом минимального необходимого порога считаться грамотным. И это должно быть полностью поглощается, а также непосильные нагрузки других предметов.

Чтобы считаться серьезным читателем “Классика” японских литературных и религиозных работ требует полного знания так же, как глубокий и широкий, как, что и ученые Китая. Как минимум 10000 символов и вверх является обязательным, и в общем может быть логически продлен до конца полной Kanji (Кан Си) словарь с 50000 различных иероглифов.

Воздействие последних западных технологий на восточные

Больше изменений произошло в Китае в последние пять лет, чем в предыдущие пятьдесят, и что пятьдесят содержит больше изменений, чем за последнюю тысячу. Это не может быть сказано о Японии и Корее (только потому, что они начали раньше, и, таким образом добились состоянии лихорадочного преобразование, которое продолжается, вместо того, совсем недавно резко проснулся в состоянии полного шока оказавшись бег на месте, полная -отверстие).

До появления Интернета несколько лет назад, с помощью персонального компьютера в Японии не считалось знаком аномального поведения – в стране, которую ненавидел что-либо за пределами нормы. Существует старая японская пословица: “гвоздь, который торчит получает стучал вниз”. Это означает, что норма состоит из стремясь быть как и все остальные в обществе, и не позволяя себе каким-то образом «Индивидуальный». Это не может быть переоценена, как глубоко укоренилась эта концепция, даже сегодня.

Персональные компьютеры были точно как следует из названия: то, что было использовано себя самого, и, следовательно, отделены одна от остальной группы (состоящие из многих групп внутри групп) – и это действие приведет в конечном итоге стать одним аутсайдером, а затем и иностранца. Отсечения последовало, и это стало бы состоянии постепенного снижения и последующего исключения даже от самого себя. Таким образом, японцы традиционно трудно делать чего-либо, что приводит к такого исключения, в то время как китайские (и в меньшей степени, корейцы) не страдают от этой проблемы вообще. В Китае, один всегда китайские Безусловно, наличие семьи и деревни, независимо от того, как далеко он есть, или сколько поколений одной был далеко.

Но, возвращаясь к проблеме, что гипотетические личности в Японии: в течение длительного времени, прибегая к использованию компьютера было считать одной из форм наказания или пыток получают те, кто были прокляты их статус в рабочей силе, или сумасшедший бахромой художника или ученого, который бы был, наверное, уже избегали другие в течение длительного времени в любом случае, прежде чем они даже получили доступ к их первой клавиатурой.

Появление Интернет изменил все это за один раз и навсегда. Термин “Интернет” означает “то, что взаимосвязано”, и это, конечно, совершенно в порядке с японского общества. Можно было видеть это развиваться вместе с сотовым телефоном, который также способствовал “связь” 12:59 по группам взаимосвязанных пути, будучи на основе матрицы, среди матриц пересекающей город и страну и в конечном счете всей планете). Так же, как использование сотового телефона чрезвычайно высока в Японии, поэтому является интеграция ПК в почти любой другой дом. Это дешево, быстро, надежно – и это уютно.

Но при использовании этой технологии, японцы страдают от той же проблемы, как это делают китайцы и корейцы, а именно: как вы рожок для обуви так много символов в устройство ввода (клавиатура, планшет, у чего есть вы), так что вы можете сделать то, что другие на Западе с их простой набор буквенно-цифровых символов мы прошли вместе к нам от римлян? Клавиатура была разработана для нас на Западе. Так был стандартный монитор и телетайп основе принтера.

Это не случайно, что эти устройства в настоящее время в основном производятся на Востоке (с извинениями Hewlett-Packard и их успешную линию Северо-Американской построен принтеры), и основная причина в том, что уровень качества которых большинство из нас будет мириться с , например, с низким разрешением, 40 символов на строку зеленого монитора и одного-контактный принтер были совершенно непригодны для людей, нуждающихся в поколение с высоким разрешением символов в вертикальном режиме 24×24 DPI То же самое относится и к принтеру. Epson выпустила восемь-контактный принтер таким образом, то может выделяться хирагана и катакана за один проход – не так, что мы могли бы сделать более хорошо и Б. Они также дали принтеров “Графика” режимов с тем, что “снимков” (наиболее часто почерк в случае ее азиатских клиентов) может быть напечатан.

Этом качестве графики также одна из главных причин, почему факсимильный аппарат так быстро стал общим прибора. Это может воспроизводить и передавать почерк китайских и японских и корейских символов.

В конце концов, с большой подталкивая вместе на территории с высоким разрешением цвета и графики, более устройств ввода, таких как сканер (который можно рассматривать факсимильный аппарат для компьютеров), более устройств вывода, такие как струйный и лазерный принтер, и даже извращается клавиатуры и программного обеспечения, которое может генерировать тысячи символов, – если только один может запомнить каждый из входных кодов. Графические планшеты облегчить боль от того, чтобы получить что-то в и из компьютера. Но ничто из этого не является еще полностью удовлетворительным, и, возможно, она будет оставаться в этом состоянии до интеллектуальных, голосовое понимания, “компьютер”, наконец, приходит в нашу повседневную жизнь.

Неспособность Unicode полностью удовлетворить восточных жителей

Независимо от всего этого, рост World Wide Web на нас, и все остальные на этой планете. Нынешняя философия содержится в убеждении, что “английский язык является новым языком общения бизнеса”, – так он просто может, а также языком всех, кто использует Интернет.

Позвольте мне перефразировать это несколько: английский легко языка в Интернете, но не обязательно, что в Интернете. Одно не включено, так как большинство людей считают. Это прискорбное недостаток в западных отношений. Она распространяется в основы операционной системы, и в настоящее время разрешено вторгаться в структуру и инструменты, на которых построен веб-

ISO и Unicode пытались исправить этот недостаток. Как указано, заявленной целью Unicode том, чтобы позволить формализованный системный шрифт, которые будут созданы из списка размещению номера, которые могут сформулировать каждый письменный язык на планете.

Нынешние перестановки Unicode дает теоретический максимум примерно 65 000 символов (на самом деле ограничивается 49194 по стандарту). Это на первый взгляд, как более чем достаточно для смельчаков, которые создали формальные, начиная с очень длинной строки последовательных номеров, на которые персонажи разных языках назначены. Это была хорошая идея, в камеру – за исключением тех стран, которые не были приглашены на начальной партии.

Эти не включены приглашенные группы с самыми символов назначить. В самом деле, именно эти отвергает не было ни одного, кроме материкового Китая, Тайваня, Кореи и Японии.

Реакция была предсказуемой, и на мой взгляд оправдано. Материковый Китай настаивает, что все его нормально, официальная 6000 включаться символы, наряду со многими «упрощенного» вариациях, плюс остальные старше, Кан Си классический набор символов 40000 +. Одного этого достаточно, чтобы занять почти все пространство, отведенное на всей Unicode/UCS-2 спектра.

Тогда Тайваня и китайских эмигрантов (которых насчитывается 125 000 000, как правило, хорошо расположены и хорошо образованные люди) заявили, что у них были права на свою собственную полный набор Кан Си персонажи – все они в их первоначальной сложной формы. Это было добавление еще 50000 символов, и они не могли использовать ту же нумерацию, отнесенных к коммунистам на материке.

Между этими двумя группами, было теперь необходимость генерировать более 90000 личной номерной размещения. Япония жаловался и сказал, что это было не менее собственник его собственных персонажей (в том числе “кокудзи”, которые являются символами, которые кажутся китайской полученных, но на самом деле однозначно японский), и поэтому не должно быть другой блок создан для них . И так как это теоретически может включать в себя все символы не использовали до сих пор, еще 40.000 + размещений будет необходимо. И, наконец, чтобы не остаться вне круга законных истцов, Кореи, потому что его собственный набор прошлых и нынешних обстоятельств, попросил свою полную меру тоже.

Таковы лишь некоторые из многих причин, сумму, необходимую для удовлетворения таких требований может очень легко быть приняты, чтобы в общей сложности более 170 000 символов, если каждый из перечисленных выше стран продолжает расширять свою письменность права по максимуму – и есть Абсолютно никаких оснований ожидать каких-либо изменений в их желании сделать это.

Примечания редактора:

1. Насколько я могу сказать – допрос некоторых из пионеров в ARPAnet и протоколы передачи – проницательный из них были полностью осведомлены о необходимости разместить в конечном итоге восточных символов, целых 30 лет назад. Беда в том, они спросили бы один китайский или японский или корейский – и этот человек, глядя на набор символов родного языка, будет заверить их, что Unicode будет достаточно. Только тогда, когда вы получите все национальности в той же комнате, что проблема проявляется. И с Интернетом, мы теперь все “в одной комнате”.

2. Еще одним источником надзора происходит от тенденции многих людей на Западе уволить старше восточные символы, как “классические”, когда на самом деле они до сих пор используются именно по этой причине – чтение классической литературы.

Почему Unicode 3.1 не решает проблемы

Unicode недавно объявила версии 3.1, которая – вырваться из двух “Самолет Ноль” октета они первоначально позволили себе в версии 3.0, с 49 194 символов – хотел бы добавить еще два октета и еще 44946 символов схеме, для в общей сложности 94 140 .

Это по-прежнему падает катастрофически не хватает из 170 000 + символов, необходимых.

Очевидно, что 32 бита (4 октета), было бы более адекватными, если они непрерывный блок. Действительно, “18 бит” (262 144 вариаций) будет достаточно для решения символов в мире, если непрерывный блок.

Но два отдельных блока 16 бита не решают проблемы вообще.

Политическое значение этого выражено в Западных Условиях

Чтобы выразить это в западных условиях, как бы английского языка понравилось, если бы они вдруг ограничивается алфавит, который отсутствует пять или шесть из его букв, потому что они могут рассматриваться как “подобные” (например, “M” и “N” звучание и смотрит так похожи друг на друга), а также “комплекс” (“Q” и “X” – почему, они не являются не более, любитель “С” и “Z”). Можно было бы дальнейшее аналогию, говоря английского должны сдаваться около трех из каждых четырех слов, которые находятся на английском языке, на том основании, что они являются избыточными, тоже тайные, или просто лишнее, и современные речи не либо нужно пользоваться них. Это был бы конец Библии и Шекспиру.

Необходимо дополнительно рассмотреть оставшиеся враждебность, вытекающие из веков войны. В этом смысле на Востоке мало отличается от Европы; фурор, возникших в ЕС [Европейское сообщество] переход на единую валюту (евро) не было бы ничто по сравнению с шум, который бы возникнуть, если французы были вынуждены использовать немецкого алфавита или английском вынуждены использовать французскому алфавиту. Не помогли бы этот вопрос был чисто эмоциональным. Такие изменения были бы более чем раздражение, действительно, они были бы угроза для одного очень языку и образу мыслей.

Аналогия может быть легко принят Кроме того, если принять во внимание политическую напряженность в последние годы в различных странах было отказано (а иногда и позже выдан) членство в ЕС. В том же духе, чтобы ваш язык налево из Интернет, безусловно, если есть “отказано в членстве”.

Недавние действия Verisign

Verisign недавно открыл ящик Пандоры, когда компания заявила, что она принимает заказы на URL-адреса на языке особенно тем странам, которые либо хотят или требуют работать в письменный набор, кроме Latin1.

Компания отступил на несколько вопли страха и гнева тех, кто знает это не может работать, не вызывая большое бедствие для тех, кто должен управлять и работать World Wide Web.

Кроме того, некоторые страны отвергают это как дерзость со стороны Verisign, считая это оскорблением их усилия, направленные на сохранение суверенитета государства. Китай является одной из основных стран, чтобы выйти и сказать об этом, отвергая такие попытки как вмешательство в свои внутренние дела. Возможно, они правы.

То же истина может быть применен не только к URL, но сам Интернет. Там нет нормальных инструментов с Запада, чтобы позволить Полотна, работать на международном уровне, и браузеры, которые действительно являются прозрачными и бесшовной в повседневном использовании для этого сегмента в будущем. Спросите любого, кто должен использовать одну, так и хочется сделать что-нибудь другое, чем то, что могут быть получены с псевдо-ASCII (например, французский или немецкий, или албанской) – или нужны символы, которые выровнены по вертикали, и должны занимать не менее . 32 X 32 точек для каждого) продолжать верить, что взаимодействие в рамках World Wide Web может быть сделано с ascii-зависимой браузеров и – что еще более важно, ASCII-зависимых серверов – это наивно.

Заключение

UCS-2 (с 2-октет блоков на символ), действительно, кажется, самая простая система характером использования (и тот, который следует Unicode оригинальные намерения наиболее адекватно) – исключением того, что, как уже отмечалось ранее, он имеет слишком коротким общие Длина адреса, чтобы охватить все известные персонажи всех известных языках.

Переключение внимания другим Unicode сертифицированных методологии делать то же самое, есть UTF-8, UTF-16 и UTF-32. По словам бумаги Unicode автора: “Различные формы кодировки Unicode полезны в различных средах, например, UTF-32 несколько проще в использовании, чем UTF-16, почти во всех случаях занимает в два раза хранения общих стратегия должна иметь внутреннее.. Строка хранение, использование UTF-16 или UTF-8, но использовать UTF-32 для отдельных типов данных характер “.

Это нормально, на самом деле большинство компьютерных приложений работать в такой моде уже и сделала это перед Unicode. Проблема в том, что – даже в простое объяснение того, что открыто простую задачу – не менее трех отдельных кодификации формул пущены в ход, чтобы на него ответить. Легко сформулировать новые стандарты с использованием 4 октета блоков (до бесконечности), – но воспользовалась их сверху Unicode 3.1 просто усугубляет сложность шрифтов, а Unicode 3.1 увеличилась сложность UCS-2.

Так что это, в двух словах, является политически взрывоопасным будущем мы сейчас сталкиваемся.

У китайцев есть древнее выражение: «Нет ничего более могущественного, чем идея, время которой пришло”.

Время пришло. Теперь возникает вопрос: что будет этой идее вырасти и стать?

# # #

Норман Goundry – программист, переводчик, а также энциклопедист, специализирующийся на редких даосские религиозные тексты и медицинские работ. Он обычно находится глубоко в азиатских катакомбах Департамента исследований. Британской Колумбии, работая с редкими даосских текстов Canon найдется в нем. Он выражает это личный опыт с пределов Unicode: “Я недавно разработал только один собственный шрифт, состоящий из более чем 50000 отдельных Хан сложных символов в соответствии с приведенным в Кан Си словарь 1710 для моей собственной рукой запрограммированный перевод интерфейса, из-за постоянного разочарования, не имеющих особый характер доступны для использования, когда это необходимо. Я внимательно посмотрел на Unicode, а затем отверг его, потому что это не в моих знаниях содержать даже одного полного индексирования шрифта представитель символов, необходимых для охватывающих любой из вышеуказанных групп.”

Ресурс: Norman Goundry

Comments are closed.

Post Navigation