ASCII | |
---|---|
Орган стандартизации | Национальный институт стандартов США |
Медиафайлы на Викискладе |
ASCII (англ. American Standard Code for Information Interchange, [ˈæs.ki][1]) — стандарт кодирования букв латинского алфавита, цифр, некоторых специальных знаков и управляющих символов, принятый в 1963 году Американской ассоциацией стандартов как основной способ представления текстовых данных в ЭВМ[2].
Во избежание путаницы с национальными вариантами ASCII, используемыми в других странах, IANA рекомендует обозначать оригинальный вариант кода как US-ASCII[3].
Стандарт ASCII представляет собой 7-битный код без рекомендаций относительно контроля чётности, содержащий 27 = 128 кодовых позиций[4], в которых размещены следующие символы:
С развитием вычислительной техники и языков программирования возможностей телетайпного кода ITA2 стало не хватать, что вынуждало производителей ЭВМ создавать расширения для ITA2 или же свои собственные коды. Кроме того, для записи на перфокарты использовались различные варианты кода Холлерита[англ.]. Таким образом, к началу 1960-х годов существовало достаточно большое количество кодировок латиницы, используемых как для передачи по линиям связи, так и для записи на носители — магнитную ленту, перфоленту и перфокарты, — таких как ITA2, FIELDATA[англ.], различные варианты BCDIC и т. д.[5], причём даже в рамках одной и той же кодировки один код мог соответствовать различным символам в зависимости от модели и назначения устройства. Чтобы решить эту проблему, 4 августа 1960 года был создан комитет X3.2 (как часть комитета X3, сформированного 13 января того же года)[6], в который вошли представители компаний IBM (в частности, Роберт Бемер[англ.]), AT&T, Bell Labs и других.
Работа по созданию ASCII началась 6 октября 1960 года[6], и 17 июня 1963 года, почти 3 года спустя, была опубликована его первая редакция (ASA X3.4-1963)[7]. В ней отсутствовали строчные буквы, а область из 28 кодовых позиций 0x60
—0x7B
была зарезервирована для дальнейшего использования[8][9]. Велись споры о том, использовать эту область для добавления строчных букв или же управляющих символов.
В 1965 году была подготовлена новая редакция ASCII (ASA X3.4-1965), которая, однако, так и не была опубликована и не использовалась нигде, кроме терминалов IBM 2260/2848 и принтеров IBM 1053 (да и то без строчных букв и некоторых других символов)[10]. Следующая редакция ASCII (USAS X3.4-1967) была опубликована 5 июля 1967 года и определила окончательную кодовую таблицу[11]. Новые редакции ASCII продолжили выходить и далее (USAS X3.4-1968, ANSI X3.4-1977, ANSI X3.4-1986 и т. д.), однако кодовую таблицу изменения в них более не затрагивали.
В целом, внедрение ASCII долгое время саботировалось компанией IBM, отдававшей предпочтение собственной кодировке EBCDIC, являющейся дальнейшим развитием кодировки BCDIC, также созданной IBM и основанной, в свою очередь, на коде Холлерита[7].
Первая редакция ASCII содержала 36 управляющих символов, пробел, 10 арабских цифр, 26 заглавных латинских букв и 27 специальных символов, подразделяемых на группы[12]:
.
, ,
, :
, ;
, !
, ?
, '
, "
);#
, $
, %
, &
, @
);(
, )
, [
, ]
);+
, -
, *
, /
, \
, =
, <
, >
)[a];↑
, ←
).Cимвол «подушка» (⌑
), имевшийся в наборе доступных символов многих печатающих устройств того времени и присутствовавший в кодировках BCDIC, FIELDATA и др., ни в одну из редакций ASCII не вошёл.
В редакции 1967 года был пересмотрен (сокращён до 33) набор управляющих символов и убраны стрелки, а также добавлены строчные буквы и 7 дополнительных символов (^
, _
, `
, {
, |
, }
, ~
), после чего кодовая таблица приняла окончательный вид[13]:
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | .A | .B | .C | .D | .E | .F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0. | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | VT | FF | CR | SO | SI |
1. | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | CAN | EM | SUB | ESC | FS | GS | RS | US |
2. | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / | |
3. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4. | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5. | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6. | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7. | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | DEL |
Все символы в ASCII делятся на 4 группы по 32 символа[14]:
0x00
), означающего незаписанный участок, например, перфоленты, и игнорируемого при выводе на экран или на печать[16]. За пределами группы, в конце таблицы также располагается символ DEL (0x7F
), означающий пробитый целиком участок перфоленты и сигнализирующий о том, что символ, записанный здесь ранее, был удалён, а значит, его также следует пропустить[16][17].
0x01
—0x07
), форматирование (0x08
—0x0F
), управление устройством (0x10
—0x17
) и разделители потоков данных (0x18
—0x1F
)[18]. В редакции 1967 года этот порядок был отчасти нарушен из-за переноса дополнительных управляющих символов.0x20
) — было принято решение, что пробел должен считаться печатным, а не управляющим символом, но при этом располагаться в самом начале для корректной работы алгоритмов сортировки[19].0x35
(01101012) в ASCII и 01012 в BCD. По этой причине цифры невозможно было разместить в первой подгруппе, поскольку в ней первым идёт пробел[17][20]. Другая причина расположения цифр в этой подгруппе — необходимость того, чтобы при сортировке большинство знаков препинания располагалось раньше цифр и букв[21].!
, "
, #
, $
, %
, &
, '
, (
, )
), идущие в том порядке, в котором их располагали на клавиатурах пишущих машин тех лет[12], за исключением скобок, которые заняли позиции 0x28
и 0x29
, поскольку цифра 0 оказалась под кодовой позицией пробела[22]. Впрочем, на некоторых электромеханических пишущих машинах, в частности IBM Selectric, расположение этих знаков было иным в связи с наличием у них механизма дозирования силы удара, который требовал расположения на одной клавише знаков, близких по оптической плотности. Окончательно отличное от кодовой таблицы ASCII положение этих знаков было закреплено в IBM PC.<
и >
[23]. Знак вопроса также спарен со знаком косой черты как на пишущих машинах[12].0x40
) — предполагалось, что для машин, поставляемых во Францию и Италию, этот символ будет заменяться на букву À
. Положение заглавных латинских букв и цифр было выбрано из соображений совместимости с шестибитной кодировкой DEC SIXBIT. Три позиции после заглавных букв (0x5B
, 0x5C
и 0x5D
) также предполагалось при необходимости заменять на национальные символы. В редакции 1963 года в позициях 0x5E
и 0x5F
располагались, соответственно, символы «стрелка вверх» (↑) и «стрелка влево» (←), заменённые в редакции 1965 года на карет (^) и подчёркивание (_).0x60
, 0x7B
, 0x7C
и 0x7D
также предполагалось при необходимости заменять на национальные символы. Символ логического отрицания (¬, 0x7C
), добавленный в редакции 1965 года, в редакции 1967 года был убран.Важная особенность ASCII — он, в отличие, к примеру, от ITA2, не использует переключение регистров[21]. Хотя переключение регистров могло бы уменьшить число битов, требуемое для кодирования сообщения, и, следовательно, уменьшить время передачи и занимаемое место на носителях, оно также повысило бы вероятность не прочесть сообщение при его повреждении[24]. Таким образом, было решено отказаться от использования регистров и уместить все символы в 7 бит[21]. Тем не менее, для возможности дальнейшего расширения ASCII в набор включены символы ESC, SI и SO[24].
Стандарт ASCII создавался не только для применения в ЭВМ, но и для обмена информацией по телетайпу. В набор были включены непечатаемые символы, используемые как команды для управления телетайпом. Аналогичные команды применялись и в других докомпьютерных средствах обмена сообщениями (азбука Морзе, семафорная азбука), учитывая специфику устройства. Большинство управляющих символов ASCII вскоре утратили своё назначение и в современных компьютерных системах не используются.
0x00
(null с англ. — «пустой»). Символ NUL
всегда игнорировался. На перфолентах бит «1» обозначался отверстием, а бит «0» — отсутствием отверстия. Участки перфоленты, на которых не была записана информация, не содержали отверстий (то есть содержали символы NUL
); такие участки располагались в начале и в конце ленты. Символ NUL
по сей день используется во многих языках программирования (как признак конца строки) и обозначается как \0
(термин «строка» обозначает последовательность символов). В некоторых операционных системах NUL
— последний символ любого текстового файла.Сообщения, передаваемые по каналу связи, делились на две части:
«Заголовок» мог содержать адреса отправителя и получателя, контрольную сумму и т. п.; мог размещаться до «текста» или после. Термином «текст» называлась часть сообщения, предназначенная для печати.
Символ | Код | Расшифровка | Перевод | Описание |
---|---|---|---|---|
SOH | 0x01
|
start of heading | начало «заголовка» | Символ начала заголовка (SOH ) отмечает данные, не относящиеся к «тексту»: часть потока, содержащую адреса и другие служебные данные.
|
STX | 0x02
|
start of text | начало «текста» | Включить печатающее устройство (телетайп). Текст для печати располагался между символами STX и ETX .
|
ETX | 0x03
|
end of text | конец «текста» | Выключить печатающее устройство (телетайп). В наши дни символ ETX используется для отправки процессу сигнала SIGINT (signal interrupt с англ. — «сигнал-прерывание») и может быть набран нажатием комбинации клавиш Ctrl+C. Получив такой сигнал, процесс должен завершить работу[англ.].
|
EOT | 0x04
|
end of transmission | конец передачи | Символ используется эмуляторами терминалов в значении EOF (End of File с англ. — «конец файла») и может быть отправлен нажатием комбинации клавиш Ctrl+D. Получив такой сигнал, эмулятор терминала определит процесс, который в данный момент работает с терминалом, и установит в стандартном потоке ввода этого процесса (stdin: англ. standard input stream) признак «Конец файла». В результате процесс прекратит чтение[англ.] stdin и начнёт обработку прочитанных данных. |
ENQ | 0x05
|
enquiry | «Прошу подтверждения!» | |
ACK | 0x06
|
acknowledgement | «Подтверждаю!» | Символ NAK означает обратное: «Не подтверждаю!».
|
BEL | 0x07
|
bell | звуковой сигнал: звонок | Используется для подачи звукового сигнала.
Во многих языках программирования обозначается как |
BS | 0x08
|
backspace | возврат на один символ | Передаётся при нажатии клавиши ← Backspace.
Во многих языках программирования обозначается как |
HT | 0x09
|
horizontal tab | горизонтальная табуляция | Во многих языках программирования обозначается как \t .
|
LF | 0x0A
|
line feed | перевод строки | Команда для опускания каретки печатающего устройства на одну строку вниз. Обозначение конца строки различается в семействах операционных систем:
Многие терминалы 1970—1980-х годов содержали переключатель поведения клавиши ↵ Return, позволяющий посылать при нажатии на неё либо последовательность Во многих языках программирования обозначается как |
VT | 0x0B
|
vertical tab | вертикальная табуляция | Во многих языках программирования обозначается как \v .
|
FF | 0x0C
|
form feed | «прогон страницы», новая страница | Команда для принтера: продолжить печать с начала следующего листа.
Во многих языках программирования обозначается как |
CR | 0x0D
|
carriage return | возврат каретки | Команда для принтера: продолжить печать с начала текущей строки (не с новой строки). В классических версиях операционной системы Mac OS символ CR обозначал конец строки текстового файла. С клавиатуры символ CR может быть введён нажатием комбинации клавиш: Ctrl+M.
Во многих языках программирования обозначается как |
SO | 0x0E
|
shift out | «Переключиться на другую ленту (кодировку)» | Другая лента обычно была окрашена в красный цвет. В дальнейшем символ использовался для переключения на национальную кодировку. |
SI | 0x0F
|
shift in | «Переключиться на исходную ленту (кодировку)» | Команда для выполнения действия, обратного действию SO .
|
DLE | 0x10
|
data link escape | «Экранирование канала данных» | Любые символы, следующие после DLE , должны восприниматься как данные, а не как управляющие символы.
|
DC1 | 0x11
|
device control 1 | Первый символ управления устройством | Команда включить устройство чтения перфоленты. |
DC2 | 0x12
|
device control 2 | Второй символ управления устройством | Команда включить перфоратор. |
DC3 | 0x13
|
device control 3 | Третий символ управления устройством | Команда выключить устройство чтения перфоленты. |
DC4 | 0x14
|
device control 4 | Четвёртый символ управления устройством | Команда выключить перфоратор. |
NAK | 0x15
|
negative acknowledgement | «Не подтверждаю!» | Обратно символу ACK .
|
SYN | 0x16
|
synchronous idle | синхронное ожидание | Этот символ передавался, когда (для синхронизации) было необходимо что-нибудь передать. |
ETB | 0x17
|
end of transmission block | конец блока передаваемых данных | Иногда данные (по техническим причинам) разбивались на блоки. |
CAN | 0x18
|
cancel | «Отмена» | Отмена того, что было передано ранее. |
EM | 0x19
|
end of medium | «Конец носителя» | Кончилась бумага, перфолента, магнитная лента и т. п. |
SUB | 0x1A
|
substitute | «Подставить» | Символ ставится:
В настоящее время символ вставляется нажатием комбинации клавиш Ctrl+Z и используется для обозначения конца файла в операционных системах DOS и Windows. |
ESC | 0x1B
|
escape | экранирование | Признак того, что символ, следующий после ESC , имеет какое-то другое (отличное от определённого в ASCII) значение. Обычно после символа ESC следуют управляющие последовательности; в операционной системе DOS они реализуются драйвером ANSI.SYS.
|
DEL | 0x7F
|
delete | «Забой», стереть последний символ | Символом DEL (состоящим в двоичном коде из всех единиц) можно было «забить» любой символ. Устройства и программы игнорировали DEL так же, как и NUL .
Код этого символа происходит из первых текстовых процессоров с памятью на перфоленте: в них удаление символа происходило «забиванием» его кода отверстиями (обозначавшими логические единицы). |
Поддерживалось разделение данных на 4 уровня:
Символ | Код | Расшифровка | Перевод | Описание |
---|---|---|---|---|
FS | 0x1C
|
file separator | разделитель файлов | сообщение могло состоять из файлов |
GS | 0x1D
|
group separator | разделитель групп | файлы могли состоять из групп |
RS | 0x1E
|
record separator | разделитель записей | группы могли состоять из записей |
US | 0x1F
|
unit separator | разделитель полей | записи могли состоять из полей |
С помощью символа BS (возврат на один символ) на принтере можно напечатать один символ поверх другого. В ASCII таким же способом можно добавить к буквам диакритические знаки, например:
Если в одной позиции дважды напечатать один и тот же символ, получится жирный символ; если в одной позиции напечатать символ и подчёркивание (_), получится подчёркнутый символ:
a BS a
→ aa BS _
→ aЭта техника до сих пор используется, например, в справочной системе man.
На подавляющем большинстве современных компьютеров минимально адресуемой единицей памяти является 8-битный байт (октет), поэтому там используются 8-битные, а не 7-битные символы. Обычно символ ASCII дополняют до 8 бит, просто добавляя один нулевой бит в качестве старшего бита октета.
На компьютерах IBM/360 применялся другой метод: 6-й бит (если первым считать самый младший бит) перемещается в 7-й, а бывший 7-й «раздваивается» и копируется и в 8-й бит, и в 6-й[25]. Такую кодировку называли USASCII-8[26].
.0 | .1 | .2 | .3 | .4 | .5 | .6 | .7 | .8 | .9 | .A | .B | .C | .D | .E | .F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0. | NUL | SOM | EOA | EOM | EQT | WRU | RU | BELL | BKSP | HT | LF | VT | FF | CR | SO | SI |
1. | DC0 | DC1 | DC2 | DC3 | DC4 | ERR | SYNC | LEM | S0 | S1 | S2 | S3 | S4 | S5 | S6 | S7 |
2. | ||||||||||||||||
3. | ||||||||||||||||
4. | BLANK | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
5. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
6. | ||||||||||||||||
7. | ||||||||||||||||
8. | ||||||||||||||||
9. | ||||||||||||||||
A. | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
B. | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ↑ | ← |
C. | ||||||||||||||||
D. | ||||||||||||||||
E. | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o | |
F. | p | q | r | s | t | u | v | w | x | y | z | ESC | DEL |
На компьютерах с минимально адресуемой единицей памяти в 36 бит поначалу использовали 6-битные символы (1 слово = 6 символов). После перехода на ASCII на таких компьютерах в одном слове стали размещать либо 5 семибитных символов (1 бит оставался лишним), либо 4 девятибитных символа.
Расположение символов ASCII на клавиатуре согласно ANSI X4.14-1971: символы верхнего регистра вводятся в сочетании с клавишей ⇧ Shift, а управляющие символы — с Ctrl[27].
Коды ASCII используются в программировании как промежуточные кроссплатформенные коды нажатых клавиш (в противовес скан-кодам IBM PC и прочим внутренним кодам). Ниже приведена таблица соответствия кодов клавишам для раскладки клавиатуры QWERTY[28].
Возможность адаптации ASCII под нужды других стран предусмотрена сразу в трёх тесно взаимосвязанных стандартах — ISO 646 Международной организации по стандартизации (ныне — ISO/IEC 646), ECMA-6 Европейской ассоциации производителей компьютеров и рекомендации V.3 (Международный алфавит № 5) Международного консультативного комитета по телеграфии и телефонии (ныне — рекомендация T.50[англ.] (Международный справочный алфавит) Сектора стандартизации электросвязи МСЭ). Для этого предлагается заменять символы @
, [
, \
, ]
, ^
, `
, {
, |
, }
и ~
на национальные. Также допускается замена знака решётки (#
) на знак фунта (£
), а знака доллара ($
) — на знак валюты (¤
). Унифицированный вариант кода, не содержащий национальные символы, при этом обозначается как IRV (от англ. International Reference Version — «международная ссылочная версия»)[c]. ISO 646 IRV был утверждён в Советском Союзе как КОИ-7 Н0 в ГОСТ 27463 (СТ СЭВ 356).
Для некоторых языков с нелатинской письменностью (русского, греческого, арабского, иврита и др.) существовали и более радикальные модификации ASCII:
Со временем стали появляться производные 8-битные кодировки (кодовые страницы), содержащие 28 = 256 кодовых позиций, в которых нижняя половина кодовой таблицы (позиции 0x00
—0x7F
) совпадает с ASCII, а верхняя (позиции 0x80
—0xFF
) служит для размещения дополнительных, в том числе национальных, символов. Подобные ASCII-совместимые кодировки, получившие неофициальное собирательное название «Расширенный ASCII[англ.]», оказались удобнее упомянутых ранее 7-битных вариантов и широко использовались вплоть до начала повсеместного внедрения Юникода. Впрочем, отсутствие единого подхода к размещению национальных символов в их кодовых таблицах (например, кириллицы в КОИ-8, Windows-1251, ISO 8859-5 и т. д.) порождало множество проблем. Так, например, когда почтовые клиенты отправителя и получателя электронного письма использовали различные кодировки для его интерпретации, текст письма (за исключением символов ASCII) становился нечитаемым.
Символы ASCII включены в Юникод под теми же самыми кодами (0x00
—0x7F
), благодаря чему UTF-8 полностью обратно совместим с 8-битным представлением ASCII. Таким образом, Юникод можно рассматривать как одно из расширений ASCII.