此條目需要补充更多来源。 (2018年9月9日) |
ASCII(發音: /ˈæski/ ASS-kee[1],American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑字符编码标准。它主要用于显示现代英语,而其擴展版本延伸美国标准信息交换码則可以部分支持其他西欧语言,并等同于国际标准ISO/IEC 646。
美国信息交换标准代码是这套编码标准的传统命名,互联网号码分配局现在更倾向于使用它的新名字US-ASCII[2]。
美国信息交换标准代码是美國電氣和電子工程師協會里程碑之一。
ASCII 由电报码发展而来。第一版标准发布于1963年[3][4],1967年经历了一次主要修订[5][6],最後一次更新則是在1986年,至今為止共定義了128個字元;其中33個字元無法顯示(一些终端提供了扩展,使得这些字符可顯示为諸如笑臉、撲克牌花式等8-bit符號),且這33個字元多數都已是陳廢的控制字元。控制字元的用途主要是用來操控已經處理過的文字。在33個字元之外的是95個可顯示的字元。用鍵盤敲下空白鍵所產生的空白字元也算1個可顯示字元(顯示為空白)。
在计算机中,所有的数据在存储和运算时都要使用二进制数表示。例如,像a、b、c、d这样的52个字母(包括大写)以及0、1等数字还有一些常用的符号(例如*、#、@等)在计算机中存储时也要使用二进制数来表示,而具体用哪些二进制数字表示哪个符号,这就是编码。如果不同的计算机要想互相通信而不造成混乱,那么每台计算机就必须使用相同的编码规则,于是美国有关的标准化组织就推出了ASCII编码。
ASCII是由美国国家标准学会(American National Standard Institute,ANSI)制定的,使用标准的单字节字符编码方案,用于基于文本的数据。方案起始于50年代后期,在1967年定案。它最初是美国的标准,供不同计算机在相互通信时需共同遵守的西文字符编码标准。现已被国际标准化组织(International Organization for Standardization,ISO)定为国际标准(ISO/IEC 646),适用于所有拉丁字母。
ASCII控制字符的编号范围是0-31和127(16进制:0x00-0x1F和0x7F),共33个字符。
为方便人类用户阅读,各个控制字符均有Unicode表示法和脫出字元表示法:
二进制 | 十进制 | 十六进制 | 缩写 | Unicode 表示法 |
脫出字元 表示法 |
名称/意义 |
---|---|---|---|---|---|---|
0000 0000 | 0 | 00 | NUL | ␀ | ^@ | 空字符(Null) |
0000 0001 | 1 | 01 | SOH | ␁ | ^A | 标题开始 |
0000 0010 | 2 | 02 | STX | ␂ | ^B | 本文开始 |
0000 0011 | 3 | 03 | ETX | ␃ | ^C | 本文结束 |
0000 0100 | 4 | 04 | EOT | ␄ | ^D | 傳輸结束 |
0000 0101 | 5 | 05 | ENQ | ␅ | ^E | 请求 |
0000 0110 | 6 | 06 | ACK | ␆ | ^F | 確認回應 |
0000 0111 | 7 | 07 | BEL | ␇ | ^G | 响铃 |
0000 1000 | 8 | 08 | BS | ␈ | ^H | 退格 |
0000 1001 | 9 | 09 | HT | ␉ | ^I | 水平定位符號 |
0000 1010 | 10 | 0A | LF | ␊ | ^J | 换行键 |
0000 1011 | 11 | 0B | VT | ␋ | ^K | 垂直定位符號 |
0000 1100 | 12 | 0C | FF | ␌ | ^L | 换页键 |
0000 1101 | 13 | 0D | CR | ␍ | ^M | CR (字元) |
0000 1110 | 14 | 0E | SO | ␎ | ^N | 取消變换(Shift out) |
0000 1111 | 15 | 0F | SI | ␏ | ^O | 启用變换(Shift in) |
0001 0000 | 16 | 10 | DLE | ␐ | ^P | 跳出数据通讯 |
0001 0001 | 17 | 11 | DC1 | ␑ | ^Q | 設備控制一(XON 啟用軟體速度控制) |
0001 0010 | 18 | 12 | DC2 | ␒ | ^R | 設備控制二 |
0001 0011 | 19 | 13 | DC3 | ␓ | ^S | 設備控制三(XOFF 停用軟體速度控制) |
0001 0100 | 20 | 14 | DC4 | ␔ | ^T | 設備控制四 |
0001 0101 | 21 | 15 | NAK | ␕ | ^U | 確認失敗回應 |
0001 0110 | 22 | 16 | SYN | ␖ | ^V | 同步用暫停 |
0001 0111 | 23 | 17 | ETB | ␗ | ^W | 區塊傳輸结束 |
0001 1000 | 24 | 18 | CAN | ␘ | ^X | 取消 |
0001 1001 | 25 | 19 | EM | ␙ | ^Y | 連線介质中断 |
0001 1010 | 26 | 1A | SUB | ␚ | ^Z | 替換 |
0001 1011 | 27 | 1B | ESC | ␛ | ^[ | 退出键 |
0001 1100 | 28 | 1C | FS | ␜ | ^\ | 文件分割符 |
0001 1101 | 29 | 1D | GS | ␝ | ^] | 群組分隔符 |
0001 1110 | 30 | 1E | RS | ␞ | ^^ | 记录分隔符 |
0001 1111 | 31 | 1F | US | ␟ | ^_ | 单元分隔符 |
0111 1111 | 127 | 7F | DEL | ␡ | ^? | Delete字符 |
可显示字符也称为可打印字符,其编号范围是32-126(0x20-0x7E),共95个字符。
32~126(共95个)是字符(32是空格),其中48~57为0到9十个阿拉伯数字。
65~90为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。
|
|
|
ASCII的局限在於只能顯示26個基本拉丁字母、阿拉伯數字和英式標點符號,因此只能用於顯示現代美國英語(且處理naïve、café、élite等外來語時,必須去除附加符號)。雖然EASCII解決了部分西歐語言的顯示問題,但對更多其他語言依然無能為力。因此,現在的软件系统大多采用Unicode,特别是与ASCII向下兼容的UTF-8。