Das Byte ([[1] ist eine Maßeinheit der Digitaltechnik und der Informatik, das meist für eine Folge aus 8 Bit steht.
])Historisch gesehen war ein Byte die Anzahl der Bits zur Kodierung eines einzelnen Schriftzeichens im jeweiligen Computersystem und daher das kleinste adressierbare Element in vielen Rechnerarchitekturen.
Um ausdrücklich auf eine Anzahl von 8 Bit hinzuweisen, wird auch die Bezeichnung Oktett (in Frankreich octet) verwendet – die früher dafür ebenfalls gängige Bezeichnung Oktade ist hingegen nicht mehr geläufig.
Was genau ein Byte bezeichnet, wird je nach Anwendungsgebiet etwas unterschiedlich definiert. Der Begriff kann stehen für:
Bei den meisten heutigen Rechnern fallen diese Definitionen (kleinste adressierbare Einheit, Datentyp in Programmiersprachen, C-Datentyp) zu einer einzigen zusammen und sind dann von identischer Größe.
Der Begriff „Byte“ wird aufgrund der großen Verbreitung von Systemen, die auf acht Bit (beziehungsweise Zweierpotenzvielfache davon) basieren, für die Bezeichnung einer 8 Bit breiten Größe verwendet, die in formaler Sprache (entsprechend ISO-Normen) aber korrekt Oktett (aus englisch octet) heißt. Als Maßeinheit bei Größenangaben wird in der deutschen Sprache der Begriff „Byte“ (im Sinne von 8 bit) verwendet. Bei der Übertragung kann ein Byte parallel (alle Bits gleichzeitig) oder seriell (alle Bits nacheinander) übertragen werden. Zur Sicherung der Richtigkeit werden oft Prüfbits angefügt. Bei der Übertragung größerer Mengen sind weitere Kommunikationsprotokolle möglich. So werden bei 32-Bit-Rechnern oft 32 Bits (vier Byte) gemeinsam in einem Schritt übertragen, auch wenn nur ein 8-Bit-Tupel übertragen werden muss. Das ermöglicht eine Vereinfachung der zur Berechnung erforderlichen Algorithmen und einen kleineren Befehlssatz des Computers.
Wie bei anderen Maßeinheiten gibt es neben dem ausgeschriebenen Namen der Maßeinheiten jeweils auch ein Einheitenkürzel. Bei Bit und Byte sind dies:
Kürzel | ausgeschriebener Name |
---|---|
bit (selten „b“) | Bit |
B (selten „byte“) | Byte |
Der ausgeschriebene Name unterliegt grundsätzlich der normalen Deklination. Aufgrund der großen Ähnlichkeit der Kürzel mit den ausgeschriebenen Einheitennamen sowie entsprechender Pluralformen in der englischen Sprache werden jedoch gelegentlich auch die Einheitenkürzel „bit“ und „byte“ mit Plural-s versehen.
Das Bit ist ein Kofferwort aus den englischen Wörtern binary und digit,[4] heißt also „zweiwertige Ziffer“ – Null oder Eins. Dessen Bestandteile lassen sich auf die lateinischen Wörter digitus (Finger), den bzw. die man seit der Antike zum Zählen verwendet (vgl. Plautus: computare digitis), und lateinisch (genauer neulateinisch) binarius (zweifach), vergleiche lateinisch bis (zweimal), zurückführen.
Das Byte ist zudem ein Kunstwort und wurde vermutlich aus dem englischen bit[1] (deutsch „[das] Bisschen“ oder „Häppchen“) und bite (zu deutsch: „[der] Bissen“ oder „Happen“) gebildet.[5] Verwendet wurde es, um eine Speichermenge oder Datenmenge zu kennzeichnen, die ausreicht, um ein Zeichen darzustellen. Der Begriff wurde im Juni 1956 von Werner Buchholz in einer frühen Designphase des IBM-7030-Stretch-Computers geprägt,[6][7][8] wobei die Schreibweise von bite zu byte geändert wurde, um zu vermeiden, dass es sich versehentlich zu bit ändere.[9] Im Original beschrieb es eine wählbare Breite von ein bis sechs Bits (damit konnten Zustände, z. B. Zeichen, dargestellt werden) und stellte die kleinste direkt adressierbare Speichereinheit eines entsprechenden Computers dar.[10][11][12] Im August 1956 wurde die Definition auf ein bis acht Bits aufgeweitet (damit konnten dann Zeichen dargestellt werden).[12][13][14] So konnte man die Buchstaben und gängige Sonderzeichen in Quelltexten von Programmen oder anderen Texten speichern.
In den 1960er Jahren wurde der sich in seiner Verwendung schnell ausbreitende ASCII definiert, welcher sieben Bits zur Kodierung eines Zeichens verwendet (das sind Zeichen). Später wurden durch Nutzung des meist sowieso vorhandenen achten (höchstwertigen) Bits erweiterte, auf dem ASCII basierende Zeichensätze entwickelt, die auch die häufigsten internationalen Diakritika abbilden können, wie zum Beispiel die Codepage 437. In diesen erweiterten Zeichensätzen entspricht jedes Zeichen exakt einem Byte mit acht Bit, wobei die ersten 128 Zeichen exakt dem ASCII entsprechen.
In den 1960er und 1970er Jahren war in Westeuropa auch die Bezeichnung Oktade geläufig, wenn speziell 8 Bit gemeint waren. Diese Bezeichnung geht möglicherweise auf den niederländischen Hersteller Philips zurück, in dessen Unterlagen zu Mainframe-Computern sich die Bezeichnung Oktade (bzw. englisch oktad[s]) regelmäßig findet.[15][16]
Seit Anfang der 1970er Jahre gibt es 4-Bit-Mikroprozessoren, deren 4-Bit-Datenwörter (auch Nibbles genannt) mit hexadezimalen Ziffern dargestellt werden können. 8-Bit-Prozessoren wurden schon kurz nach der Erfindung der Programmiersprachen C und Pascal eingeführt, also Anfang der 1970er Jahre, und waren in Heimcomputern bis in die 1980er Jahre im Einsatz (bei eingebetteten Systemen auch heute noch), deren 8-Bit-Datenwörter (respektive Bytes) mit genau zwei hexadezimalen Ziffern dargestellt werden können. Seitdem hat sich die Breite der Datenwörter von Hardware von 4 über 8, 16, 32 bis heute zu 64 und 128 Bit hin immer wieder verdoppelt.
Zur Unterscheidung der ursprünglichen Bedeutung als kleinste adressierbare Informationseinheit und der Bedeutung als 8-Bit-Tupel wird in der Fachliteratur (abhängig vom Fachgebiet) korrekterweise auch der Begriff Oktett für letzteres benutzt, um eine klare Trennung zu erzielen.
In der elektronischen Datenverarbeitung bezeichnet man die kleinstmögliche Speichereinheit als Bit. Ein Bit kann zwei mögliche Zustände annehmen, die meist als „Null“ und „Eins“ bezeichnet werden. In vielen Programmiersprachen wird für ein einzelnes Bit der Datentyp „boolean“ (respektive „Boolean“ oder „BOOLEAN“) verwendet. Aus technischen Gründen erfolgt die tatsächliche Abbildung eines Boolean aber meist in Form eines Datenwortes („WORD“).
Acht solcher Bits werden zu einer Einheit – einem Datenpäckchen – zusammengefasst und allgemein Byte genannt. Die offizielle ISO-konforme Bezeichnung lautet dagegen Oktett: 1 Oktett = 1 Byte = 8 Bit. Viele Programmiersprachen unterstützen einen Datentyp mit dem Namen „byte“ (respektive „Byte“ oder „BYTE“), wobei zu beachten ist, dass dieser je nach Definition als ganze Zahl, als Bitmenge, als Element eines Zeichensatzes oder bei typunsicheren Programmiersprachen sogar gleichzeitig für mehrere dieser Datentypen verwendet werden kann, sodass keine Zuweisungskompatibilität mehr gegeben ist.
Das Byte ist die Standardeinheit, um Speicherkapazitäten oder Datenmengen zu bezeichnen. Dazu gehören Dateigrößen, die Kapazität von permanenten Speichermedien (Festplattenlaufwerke, CDs, DVDs, Blu-ray Discs, Disketten, USB-Massenspeichergeräte usw.) und die Kapazität von vielen flüchtigen Speichern (zum Beispiel Arbeitsspeicher). Übertragungsraten (zum Beispiel die maximale Geschwindigkeit eines Internet-Anschlusses) gibt man dagegen üblicherweise auf der Basis von Bits an.
Zur Darstellung großer Anzahlen von Bytes kann man die Präfixe aus dem SI verwenden, wie „Kilo-“ (k) für 1000 und „Mega-“ (M) für 1000×1000. Für Zweierpotenzen gibt es spezielle Binärpräfixe, wie „Kibi-“ (Ki) für 1024 und „Mebi-“ (Mi) für 1024×1024.
Manchmal werden die Namen oder Kürzel der SI-Präfixe im binären Sinn verwendet (z. B. „Kilo-“ für 1024), was aber normwidrig ist und zu Missverständnissen führen kann.
Für Zehnerpotenzen verwendet man die Präfixe aus dem Internationalen Einheitensystem (SI):
Dezimalpräfixe gemäß SI | ||
---|---|---|
Kilobyte | 1 000 B = 103 B | |
Megabyte | 1 000 000 B = 106 B | |
Gigabyte | 1 000 000 000 B = 109 B | |
Terabyte | 1 000 000 000 000 B = 1012 B | |
Petabyte | 1 000 000 000 000 000 B = 1015 B | |
Exabyte | 1 000 000 000 000 000 000 B = 1018 B | |
Zettabyte | 1 000 000 000 000 000 000 000 B = 1021 B | |
Yottabyte | 1 000 000 000 000 000 000 000 000 B = 1024 B | |
Ronnabyte | 1 000 000 000 000 000 000 000 000 000 B = 1027 B | |
Quettabyte | 1 000 000 000 000 000 000 000 000 000 000 B = 1030 B |
Für Datenspeicher mit binärer Adressierung ergeben sich technisch Speicherkapazitäten basierend auf Zweierpotenzen (2n Byte). Die Zweierpotenz 210 = 1024 liegt nahe bei 1000, so dass es üblich wurde, das eigentlich dezimale SI-Präfix „Kilo-“ im Zusammenhang mit Speicherkapazitäten zur Bezeichnung von 1024 zu verwenden. Später kamen dann auch „Mega-“ (für 220 = 10242) und „Giga-“ (für 230 = 10243) hinzu. Dies führte jedoch zu Mehrdeutigkeiten und wurde zu einer Fehlerquelle. Um dem abzuhelfen, schlug die IEC 1996 neue Einheitenvorsätze vor, die (nur) in der binären Bedeutung verwendet werden sollten.[17] Dabei wird eine den SI-Präfixen ähnlich lautende Vorsilbe ergänzt um die Silbe „bi“, die klarstellt, dass es sich um binäre Vielfache handelt. Beispiele:
Das für die SI-Präfixe zuständige Internationale Büro für Maß und Gewicht (BIPM) empfiehlt diese Schreibweise,[18] auch wenn es nicht für Byte zuständig ist, da dies keine SI-Einheit ist. Viele weitere Standardisierungsorganisationen haben sich dieser Empfehlung angeschlossen.
Binärpräfixe gemäß IEC | |||||
---|---|---|---|---|---|
Kibibyte | = 1,024 kB | ||||
Mebibyte | = 1 048 576 B | ≈ 1,049 MB | |||
Gibibyte | = 1 073 741 824 B | ≈ 1,074 GB | |||
Tebibyte | = 1 099 511 627 776 B | ≈ 1,100 TB | |||
Pebibyte | = 1 125 899 906 842 624 B | ≈ 1,126 PB | |||
Exbibyte | = 1 152 921 504 606 846 976 B | ≈ 1,153 EB | |||
Zebibyte | = 1 180 591 620 717 411 303 424 B | ≈ 1,181 ZB | |||
Yobibyte | = 1 208 925 819 614 629 174 706 176 B | ≈ 1,209 YB | |||
Robibyte 1) | = 1 237 940 039 285 380 274 899 124 224 B | ≈ 1,238 RB | |||
Quebibyte 1) | = 1 267 650 600 228 229 401 496 703 205 376 B | ≈ 1,268 QB |
Die Werte der dezimalen Präfixe steigen – ausgehend von Kilo – jeweils um den Faktor 103 = 1000 und die Werte der binären Präfixe um den Faktor 210 = 1024. Die Diskrepanz wächst also: Während der Größenunterschied zwischen Kibibyte und Kilobyte nur 2,4 % beträgt, ist ein Pebibyte schon 12,6 % mehr als ein Petabyte.
Präfixe | Binär ÷ Dezimal | Dezimal ÷ Binär | |||
---|---|---|---|---|---|
Kilo | Kibi | 1,024 (+2,4 %) | 0,9766 (−2,3 %) | ||
Mega | Mebi | 1,049 (+4,9 %) | 0,9537 (−4,6 %) | ||
Giga | Gibi | 1,074 (+7,4 %) | 0,9313 (−6,9 %) | ||
Tera | Tebi | 1,100 (+10,0 %) | 0,9095 (−9,1 %) | ||
Peta | Pebi | 1,126 (+12,6 %) | 0,8882 (−11,2 %) | ||
Exa | Exbi | 1,153 (+15,3 %) | 0,8674 (−13,3 %) | ||
Zetta | Zebi | 1,181 (+18,1 %) | 0,8470 (−15,3 %) | ||
Yotta | Yobi | 1,209 (+20,9 %) | 0,8272 (−17,3 %) | ||
Ronna | (Robi) | 1,238 (+23,8 %) | 0,8078 (−19,2 %) | ||
Quetta | (Quebi) | 1,268 (+26,8 %) | 0,7889 (−21,1 %) |
Die Verwendung der Binärpräfixe für Zweierpotenzen und die ausschließliche Verwendung von SI-Präfixen für Zehnerpotenzen hat sich bislang nur teilweise durchgesetzt.
Massenspeichermedien, wie Festplatten, DVD-Rohlinge und USB-Speichersticks, mit vorgeschalteter komplexer Firmware lassen sich in praktisch beliebig fein abgestufter Größe herstellen. Dort hat sich die Herstellung in glatten, gut vermarktbaren Größen durchgesetzt. Die Hersteller verwenden Dezimalpräfixe.
RAM-Hauptspeicher und Cache-Speicher von CPUs, auf die in ihrer ziemlich ursprünglichen Form zugegriffen wird, werden als glatte Werte mit Binärpräfixen angegeben, SI-Präfixe wären hier unpraktisch. Die Binärpräfixe werden aber nicht immer in ihrer normgerechten Form geschrieben, man findet immer noch „MB“ und „GB“ wo „MiB“ und „GiB“ stehen müsste.
Wenn die Binärpräfixe nicht normgerecht geschrieben werden, kann es zu Verwirrung kommen. Dies gilt zum Beispiel in Verbindung mit Microsoft-Systemen, denn Microsoft rechnet für Datengrößen immer mit Zweierpotenzen, gibt diese dann aber mit Hilfe der SI-Präfixe an. So wird also ein 128-GB-Speichermedium als 119,2 GB angezeigt, obwohl es laut IEC 119,2 GiB lauten müsste. Beim Versuch, eine Datenmenge von laut Microsoft „120 GB“ (eigentlich 120 GiB) auf ein mit 128 GB beworbenes Speichermedium zu übertragen, tritt somit ein Fehler auf:
Ein mit „4,7 GB“ gekennzeichneter DVD-Rohling speichert rund 4,7 Gigabyte (4.700.000.000 Byte), wird aber von mancher Software, zum Beispiel dem Windows-Explorer, mit dem Wert von „4,38 GB“ angezeigt – normgerecht wäre hier „4,38 GiB“. Andererseits speichert ein mit „700 MB“ gekennzeichneter CD-Rohling nicht 700 MB, sondern 700 MiB, also etwa 734 MB (und sollte korrekterweise mit „700 MiB“ ausgezeichnet werden), wobei der Windows-Explorer „700 MB“ anzeigt.
Apples macOS benutzt seit 2009 (Version Mac OS X Snow Leopard 10.6)[19] einheitlich Dezimalpräfixe nur in dezimaler Bedeutung. KDE folgt dem IEC-Standard und lässt dem Anwender die Wahl zwischen binärer und dezimaler Angabe. Für Linux-Distributionen mit anderen Desktopumgebungen, wie zum Beispiel Ubuntu ab Version 11.04,[20] (August 2011) gibt es klare Richtlinien, wie Anwendungen Datenmengen angeben sollen; hier findet man beide Angaben, wobei die Binärpräfixe überwiegen.
Unix-Shells nutzen normalerweise Datenblöcke als Einheit. Optional wird auch eine lesbarere Darstellungsform, human readable bezeichnet, angeboten, normalerweise die binäre Einheit, wobei jedoch abweichend von der IEC-Vorgabe nur die Vorsätze der Maßeinheiten in Großbuchstaben als Einheit angegeben werden, also K für KiB, M für MiB usw. Es gibt jedoch auch oft die Möglichkeit, SI-Einheiten zu wählen, dann in der korrekten, jedoch großgeschriebenen Einheit, also KB, MB usw.
Die in den 1980er und 1990er Jahren verbreitete 3,5-Zoll-Diskette verwendete eine binär-dezimale Mischform: die nominellen „1,44 MB“ bedeuteten 1440 × 1024 Byte = 1440 KiB.