Kodowanie ASCII: początkujący, początkujący… Mamy tutaj wszystkie potrzebne informacje.

Ujawnienie: Twoje wsparcie pomaga utrzymać działanie witryny! Pobieramy opłatę za polecenie niektórych usług, które zalecamy na tej stronie.


ASCII jest rodzajem kodowania znaków wykorzystywanym przez komputery do przechowywania i pobierania znaków (liter, cyfr, symboli, spacji, wcięć itp.) Jako wzorów bitowych do przechowywania w pamięci i na dyskach twardych.

„Kodowanie znaków” na wysokim poziomie oznacza konwersję symbolu na liczbę binarną i użycie „mapy znaków” do odczytania liczby binarnej jako rodzaju litery.

A typy MIME pozwalają użytkownikom wysyłać dane poza postaciami, takie jak obrazy i filmy.

ASCII, kodowanie znaków, typy MIME

Kodowanie znaków

Najwcześniejsza forma kodowania znaków sięga wstecznego telegrafu elektrycznego. W rzeczywistości kod Morse’a, a później kod Baudot były jednymi z pierwszych standardowych kodów znaków, jakie kiedykolwiek stworzono.

Druga warstwa kodowania zwana szyfrowaniem lub szyfrowaniem została również ustanowiona przez wojsko tamtych czasów, ale to raczej inny temat.

Dopiero w latach 50. rozpoczęliśmy nowoczesny proces w kierunku ASCII. IBM rozpoczął to od opracowania schematów kodowania do użytku w komputerach z serii 7000.

Binary Coded Decimal (BCD) firmy IBM wykorzystywał czterobitowe kodowanie na kartach dziurkowanych. Był to sposób przechowywania liczb dziesiętnych w formie binarnej.

Zamiast liczb od 0000 (0) do 1111 (15) biegły od 0000 (0) do 1001 (9) – każde cztery bity reprezentowały jedną cyfrę.

Później IBM stworzył rozszerzoną wersję BCD o nazwie Extended Binary Coded Decimal Interchange Code (EBCDIC). Był to 8-bitowy system kodowania wszystkich standardowych znaków do wydruku.

W tym samym roku 1963 wprowadzono ASCII.

Wykorzystuje 7-bitowy schemat kodowania. To reprezentuje 128 różnych liczb.

Ten 7-bitowy format liczb może wydawać się dziwny. W końcu nie wszystkie komputery są 8-bitowe, 16-bitowe lub 32-bitowe i tak dalej?

Dzisiaj są. Ale wczesne komputery nie zostały zbudowane w ten sposób.

Co więcej, pamięć na komputerach była cenna i nie było powodu, aby używać dodatkowej części, jeśli jej nie potrzebujesz. 6-bitowy kod (który istniał) nie obejmowałby wszystkich wielkich i małych liter, cyfr i podstawowych znaków interpunkcyjnych. Ale zrobił to 7-bitowy kod – z miejscem do stracenia.

Gdy komputery zaczęły osiedlać się w 8-bitowej (1-bajtowej) strukturze, ASCII stopniowo przekształciło się w nieoficjalny 8-bitowy kod, w którym pozostałe 128 znaków nie było znormalizowane.

Ten stan utrzymywał się przez pewien czas. W 1991 roku 8-bit stał się oficjalnym formatem utrzymywanym przez ISO (Międzynarodowa Organizacja Normalizacyjna) dla UTF-8.

Wyzwanie, które pojawiło się w tym czasie, polegało na tym, że tylko jeden alfabet mógł być obsługiwany przez kodowanie 7- lub 8-bitowe.

Aby obsłużyć szerszy zakres języków, opracowano schemat kodowania Unicode wraz z uniwersalnym zestawem znaków. Unicode ma kilka typów kodowania, UTF-8 to 8-bitowe kodowanie, które jest kompatybilne z ASCII i które zastąpiło ASCII jako dominujący standard kodowania znaków w Internecie.

Wzrost UTF-8

Dodatkowo, UTF-16 i UTF-32 stały się używane w językach z dużą ilością znaków. Jednak chiński, japoński i arabski mogą być wyświetlane w UTF-8.

W rezultacie UTF-8 jest zdecydowanie najpopularniejszym formatem kodowania w Internecie. A dla anglojęzycznych jest to szczególnie łatwe, ponieważ pierwsze 128 znaków ASCII jest takich samych, jak w Unicode.

Tak więc do użycia w HTML, odwołanie się do tabeli ASCII w celu utworzenia znaku będzie działać niezależnie od używanego formatu kodowania.

Gdzie pasuje ASCII

ASCII oznacza „American Standard Code for Information Interchange” i został stworzony przez American Standards Association (później przemianowany na American National Standards Institute).

Standard ASCII został uruchomiony w 1960 r. I wydany w 1963 r. Był to rozszerzenie kodów telegraficznych i po raz pierwszy został użyty przez usługi danych Bell.

Z biegiem lat dokonano poważnych zmian. Do 2007 r. Było to najczęściej używane kodowanie znaków w Internecie, ale zostało zastąpione UTF-8.

Zmiana sieci z ASCII i Microsoft ANSI na UTF-8 można w dużej mierze przypisać inicjatywom Google, ponieważ korzystanie z Internetu stawało się coraz bardziej międzynarodowe, a ASCII mogło wyświetlać tylko znaki łacińskie.

Należy zauważyć, że UTF-8 jest rodzajem kodowania, podczas gdy Unicode jest zestawem znaków; ponieważ pierwsze 128 znaków Unicode jest takich samych jak ASCII, dopuszczalne jest odwoływanie się do tabeli ASCII podczas generowania znaków w HTML.

ASCII ma możliwość użycia „sekwencji ucieczki” przy wyświetlaniu alternatywnych alfabetów, co pozwoliło mu stać się międzynarodowym standardem, ale Unicode obsługuje to bardziej bezpośrednio.

Unicode powstało w Apple w 1987 roku, a stało się projektem Konsorcjum Unicode w 1991 roku. ASCII został stworzony przez ASA, ale dalsze udoskonalanie go było kontynuowane w ramach deklaracji ISO.

Nazwa kodowania UTF-8 jest używana we wszystkich standardach zgodnych z urzędem IANA (Internet Assigned Numbers Authority), co oznacza cały HTML, CSS i XML. IANA jest działem większej ICANN, która jest organizacją non-profit, która określa protokół internetowy i nazwy domen.

Podsumowując, ASCII ewoluował od kodu telegraficznego w latach 60., dorastał i stał się częścią zestawu znaków Unicode, który jest używany przez UTF-8, najbardziej dominujący format kodowania w Internecie.

Nazwy domen i kod strony zależą od prawidłowego działania tej ujednoliconej mapy znaków.

Oznacza to, że u podstaw współczesnego Internetu istnieje format znaków wynaleziony w latach 70. XIX wieku, skomputeryzowany jako ASCII w latach 60. XX wieku, zmodernizowany dla Internetu za pomocą Unicode w latach 90. XX wieku i powszechnie przyjęty przez UTF-8 w 2007 r..

Kontroluj postacie a postacie do wydrukowania

Istnieją dwa typy znaków w ASCII, znaki do wydruku i znaki kontrolne.

Znaki kontrolne definiują liczby od 0 do 31 i 127. Znaki kontrolne obejmują wszystkie części pisania, które pozwalają na nowe akapity, tabulatory, koniec linii, separatory plików i wiele elementów, które są głównie przezroczyste.

Te znaki kontrolne zostały utworzone w czasie, gdy drukowane karty były dużą częścią procesu komputerowego. Niektóre z tych funkcji zostały odtąd zastąpione, ale wiele części do formatowania linii jest nadal dostępnych. Kod 127 to tak naprawdę kod do usunięcia (tylko w prawdziwym ASCII, a nie ANSI lub Unicode).

Wszystkie znaki do wydruku są tym, czego można się spodziewać. Są tam wszystkie małe litery (a-z) i wielkie litery (A-Z), wraz z cyframi, symbolami i znakami interpunkcyjnymi – w zasadzie wszystko widać na typowej klawiaturze. Te podstawowe znaki obejmują wszystkie zapisane słowa.

Używanie ASCII w XML i HTML

Każda strona HTML ma przypisany format kodowania znaków.

O ile nie określono inaczej, kodowanie HTML będzie domyślnie ustawione na UTF-8. Aby użyć czystego ASCII, ANSI lub dowolnego specjalistycznego, unikalnego formatu, wszystko, co musisz zrobić, to mieć deklarację w metatagu.

W przypadku HTML 4:

W przypadku HTML5:

W znaczniku charset możesz użyć UTF-8, ANSI lub ASCII, używając charset ="us-ascii" lub możesz wyszukać konkretny zestaw znaków, który ma zostać użyty, zwykle deklarując numer ISO. Pełna lista znajduje się na stronie zestawów znaków IANA.

Format wstawiania kodu znaków

Zasadniczo jednak, gdy ktoś odwołuje się do używania kodu ASCII, będziesz chciał, aby wyjaśnił, czy to znaczy PRAWDA US-ASCII z metatagiem, czy też prosi o wyświetlenie znaku specjalnego.

W HTML za każdym razem, gdy chcesz użyć znaku specjalnego, np. Symbolu centa (¢) lub znaku odwróconego znaku zapytania (¿) – zazwyczaj możesz użyć symbolu Unicode lub US-ASCII (8-bit) znak, wpisując takie odwołanie:

¢ w HTML wygląda następująco: ¢

¿W HTML wygląda następująco: ¿

Więc zaczynasz od &# następuje czterocyfrowy numer, kończąc średnikiem (;).

W ten sposób możesz wyświetlać znaki na podstawie ich numeru ASCII / Unicode.

Oczywiście znaki sterujące będą wykonywać funkcję formatowania lub w ogóle nie będą działać, w zależności od tego, którego używasz i jakiego zestawu znaków wymieniono w metatagu.

Tak więc w HTML widać „&# ”, Ale po wyświetleniu w przeglądarce zobaczysz znak.

Znaki specjalne HTML

Powiedzmy na przykład, że chcesz po prostu pokazać & symbol na twojej stronie.

Nie możesz po prostu wpisać go w kodzie HTML, ale możesz wpisać odpowiedni kod ASCII lub Unicode.

HTML to język znaczników, więc podczas gdy normalne litery działają dobrze, znaki specjalne, a zwłaszcza < > nawiasy klamrowe – są niezwykle ważne dla tego, jak przeglądarka odczytuje i pokazuje HTML.

Nie musisz jednak zawsze wpisywać numeru referencyjnego Unicode / ASCII. W HTML 4.0 i nowszych istnieją specjalne encje, które działają podobnie do odwołania do Unicode, ale zamiast zapamiętywać liczbę, zapamiętujesz słowo.

¢ w HTML wygląda następująco: ¢

¿ w HTML wygląda następująco: ¿

Pełna lista odniesień do postaci znajduje się w konsorcjum W3.

Tabela referencyjna

Przy tych wszystkich wprowadzeniach możesz po prostu szukać łatwego miejsca do znalezienia odniesienia do ASCII lub Unicode. Nie szukaj dalej, mamy odniesienia 000-127 tutaj, a pełny format Unicode można znaleźć na Wikipedii.

Pamiętaj, że znaki 000-032 i 127 nie są zazwyczaj drukowalne i dlatego są oznaczone „NA”.

ASCII

table.wiht002 {
interlinia: 0px;
border-collapse: collapse;
margines lewy: auto;
margines z prawej: auto;
margines na dole: 1,5 em;
wyrównanie tekstu: środek;
}

tabela, tr, td
{
wypełnienie: 0px;
margines: 0px;
}
td.bor
{
border-left: 1px solid # 000;
padding-left: 1em;
margines z prawej: 1em;
}
td.break
{
margines lewy: 2em;
margines z prawej: 2em;
}
td.sep
{
border-bottom: 1px solid # 000;
}
td.sepbor
{
border-bottom: 1px solid # 000;
border-left: 1px solid # 000;
padding-left: 1em;
margines z prawej: 1em;
}

0NA32NA64@@96``
1NA?33!!65ZAZA97zaza
2)NA?34""66bb98bb
3)NA?35##67dodo99dodo
4NA?36$$68rere100rere
5NA?37%%69mimi101mimi
6NA?38&&70fafa102fafa
7NA?3971solsol103solsol
8NA?40((72H.H.104hh
9NA41))73jaja105jaja
10NA42**74jotjot106jotjot
11NA43++75K.K.107kk
12NA44,,76L.L.108ll
13NA4577M.M.109mm
14NA?46..78N.N.110nn
15NA?47//79OO111oo
16NA?480080P.P.112pp
17NA?491181QQ113qq
18NA?502)2)82RR114rr
19NA?513)3)83S.S.115ss
20NA?524484T.T.116tt
21NA?535585UU117uu
22NA?546686V.V.118vv
23NA?557787W.W.119ww
24NA?568888XX120xx
25NA?579989YY121yy
26NA?58::90ZZ122zz
27NA?59;;91[[123{{
28NA?60<<92\\124||
29NA?61==93]]125}}
30NA?62>>94^^126~~
31NA?63??95__127NA?

Narzędzia i zasoby ASCII

Istnieje wiele historii ewolucji kodów znaków oraz organizacji, które utrzymują te standardy razem dla reszty z nas. Ponieważ większość programistów internetowych i W3C decydują się na UTF-8, przynajmniej w najbliższej przyszłości, tak właśnie będą kodowane strony.

Będziesz potrzebować zasobów, które ci pomogą, jeśli zaczniesz ręcznie kodować w innych formatach, lub może być po prostu mieć obszerne odniesienie do.

Lista zasobów

  • Strona zestawów znaków IANA

  • Specjalne znaki HTML konsorcjum W3

  • Pełny format Unicode na Wikipedii

  • Tabela ASCII od 0130-0255

  • Historia ASCII na świecie ASCII

  • Lista znaków Unicode na Wikipedii.

ASCII Art

Żadne podsumowanie ASCII nie byłoby kompletne bez odniesienia do art. ASCII.

Można użyć specjalnego oprogramowania lub ręcznie kodowanych symboli, aby przybrać kształt obrazu przy użyciu samych symboli. Ten rodzaj efektu istnieje od lat 80. XX wieku i stał się popularny w systemach takich jak Commodore Amiga Computer.

Istnieje nawet różnica między sztuką ASCII „Oldskool”, która używa czystego ASCII w wierszu poleceń, a „Newskool”, który używa znaków specjalnych w Unicode, aby tworzyć jeszcze bardziej złożone dzieła sztuki.

Oto zdjęcie głowy zebry:

Zebra ASCII Art

ISO-8859-1

ISO-8859-1 to standard kodowania znaków. Został wydany przez Międzynarodową Organizację Normalizacyjną (ISO) w 1998 r. Jako rozszerzenie ASCII.

ASCII i ISO-8859-1

Najbardziej znanym standardem kodowania znaków jest ASCII. ASCII użył 7 bitów ośmiobitowego bajtu, aby zakodować najbardziej podstawowe 128 znaków używanych do pisania w języku angielskim. Opracowano szereg zastosowań specyficznych dla systemu dla ósmego (wysokiego rzędu) bitu.

Na przykład jeden system używał go do przełączania między romanem a italski style drukowania. Inne systemy używały go do kodowania dodatkowych znaków. Używając wszystkich ośmiu bajtów, można zakodować 256 znaków.

Ponieważ oryginalny zestaw ASCII nie zawierał wielu znaków potrzebnych do pisania we wspólnych językach innych niż angielski (takich jak litery ze znakami diakrytycznymi), rozszerzenie zestawu znaków do 256 znacznie zwiększyło jego możliwości.

IS0-8859-1 jest jednym z tych rozszerzeń. Miał być międzynarodowym standardem międzyplatformowym. Ponieważ jest to nadzbiór standardowego 8-bitowego ASCII, jest on kompatybilny wstecz: dokument zakodowany w ASCII można łatwo zdekodować przy użyciu ISO-8859-1.

ISO-8859-1 i HTML

Zgodnie ze standardem ISO-8859-1 było domyślnym kodowaniem znaków w HTML 4. Jednak większość przeglądarek obsługiwała nadzbiór ISO-8859, zwany ANSI.

ANSI zawiera dodatkowe 32 znaki, które były puste w ISO-8859-1. (Przez większość czasu, gdy widzisz listę znaków ISO-8859-1, jest to właściwie pełna lista ANSI).

Dzisiaj standard HTML5 wykorzystuje UTF-8, bardzo duży nadzbiór, który zawiera oryginalne kodowania ASCII, ISO-8859-1 i ANSI.

Jednak większość anglojęzycznych dokumentów HTML, nawet tych, które jawnie deklarują ISO-8859-1 lub UTF-8 jako swój zestaw znaków, faktycznie używają mniejszego zestawu znaków ASCII. Istnieją dwa powody:

  • ASCII można pisać na standardowej klawiaturze QWERTY.

  • Wiele technologii używanych do generowania HTML obsługuje tylko ASCII.

Ponieważ zarówno ISO-8859-1, jak i UTF-8 są zgodne z ASCII, zwykle nie powoduje to żadnych problemów.

ISO-8859-1 i jednostki znaków

Rozszerzony zestaw znaków dostępny w ISO-8859-1 może być utworzony w dokumencie tylko ASCII przy użyciu encji znakowych HTML. Są to ciągi rozpoczynające się od znaku ampersand („&”) I zakończ średnikiem („; ”).

Na przykład symbol praw autorskich (okrąg z literą „C”) może być kodowany bezpośrednio przy użyciu ISO-8859-1 lub UTF-8. Ale ponieważ na większości klawiatur nie ma klawisza „©”, wielu osobom łatwiej jest wpisać ©.

Jest on przechowywany w pliku jako sześć znaków ASCII: &, c, o, p, y i; Przeglądarki internetowe wyświetlają użytkownikowi odpowiedni znak ISO-8859-1.

Większość znaków ISO-8859-1, które nie są ASCII, nosi nazwy znaków HTML. Tych, których nie można wpisać za pomocą kodu numerycznego. Kod numeryczny jest w rzeczywistości wersją dziesiętną (podstawa 10) kodowania binarnego.

Na przykład symbol praw autorskich jest zakodowany jako 10101001 w formacie binarnym, czyli 169 w bazie 10. Możesz więc wpisać © lub ©.

Znaki inne niż ASCII w ISO-8859-1 i ANSI

Znaki 128-159 na tym wykresie są znakami ANSI nieuwzględnionymi w ISO-8859. Pierwsze 127 kodów w ISO-8859-1 / ANSI nie jest tutaj uwzględnionych, ponieważ są one identyczne z ASCII, które wymieniliśmy powyżej.

Postać
Nazwa HTML
Numer HTML
Opis
znak euro
pojedynczy niski cudzysłów 9
ƒƒƒmała litera fz hakiem
podwójny niski-9 cudzysłów
elipsa pozioma
sztylet
podwójny sztylet
ˆˆˆmodyfikator litera akcent obwodowy
za znak milla
ŠŠŠWielka litera S z karonem
pojedynczy cytat kąta skierowanego w lewo
ŒŒŒligatura kapitału OE
ŽŽpodpis Z z karonem
pozostawił pojedynczy cudzysłów
pojedynczy pojedynczy cudzysłów
lewy podwójny cudzysłów
prawy podwójny cudzysłów
pocisk
en dash
em dash
˜˜˜tylda
Znak towarowy TM
šššmała litera S z karonem
znak cudzysłowu z kątem prostym
œœœligatura małych liter oe
žžmała litera Z z karonem
ŸŸŸwielka litera Y z diaeresis
 niezniszczalna przestrzeń
¡ ¡ ¡odwrócony wykrzyknik
¢ ¢ ¢znak centu
£ £ £znak funta (waluta)
¤ ¤ ¤znak waluty
¥ ¥ ¥znak jena / juana
¦ ¦ ¦złamany pionowy pasek
§ § §znak sekcji
¨ ¨ ¨diureza
© © ©znak praw autorskich
ª ª ªżeński wskaźnik porządkowy
« « «cudzysłów lewy podwójny kąt (guillemet)
¬ ¬ ¬nie podpisuj (logika)
­ ­ W pobliżumiękki / dyskrecjonalny łącznik
® ® ®zarejestrowany znak towarowy
¯ ¯ ¯odstępy makron / overline
° ° °znak stopnia
± ± ±znak plus / minus
² ² ²indeks górny dwa (kwadrat)
³ ³ ³indeks górny trzy (kostka)
´ ´ ´ostry akcent
µ µ µznak mikro
znak akapitu (pilcrow)
· · ·środkowa kropka
¸ ¸ ¸Cedilla
¹ ¹ ¹indeks górny jeden
º º ºmęski wskaźnik porządkowy
» » »cudzysłów prawy podwójny kąt (gilemet)
¼ ¼ ¼jedna czwarta frakcji (1 na 4)
½ ½ ½połowa frakcji (1 na 2)
¾ ¾ ¾ułamek trzy czwarte (3 powyżej 4)
¿ ¿ ¿odwrócony znak zapytania
ZA ZA ZAWielka litera A z poważnym akcentem
ZA ZA ZAWielka litera A z ostrym akcentem
ZA ZA ZAWielka litera A z daszkiem
ZA ZA ZAWielka litera A z tyldą
ZA ZA ZAwielka litera A z diaeresis
ZA ZA ZAwielka litera A z pierścieniem powyżej
Æ Æ Æduża ligatura AE
DO DO DOWielka litera C z cedillą
MI MI MIWielka litera E z poważnym akcentem
MI MI MIWielka litera E z ostrym akcentem
MI MI MIWielka litera E z daszkiem
MI MI MIwielka litera E z diaeresis
JA JA JAWielka litera I z poważnym akcentem
JA JA JAWielka litera I z ostrym akcentem
JA JA JAWielka litera I z daszkiem
JA JA JAWielka litera I z diaeresis
RE RE REwielka litera ETH (symbol monety Doge)
Ñ Ñ ÑWielka litera N z tyldą
Ò Ò ÒWielka litera O z poważnym akcentem
Ó Ó ÓWielka litera O z ostrym akcentem
Ô Ô ÔWielka litera O z obwodem
Õ Õ ÕWielka litera O z tyldą
Ö Ö Öwielka litera O z diaeresis
× × ×znak mnożenia
Ø Ø ØWielka litera O
Wielka litera U z poważnym akcentem
Ú Ú ÚWielka litera U z ostrym akcentem
Û Û ÛWielka litera U z daszkiem
Ü Ü Üwielka litera U z diaeresis
Ý Ý ÝWielka litera Y z ostrym akcentem
Þ Þ Þwielka litera THORN
ß ß ßmałe litery ostre s (Eszett / scharfes S. )
za za zamała litera a z poważnym akcentem
za za zamała litera a z ostrym akcentem
za za zamała litera a z daszkiem
za za zamała litera a z tyldą
za za zamała litera a z diaeresis
za za zamała litera a z pierścieniem powyżej
æ æ æligatura ae małych liter
do do domała litera c z cedillą (cédille)
mi mi mimała litera ez poważnym akcentem
mi mi mimała litera ez ostrym akcentem
mi mi mimała litera ez daszkiem
mi mi mimała litera ez diaeresis
ja ja jamała litera i z poważnym akcentem
ja ja jamała litera i z ostrym akcentem
ja ja jamała litera i z daszkiem
ja ja jamała litera i z diaeresis
ð / td> ðcode> remałe litery eth
ñ ñ ñmała litera nz tyldą
ò ò òmała litera o z poważnym akcentem
ó ó ómała litera o z ostrym akcentem
ô ô ômała litera o z daszkiem
õ õ õmała litera o z tyldą
ö ö ömała litera o z diaeresis
÷ ÷ ÷znak podziału
ø ø ømała litera o z ukośnikiem
ù ù ùmała litera uz poważnym akcentem
ú ú úmała litera uz ostrym akcentem
û û ûmała litera u z daszkiem
ü ü ümała litera u z diaeresis
ý ý ýmała litera yz ostrym akcentem
þ þ þCierń małej litery
ÿ ÿ ÿmała litera y z diaeresis

Unicode

Unicode to standard kodowania znaków zarządzany przez konsorcjum Unicode.

Jak już omówiliśmy, systemy komputerowe nie przechowują liter (liter, cyfr, symboli) dosłownie – na dysku twardym nie ma malutkiego obrazu każdej litery. Jak powinieneś teraz wiedzieć, każda postać jest zakodowana jako seria bitów binarnych – 1 i 0. Na przykład kod małej litery „a” to 01100001.

Ale 01100001 jest arbitralne – w tym ciągu bitów nie ma nic specjalnego, co powinno oznaczać, że jest to litera „a” – przemysł komputerowy wspólnie zgodził się, że oznacza „a”. Jak więc cały przemysł zgadza się, jak reprezentować każdą możliwą postać? Ze standardem kodowania znaków. Standard kodowania określa po prostu wszystkie możliwe dostępne znaki i przypisuje każdemu ciąg bitów.

W ciągu ostatnich dziesięcioleci przetwarzania na całym świecie stosowano kilka standardów kodowania znaków. Przez długi czas najbardziej powszechnie akceptowanym standardem był ASCII. Problem z ASCII polega na tym, że koduje on tylko stosunkowo ograniczoną liczbę znaków – maksymalnie 256. Wykluczyło to języki inne niż łacińskie, wiele ważnych symboli matematycznych i naukowych, a nawet niektóre podstawowe znaki interpunkcyjne.

Oprócz użycia ASCII w języku angielskim i innych językach, które używają alfabetu łacińskiego, grupy językowe używające innych alfabetów zwykle używały własnego kodowania znaków. Ponieważ te schematy kodowania zostały zdefiniowane oddzielnie, często powodowały konflikty; niemożliwe było użycie jednego schematu kodowania dla wielu języków jednocześnie.

Unicode został pierwotnie opracowany i nadal jest rozwijany, szczególnie w celu przezwyciężenia tych wyzwań. Celem Unicode jest zapewnienie uniersal, unified i uniIdentyfikator kodu que dla każdego grafemu w każdym języku i systemie pisania na świecie.

UTF-8

Unicode został zaimplementowany w kilku schematach kodowania znaków, ale obecnie najczęściej stosowanym standardem jest UTF-8. UTF-8 stał się niemal uniwersalny dla wszystkich typów nowoczesnych komputerów.

UTF-8 koduje znaki przy użyciu do 4 8-bitowych bloków kodu. ASCII używał tylko 8 bitów na znak. Znaki Unicode wcześniej zawarte w ASCII są reprezentowane w UTF-8 przez pojedynczy 8-bitowy fragment, te same 8 bitów, które były używane w ASCII. Dzięki temu tekst ASCII jest kompatybilny z UTF-8. (Jest to jeden z wielu powodów, dla których UTF-8 stał się uniwersalnym standardem – przejście było stosunkowo łatwe).

Schemat 8 × 4 zapewnia UTF-8 ponad milion punktów kodowych, umożliwiając Unicode kodowanie znaków ze 129 skryptów i systemów pisania.

Materiały do ​​zrozumienia kodu Unicode

  • Wprowadzenie do systemów pisania i Unicode jest bardzo dokładnym, a nawet wymownym, wyjaśnieniem ogólnie kodowania znaków, aw szczególności Unicode; jeśli umiesz czytać tylko jedną rzecz w Unicode, to jest to, co należy przeczytać
  • Standard Unicode: wprowadzenie techniczne to oficjalne wyjaśnienie standardu Unicode
  • Do BMP i nie tylko! to samouczek na temat Unicode, odpowiedni do prezentacji lub samodzielnej nauki
  • Samouczek Unicode wyjaśnia, jak działa Unicode, w tym interesujące szczegóły, takie jak łączenie znaków, i jak powinien działać silnik analizujący Unicode.

Książki o Unicode

  • Jukka Korpela, wyjaśniający Unicode, zapewnia dobry przegląd Unicode i różnych wyzwań programistycznych związanych z jego implementacją
  • Unicode Demystified: Praktyczny przewodnik programisty po standardzie kodowania autorstwa Richarda Gillama jest pomocnym, choć nieco przestarzałym wyjaśnieniem Unicode, z dużą ilością specyficznych dla Java implementacji
  • Yannis Haralambous, Czcionki i kodowanie, nie dotyczy wyłącznie Unicode, ale może być książką najbardziej wartą przeczytania; obejmuje historię kodowania i przedstawiania tekstu na komputerach, zapewniając zarówno teoretyczną, jak i praktyczną podstawę do zrozumienia Unicode i wielu ściśle powiązanych tematów.

Materiał odniesienia Unicode

Kiedy opanujesz podstawową znajomość Unicode, będziesz musiał przeszukać konkretne szczegóły – takie jak dokładne kodowanie określonego znaku.

  • Cheatheet C / C ++ Unicode zawiera informacje na temat konwersji Microsoft C / C ++ na Unicode
  • Raporty technologiczne XML i Unicode to lista raportów technicznych obejmujących różne aspekty wspólnego używania XML i Unicode
  • Dekodowanie Unicode zapewnia słownik Unicode online z pięknym interfejsem użytkownika, który umożliwia wyświetlanie każdego zdefiniowanego znaku Unicode, nawet bez obsługi czcionek lokalnych
  • Dane o językach zapewniają przeszukiwalne informacje na temat używania zestawów znaków Unicode w różnych językach
  • Unicode Navigator zapewnia uporządkowaną listę wszystkich znaków Unicode

Narzędzia Unicode

  • Unicode Analyzer to rozszerzenie przeglądarki Chrome, które dostarcza informacji o tekście Unicode na stronach internetowych i dokumentach
  • Identyfikator znaków to wtyczka do Firefoksa, która udostępnia menu kontekstowe do wyszukiwania dodatkowych informacji o wybranych znakach Unicode
  • Aby wstawić znaki Unicode w polach tekstowych w Internecie, wypróbuj Symbole Unicode dla Chrome lub Unicode Input Tool dla Firefox
  • UnicodeDataBrowser zapewnia GUI dla łatwiejszego odczytu pliku UnicodeData.txt
  • Polyglot 3000 automatycznie rozpoznaje język dowolnego tekstu
  • Unicode udostępnia listę układów klawiatury znaków Unicode dla różnych skryptów obsługiwanych przez Unicode
  • Babel to biblioteka Pythona do szerokiego zakresu zadań internacjonalizacji i lokalizacji
  • D-Type Unicode Text Engine to biblioteka C ++ do układania, renderowania i edycji wysokiej jakości tekstu Unicode na dowolnym urządzeniu, platformie lub systemie operacyjnym
  • Nunicode to biblioteka C do kodowania i dekodowania dokumentów UTF-8
  • Portable UTF-8 zapewnia obsługę napisów PHP w Unicode
  • Tesseract OCR zapewnia optyczne rozpoznawanie znaków dla tekstu Unicode
  • Popchar to ulepszona mapa znaków, która pozwala łatwo znajdować i pisać znaki z całego zakresu przestrzeni Unicode
  • Unicode Utilities zapewnia szereg interesujących i przydatnych narzędzi online do pracy z Unicode
  • Edicode zapewnia elastyczną klawiaturę Unicode online do pisania tekstu przy użyciu różnych międzynarodowych skryptów
  • Quickkey to elastyczne rozszerzenie klawiatury do wpisywania pierwszych 65 000 zdefiniowanych znaków Unicode
  • Konwerter kodów Unicode konwertuje dowolny wprowadzony kod znakowy na kilka różnych kodowań tego samego znaku
  • CharFunk to narzędzie JavaScript do wykonywania wielu interesujących kontroli i operacji na znakach Unicode
  • Kreative Recode przekształca pliki tekstowe z różnych kodowań w Unicode
  • BabelMap Online zapewnia wbudowaną w przeglądarkę klawiaturę Unicode z wyjściem w postaci wyświetlanych znaków, a także kodowaniem szesnastkowym lub dziesiętnym

Edytory tekstu i kodu

Większość dzisiejszych edytorów tekstu, edytorów kodu i IDE albo domyślnie używa Unicode, albo z łatwością obsługuje Unicode. Sublime, Notepad ++, Atom i Eclipse są ustawione na UTF-8 jako domyślne kodowanie znaków. Vim i Emacs mogą potrzebować zmiany ustawień, aby korzystać z UTF-8:

  • Używanie Unicode z Emacsem
  • Używanie Unicode z Vimem

Istnieje również kilka edytorów kodu i tekstu specjalnie zaprojektowanych do obsługi rozszerzonego zestawu znaków Unicode:

  • MinEd to edytor tekstowy Unicode z kontekstowym wsparciem do wstawiania znaków z pełnego zakresu przestrzeni znaków Unicode
  • Classical Text Editor to zaawansowany edytor do pracy z krytycznymi i naukowymi wydaniami tekstów, w tym tekstami wielojęzycznymi z wykorzystaniem szerokiej gamy zestawów znaków Unicode

Czcionki Unicode

Związek między czcionkami a Unicode jest nieco ukośny. Unicode został stworzony tak, aby był kompatybilny wstecz z ASCII – tekst sformatowany w ASCII można zdekodować jako Unicode praktycznie bez problemu. Tekst w kodowaniu Unicode może być wyświetlany za pomocą czcionek ASCII, o ile używany jest tylko niewielki zestaw znaków pojawiających się w ASCII.

Obecnie większość czcionek dostępnych na większości komputerów jest kodowana w standardzie Unicode. Z tego punktu widzenia większość czcionek to „czcionki Unicode”. Jednak większość czcionek nie obsługuje szczególnie dużego zestawu pełnego standardu Unicode.

Zwykle nie stanowi to problemu; ktoś, kto tworzy tekst w wielu językach lub z rozszerzonym zestawem znaków, może użyć kilku różnych czcionek – jednej dla skryptu łacińskiego, innej dla każdego języka CJK, a drugiej dla symboli matematycznych (na przykład). Jednak czasem przydatne mogą być pojedyncze czcionki, które zawierają duży procent przestrzeni znaków Unicode. Może to być potrzebne podczas pracy w środowisku czystego tekstu i kodu źródłowego, w którym użycie wielu czcionek jest niemożliwe lub gdy szczególnie ważna jest wizualna jedność między wieloma skryptami.

Oto najbardziej znaczące projekty czcionek zapewniające rozszerzoną obsługę Unicode. Aby uzyskać pełniejszy wykaz, w tym nieaktualne i przestarzałe czcionki, zobacz tę stronę czcionek Unicode. Skład czcionek azjatyckich można znaleźć na tej liście czcionek CJK.

  • Everson Mono to czcionka o stałej szerokości utworzona przez jednego z twórców standardu Unicode; jego deklarowanym celem jest zapewnienie glifów dla jak największej przestrzeni znaków Unicode, a (od tego pisania) 92 bloki znaków Unicode są obsługiwane.
  • Noto to duży zestaw czcionek wyświetlanych, opracowany przez Google, które łącznie zapewniają obsługę większości zestawów znaków Unicode, z zamiarem ostatecznego wsparcia całego standardu Unicode.
  • Deja Vu Fonts to rodzina czcionek zapewniająca szeroki zasięg standardu Unicode w wersjach Serif, Sans i Monospace.
  • GNU FreeFont to rodzina czcionek, zapewniająca twarze Serif, Sans i Mono dla 37 systemów pisania i 12 zakresów symboli Unicode.
  • GNU Unifont to monospace, bitmapowa czcionka z pełnym pokryciem dla podstawowego Multilingual Plane Unicode 8.0 i szerokim, ale niepełnym pokryciem dla Supplemental Multilingual Plane.

Istnieje również wiele interesujących czcionek, które kodują określony podzbiór standardu Unicode do specjalistycznego użytku.

  • Junicode to zestaw czcionek dla średniowiecznych
  • Last Resort to „czcionka ostatniej szansy”; zamiast konwencjonalnych glifów znaków, każdy glif wyświetla informacje o samym znaku Unicode
  • Czcionki Unicode dla starożytnych skryptów to projekt polegający na stworzeniu zestawu czcionek dla kilku starożytnych i klasycznych alfabetów
  • Unimath Plus zapewnia rozszerzony zestaw symboli nauki i matematyki

A oto dodatkowe zasoby czcionek Unicode, jeśli nadal nie możesz znaleźć tego, czego szukasz:

  • SIL Czcionki szereg czcionek dla różnych słabo obsługiwanych języków, stworzony przez SIL International, globalną organizację non-profit obsługującą społeczności mniejszości językowych
  • Zakresy znaków Unicode i obsługujące je czcionki Unicode pomogą Ci znaleźć czcionkę dla dowolnego zakresu znaków Unicode.

Zasoby emoji

Emoji to te śmieszne małe buźki i kciuki do góry, które można umieścić w wiadomościach tekstowych. W rzeczywistości są częścią standardu Unicode. Część Emoji Unicode nie jest powszechnie obsługiwana, więc jeśli chcesz włączyć Emoji do swojej aplikacji lub strony internetowej, możesz potrzebować pomocy. Oto zasoby, które pomogą Ci używać i budować z emoji Unicode.

Emoji Reference

  • Emojipedia to baza danych znaków Emoji z możliwością wyszukiwania
  • Czy mogę emoji? zawiera informacje o natywnej obsłudze emotikonów Unicode w systemach iOS, Android, OS X i Windows, a także w głównych przeglądarkach
  • WTF Emoji Foundation to nieco poważna organizacja zajmująca się rozwojem emoji; uruchamiają Słownik Emoji.
  • Ściągawka Emoji zapewnia szybki przegląd kodów wpisywania Emoji

Biblioteki emoji

  • Dołącz Emoji do aplikacji i tłumacz między standardami różnych dostawców dzięki tej bibliotece PHP Emoji; lub wypróbuj bibliotekę emoji PHP7, która pozwala odwoływać się do Emoji według nazwy w kodzie
  • Emoji dla Pythona obsługuje zarówno oficjalne emoji Unicode, jak i kilka zestawów aliasów; Programiści Django mogą również korzystać z pakietu django-emoji
  • Emoji Golang zapewnia obsługę Emoji dla języka programowania Go
  • w Ruby istnieje kilka elementów obsługujących emoji, ale ten, który napisał Github, jest prawdopodobnie najlepszy do użycia
  • Emoji-Java zapewnia obsługę Emoji w Javie
  • Coloremoji.sty ułatwia dołączanie kolorowych dokumentów Emoji do dokumentów LaTeX
  • Npm, system zarządzania pakietami dla Node.js ma kilka pakietów emoji:
    • Emoji i emoji węzłów zapewniają podstawową obsługę emoji,
    • Ember-cli-emoji współpracuje z Emojify.js, aby dostarczać pomocników emoji do aplikacji Ember.js
    • Markdown-it-emoji dodaje emoji do obsługi parsera Markdown-it Markdown
  • Emoji Syntax to głupia biblioteka dla edytora tekstów Atom, która dodaje emoji do linii kodu na podstawie ich znaczenia.

Klawiatury i kolekcje emoji

  • EmojiXpress na iOS to kolekcja Emoji i klawiatura na iPhone’a
  • Emojione to wieloplatformowa kolekcja Emoji z grafiką na licencji Creative Commons bezpłatną dla programistów
  • iDiversicons zapewnia szeroką gamę różnorodnych znaków Emoji oraz klawiaturę iPhone.

Rodzaje MIME

MIME oznacza „Uniwersalne rozszerzenia poczty internetowej”. Jest to standard internetowy używany do identyfikowania różnych typów plików przesyłanych online. Pierwotnie został opracowany dla wiadomości e-mail wysyłanych za pośrednictwem SMTP (Simple Mail Transfer Protocol), który jest standardem internetowym dla przesyłania wiadomości e-mail. W dzisiejszych czasach MIME jest niezwykle ważne w innych protokołach komunikacyjnych, takich jak HTTP.

Historia MIME

Omówiliśmy już historię ASCII i kodowania znaków. Ale historia przesyłania informacji jest znacznie większa niż ta.

Z czasem nasze wiadomości zaczęły się komplikować i stało się oczywiste, że ten standardowy format nie był wystarczający. Obrazy multimedialne zawierające pliki audio lub wideo nie zostały w ogóle zdefiniowane. To samo dotyczy języków, które nie używały alfabetu angielskiego. Sytuacja wreszcie zaczęła się zmieniać, gdy dwie osoby połączyły siły: Nathaniel Borenstein i Ned Freed.

Ich propozycja na nowo zdefiniowała format wiadomości, aby e-mail mógł zawierać wiele obiektów w jednej wiadomości; stosowanie znaków spoza ASCII oraz języków innych niż angielski; oraz wykorzystanie obrazów, audio i wideo. To narodziny MIME, który stał się oficjalnym standardem w 1993 roku.

W propozycji zdefiniowano również standardy kodowania, które są 7-bitowe, 8-bitowe, base64, binarne i dostępne do wydruku. Te standardy kodowania miały zapewnić, że wszystkie dane są rzeczywiście wysyłane. Zawierał także informacje o wykorzystaniu nagłówka Content-Type, który jest niezbędny do prawidłowej identyfikacji rodzaju przesyłanych danych.

Jakie są typy MIME?

Typy MIME to identyfikatory używane do identyfikacji wielu formatów plików przesyłanych codziennie w Internecie. Są one znormalizowane przez IANA (Internet Assigned Numbers Authority). Typy MIME zostały po raz pierwszy zdefiniowane i nazwane jako takie w Zapytaniu o komentarze: 2045 (RFC 2045) opublikowanym przez IETF (Internet Engineering Task Force), która była oficjalną propozycją złożoną przez Borensteina i Freeda.

Struktura

Typy MIME składają się z typu i podtypu, które są dwoma łańcuchami oddzielonymi ukośnikiem. Typ reprezentuje kategorię i może być dyskretny lub wieloczęściowy. Każdy typ ma określony podtyp. Tradycyjnie typy MIME są pisane małymi literami.

Typy dyskretne obejmują tekst, obraz, dźwięk, wideo i aplikację. Typy wieloczęściowe reprezentują kategorię dokumentów, które są podzielone na odrębne części i często zawierają różne typy MIME. Obejmują one dane formularzy i bajty.

Niektóre typy MIME są poprzedzone przez x lub vnd. Prefiks x oznacza, że ​​nie został zarejestrowany w IANA, a vnd oznacza prefiks specyficzny dla dostawcy.

Typowe typy MIME

Podanie:

  • application / msword (.doc)
  • application / vnd.openxmlformats-officedocument.wordprocessingml.document (.docx)
  • application / vnd.openxmlformats-officedocument.wordprocessingml.template (.dotx)
  • application / vnd.ms-powerpoint (.ppt)
  • application / ecmascript (.es)
  • application / x-javascript (.js)
  • application / octet-stream (.bin, .exe)
  • application / pdf (.pdf)
  • application / postscript (.ps, .ai, .eps)
  • application / rtf (.rtf)
  • application / x-gtar (.gtar)
  • application / x-gzip (.gz)
  • application / x-java-archive (.jar)
  • application / x-java-serialized-object (.ser)
  • application / x-java-vm (.class)
  • application / x-tar (.tar)
  • application / zip (.zip)
  • application / x-7z-skompresowany (.7z)
  • application / x-rar-skompresowany (.rar)
  • application / x-shockwave-flash (.swf)
  • application / vnd.android.package-archive (.apk)
  • application / x-bittorrent (.torrent)
  • application / epub + zip (.epub)
  • application / vnd.ms-excel (.xsl)
  • application / x-font-ttf (.tff)
  • application / rss + xml (.rss, .xml)
  • application / vnd.adobe.air-application-installer-package + zip (.air)
  • application / x-debian-package (.deb)
  • application / json (.json)

Audio:

  • audio / x-midi (.mid, .midi)
  • audio / x-wav (.wav)
  • audio / mp4 (.mp4a)
  • audio / ogg (.ogg)
  • audio / mpeg (.mp3)

Wizerunek:

  • image / bmp (.bmp)
  • image / gif (.gif)
  • image / jpeg (.jpeg, .jpg, .jpe)
  • image / tiff (.tiff, .tif)
  • image / x-xbitmap (.xbm)
  • image / x-icon (.ico)
  • image / svg + xml (.svg)
  • image / png (.png)

Tekst:

  • text / html (.htm, .html)
  • tekst / zwykły (.txt)
  • text / richtext (.rtf, .rtx)
  • text / css (.css)
  • text / csv (.csv)
  • tekst / kalendarz (.ics)

Wideo:

  • video / mpeg (.mpg, .mpeg, .mpe)
  • video / ogg (.ogv)
  • wideo / szybki czas (.qt, .mov)
  • video / x-msvideo (.avi)
  • wideo / mp4 (.mp4)
  • wideo / webm (.webm)

Zasoby

Typy MIME pozwoliły nam uzyskać lepszą i bogatszą obsługę poczty e-mail. Poniższa lista zasobów pomoże ci dowiedzieć się więcej o tym, jak i dlaczego powstały, a także o tym, jak poprawnie skonfigurować serwer WWW do obsługi typu MIME i więcej.

Zasoby online

Poniższa lista zawiera łącza do pięcioczęściowej propozycji, która stała się standardową wersją roboczą MIME.

  • RFC 2045 (PDF): pierwsza część wniosku określa różne nagłówki używane do opisu struktury wiadomości MIME.
  • RFC 2046 (PDF): drugi dokument określa ogólną strukturę systemu typowania multimediów MIME i początkowy zestaw typów multimediów.
  • RFC 2047 (PDF): trzecia część wniosku opisuje rozszerzenia, które pozwalają na dane tekstowe spoza USA-ASCII w polach nagłówka poczty internetowej.
  • RFC 2048 (PDF): czwarta część opisuje, w jaki sposób można rejestrować nowe typy MIME w IANA.
  • RFC 2049 (PDF): piąty dokument opisuje kryteria zgodności MIME z przykładami formatów komunikatów MIME.
  • Typy mediów: pełna lista wszystkich typów mediów, która zawiera również link do aplikacji do rejestracji nowych typów mediów.
  • Faceci MIME: jak dwóch internetowych guru zmieniło e-mail na zawsze: artykuł oparty na wywiadach z Nathanielem Borensteinem i Nedem Freedem, który daje ciekawy wgląd w ich pracę.

Poradniki

Poniższe zasoby zawierają przydatne samouczki na temat obsługi typów MIME, prawidłowej konfiguracji serwera i nie tylko.

  • Prawidłowe konfigurowanie typów MIME serwera: omawia, dlaczego webmasterzy powinni zadbać o prawidłowe skonfigurowanie swojego serwera WWW w miarę dodawania nowych typów MIME, szczególnie w przeglądarkach opartych na Gecko.
  • Formaty multimediów obsługiwane przez elementy audio i wideo HTML: zawiera listę typów MIME obsługiwanych przez nowe elementy audio i wideo w HTML5
  • Co to jest wąchanie MIME: ten artykuł zawiera dokładne wyjaśnienie dotyczące wąchania MIME i sposobu unikania związanych z nim luk w zabezpieczeniach.
  • Wyjaśnione typy MIME: Dlaczego Linux i Mac OS X nie potrzebują rozszerzeń plików: ciekawa lektura wyjaśniająca jedną z różnic między komputerem z systemem Windows a komputerem z systemem Linux / Mac OS X.
  • Wybór odpowiedniego typu MIME dla JavaScript: istnieje obecnie więcej niż jeden typ MIME dla JavaScript. W tym samouczku znajdziesz wyjaśnienie przypadków użycia dla każdego z nich.

Książki

Chociaż nie ma żadnych książek poświęconych wyłącznie typom MIME, wciąż istnieje spora liczba książek na ściśle powiązane tematy, które poświęcają im kilka rozdziałów..

  • Internetowe protokoły e-mailowe, standardy i implementacja (1998) autorstwa Lawrence’a Hughesa: ta książka jest skierowana do bardziej zaawansowanych użytkowników i pogłębia wiedzę na temat podstawowych pojęć potrzebnych do opracowania oprogramowania pocztowego oraz dokładnie opisuje najważniejsze internetowe protokoły i rozszerzenia, takie jak SMTP, POP3, IMAP , MIME i DSN.
  • Programowanie internetowej poczty e-mail (1999) autorstwa Davida Wooda: niezbędny przewodnik obejmujący wszystkie ważne koncepcje niezbędne do tworzenia aplikacji oprócz funkcji poczty elektronicznej. Omawiane tematy obejmują różne protokoły e-mail, formaty e-mail, w tym typy MIME i wiele przykładów.
  • Essential Email Standards (1999) Petera Loshina: ta książka jest niezbędna dla każdego, kto chce uzyskać dogłębne zrozumienie standardów e-mail. Zapewnia dokładną analizę najważniejszych RFC opublikowanych przez IETF, a także ich potencjalne zastosowanie. Zawiera także w pełni przeszukiwalną cyfrową wersję książki na płycie CD.
  • MH & xmh (2006) Jerry Peek: ta książka jest dostępna bezpłatnie online i opublikowana na licencji GNU-GPL. Trzeci rozdział szczegółowo wyjaśnia typy MIME i komunikaty wieloczęściowe

Przybory

Poniższe linki zawierają kilka przydatnych narzędzi do sprawdzania ważności typów MIME.

  • Jakie typy MIME obsługuje moja przeglądarka: narzędzie online, które poinformuje cię, jakie typy MIME obsługuje Twoja przeglądarka zaraz po załadowaniu strony.
  • Walidator MIME: darmowy walidator MIME online, który sprawdza zgodność komunikatów MIME ze standardami IETF.
  • What MIME: kolejny darmowy kontroler online dla dowolnego pliku.

Poszerz swoją wiedzę na temat rodzajów MIME

Rodzaje MIME na pozór mogą wydawać się nieznaczne, ale przyniosły poważne zmiany w sposobie działania naszych wiadomości e-mail. Ta lista zasobów powinna wzbudzić twoją ciekawość i zapewnić głębsze zrozumienie, w jaki sposób wiadomości e-mail i pliki przesyłane przez Internet zmieniły się na przestrzeni lat.

Podsumowanie

Większość ludzi po prostu pisze i niewiele myśli o tym, co się dzieje. Kilku z nich zastanawia się nad subtelnością projektowania czcionek i typografii.

Ale jeszcze mniejsza jest liczba osób, które wiedzą lub chcą wiedzieć, co dzieje się za kulisami – jak naciśnięcie klawisza staje się literą na ekranie komputera.

Dla wszystkich innych jest to albo przejrzyste, albo trywialne.

Ale jak pokazaliśmy, proces reprezentowania języka nie jest wcale trywialny, a włożenie ogromnej ilości pracy w uczynienie go tak przejrzystym, jak jest. Konsorcjum Unicode wraz z niezliczoną liczbą programistów, projektantów i lingwistów umożliwiło każdemu napisanie dowolnego znaku, z dowolnego języka, w dowolnym skrypcie, na dowolnym komputerze.

Jest to znaczące osiągnięcie i niezbędny krok w kierunku powszechnej wiedzy i powszechnego dostępu do komputerów i Internetu.

FAQ

P: Jaka jest różnica między ASCII, Unicode i UTF-8?

ZA. ASCII jest starszym standardem z lat 60., podczas gdy Unicode powstał pod koniec lat 80.

ASCII ma tylko 128 lub 256 znaków, ale Unicode ma ponad 10 000.

Unicode to tablica znaków, UTF-8 (lub UTF-16 lub UTF-32) to poziom kodowania. Unicode 0-256 i ASCII są prawie identyczne, z niewielkimi różnicami w znakach kontrolnych.

UTF-8 jest obecnie najpopularniejszym kodowaniem w sieci – i domyślnym.

P: Czy muszę zadeklarować, jakiego rodzaju kodowania używam na swojej stronie internetowej??

ZA. Tylko jeśli wiesz, że musisz użyć unikalnego typu kodowania.

Jeśli nie zadeklarujesz jednego z nich, większość przeglądarek będzie domyślnie ustawiona na UTF-8. Jeśli tworzysz stronę internetową w języku obcym, zwłaszcza niełacińskim, upewnij się, że używasz UTF-8, albo wybrałeś specjalny zestaw znaków.

P: Czy muszę zapamiętywać kody ASCII, aby pisać HTML?

ZA. Tylko jeśli starasz się być wyjątkowo wydajny.

Obecnie większość stron internetowych jest dynamiczna i generuje kod HTML za pośrednictwem systemów takich jak system zarządzania treścią (CMS). Jeśli jesteś programistą, prawdopodobnie będziesz używać innych języków programowania oprócz HTML, a te języki mogą mieć specjalne sposoby generowania tych symboli ASCII.

Wreszcie, jak omówiono powyżej, wiele z tych kodów używa znaków specjalnych w HTML zamiast liczb ASCII.

P: Czy kodowanie znaków różni się w zależności od systemu operacyjnego??

ZA. Nieco.

Unicode jest nieco inny w systemie Windows niż Unix / Linux. Na przykład Windows używa UTF-16LE, podczas gdy Linux zwykle używa UTF-8.

Oczywiście kodowanie używane przez system operacyjny może się różnić od kodowania na stronie internetowej, ale system operacyjny i przeglądarka współpracują ze sobą w celu konwersji kodów znaków na coś, co może wyświetlać komputer.

Czasami w starszych systemach operacyjnych ta konwersja może nie działać i można było zobaczyć puste znaki. (Na przykład jest to coś, co można zobaczyć odwiedzając zagraniczną witrynę w systemie Windows XP).

P. Sztuka ASCII jest niesamowita! Gdzie mogę zrobić własne?

ZA. AsciiWorld.com ma kilka wspaniałych galerii i narzędzi w dziale oprogramowania, takich jak konwertery i „malarze”. baw się dobrze!

Inne ciekawe rzeczy

Mamy więcej przewodników, samouczków i infografik związanych z kodowaniem i tworzeniem stron internetowych:

  • CSS3 – wprowadzenie, przewodniki i zasoby: jest to świetne miejsce do rozpoczęcia nauki układu strony.

  • Wprowadzenie i zasoby PostScript: dowiedz się wszystkiego o języku wyświetlania stron, który zmienił świat.

  • Lorem Ipsum: dowiedz się, jak używać „fikcyjnego tekstu” do projektowania przed napisaniem treści.

HTML dla początkujących – najlepszy przewodnik

Jeśli naprawdę chcesz nauczyć się języka HTML, stworzyliśmy artykuł o długości książki HTML dla początkujących – przewodnik po najlepszych. I to naprawdę najlepszy przewodnik; zabierze cię od samego początku do opanowania.

HTML dla początkujących - najlepszy przewodnik
HTML dla początkujących – najlepszy przewodnik

Trendy w projektowaniu stron internetowych, których nigdy nie zapomnisz

Przed Unicode często odwiedzano strony internetowe, na których cały tekst był reprezentowany przez puste pola. Wiele się zmieniło. W naszej infografice Trendy w projektowaniu stron internetowych Nigdy nie zapomnisz, jak przeglądaliśmy dawną sieć.

Trendy w projektowaniu stron internetowych, których nigdy nie zapomnisz
Trendy w projektowaniu stron internetowych, których nigdy nie zapomnisz

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map