char 160 что за символ

What does char 160 mean in my source code?

I am formatting numbers to string using the following format string «# #.##», at some point I need to turn back these number strings like (1 234 567) into something like 1234567. I am trying to strip out the empty chars but found that

for some reason and the string remain 1 234 567. After looking at the string I found that

I was wondering what the value 160 means?

8 Answers 8

char code 160 would be

Maybe you could to use a regex to replace those empty chars:

This is a fast (and fairly readable) way of removing any characters classified as white space using Char.IsWhiteSpace :

As dbemerlin points out, if you know you will only need numbers from your data, you would be better use Char.IsNumber or the even more restrictive Char.IsDigit :

If you need numbers and decimal seperators, something like this should suffice:

I would suggest using the char overload version:

Solution with extended methods:

And it can be used with this code:

Wouldn’t be the preferred method to replace all empty characters (and this is what the questioner wanted to do) with the Regex Method which Rubens already posted?

or what Expresso suggests:

The difference here is that \p replaces any kind of whitespace or invisible separator whereas the \p replaces a whitespace character that is invisible, but does take up space. You can read it here (Section Unicode Categories):

Using RegEx has the advantage that only one command is needed to replace also the normal whitespaces and not only the non-breaking space like explained in some answers above.

If performance is the way to go then of course other methods should be considered but this is out of scope here.

Источник

Коды ASCII символов

Управляющие символы (большинство непечатные; наиболее важные подсвечены жёлтым)

Печатные символы (стандартные)

Символ	Dec	Hex	Oct	Описание
32	20	040	Пробел
!	33	21	041	Восклицательный знак
«	34	22	042	Кавычка (» в HTML)
#	35	23	043	Решётка (знак числа)
$	36	24	044	Доллар
%	37	25	045	Проценты
&	38	26	046	Амперсанд
‘	39	27	047	Закрывающая одиночная кавычка (апостроф)
(	40	28	050	Открывающая скобка
)	41	29	051	Закрывающая скобка
*	42	2a	052	Звёздочка, умножение
+	43	2b	053	Плюс
,	44	2c	054	Запятая
—	45	2d	055	Дефис, минус
.	46	2e	056	Точка
/	47	2f	057	Наклонная черта (слеш, деление)
0	48	30	060	Ноль
1	49	31	061	Один
2	50	32	062	Два
3	51	33	063	Три
4	52	34	064	Четыре
5	53	35	065	Пять
6	54	36	066	Шесть
7	55	37	067	Семь
8	56	38	070	Восемь
9	57	39	071	Девять
:	58	3a	072	Двоеточие
;	59	3b	073	Точка с запятой
62	3e	076	Знак больше
?	63	3f	077	Знак вопроса
@	64	40	100	эт, собака
A	65	41	101	Заглавная A
B	66	42	102	Заглавная B
C	67	43	103	Заглавная C
D	68	44	104	Заглавная D
E	69	45	105	Заглавная E
F	70	46	106	Заглавная F
G	71	47	107	Заглавная G
H	72	48	110	Заглавная H
I	73	49	111	Заглавная I
J	74	4a	112	Заглавная J
K	75	4b	113	Заглавная K
L	76	4c	114	Заглавная L
M	77	4d	115	Заглавная M
N	78	4e	116	Заглавная N
O	79	4f	117	Заглавная O
P	80	50	120	Заглавная P
Q	81	51	121	Заглавная Q
R	82	52	122	Заглавная R
S	83	53	123	Заглавная S
T	84	54	124	Заглавная T
U	85	55	125	Заглавная U
V	86	56	126	Заглавная V
W	87	57	127	Заглавная W
X	88	58	130	Заглавная X
Y	89	59	131	Заглавная Y
Z	90	5a	132	Заглавная Z
[	91	5b	133	Открывающая квадратная скобка
\	92	5c	134	Обратная наклонная черта (обратный слеш)
]	93	5d	135	Закрывающая квадратная скобка
^	94	5e	136	Циркумфлекс, возведение в степень, знак вставки
_	95	5f	137	Нижнее подчёркивание
`	96	60	140	Открывающая одиночная кавычка, гравис, знак ударения
a	97	61	141	Строчная a
b	98	62	142	Строчная b
c	99	63	143	Строчная c
d	100	64	144	Строчная d
e	101	65	145	Строчная e
f	102	66	146	Строчная f
g	103	67	147	Строчная g
h	104	68	150	Строчная h
i	105	69	151	Строчная i
j	106	6a	152	Строчная j
k	107	6b	153	Строчная k
l	108	6c	154	Строчная l
m	109	6d	155	Строчная m
n	110	6e	156	Строчная n
o	111	6f	157	Строчная o
p	112	70	160	Строчная p
q	113	71	161	Строчная q
r	114	72	162	Строчная r
s	115	73	163	Строчная s
t	116	74	164	Строчная t
u	117	75	165	Строчная u
v	118	76	166	Строчная v
w	119	77	167	Строчная w
x	120	78	170	Строчная x
y	121	79	171	Строчная y
z	122	7a	172	Строчная z
<	123	7b	173	Открывающая фигурная скобка
\|	124	7c	174	Вертикальная черта
>	125	7d	175	Закрывающая фигурная скобка
126	7e	176	Тильда (приблизительно)

Расширенный набор символов (ANSI) в русской кодировке Win-1251

Источник

ASCII таблица

ASCII — A merican S tandard C ode for I nformation I nterchange.

ASCII была разработана (1963 год) для кодирования символов, коды которых помещались в 7 бит (128 символов). Со временем кодировка была расширена до 8-ми бит (256 символов), коды первых 128-и символов не изменились.

Управляющие символы ASCII (код символа 0-31)

Первые 32 символа в ASCII-таблице не имеют печатных кодов и используются для управления периферийными устройствами, телетайпами, принтерами и т.д.

DEC	OCT	HEX	BIN	Symbol	HTML Number	HTML Name	Description
0	000	0x00	00000000	NUL \0	& #000;	Null char
1	001	0x01	00000001	SOH	& #001;	Start of Heading
2	002	0x02	00000010	STX	& #002;	Start of Text
3	003	0x03	00000011	ETX	& #003;	End of Text
4	004	0x04	00000100	EOT	& #004;	End of Transmission
5	005	0x05	00000101	ENQ	& #005;	Enquiry
6	006	0x06	00000110	ACK	& #006;	Acknowledgment
7	007	0x07	00000111	BEL	& #007;	Bell
8	010	0x08	00001000	BS	& #008;	Back Space
9	011	0x09	00001001	HT \t	& #009;	Tab
10	012	0x0A	00001010	LF \n	& #010;	Новая строка
11	013	0x0B	00001011	VT	& #011;	Vertical Tab
12	014	0x0C	00001100	FF	& #012;	Form Feed
13	015	0x0D	00001101	CR \r	& #013;	Возврат каретки
14	016	0x0E	00001110	SO	& #014;	Shift Out / X-On
15	017	0x0F	00001111	SI	& #015;	Shift In / X-Off
16	020	0x10	00010000	DLE	& #016;	Data Line Escape
17	021	0x11	00010001	DC1	& #017;	Device Control 1 (oft. XON)
18	022	0x12	00010010	DC2	& #018;	Device Control 2
19	023	0x13	00010011	DC3	& #019;	Device Control 3 (oft. XOFF)
20	024	0x14	00010100	DC4	& #020;	Device Control 4
21	025	0x15	00010101	NAK	& #021;	Negative Acknowledgement
22	026	0x16	00010110	SYN	& #022;	Synchronous Idle
23	027	0x17	00010111	ETB	& #023;	End of Transmit Block
24	030	0x18	00011000	CAN	& #024;	Cancel
25	031	0x19	00011001	EM	& #025;	End of Medium
26	032	0x1A	00011010	SUB	& #026;	Substitute
27	033	0x1B	00011011	ESC	& #027;	Escape
28	034	0x1C	00011100	FS	& #028;	File Separator
29	035	0x1D	00011101	GS	& #029;	Group Separator
30	036	0x1E	00011110	RS	& #030;	Record Separator
31	037	0x1F	00011111	US	& #031;	Unit Separator
DEC	OCT	HEX	BIN	Symbol	HTML Number	HTML Name	Description

Печатные символы ASCII (код символа 32-127)

Буквы, цифры, знаки препинания и другие символы расположенные на клавиатуре (англ.).

Источник

Коды символов ASCII: таблицы, понятие, применение

Часто бывает, в практике создания веб приложений, и при создании дизайна необходимо вставить какой-то спецсимвол, например копирайт, авторское право, стрелочку и т.д. Для этого используют ascii кодамы, которые, вставляют в контекст кода HTML. При выводе они отображаются как нормальные символы. В данной статье, ознакомимся с кодами символов ascii и научимся их применять при разработке сайтов.

Что мы сегодня узнаем?

Что такое ASCII коды?

Как всегда сразу по понятиям. Если вы понимаете, что такое ascii коды, отлично, можете посмотреть таблицы ascii кодов. Кому интересно узнать что такое ascii коды, выслушаем же мнение Википедии.

ASCII (англ. American Standard Code for Information Interchange) — американский стандартный код для обмена информацией. ASCII представляет собой кодировку для представления десятичных цифр, латинского и национального алфавитов, знаков препинания и управляющих символов.

Таблицы ASCII кодов

Ниже предоставленные таблицы ascii кодов символов. Если вы не совсем понимаете, как их использовать, наберитесь терпения и прочтите последний пункт статьи.

Таблица ascii кодов: ASCII (American Standard Code for Information Interchange)

Dec	Hex	Char	Dec	Hex	Char	Dec	Hex	Char	Dec	Hex	Char
0	0	NUL	32	20	(sp)	64	40	@	96	60	`
1	1	SOH	33	21	!	65	41	A	97	61	a
2	2	STX	34	22	«	66	42	B	98	62	b
3	3	ETX	35	23	#	67	43	C	99	63	c
4	4	EOT	36	24	$	68	44	D	100	64	d
5	5	ENQ	37	25	%	69	45	E	101	65	e
6	6	ACK	38	26	&	70	46	F	102	66	f
7	7	BEL	39	27	‘	71	47	G	103	67	g
8	8	BS	40	28	(	72	48	H	104	68	h
9	9	TAB	41	29	)	73	49	I	105	69	i
10	A	LF	42	2A	*	74	4A	J	106	6A	j
11	B	VT	43	2B	+	75	4B	K	107	6B	k
12	C	FF	44	2C	,	76	4C	L	108	6C	l
13	D	CR	45	2D	—	77	4D	M	109	6D	m
14	E	SO	46	2E	.	78	4E	N	110	6E	n
15	F	SI	47	2F	/	79	4F	O	111	6F	o
16	10	DLE	48	30	0	80	50	P	112	70	p
17	11	DC1	49	31	1	81	51	Q	113	71	q
18	12	DC2	50	32	2	82	52	R	114	72	r
19	13	DC3	51	33	3	83	53	S	115	73	s
20	14	DC4	52	34	4	84	54	T	116	74	t
21	15	NAK	53	35	5	85	55	U	117	75	u
22	16	SYN	54	36	6	86	56	V	118	76	v
23	17	ETB	55	37	7	87	57	W	119	77	w
24	18	CAN	56	38	8	88	58	X	120	78	x
25	19	EM	57	39	9	89	59	Y	121	79	y
26	1A	SUB	58	3A	:	90	5A	Z	122	7A	z
27	1B	ESC	59	3B	;	91	5B	[	123	7B	<
28	1C	FS	60	3C	94	5E	^	126	7E
31	1F	US	63	3F	?	95	5F	_	127	7F	DEL

Расширенная таблица кодов ASCII

Другой случай, когда нужно реализовать подсветку кода (php, js, css, html…), пользовался регулярными выражениями в javascript, и получилось что звездочка (Asterisk), мешала работе js функции. Заменил ее ascii кодом и все стало работать как швейцарские часы.

Третий случай, когда вы создаете многоязычный сайт, в других странах, символы не входящие в стандарт их кодировки, могут выглядеть «крякозябрами», поэтому их нужно менять ascii кодами.

Источник

Что нужно знать каждому разработчику о кодировках и наборах символов для работы с текстом

Это первая часть перевода статьи What Every Programmer Absolutely, Positively Needs To Know About Encodings And Character Sets To Work With Text

Если вы работаете с текстом в компьютере, вам обязательно нужно знать про кодировки. Даже если вы посылаете электронные письма. Даже если вы их только получаете. Необязательно понимать каждую деталь, но надо хотя бы знать, что из себя представляют кодировки. И вот первая хорошая новость: статья может быть немного запутанной, но основная идея очень и очень простая.

Эта статья о кодировках и наборах символов.

Статья Джоеэля Спольски под названием «Абсолютный минимум о Unicode и наборе символов для каждого разработчика(без исключений!)» будет хорошей вводной и мне доставляет большое удовольствие перечитывать ее время от времени. Я стесняюсь отсылать к ней тех людей, которые испытывают трудности с пониманием проблем с кодировкам, хотя она довольно легкая в плане технических деталей. Я надеюсь, эта статья прольет немного света на то, чем именно являются кодировки, и почему все ваши тексты оказываются испорченными в самый ненужный момент. Статья предназначена для разработчиков(главным образом, на PHP), но пользу от нее может получить любой пользователь компьютера.

Основы

Все более или менее слышали об этом, но каким-то образом знание испаряется, когда дело доходит до обсуждения, так что вот вам: компьютер не может хранить буквы, числа, картинки или что-либо еще. Он может запомнить только биты. Бит имеет только два значения: ДА или НЕТ, ПРАВДА или ЛОЖЬ, 1 или 0 или любую другую пару, которую вы можете вообразить. Раз уж компьютер работает с электричеством, бит представлен электрическим зарядом: он либо есть, либо его нет. Людям проще представлять это в виде 1 и 0, так что я буду придерживаться этих обозначений.

Чтобы с помощью битов представлять нечно полезное, нам нужны правила. Надо сконвертировать последовательность бит в что-то похожее на буквы, числа и изображения, используя схему кодирования, или, коротко, кодировку. Вот так, например:

01100010 01101001 01110100 01110011
b i t s

В этой кодировке, 01100010 представляет из себя ‘b’, 01101001 — ‘i’, 01110100 — ‘t’, 01110011 — ‘s’. Конкретная последовательность бит соответствует букве, а буква – конкретной последовательности битов. Если вы можете запомнить последовательности для 26 букв или умеете действительно быстро находить нужное соответствие, то вы сможете читать биты, как книги.
Упомянутая схема носит название ASCII. Строка с нолями и единицами разбивается на части по 8 бит(по байтам). Кодировка ASCII определяет таблицу перевода байтов в человеческие буквы. Вот небольшой кусочек этой таблицы:

01000001 A
01000010 B
01000011 C
01000100 D
01000101 E
01000110 F

В ней 95 символов, включая буквы от A до Z, в нижнем и верхнем регистре, цифры от 0 до 9, с десяток знаков препинания, амперсанд, знак доллара и прочие. В нее также включены 33 значения, такие как пробел, табуляция, перевод строки, возврат символа и прочие. Это непечатаемые символы, хотя они видимы человеку и используются им. Некоторые значения полезны только компьютеру, такие как коды начала и конца текста. Всего в кодировку ASCII включены 128 символов — прекрасное ровное число для тех, кто смыслит в компьютерах, так как оно использует все комбинации 7ми битов (от 0000000 до 1111111).

Вот вам способ представить человеческую строку, используя только единицы и нули:

01001000 01100101 01101100 01101100 01101111 00100000
01010111 01101111 01110010 01101100 01100100

Важные термины

Для кодирования чего-либо в ASCII двигайтесь справа налево, подменяя буквы на биты. Для декодирования битов в символы, следуйте по таблице слева направо, подменяя биты на буквы.

encode |enˈkōd|
verb [ with obj. ]
convert into a coded form
code |kōd|
noun
a system of words, letters, figures, or other symbols substituted for other words, letters, etc.

Кодирование – это представление чего-либо чем-нибудь другим. Кодировка – это набор правил, описывающий способ перевода одного представления в другое.

Прочие термины, заслуживающие прояснения:

Набор символов, чарсет, charset – Набор символов, который может быть закодирован. «Кодировка ASCII включает набор из 128 символов». Синоним к кодировке.

Кодовая страница – страница кодов, закрепляюшая за символом набор битов. Таблица. Синоним к кодировке.

Строка – пачка чего-нибудь, объединенных вместе. Битовая строка – это пачка бит, такая как 00011011. Символьная строка – это пачка символов, например «Вот эта». Синоним к последовательности.

Двоичный, восьмеричный, десятичный, шестнадцатеричный

Существует множество способов записывать числа. 10011111 – это бинарная запись для 237 в восьмеричной, 159 в десятичной и 9F в шестнадцатиричной системах. Значения у всех этих чисел одинаково, но шестнадцатиричная система короче и проще для понимания, чем двоичная. Я буду придерживаться двоичной системы в этой статье, чтобы улучшить понимание и убрать лишний уровень абстракции. Не пугайтесь, встречая коды символов в других нотациях, все значения эквиваленты.

Excusez-Moi?

Раз уж мы теперь знаем, о чем говорим, заметим: 95 символов – это совсем немного, когда речь идет о языках. Этот набор покрывает базовый английский, но как насчет французских символов? А вот это Straßen¬übergangs¬änderungs¬gesetz из немецкого языка? А приглашение на smörgåsbord в шведском? В-общем, не получится. Не в ASCII. Спецификация на представление é, ß, ü, ä, ö просто отсутствует.

“Постойте-ка”, скажут европейцы, “в обычных компьютерах с 8 битами в байте, ASCII никак не использует бит, который всегда равен 0! Мы можем использовать его, чтобы расширить таблицу еще на 128 значений”. И было так. Но способов обозначить звучание гласных еще слишком много. Не все сочетания букв и значений, используемые в европейских языках, влезают в таблицу из 256 записей. Так мир пришел к изобилию кодировок, стандартов, стандартов де-факто и недостандартов, которые покрывают все субнаборы символов. Кому-то понадобилось написать документ на шведском или чешском, и, не найдя нужной кодировки, просто изобрел еще одну. Или я думаю, что все так и произошло.

Не забывайте о русском, хинди, арабском, корейском и множестве других живых языков планеты. Про мертвые уж молчим. Как только вы найдете способ писать документ, использующий несколько языков, попробуйте добавить китайский. Или японский. Оба содержат тысячи символов. И у вас всего 256 значений. Вперед!

Многобайтные кодировки

Для создания таблиц, которые содержат более 256 символов, одного байта просто недостаточно. Двух байтов (16 бит) хватит для кодировки 65536 различных значений. Big-5 например, кодировка двухбайтная. Вместо разбиения последовательности битов в блоки по 8, она использует блоки по 16 битов и содержит большую(я имею ввиду БОЛЬШУЮ) таблицу с соответствием. Big-5 в своем основном виде покрывает большинство символов традиционного китайского. GB18030 – это похожая кодировка, но она включает как традиционный, так и упрощенный китайский. И, прежде чем вы спросите, да, есть кодировки только для упрощенного китайского. А разве одной недостаточно?

Вот кусок таблицы GB18030:

bits character
10000001 01000000 丂
10000001 01000001 丄
10000001 01000010 丅
10000001 01000011 丆
10000001 01000100 丏

GB18030 покрывает довольно большой диапазон символов, включая большую часть латинских символов, но в конце концов, это всего лишь еще одна кодировка среди многих других.

Путаница с Unicode

В итоге тем, кому больше всех надоела эта каша, пришла в голову идея разработать единый стандарт, объединяющий все кодировки. Этим стандартом стал Unicode. Он определяет невероятную таблицу из 1 114 112 пунктов, используемую для всех вариантов букв и символов. Этого хватит для кодирования всех европейских, средне-азиатских, дальневосточных, южных, северных, западных, доисторических и будущих символов, о которых человечеству известно. Unicode позволяет создать документ на любом языке любыми символами, которые можно ввести в компьютер. Это было невозможно, или очень затруднительно до эры Unicode. В стандарте есть даже неофициальная секция под клингонский. Вы поняли, Unicode настолько большой, чтобы допускает неофициальные секции.

Итак, и сколько же байт использует Unicode для кодирования? Нисколько. Потому что Unicode – это не кодировка.
Смущены? Не вы одни. Unicode в первую и главную очередь определяет таблицу пунктов для символов. Это такой способ сказать «65 – A, 66 – B, 9731 – »(я не шучу, так и есть). Как эти пункты кодируются в байты является предметом другого разговора. Для представления 1 114 112 значений двух байт недостаточно. Трех достаточно, но 3 – странное число, так что 4 является комфортным минимумом. Но, пока вы не используете китайский, или другой язык со множеством символов, которые требуют большого количества битов для кодирования, вам никогда не придет в голову использовать толстую колбасу из 4х байт. Если “A” всегда кодируется в 00000000 00000000 00000000 01000001, а “B” – в 00000000 00000000 00000000 01000010, то документ, использующий такую кодировку, распухнет в 4 раза.

Существует несколько способов решения этой проблемы. UTF-32 – это кодировка, которая переводит все символы в наборы из 32 бит. Это простой алгоритм, но изводящий много места впустую. UTF-16 и UTF-8 являются кодировками с переменной длиной кодирования. Если символ может быть закодирован одним байтом(потому что номер пункта символа очень маленький), UTF-8 закодирует его одним байтом. Если нужно 2 байта, то используется 2 байта. Кодировка сообщает старшими битами, сколькими битами кодируется текущий символ. Такой способ экономит место, но так же и тратит его в случае, если эти сигнальные биты часто используются. UTF-16 является компромиссом: все символы как минимум двухбайтные, но их размер может увеличиваться до 4 байт, если нужно.

character encoding bits
A UTF-8 01000001
A UTF-16 00000000 01000001
A UTF-32 00000000 00000000 00000000 01000001
あ UTF-8 11100011 10000001 10000010
あ UTF-16 00110000 01000010
あ UTF-32 00000000 00000000 00110000 01000010

И все. Unicode – это огромная таблица соответствия символов и чисел, а различные UTF кодировки определяют, как эти числа переводятся в биты. В-общем, Unicode – это просто еще одна схема. Ничего особенного, она просто пытается покрыть все, что можно, оставаясь эффективной. И это хорошо.

Пункты

Символы определяются по их Unicode-пунктам. Эти пункты записаны в шестнадцатеричной системе и предварены “ U+” (просто для удобство, не значит ничего, кроме “Это пункт Unicode”). Символ Ḁ имеет пункт U+1E00. Иными(десятичными) словами, это 7680й символ таблицы Unicode. Он официально называется “ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА А С КОЛЬЦОМ СНИЗУ”.

Ниасилил

Суть вышесказанного: любой символ может быть закодирован множеством разных последовательностей бит, и любая последовательность бит может представлять разные символы, в зависимости от используемой кодировки. Причина в том, что разные кодировки используют разное число бит на символ и разные значения для кодирования разных символов.

11000100 01000010 Windows Latin 1 ÄB
11000100 01000010 Mac Roman ƒB
11000100 01000010 GB18030 腂

characters encoding bits

Føö Windows Latin 1 01000110 11111000 11110110
Føö Mac Roman 01000110 10111111 10011010
Føö UTF-8 01000110 11000011 10111000 11000011 10110110

Заблуждения, смущения и проблемы

Имея все вышесказанное, мы приходим к насущным проблемам, которые испытывают множество пользователей и разработчиков каждый день, как они соотносятся с указанным выше, и каковы пути решения. Сама большая проблема – это

Какого черта мой текст нечитаем?

Если вы откроете документ, и он выглядит так, как текст выше, то причина у этого одна: ваша программа ошиблась с кодировкой. И все. Документ не испорчен(по крайней мере, пока), и не нужно никакое волшебство. Вместо него надо просто выбрать правильную кодировку для отображения текста. Предполагаемый документ выше содержит биты:

10000011 01000111 10000011 10010011 10000011 01010010 10000001 01011011
10000011 01100110 10000011 01000010 10000011 10010011 10000011 01001111
10000010 11001101 10010011 11101111 10000010 10110101 10000010 10101101
10000010 11001000 10000010 10100010

Так, быстренько угадали кодировку? Если вы пожали плечами, то вы правы. Да кто знает?
Попробуем с ASCII. Большая часть этих байтов начинается с 1. Если вы правильно помните, ASCII вообще-то не использует этот бит. Так что ASCII не вариант. Как насчет UTF-8? Большая часть байт не является валидными значениями в этой кодировке. Как насчет Mac Roman(еще одна европейская кодировка)? Хм, для нее эти байты являются правильными значениями. 10000011 декодируетися в ”É”, в “G” и так далее. Так что в Mac Roman текст будет выглядеть так: ÉGÉìÉRÅ[ÉfÉBÉìÉOÇÕìÔÇµÇ≠Ç»Ç¢. Правильно? Нет? Может быть? А компьютер-то откуда знает? Может кто-то хотел написать именно это. Насколько я знаю, это может быть последовательностью ДНК! Так и порешим: это Mac Roman, и это ДНК.

Конечно, это полный бред. Правильный ответ таков: текст закодирован в Japanes Shift-JIS и должен выглядеть как エンコーディングは難しくない. Кто бы мог подумать?
Первая причина нечитаемости текста в том, что кто-то пытается прочитать последовательность байт в неверной кодировке. Компьютеру всегда нужно подсказывать. Сам он не догадается. Некоторые типы документов определяют кодировку своего содержимого, но последовательность байт всегда остается черным ящиком.
Большинство браузеров предоставляют возможность указать кодировку страницы с помощью специального пункта меню. Иные программы тоже имеют аналогичные пункты.

У автора нет разбиения на части, но статья и так длинна. Продолжение будет через пару дней.

Источник