/ /コンピュータ上でのテキスト情報のコーディング

コンピュータ上のテキスト情報のコーディング

コンピュータは複雑なデバイスで、情報を作成、変換、保存することができます。しかし、コンピュータはわかりやすく動作しません。グラフィック、テキスト、数値データはバイナリの配列として保存されます

テキスト情報の符号化
数字。この記事では、テキスト情報がどのようにコード化されているかを見ていきます。

私たちのために、コンピュータのためのテキストは何ですか?シンボルのシーケンス。各記号は、特定のゼロと1のセットを表します。記号の下には、ラテンアルファベットの小文字と大文字だけでなく、句読点、算術記号、サービス記号、特殊記号、さらにはスペースも意味します。

テキスト情報のバイナリコーディング

内部の特定のキーを押すとコントローラはバイナリコードに変換された電気信号を送信します。コードは特定の文字と一致し、表示されます。ラテンアルファベットをデジタル形式で表現するために、国際的なASCIIコーディングシステムが作成されました。 1文字の書き込みには1バイトが必要なため、シンボルは8桁の0と1のシーケンスで構成されます。記録間隔は、00000000から11111111までであり、すなわち、このシステムを用いたテキスト情報の符号化は、256個の記号の提示を可能にする。ほとんどの場合、これで十分です。

テキスト情報のバイナリエンコーディング

ASCIIは2つの部分に分けられます。 最初の127文字(00000000から01111111まで)は国際的で、英語のアルファベットの特定の文字と文字を表します。 2番目の部分、拡張子(10,000,000から1,111,111)は、ラテン系のものとは異なる国別アルファベットを表すことを目的としています。

ASCIIテキストエンコーディングつまり、ラテン文字のシーケンス番号が大きいほど、そのASCIIコードの値は大きくなります。表の数字とロシア部分は同じ原則に基づいています。

しかし、世界には他にもいくつかの種があります。キリル文字のエンコーディング。最も一般的なものは、KOI-8(8ビットエンコーディング、最初のロシアのUnixオペレーティングシステムで70年代にすでに使われていた)、ISO 8859-5(国際標準化局によって開発された)、CP 1251(

テキストのエンコードと処理
最新のWindowsオペレーティングシステム)、および2バイト65,536文字を表すために使用できるUnicodeエンコーディング。そのようなさまざまなエンコーディングは、それらがすべて異なる時間に、異なるオペレーティングシステムのために、そしてさまざまな理由のために開発されたという事実によるものです。このため、あるメディアから別のメディアにテキストを転送するのは困難なことが多くあります。エンコーディングが一致しないと、ユーザーにはわかりにくいアイコンしか表示されません。どうすればこの状況を解決できますか?たとえば、Wordで文書を開くと、テキストの表示に関する問題についてのメッセージが表示され、トランスコードのためのいくつかのオプションがあります。

だから、テキストのエンコードと処理コンピュータの奥深くにある情報 - プロセスはかなり複雑で時間がかかります。任意のアルファベットのすべての文字は、バイナリシステムの特定の一連の数字のみを表し、1セルは1バイトの情報です。

関連ニュース


コメント(0)

コメントを追加