Текстовые данные

Текстовые данные

Те́кстовые данные (также текстовый формат) — представление информации в вычислительной системе в виде последовательности печатных символов. В MIME закодированным таким образом данным соответствует тип text/plain.

Часто текстовые данные понимаются в более узком смысле — как текст на каких-либо языках (формальных или естественных), который может быть прочитан и понят человеком.

Текстовому формату противопоставляются «двоичные данные», информация в которых закодирована произвольным образом, не рассчитанном на восприятие человеком.

Для большей части компьютерного оборудования и программ неважно, являются ли данные текстовыми. Однако многие сетевые протоколы рассчитаны на работу только с текстовыми данными и не могут обрабатывать произвольную последовательность байтов. Также, некоторые программы обрабатывают текстовые и двоичные данные по-разному, а некоторые предназначены для обработки именно текстовых данных. Программы для создания и редактирования текстовых данных называются текстовыми редакторами.

Содержание

Структура

Текстовыми данными как правило называются последовательности из подмножества знаков, включающего только печатные знаки (буквы, цифры, знаки препинания) и некоторые управляющие знаки (пробелы, табуляции, переводы строки). Существуют методы (например, UUENCODE), позволяющие закодировать в текстовом формате произвольные данные любого формата.

Требование к возможности понимания содержимого человеком вносит дополнительную избыточность в представление данных. К примеру, число 123, для кодирования которого достаточно одного 8-битного байта, в текстовом виде кодируется несколькими цифровыми символами — так, в десятичной системе счисления для этого требуется три знака («123»), в двоичной — семь знаков («1111011»), в шестнадцатеричной — два («7B»).

Разбиение на строки

Текстовые данные могут разделяться на строки. На некоторых платформах (в основном, в операционных системах семейства UNIX) разбиение на строки кодируется одним управляющим знаком с кодом 10 в таблице ASCII (наименование — Line Feed, LF), на других (к примеру, в MS-DOS и Microsoft Windows) — парой управляющих знаков с кодами 13 и 10 (Carriage Return и Line Feed, CR/LF). В Mac OS (но не Mac OS X) разбиение кодируется одним знаком с кодом 13.

Такое разбиение управляющим знаком или знаками продиктовано тем, как работали пишущие машинки, через которые осуществлялся ввод в некоторых первых компьютерах — позиция ввода там указывалась положением валика с бумагой, и для поворота валика и перехода к следующей строке требовалось нажатие одной или двух клавиш или рычажков.

Также, знаки разбиения строк использовались для управления механическими принтерами (в качестве которых могли выступать те же печатные машинки, используемые и для ввода) — знак LF вызывал прокрутку рулона с бумагой, а знак CR вызывал возврат печатной каретки (там, где они были) в начало строки. Отсюда и название знаков — англ. Line Feed (перевод строки) и англ. Carriage Return (возврат каретки).

На некоторых платформах разбиение на строки делалось иначе — текст представлялся в виде последовательности записей фиксированной длины, для чего более короткие строки дополнялись нужным количеством пробелов. Это соответствовало представлению данных на перфокартах, которые служили средством ввода и даже хранения данных.

Использование

Текстовый файл, показанный командой cat в окне xterm

Основная цель применения текстовых данных — «общий знаменатель», независимость от отдельных программ, требующих собственного кодирования или форматирования и несовместимых с другими программами. Текстовые файлы (файлы в текстовом формате) могу быть открыты, прочитаны и отредактированы в любых текстовых редакторах, таких как MS-DOS Editor (англ.) (DOS), Блокнот (Windows), ed, vi и vim (UNIX, Linux), SimpleText (англ.), TextEdit (Mac OS X) и т. п. Другие программы также как правило умеют читать и импортировать текстовые данные. Просмотреть текстовые файлы можно также встроенными командами (type в DOS и Windows) и утилитами (cat в Unix).

Текстовый формат часто используются для представления данных, которые сами не являются чисто текстовыми. В этом случае другие форматы данных «надстраиваются» над простым текстом, для чего их управляющие конструкции выражаются посредством печатных слов и знаков препинания. Это обеспечивает удобство работы с данными на двух уровнях — например, данные HTML и XML можно просматривать и редактировать с показом форматирования в режиме WYSIWYG, а можно их открыть в обычном текстовом редакторе и иметь доступ ко всем тонкостям языка разметки. При хранении данных в «двоичном» виде (как это делается, например, в Microsoft Word ранних версий) с ними нередко нельзя работать в других программах (из-за недоступности информации о структуре формата) или даже в разных версиях одной и той же программы.

В большинстве языков программирования предполагается использование текстового формата для исходного кода программ. Помимо прочего, это позволяет применять к исходным кодам разнообразные утилиты для преобразований, оформления, поиска, статистики, анализа и т. п.

В файлах конфигурации многих программ применяется текстовый формат, даже если там представлены числа и двоичные переключатели (да/нет). Это несколько усложняет программы из-за необходимости преобразования текстовых данных во внутренний формат и обратно, но появляется возможность править конфигурацию вручную, без использования средств настройки самой программы.

Близкие термины

Термин открытый текст (англ. plaintext; выглядит очень похоже на термин англ. plain text, используемый для обозначения текстовых данных) широко применяется в криптографии и означает любые незашифрованные данные, в том числе и нетекстовые. Термин чистый текст (англ. cleartext) также применяется в криптографии и означает незашифрованные данные, к тому же понятные человеку и незащищённые от «подслушивания» при передаче.



Wikimedia Foundation. 2010.

Игры ⚽ Нужно сделать НИР?

Полезное


Смотреть что такое "Текстовые данные" в других словарях:

  • данные символьные, подвергающиеся синтаксическому анализу — Текстовые данные в XML документе, которые, в отличие от данных секции CDATA, подвергаются синтаксическому анализу при обработке документа процессором XML [http://libweb.rsl.ru/resource/docs/xml/xml gloss.ru.html]. [http://www.morepc.ru/dict/]… …   Справочник технического переводчика

  • Данные — (калька от англ. data[источник не указан 101 день])  представление фактов и идей в формализованном виде, пригодном для передачи и обработки в некотором информационном процессе. Изначально  данные величины, то… …   Википедия

  • Данные (в информатике) — В вычислительной технике данные обычно различают от программ. Программа является набором инструкций, которые детализируют вычисление или задачу, которая производится компьютером. Данные это всё отличное от программного кода. С точки зрения… …   Википедия

  • Данные в программировании — Данные (калька от лат. data) это представление фактов и идей в формализованном виде, пригодном для передачи и обработки в некотором информационном процессе. Содержание 1 В обществе 2 В информатике 2.1 Типы данных …   Википедия

  • данные — ых; мн. 1. Сведения, показатели, характеризующие кого , что л. как основа каких л. выводов, решений. Анкетные, архивные, научные д. Статистические д. Д. эксперимента, разведки. По агентурным данным. Получить новые д. о падении национального… …   Энциклопедический словарь

  • Данные (вычислительная техника) — В вычислительной технике данные обычно отличают от программ. Программа является набором инструкций, которые детализируют вычисление или задачу, которая производится компьютером. Данными же традиционно называется всё, что не выступает в роли… …   Википедия

  • ДАННЫЕ ТЕКСТОВЫЕ — согласно ГОСТ Р 52292–2004 «Информационная технология. Электронный обмен информацией. Термины и определения», – данные на некотором естественном или искусственном языке в виде знаков, символов, слов, фраз, абзацев, предложений, таблиц или иных… …   Делопроизводство и архивное дело в терминах и определениях

  • текстовые нормы формирования содержательного плана — Соотнесенность текста с действительностью. Опираются на вербально семантический и тезаурусный уровни языковой личности автора и потенциального адресата, определяют: 1) точность; 2) уместность; 3) смысловую завершенность; 4) отдельность; 5)… …   Словарь лингвистических терминов Т.В. Жеребило

  • текстовые нормы формирования содержательного плана —   Соотнесенность текста с действительностью. Опираются на вербально семантический и тезаурусный уровни языковой личности автора и потенциального адресата, определяют:   1) точность;   2) уместность;   3) смысловую завершенность;   4) отдельность; …   Методы исследования и анализа текста. Словарь-справочник

  • СМС (текстовые сообщения) — SMS (англ. Short Message Service  служба коротких сообщений)  служба сотовой сети, позволяющая осуществлять приём и передачу текстовых сообщений сотовым телефоном. SMS, как правило, доставляются в течение нескольких секунд. Отправитель может… …   Википедия


Поделиться ссылкой на выделенное

Прямая ссылка:
Нажмите правой клавишей мыши и выберите «Копировать ссылку»