Электронный текст - E-text

электронный текст (от "электронный текст"; иногда пишется как etext) - это общий термин для любого документа, который читается в цифровой форме, и особенно документа, который в основном состоит из текста. Например, компьютерная книга по искусству с минимальным количеством текста или набором фотографий или сканированных страниц обычно не называется «электронным текстом». Этот термин обычно является синонимом электронная книга.

Электронный текст может быть двоичный или простой текст файл, просматриваемый любым Открытый исходный код или проприетарное программное обеспечение. Электронный текст может иметь разметка или другую информацию о форматировании, или нет.

Электронный текст может быть электронным изданием произведения, изначально составленного или опубликованного на других носителях, или может быть изначально создан в электронной форме.

Источники электронного текста

Электронные тексты, или электронные документы, появились задолго до появления Интернета, Интернета и специализированного оборудования для чтения электронных книг. Роберто Буса приступили к разработке электронного издания Аквинский в 1940-х годах, в то время как крупномасштабные платформы электронного редактирования текста, гипертекста и онлайн-чтения, такие как Увеличить и ФРЕСС появился в 1960-х гг. Эти ранние системы широко использовали форматирование, разметка, автоматические оглавления, гиперссылки, и другую информацию в своих текстах, а также в некоторых случаях (например, FRESS), поддерживающую не только текст, но и графику.[1]

"Просто текст"

В некоторых сообществах «электронный текст» используется гораздо более узко, для обозначения электронных документов, которые, так сказать, являются «простыми ваниль ASCII ". Под этим подразумевается не только то, что документ является простой текст файл, но он не содержит никакой информации, кроме «самого текста» - без выделения жирным шрифтом или курсивом, границ абзацев, страниц, глав, сносок и т. д. Майкл С. Харт,[2] например, утверждал, что это «единственный текстовый режим, который удобен как для глаз, так и для компьютера». Харт сделал правильный[согласно кому? ] указывают на то, что проприетарные форматы текстовых процессоров делают тексты совершенно недоступными; но это не имеет отношения к стандартным форматам открытых данных. Узкий смысл «электронного текста» сейчас необычен, потому что понятие «просто ванильный ASCII» (привлекательный на первый взгляд) вызывает серьезные трудности:

Во-первых, этот узкий тип «электронного текста» ограничен английскими буквами. Ни даже испанский - или гласные с ударением, используемые во многих европейских языках, не могут быть представлены (если только это неуклюже и двусмысленно, как «~ n» «a '»). Азиатская, славянская, греческая и другие системы письма невозможны.

Во-вторых, невозможно разместить диаграммы и изображения, и во многих книгах есть хотя бы некоторый такой материал; часто это важно для книги.

В-третьих, «электронные тексты» в этом узком смысле не имеют надежного способа отличить «текст» от других вещей, которые встречаются в произведении. Например, номера страниц, заголовки страниц и сноски могут быть опущены или могут просто отображаться как дополнительные строки текста, возможно, с пустыми строками до и после (или нет). Вместо этого декоративная разделительная линия может быть представлена ​​линией звездочек (или нет). Заголовки глав и разделов также представляют собой просто дополнительные строки текста: их можно было бы обнаружить по заглавным буквам, если бы они были заглавными в оригинале (или нет). Даже для того, чтобы узнать, какие соглашения (если таковые имеются) использовались, каждая книга превращается в новое исследование или проект обратной инженерии.

Вследствие этого такие тексты нельзя надежно переформатировать. Программа не может достоверно сказать, где находятся сноски, верхние или нижние колонтитулы или, возможно, даже абзацы, поэтому она не может переупорядочить текст, например, чтобы он соответствовал более узкому экрану, или прочитать его вслух для слабовидящих. Программы могут применяться эвристика угадать структуру, но это легко может потерпеть неудачу.

В-четвертых, возможно, удивительно[согласно кому? ] важный вопрос, электронный текст в виде обычного текста не дает возможности представить информацию около работа. Например, издание первое или десятое? Кто его подготовил, и какие права они оставляют за собой или передают другим? Это необработанная версия прямо со сканера или она была проверена и исправлена? Метаданные, относящиеся к тексту, иногда включаются в электронный текст, но по этому определению нет способа сказать, заданы ли они заранее или где. В лучшем случае текст титульного листа может быть включен (или не включен), возможно, с центрированием, имитируемым отступом.

В-пятых, тексты с более сложной информацией вообще не могут быть обработаны. Двуязычное издание или критическое издание со сносками, комментариями, критическим аппаратом, перекрестными ссылками или даже простейшими таблицами. Это приводит к бесконечным практическим проблемам: например, если компьютер не может надежно различать сноски, он не может найти фразу, которую прерывает сноска.

Даже необработанный сканер OCR вывод обычно дает больше информации, такой как использование полужирного и курсива. Если эта информация не сохраняется, восстановление ее требует больших затрат времени и средств; более сложная информация, например, какая у вас версия, может быть вообще не восстановлена.

Если на самом деле, даже в «обычном тексте» используется какая-то «разметка» - обычно управляющие символы, пробелы, табуляции и т.п.: пробелы между словами; два возврата и 5 пробелов для абзаца. Основное отличие от более формальной разметки состоит в том, что «простые тексты» используют неявные, обычно недокументированные соглашения, которые поэтому непоследовательны и трудны для распознавания.[3]

Узкий смысл электронного текста как «простой ванильный код ASCII» вышел из моды.[согласно кому? ] Тем не менее, многие такие тексты находятся в свободном доступе в сети, возможно, в той же степени, потому что они легко создаются, а также из-за любого предполагаемого преимущества переносимости. На протяжении многих лет Проект Гутенберг сильно поддерживал эту модель текста, но со временем начал разрабатывать и распространять более удобные формы, такие как HTML.

Смотрите также

использованная литература

  1. ^ Чтение и написание электронной книги. Николь Янкелович, Норман Мейровиц и Андрис ван Дам. IEEE Computer 18 (10), октябрь 1985 г. http://dl.acm.org/citation.cfm?id=4407
  2. ^ Майкл С. Харт
  3. ^ Кумбс, Джеймс Х .; Renear, Allen H .; ДеРоуз, Стивен Дж. (Ноябрь 1987 г.). «Системы разметки и будущее обработки научных текстов». Коммуникации ACM. ACM. 30 (11): 933–947. Дои:10.1145/32206.32209. S2CID  59941802.

внешние ссылки