Международный корпус английского языка - Википедия - International Corpus of English
В Международный корпус английского языка (ICE) - это набор корпус представляющие разновидности английского языка со всего мира. Включено более двадцати стран или групп стран, в которых английский является первым или вторым официальным языком.
История
Сидни Гринбаум Целью создания корпусов, которые сравнивали бы синтаксис мирового английского, стал проект ICE, реализованный профессором Чарльзом Ф. Мейером. Сидни Гринбаум ожидал, что международные группы исследователей соберут сопоставимые национальные варианты письменного и устного английского языка.[1] Сопоставимые варианты - британский английский, американский английский и индийский английский, которые будут представлены через компьютерный корпус.[2] Корпуса используются исследователями для сравнения синтаксиса разновидностей английского языка.[3] Завершение корпусов ICE будет включать всесторонний лингвистический анализ появившихся разновидностей английского языка.[4] Текущие исследования ICE проводятся международными командами в самых разных регионах.[5] Проект начался в 1990 году с основной целью собрать материал для сравнительного изучения английского языка во всем мире. Двадцать три исследовательские группы по всему миру готовят электронные корпуса своей национальной или региональной разновидности английского языка. Каждый корпус ICE состоит из одного миллиона слов на устном и письменном английском языках, выпущенных после 1989 года.[6] Для большинства стран-участниц проект ICE стимулирует первое систематическое исследование национального разнообразия. Чтобы обеспечить совместимость корпусов компонентов, каждая команда следует единому дизайну корпуса, а также общей схеме грамматических аннотаций.
Описание
Каждый корпус содержит один миллион слов в 500 текстах по 2000 слов,[7] следуя методологии выборки, используемой для Коричневый корпус. В отличие от Брауна или Корпус Ланкастер-Осло-Берген (LOB) (или действительно мегакорпуса, такие как Британский национальный корпус ), Тем не менее большинство текстов получены из устных данных.
Корпуса ICE, содержащие всего один миллион слов в корпусе, считаются очень маленькими по современным стандартам.[8] Корпуса ICE содержат 60% (600 000 слов) орфографически записанных разговорный Английский. Отец проекта, Сидни Гринбаум, настаивал на приоритете устного слова, следуя совместной работе Рэндольфа Квирка и Яна Свартвика над оригинальным London-Lund Corpus (LLC). Этот акцент на дословной транскрипции отличает ICE от многих других корпусов, в том числе содержащих, например, парламентские или юридические пересказы.
Корпуса полностью состоят из данных за 1990 год или позже. Субъектами, от которых были собраны данные, являются все взрослые, получившие образование на английском языке и родившиеся или переехавшие в раннем возрасте в страну, к которой относятся их данные.[7] Существуют образцы речи и текста как от мужчин, так и от женщин многих возрастных групп, но на веб-сайте корпуса подчеркивается, что: «Однако пропорции не репрезентативны для населения в целом: женщины не являются в равной степени представлены в таких профессиях, как политика и право, и поэтому не вызывают равных дискуссий в этих областях ».[7]
Британский компонент ICE, ICE-GB, полностью разбирается с подробным описанием причуды. и другие.[9] структура фразы грамматика, и анализы были тщательно проверены и завершены. Этот анализ включает теги части речи и разбор всего корпуса. В берега дерева можно тщательно изучить и изучить с помощью Утилита ICE Corpus или же ICECUP программного обеспечения. Больше информации в справочнике.[10]
Чтобы обеспечить совместимость между отдельными корпусами в ICE, каждая команда следует единому дизайну корпуса, а также общей схеме грамматических аннотаций.[11] Многие корпуса в настоящее время доступны для загрузки на официальной веб-странице ICE, хотя для некоторых требуется лицензия. Другие, однако, не готовы к публикации.[12]
Текстовая и грамматическая аннотация
Исследователи и лингвисты следуют определенным правилам при аннотировании данных для корпуса, которые можно найти здесь в Международном корпусе руководств и документации на английском языке. Три уровня аннотации: разметка текста, теги Wordclass, синтаксический анализ.[13]
Текстовая разметка
Оригинальная разметка и макет, такие как синтаксический анализ предложений и абзацев, сохраняются со специальными маркерами, указывающими на оригинал. Разговорные данные транскрибируются орфографически с индикаторами колебаний, фальстарта и пауз.[13]
Разметка классов Word
Классы слов, также называемые Части речи, являются грамматическими категориями слов, основанными на их функции в предложении.
Британские тексты автоматически помечаются классами слов с помощью теггера ICE, разработанного в Университетском колледже Лондона, который использует всеобъемлющую грамматику английского языка.
Все остальные языки автоматически помечаются тегами с помощью PENN Treebank и набора тегов CLAWS. Хотя теги не корректируются вручную, они регулярно проверяются на качество.[13]
Синтаксический анализ
Предложение анализируется автоматически и при необходимости исправляется вручную с помощью ICECUP, редактора дерева синтаксиса, созданного специально для корпуса.
Анализ зависимостей также выполняется автоматически с помощью анализатора зависимостей Pro3GreS. Результаты не проверяются вручную.[13]
Прагматический анализ
Ирландия в настоящее время является единственной страной-участником, которая включает прагматическую аннотацию в свои данные.
Дизайн Корпуса
Ниже приведены подразделы ICE, в скобках указано количество корпусов для каждой категории и подкатегории.[7]
Диалоги (180) | Частный (100) | Личные беседы (90) Телефонные звонки (10) |
На публике (80) | Классные уроки (20) Трансляции обсуждений (20) Трансляции интервью (10) Парламентские дебаты (10) Юридические перекрестные допросы (10) Деловые операции (10) | |
Монологи (120) | Без сценария (70) | Спонтанные комментарии (20) Речи без сценария (30) Демонстрации (10) Юридические презентации (10) |
По сценарию (50) | Трансляции новостей (20) Трансляции разговоров (20) Вне-трансляционные разговоры (10) |
Без печати (50) | Студенческое письмо (20) | Студенческие эссе (10) Сценарии экзаменов (10) |
Буквы (30) | Социальные письма (15) Деловые письма (15) | |
Печатный (150) | Академическое письмо (40) | Гуманитарные науки (10) Общественные науки (10) Естественные науки (10) Технологии (10) |
Популярные сочинения (40) | Гуманитарные науки (10) Общественные науки (10) Естественные науки (10) Технологии (10) | |
Репортаж (20) | Сообщения прессы (20) | |
Обучение письму (20) | Административное письмо (10) Навыки / хобби (10) | |
Убедительное письмо (10) | Передовицы прессы (10) | |
Креативное письмо (20) | Романы и рассказы (20) |
Публикации
О Международном корпусе английского языка опубликовано несколько книг, а также книги, частично основанные на корпусах.[14]
- Английский язык в Карибском бассейне: вариации, стиль и стандарты на Ямайке и Тринидаде (2014) Дагмар Дойбер
- Настоящее совершенное в английском языке: наглядное представление о единстве и разнообразии (2014) Валентина Вернера
- Картирование единства и разнообразия во всем мире: исследования нового английского языка на основе корпусов (2012) Марианны Хундт и Ульрике Гут
- Синтаксис разговорного индийского английского (2012) Клаудиа Ланге
- Оксфордская современная грамматика английского языка (2011) Бас Аартс
- Дополнительные наречия на английском языке (2010) Хильде Хассельгард
- Журнал ICAME № 34 (2010)
- Введение в грамматику английского языка (2009) Сидни Гринбаум и Джеральд Нельсон
- Словообразование в новом английском: анализ на основе корпуса (2008) Томаса Бирмейера
- Специальный выпуск Мировые английские Том 23, номер 2 (2004)
- Изучение естественного языка: работа с британским компонентом Международного корпуса английского языка (2002) Джеральда Нельсона, Шона Уоллиса и Баса Аартса
- Сравнение английского языка в мире: Международный корпус английского языка (1996) Сидни Гринбаум
- Оксфордская грамматика английского языка (1996) Сидни Гринбаум
Участников
Текущий список стран-участниц (* = доступно):
- Австралия
- Камерун
- Канада*
- Восточная Африка (Кения, Малави, Танзания) *
- Фиджи
- Гана
- Великобритания * (проанализировано)
- Гонконг*
- Индия*
- Ирландия*
- Ямайка*
- Мальта
- Малайзия
- Новая Зеландия*
- Нигерия * (отмечен)
- Пакистан
- Филиппины*
- Сьерра-Леоне
- Сингапур*
- Южная Африка
- Шри-Ланка
- Тринидад и Тобаго
- СОЕДИНЕННЫЕ ШТАТЫ АМЕРИКИ*
Смотрите также
Рекомендации
- ^ «Проект ICE» (PDF).
- ^ «Проект ICE» (PDF).
- ^ Нельсон, Джеральд (май 2004 г.). "Вступление". Мировые английские. 23 (2): 225–226. Дои:10.1111 / j.0883-2919.2004.00347.x. ISSN 0883-2919.
- ^ «Проект ICE» (PDF).
- ^ «Проект ICE» (PDF).
- ^ "Домашняя страница Международного корпуса английского языка (ICE) @ ICE-corpora.net".
- ^ а б c d "Корпус Дизайн @ ICE-corpora.net". ice-corpora.net. Получено 2018-03-03.
- ^ Нельсон, Джеральд (2017). «Проект ICE и мировой английский язык». Мировые английские. 36 (3): 367–370. Дои:10.1111 / weng.12276.
- ^ Куирк, Рэндольф, Гринбаум, Сидни, Пиявка, Джеффри и Свартвик, Ян (1985). Комплексная грамматика английского языка Лондон: Лонгман
- ^ Нельсон, Джеральд, Уоллис, Шон и Аартс, Бас (2002). Изучение естественного языка. Работа с британским компонентом Международного корпуса английского языка Амстердам: Джон Бенджаминс
- ^ Сайт Международного корпуса английского языка
- ^ "Домашняя страница Международного корпуса английского языка (ICE) @ ICE-corpora.net". ice-corpora.net. Получено 2018-03-03.
- ^ а б c d «Аннотация». www.ice-corpora.uzh.ch. Получено 2018-03-29.
- ^ "Публикации @ ICE-corpora.net". ice-corpora.net. Получено 2018-04-22.