Средство просмотра Google Ngram - Википедия - Google Ngram Viewer
В Наблюдатель Google Ngram или же Программа просмотра Google Книг Ngram это поисковая система в Интернете, которая составляет график частотности любого набора поисковых строк, используя годовой подсчет н-граммы найдено в источниках, напечатанных между 1500 и 2019 гг.[1][2][3][4][5] в Google текстовые корпуса на английском, китайском (упрощенном), французском, немецком, иврите, итальянском, русском или испанском языках.[2][6] Есть также несколько специализированных корпусов английского языка, таких как американский английский, британский английский и английская художественная литература.[7]
Программа может искать слово или фраза, включая орфографические ошибки или тарабарщина.[6] N-граммы сопоставляются с текстом в выбранном корпусе, при необходимости используя чувствительный к регистру орфография (которая сравнивает точное использование прописных букв),[8] и, если они найдены в 40 или более книгах, отображаются в виде графика.[9]
Средство просмотра Google Ngram поддерживает поиск по части речи и подстановочные знаки.[7] Он обычно используется в исследованиях.[10][11]
История
Программа была разработана Джоном Орвантом и Уиллом Брокманом и выпущена в середине декабря 2010 года.[2][3] Он был вдохновлен прототипом под названием "Книжный червь", созданным Жан-Батистом Мишелем и Эрез Эйден из Гарварда Культурная обсерватория и Юань Шэнь из Массачусетский технологический институт и Стивен Пинкер.[12]
Ngram Viewer изначально был основан на издании Google Книг Ngram Corpus 2009 года. По состоянию на июль 2020 г.[Обновить], программа поддерживает корпуса 2009, 2012 и 2019 годов.
Эксплуатация и ограничения
Запятые разделяют вводимые пользователем условия поиска, указывая каждое отдельное слово или фразу для поиска.[9] Ngram Viewer возвращает построенный линейный график в течение нескольких секунд после нажатия пользователем кнопки Введите ключ или кнопку «Поиск» на экране.
С поправкой на большее количество книг, опубликованных в течение нескольких лет, данные нормализованный, как относительный уровень, по количеству книг, издаваемых за каждый год.[9]
Из-за ограничений на размер базы данных Ngram в базе данных индексируются только совпадения, найденные как минимум в 40 книгах; в противном случае база данных не смогла бы сохранить все возможные комбинации.[9]
Как правило, поисковые запросы не могут заканчиваться знаками препинания, хотя отдельный полная остановка (период) можно искать.[9] Также финал вопросительный знак (например, «Почему?») вызовет второй поиск вопросительного знака отдельно.[9]
Пропуск точек в сокращениях позволит использовать форму сопоставления, например использование "R M S" для поиска "R.M.S." против "RMS".
Корпуса
В корпус используемые для поиска, состоят из файлов total_counts, 1-граммов, 2-граммов, 3-граммов, 4 граммов и 5 граммов для каждого языка. Формат файла каждого из файлов: данные, разделенные табуляцией. Каждая строка имеет следующий формат:[13]
- total_counts файл
- год TAB match_count TAB page_count TAB volume_count NEWLINE
- Файл ngram версии 1 (создан в июле 2009 г.)
- ngram TAB год TAB match_count TAB page_count TAB volume_count NEWLINE
- Файл ngram версии 2 (создан в июле 2012 г.)
- ngram TAB год TAB match_count TAB volume_count NEWLINE
Средство просмотра Google Ngram использует match_count для построения графика.
Например, слово «Википедия» из файла версии 2 с английскими 1-граммами хранится следующим образом:[14]
ngram | год | match_count | volume_count |
---|---|---|---|
Википедия | 1904 | 1 | 1 |
Википедия | 1912 | 11 | 1 |
Википедия | 1924 | 1 | 1 |
Википедия | 1925 | 11 | 1 |
Википедия | 1929 | 11 | 1 |
Википедия | 1943 | 11 | 1 |
Википедия | 1946 | 11 | 1 |
Википедия | 1947 | 11 | 1 |
Википедия | 1949 | 11 | 1 |
Википедия | 1951 | 11 | 1 |
Википедия | 1953 | 22 | 2 |
Википедия | 1955 | 11 | 1 |
Википедия | 1958 | 1 | 1 |
Википедия | 1961 | 22 | 2 |
Википедия | 1964 | 22 | 2 |
Википедия | 1965 | 11 | 1 |
Википедия | 1966 | 15 | 2 |
Википедия | 1969 | 33 | 3 |
Википедия | 1970 | 129 | 4 |
Википедия | 1971 | 44 | 4 |
Википедия | 1972 | 22 | 2 |
Википедия | 1973 | 1 | 1 |
Википедия | 1974 | 2 | 1 |
Википедия | 1975 | 33 | 3 |
Википедия | 1976 | 11 | 1 |
Википедия | 1977 | 13 | 3 |
Википедия | 1978 | 11 | 1 |
Википедия | 1979 | 112 | 12 |
Википедия | 1980 | 13 | 4 |
Википедия | 1982 | 11 | 1 |
Википедия | 1983 | 3 | 2 |
Википедия | 1984 | 48 | 3 |
Википедия | 1985 | 37 | 3 |
Википедия | 1986 | 6 | 4 |
Википедия | 1987 | 13 | 2 |
Википедия | 1988 | 14 | 3 |
Википедия | 1990 | 12 | 2 |
Википедия | 1991 | 8 | 5 |
Википедия | 1992 | 1 | 1 |
Википедия | 1993 | 1 | 1 |
Википедия | 1994 | 23 | 3 |
Википедия | 1995 | 4 | 1 |
Википедия | 1996 | 23 | 3 |
Википедия | 1997 | 6 | 1 |
Википедия | 1998 | 32 | 10 |
Википедия | 1999 | 39 | 11 |
Википедия | 2000 | 43 | 12 |
Википедия | 2001 | 59 | 14 |
Википедия | 2002 | 105 | 19 |
Википедия | 2003 | 149 | 53 |
Википедия | 2004 | 803 | 285 |
Википедия | 2005 | 2964 | 911 |
Википедия | 2006 | 9818 | 2655 |
Википедия | 2007 | 20017 | 5400 |
Википедия | 2008 | 33722 | 6825 |
График, построенный программой просмотра Google Ngram Viewer с использованием приведенных выше данных, находится здесь:[15]
Критика
Набор данных подвергся критике за то, что он полагался на неточные OCR, переизбыток научной литературы и большое количество неправильно датированных и категоризированных текстов.[16][17] Из-за этих ошибок и из-за неконтролируемой предвзятости[18] (например, увеличение количества научной литературы, что вызывает снижение популярности других терминов), рискованно использовать этот корпус для изучения языка или проверки теорий.[19] Поскольку набор данных не включает метаданные, он может не отражать общие языковые или культурные изменения[20] и могу только намекнуть на такой эффект.
Были предложены рекомендации по проведению исследований с данными из Google Ngram, которые решают многие из проблем, рассмотренных выше.[21]
Проблемы с OCR
Оптическое распознавание символов, или OCR, не всегда надежно, и некоторые символы могут быть неправильно отсканированы. В частности, системные ошибки, такие как путаница «s» и «f» в текстах до XIX века (из-за использования длинные s который был похож по внешнему виду на "f") может вызвать системную ошибку. Хотя Google Ngram Viewer утверждает, что результаты являются надежными начиная с 1800 года, плохое распознавание текста и недостаточность данных означают, что частоты, указанные для таких языков, как китайский, могут быть точными только с 1970 года, при этом более ранние части корпуса не показывают результатов для общих терминов. , и данные за несколько лет, содержащие более 50% шума.[22][23]
Смотрите также
Рекомендации
- ^ «Количественный анализ культуры с использованием миллионов оцифрованных книг» JB Michel et al, Science 2011, DOI: 10.1126 / science.1199644[1]
- ^ а б c "База данных Google Ngram отслеживает популярность 500 миллиардов слов" Huffington Post, 17 декабря 2010 г., веб-страница: HP8150.
- ^ а б "Google's Ngram Viewer: машина времени для игры слов", Cnet.com, 17 декабря 2010 г., веб-страница: CN93.
- ^ «Картинка стоит 500 миллиардов слов - Расти С. Томпсон», HarrisburgMagazine.com, 20 сентября 2011 г., веб-страница: HBMag20[постоянная мертвая ссылка ].
- ^ Google SearchLiaison. "Программа просмотра Google Книг Ngram теперь обновлена свежими данными за 2019 год". Twitter. Получено 2020-08-11.
- ^ а б "Программа просмотра Google Книг Ngram - Библиотеки Университета Буффало", Lib.Buffalo.edu, 22 августа 2011 г., веб-страница: Buf497 В архиве 2013-07-02 в Wayback Machine.
- ^ а б Информационная страница Google Книг Ngram Viewer: https://books.google.com/ngrams/info
- ^ "Google Ngram Viewer - Google Книги", Books.Google.com, май 2012 г., веб-страница: G-Ngrams.
- ^ а б c d е ж "Google Ngram Viewer - Google Книги" (информация), Books.Google.com, 16 декабря 2010 г., веб-страница: G-Ngrams-info: отмечает биграммы и использование кавычек для слов с апострофами.
- ^ Гринфилд П. М. (2013). Изменяющаяся психология культуры с 1800 по 2000 год. Психологическая наука, 24 (9), 1722–1731. https://doi.org/10.1177/0956797613479387
- ^ Юнес, Н., Рипс, У.-Д. (2018). Изменяющаяся психология культуры в Германии: исследование Google Ngram. Международный журнал психологии, 53 (S1), 53-62. https://doi.org/10.1002/ijop.12428
- ^ ЮАР (4 февраля 2010 г.). «Стивен Пинкер - Материал мысли: язык как окно в человеческую природу» - через YouTube.
- ^ "Программа просмотра Google Книг Ngram".
- ^ googlebooks-eng-all-1gram-20120701-w.gz по адресу http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
- ^ https://books.google.com/ngrams/graph?content=Wikipedia&year_start=1900&year_end=2020&corpus=15&smoothing=0&share=&direct_url=t1%3B%2CWikipedia%3B%2Cc0
- ^ Google Ngrams: OCR и метаданные В архиве 2016-04-27 в Wayback Machine. ResourceShelf, 19 декабря 2010 г.
- ^ Нунберг, Джефф (16 декабря 2010 г.). "Гуманитарные исследования в корпусе Google Книг". Архивировано из оригинал 10 марта 2016 г.
- ^ Печеник, Эйтан Адам; Данфорт, Кристофер М .; Доддс, Питер Шеридан; Баррат, Ален (7 октября 2015 г.). «Характеристика корпуса Google Книги: строгие ограничения для выводов о социокультурной и лингвистической эволюции». PLOS ONE. 10 (10): e0137041. arXiv:1501.00960. Bibcode:2015PLoSO..1037041P. Дои:10.1371 / journal.pone.0137041. ЧВК 4596490. PMID 26445406.
- ^ Чжан, Сара. «Проблемы использования Google Ngram для изучения языка». ПРОВОДНОЙ. Получено 2017-05-24.
- ^ Коплениг, Александр (02.09.2015). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram - реконструкция состава немецкого корпуса во времена Второй мировой войны». Цифровая стипендия в области гуманитарных наук (опубликовано 01.04.2017). 32 (1): 169–188. Дои:10.1093 / llc / fqv037. ISSN 2055-7671.
- ^ Юнес, Н., Рипс, У.-Д. (2019). Рекомендации по повышению надежности исследований Google Ngram: доказательства с религиозной точки зрения. PLoS One, 14 (3): e0213554. https://doi.org/10.1371/journal.pone.0213554
- ^ Google n-граммы и досовременный китайский. digitalsinology.org.
- ^ Когда н-граммы портятся. digitalsinology.org.
Библиография
- Линь Юрий; и другие. (Июль 2012 г.). "Синтаксические аннотации для корпуса Ngram Google Книг" (PDF). Труды 50-го ежегодного собрания. Демо-материалы. Чеджу, Республика Корея: Ассоциация компьютерной лингвистики. 2: 169–174. 2390499.
Белая бумага представляет издание Google Книг Ngram Corpus 2012 г.