Как использовать средство просмотра Ngram в Google Книгах

Оглавление:

Как использовать средство просмотра Ngram в Google Книгах
Как использовать средство просмотра Ngram в Google Книгах
Anonim

Что нужно знать

  • В средстве просмотра Google Книг Ngram Viewer введите фразу, выберите диапазон дат и корпус, установите уровень сглаживания и нажмите Искать множество книг.
  • Вы можете детализировать данные. Например, для поиска формы глагола fish вместо существительного fish используйте тег: search for fish_VERB.
  • Ngram Viewer выводит график, отражающий использование фразы во времени. Для нескольких фраз каждая представлена линией с цветовой кодировкой.

В этой статье объясняется, как использовать инструмент Ngram Viewer в Google Книгах для проведения исследований и расширенного поиска.

Image
Image

Как работает Ngram Viewer

N-грамма, также называемая N-граммой, представляет собой статистический анализ текстового или речевого содержимого для поиска n (числа) какого-либо элемента в тексте.

Элементом поиска может быть что угодно, включая фонемы, префиксы, фразы и буквы. Хотя Ngram неизвестен за пределами исследовательского сообщества, он используется в самых разных областях и имеет большое значение для разработчиков, которые пишут компьютерные программы, которые понимают и реагируют на естественную разговорную речь.

В случае Google Books Ngram Viewer анализируемый текст взят из огромного количества книг, находящихся в общественном достоянии, которые Google отсканировал для заполнения своей поисковой системы Google Books. Для Google Books Ngram Viewer Google называет основной текст, который вы собираетесь искать, корпусом. Средство просмотра Ngram Viewer объединяет языки, хотя вы можете отдельно анализировать британский и американский варианты английского языка или объединять их вместе.

  1. Перейдите в программу просмотра Ngram для Google Книг по адресу books.google.com/ngrams.
  2. Введите любую фразу или фразы, которые хотите проанализировать. Каждую фразу отделяйте запятой. Google предлагает для начала «Альберт Эйнштейн, Шерлок Холмс, Франкенштейн».

    При поиске в NGram Viewer элементы чувствительны к регистру, в отличие от веб-поиска Google.

  3. Выберите диапазон дат. По умолчанию от 1800 до 2000.
  4. Выберите корпус. Вы можете искать тексты на иностранном языке или тексты на английском языке, и в дополнение к стандартным вариантам вы можете заметить такие записи, как «английский (2009 г.)» или «американский английский (2009 г.)» в нижней части списка. Это более старые корпуса, которые Google с тех пор обновлял, но у вас может быть какая-то причина для сравнения со старыми наборами данных. Большинство пользователей могут игнорировать их и сосредоточиться на самых последних корпусах.
  5. Установите уровень сглаживания. Сглаживание относится к тому, насколько сглажен график в конце. Наиболее точное представление отражает уровень сглаживания, равный 0, но этот параметр может быть трудночитаемым. По умолчанию установлено значение 3. В большинстве случаев настраивать его не нужно.

  6. Нажмите Поиск по множеству книг.

Используя Google Ngram Viewer, вы можете детализировать данные. Если вы хотите искать глагол fish вместо существительного fish, вы можете сделать это с помощью тегов. В этом случае вы должны искать fish_VERB.

Google предоставляет полный список команд и другую расширенную документацию для использования с Ngram Viewer на своем веб-сайте.

Итог

Google Книги Ngram Viewer выводит график, отражающий использование определенной фразы в книгах во времени. Если вы ввели более одного слова или фразы, каждое из них будет представлено цветной линией, контрастирующей с другими поисковыми запросами. Это похоже на Google Trends, только поиск охватывает более длительный период.

Пример из практики

Рассмотрите пример пирогов с уксусом. Они упоминаются в сериале Лоры Ингаллс Уайлдер «Маленький домик в прериях». Изучение с помощью веб-поиска Google, чтобы узнать больше об уксусных пирогах, показывает, что они считаются частью американской южной кухни и действительно сделаны с уксусом. Они вспоминают времена, когда не у всех был доступ к свежим продуктам в любое время года, но разве это все?

Поищите в Google Ngram Viewer уксусный пирог, и вы обнаружите некоторые упоминания пирога как в начале, так и в конце 1800-х годов, много упоминаний в 1940-х годах и растущее число упоминаний в последнее время. Однако при уровне сглаживания 3 вы видите плато над упоминаниями в 1800-х годах. Поскольку в то время было издано не так много книг, а данные настроены на сглаживание, картина искажается. Вероятно, только в одной книге упоминался пирог с уксусом, и это было усреднено, чтобы избежать всплеска. Установив сглаживание на 0, вы увидите, что это именно так. Всплеск приходится на 1869 год, а еще один всплеск приходится на 1897 и 1900 годы.

Вряд ли в остальное время никто не говорил об уксусных пирогах: вероятно, рецепты были повсюду, но люди не писали о них в книгах, и это важное ограничение поиска Ngram.

Рекомендуемые: