С помощью Google Books проанализируют культуру за несколько столетий

google

Исследователи из Гарвардского университета и компания Гугл реализуют необыкновенный научный проект, задача которого содержится в "изучении культуры в количественном выражении". Применяя библиотеку из миллионов отсканированных компанией Гугл книг, авторы проекта пробуют отследить особенности применения языка и разных публично-серьёзных тенденций в течении сотен лет.

К примеру в Соединенных Штатах на протяжении гражданской войны (1861-1865гг) отмечен всплеск слова "рабство" и словоформ, которые связаны с ним. В книгах чуть более позднего периода частенько упоминается словосочетание "перемещение за гражданские права". Еще одним увлекательным моментом изучения стало обнаружение выражений и новых слов, именуемых неологизмами.

Всего с 1950 по 2000 годы в восьми исследуемых языках исследователи насчитали около миллиарда различных слов, причем ежегодно оказалось приблизительно по 8500 новых слов.Наряду с этим отмечается, что в словарях неологизмов содержится в лучшем случае треть новых слов.

Имеется в книгах и отмирающие слова, каковые уже непривычны слуху современных обитателей, но были нормой еще для прошлого поколения. Исследователи применяли эти сетевых энциклопедий Википедия и Британика для отслеживания "траекторий знаменитостей". На основании совершённого анализа авторы проекта говорят, что в сравнении с 1800-м годом отечественные знаменитости помолодели, одновременно с этим период их "звездности" сократился приблизительно вдвое. Актеры становятся легендарными уже к 30 годам, против 50 лет ранее.

Одновременно с этим, политики и авторы книг становятся сейчас известными старше, чем ранее. Снизился интерес и к таким людям, как ученые из области физики, химии, биологии и математики.В библиотеке отсканированных книг Гугл присутствуют книги с 1500 до 2008 года издательства.

Всего тут значится около 5 миллионов книг либо 4% от полного количества опубликованных книг в мире. Главная масса отсканированных книг написана на британском, китайском, немецком, французском, испанском и русском языках.

По данным компании, в сумме во всех отсканированных книгах содержится более 500 млрд слов. В Гугл отмечают, что новый сервис, названный Books Ngram Viewer разрешает представить в новой форме количественные показатели по разным областям отвлечённых знаний, отследить исторические тренды, новые идеи и др. за счет отслеживания популярности тех либо иных главных слов либо фраз в текстах книг.

В Гугл именуют подобную метрику неповторимой. Интернет-гигант отмечает, что сейчас компания находится в ходе оцифровки еще приблизительно 10 миллионов книг, но эта работа еще не закончена и мета-данные по книгам не обновлены.

Исследователи говорят, что различные книги в библиотеке Гугл оцифрованы с различным качеством, исходя из этого для самый полноценного анализа работа идет лишь с качественными материалами. В Гарварде говорят, что ими уже была обработана коллекция книг, которая, если бы читалась одним человеком, заняла бы у него 80 лет (при том, что человек бы не отвлекался на еду, другие потребности и сон). Авторы проекта совершили пара несложных анализов, определяющих частоту конкретных слов в общем количестве книжных слов, напечатанных в книгах за тот либо другой год.

Результаты исследований говорят о том, что в 1900 году напечатаны были около 1,4 миллиарда слов, а вот столетие спустя данный показатель составил уже 8 миллиардов слов. Из этого количества слов исследователи составили так именуемые н-граммы либо маленькие фразы из пяти слов. Исследователи говорят, что это достаточно несложная задача, но она достаточна, дабы найти кое-какие главные литературные тенденции.

"К сожалению, приходится утверждать, что наука это плохой путь к славе", – говорят авторы изучения. Подразделение Гугл Labs создало web-интерфейс, дабы все желающие имели возможность проследить интересующие их тенденции. Он дешёв по адресу http://ngrams.googlelabs.com/ В компании говорят, что кое-какие запросы дают логичные, но неожиданные результаты.

К примеру, из-за множественного значения слова "панк" оно стало более популярным, чем "рок-н-ролл", не смотря на то, что первое есть поджанром последнего.По данным CyberSecurity.ru


9 комментариев к “С помощью Google Books проанализируют культуру за несколько столетий”

  1. Циничное лицемерие это орать во всю глотку что кто-то ущемляет русский в Украине. Книг немеряно , каналов немераяно , газет немеряно , на всех товарах этикетки на русском в том числе. " А книг у нас на русском больше потому, что их ВООБЩЕ на русском больше (из тех, что представляют какой-то интерес)" а это вообще хитовое заявление, что-то типа того если б я сказал что меня голодом морят , но жирный я потому что много жру.

  2. И этим 3,14дерам козломордым возвращать какой то долг??? Продолжается уничтожение инфраструктуры и промышленных объектов на временно оккупированных территориях Донбасса. 3 мая с.г. военнослужащими 4-й отдельной мотострелковой бригады (Алчевск) 2-го АК (Луганск) ВС РФ начат демонтаж и вывоз оборудования с территории Алчевского металлургического комбината…

  3. Липова Пелагея

    А когда это меньшинство выходит на митинг пи_зди_ть его омоновским сапогом и прислушиваться треснул ли бабкин череп ….

Оставьте комментарий