Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Все авторские права соблюдены. Напишите нам, если Вы не согласны.
Описание книги "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры"
Описание и краткое содержание "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры" читать бесплатно онлайн.
Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.
А один из основателей знаменитого блога Five Thirty Eight, бывший бейсбольный аналитик по имени Нейт Сильвер, решил выяснить, можно ли применить подход на основе больших данных для предсказания победителей национальных выборов[23]. Сильвер собрал данные, связанные с голосованием, из множества источников: Gallup, Rasmussen, RAND, Mellman, CNN и других. Используя эти данные, он совершенно точно предсказал, что Обама выиграет выборы 2008 года, а также точно спрогнозировал результаты голосования в коллегиях выборщиков 49 штатов и округа Колумбия. Единственным штатом, с которым он ошибся, была Индиана. Улучшать в системе было особенно нечего, однако ему все равно удалось это сделать. Утром в день голосования в 2012 году Сильвер объявил, что Обама с вероятностью 90,9% выиграет у Ромни, и точно предсказал победителя выборов в округе Колумбия и каждом из штатов (включая, конечно же, Индиану).
Этот список можно продолжать до бесконечности. Используя большие данные, исследователи в наши дни проводят эксперименты, о которых их предшественники не могли и мечтать.
Библиотека всего
В настоящей книге описывается история одного из таких экспериментов.
Объектом наших наблюдений были не люди, лягушки, молекулы или атомы. Эксперимент был связан с одним из самых потрясающих массивов данных в истории самой истории – цифровой библиотекой, цель которой (если верить ее создателям) состоит в том, чтобы включить все когда-либо написанные книги[24].
Как же возникла эта замечательная библиотека?
В 1996 году два старшекурсника из Стэнфорда, изучавших компьютерные технологии, работали над приостановленным ныне проектом, известным как Stanford Digital Library Technologies Project[25]. Цель проекта состояла в разработке прототипа библиотеки будущего, способной интегрировать мир книг с миром глобальной Сети. Студенты работали над инструментом, дающим пользователям возможность изучать библиотечные коллекции, перемещаясь от книги к книге в киберпространстве. Однако сделать это на практике было практически невозможно, поскольку в цифровом виде имелось довольно мало книг. Поэтому двое студентов применили свои идеи и навыки для перехода от одного текста к другому (по следу больших данных во Всемирной паутине), а затем превратили свою работу в небольшую поисковую машину, которую назвали Google.
К 2004 году проект, о котором заявляла компания Google – по «упорядочиванию всей имеющейся в мире информации», – уже реализовывался вполне успешно, благодаря чему у основателя компании Ларри Пейджа нашлось достаточно свободного времени, чтобы вернуться к своей первой любви – библиотекам. Как ни печально, но и к тому моменту количество книг, доступных в цифровой форме, оставалось незначительным. Однако изменилось другое – теперь Пейдж стал миллиардером. Поэтому он решил, что Google стоит заняться бизнесом по сканированию и оцифровке книг. И Пейдж подумал, что Google вполне по силам оцифровать все книги в мире.
Слишком смело? Несомненно. Однако компания Google лихо принялась за дело. Через девять лет после публичного заявления о начале проекта Google оцифровала более 30 миллионов книг[26]. Это примерно каждая четвертая когда-либо опубликованная книга. Коллекция Google превышает по своему размеру коллекцию Гарвардского университета (17 миллионов томов), Стэнфорда (9 миллионов), оксфордской Бодлианской библиотеки (11 миллионов) или любой другой университетской библиотеки. В ней больше книг, чем в Российской государственной библиотеке (15 миллионов), Национальной библиотеке Китая (26 миллионов) и Национальной библиотеке Германии (25 миллионов). На момент написания этой книги единственной библиотекой, в которой хранилось еще больше книг, была Библиотека Конгресса США (33 миллиона). Не исключено, что к тому моменту, как вы прочтете эти строки, Google удастся обогнать и ее.
Длинные данные
О начале работы проекта Google Books мы, как и все остальные, узнали из новостей. Однако лишь через два года, в 2006 году, влияние Google стало ощущаться в реальной жизни. В то время мы завершали научное исследование по английской грамматике. Для нее мы оцифровали вручную несколько учебников по грамматике староанглийского.
Самые нужные нам книги таились в дальних углах гарвардской Вайднеровской библиотеки. Вот как их можно найти. Сначала вам нужно подняться на второй этаж восточного крыла библиотеки. Затем пройти мимо «Рузвельтовской коллекции» и раздела, посвященного языкам американских индейцев. Там вы увидите проход с номерами каталога от 8900 и далее. Наши книги располагались на второй полке сверху.
На протяжении ряда лет, работая над своим исследованием, мы туда регулярно приходили. Мы были единственными, кто вытаскивал эти книги с полок за много лет, а то и десятилетий. Никого, кроме нас, не интересовала эта полка.
В один прекрасный день мы заметили, что книга, которой мы регулярно пользовались в своих исследованиях, появилась в Интернете как часть проекта Google Books. Заинтересовавшись, мы начали искать там и другие книги с нашей полки. Оказалось, что и они там уже есть. И дело вовсе не в том, что корпорацию Google так сильно заботит средневековая английская грамматика. В сущности, почти у каждой из проверенных нами книг, вне зависимости от полки, теперь появился цифровой близнец[27]. За то время, которое нам потребовалось для изучения нескольких книг, Google успела оцифровать содержимое нескольких зданий.
Усилия компании Google позволяли получить совершенно новый тип больших данных и даже изменить то, как люди оценивают свое прошлое. В основном большие данные являются большими, но «короткими» – это недавние записи, фиксирующие недавние события. Это связано с тем, что создание данных катализируется Интернетом, сравнительно недавним изобретением. Наша цель состояла в изучении культурных изменений, которые могут охватывать длительные периоды времени по мере того, как целые поколения людей живут и умирают. Когда речь заходит об изучении изменений в историческом масштабе, короткие данные, вне зависимости от степени своей обширности, нам мало чем помогут.
Google Books как база данных по своему масштабу не превышает любую другую базу в нашу эпоху цифровых средств передачи и хранения информации. Однако значительная часть того, что оцифровывает Google, не связана с современностью – в отличие от электронной почты, RSS-фидов и онлайновых игр, книги уходят в глубину веков. Поэтому данные проекта Google Books – это не просто большие, а еще и длинные данные[28].
Поскольку в книгах содержатся длинные данные, оцифрованные книги не ограничиваются описанием современной жизни, в отличие от большинства других больших массивов данных. Книги могут показать нам, как менялась наша цивилизация на протяжении довольно больших периодов времени – превышающих не только человеческую жизнь, но и жизни целых государств.
Книги представляют собой отличный массив данных еще и вот почему. Они охватывают широкий круг тем и демонстрируют различные точки зрения.
Об изучении масштабной коллекции книг можно думать как об изучении большого количества людей, многие из которых к моменту изучения уже мертвы. В исследованиях по истории и литературе книги, относящиеся к определенному времени и месту, становятся чуть ли не самыми важными источниками информации об этом времени и месте.
Это заставило нас предположить, что, изучив через цифровую линзу книги проекта Google, мы сможем создать новый «скоп» для изучения человеческой истории. И мы знали – сколько бы времени ни потребовалось, мы сможем изучить эти данные.
Больше данных – больше проблем
С большими данными появляются не только новые возможности для понимания окружающего мира, но и новые научные проблемы[29].
Первая серьезная проблема заключается в том, что большие данные и данные, которыми оперируют ученые, структурированы совершенно по-разному. Ученые предпочитают отвечать на тщательно сформулированные вопросы с помощью элегантных экспериментов, дающих воспроизводимые и точные результаты. Однако большие данные часто сопровождаются неразберихой. Типичный массив больших данных представляет собой смесь фактов и измерений, сделанных без какой-либо научной цели и с использованием далеко не универсальных процедур. Он изобилует ошибками и огромным количеством пугающих пробелов – например, недостающими элементами информации, важными для любого разумного ученого. Такие ошибки и упущения часто непоследовательны, даже в рамках единого массива данных. Это связано с тем, что большие массивы данных часто создаются путем объединения большого количества более мелких массивов данных. Очевидно, что некоторые из компонентов массивов данных более надежны, чем другие, и у каждого из них есть свои особенности. Хорошим примером может служить социальная сеть Facebook. Добавление людей «в друзья» может означать совершенно разное для разных людей. Кто-то делает это довольно свободно. Кто-то более осторожен. Некоторые добавляют в друзья коллег, другие этого не делают. Отчасти работа с большими данными как раз и требует, чтобы их хорошо понимали и учитывали все подобные особенности. Но настолько хорошо можно быть знакомым с петабайтом данных?
Подписывайтесь на наши страницы в социальных сетях.
Будьте в курсе последних книжных новинок, комментируйте, обсуждайте. Мы ждём Вас!
Похожие книги на "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры"
Книги похожие на "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры" читать онлайн или скачать бесплатно полные версии.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
Отзывы о "Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры"
Отзывы читателей о книге "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры", комментарии и мнения людей о произведении.