loading

Logout succeed

Logout succeed. See you again!

ebook img

Просто Big Data. PDF

pages150 Pages
release year2019
file size7.378 MB
languageRussian

Preview Просто Big Data.

ПРОСТО СЕРИЯ •• ПРОСТО J •• ПРОСТО Автор идеи НАУЧНО-ПОПУЛЯРНОЕ ИЗДАТЕЛЬСТВО и научный редактор серии «с т р о ю » if СЕРГЕЙ ДЕМЕНОК Санкт-Петербург.2019 УДК 004 ББК 32.97 П82 П82 Просто Big Data. — СПб.: Страта, 2019. — 148 с. — (серия «Просто») ISBN 978-5-907127-29-6 Большие данные — ключевой элемент современного информационного пространства. Практически все, что дела­ ет отдельный человек, группы людей, человечество в целом, компании из разных сфер бизнеса, правительства, происходит в рамках глобального информационного поля. Наша работа, наш досуг, шопинг, путешествия — всё тем или иным способом связано с большими данными. Мы полу­ чаем и отправляем письма по электронной почте, мы звоним по телефону и звонят нам, мы сёрфим в Интернете — и таким образом получаем и отправляем биты информации и находим­ ся внутри системы больших данных. Книга рассказывает о практическом применении техноло­ гии в торговле и банковском деле, медицине и метеорологии, о том, как большие данные помогают обеспечивать безопас­ ность, предсказывать погоду и заставляют нас делать покупки. Очень скоро большие данные будут править миром. Со­ временному человеку не уйти от больших данных. Это часть нашей жизни. Все права защищены. Никакая часть настоящей книги не может быть воспроизведена или передана в какой бы то ни было форме и ка­ кими бы то ни было средствами, будь то электронные или механи­ ческие, включая фотокопирование и запись на магнитный носитель, а также размещение в Интернете, если на то нет письменного разре­ шения владельцев. АН rights reserved. No parts of this publication can be reproduced, sold or transmitted by any means without permission of the publisher. УДК 004 ББК 32.97 © Жукова M. В., 2019 ISBN 978-5-907127-29-6 © ООО «Страта», 2019 Зта книга посвящена большим данным (Big Data) и инфор­ мационной революции. В наши дни мы постоянно слышим эти термины. В чем сила и привлекательность больших данных? В сборе огромного количества информации и ее анализе таким образом, как люди никогда не смогли бы сделать без помощи компьютеров. Большие данные — это структурированные и неструкту­ рированные разнообразные данные, имеющие огромный объ­ ем, которые обрабатываются программными инструментами, появившимися в 2000-х годах. Это социально-экономический феномен, связанный с появлением технологических возмож­ ностей для анализа огромных массивов данных, включая миро­ вые данные, и вытекающих из этого трансформационных по­ следствий. В настоящее время термин включает не только сами данные, но и технологии их обработки и использования, мето­ ды поиска необходимой информации в больших массивах. Со­ временные технологии позволяют сделать то, что еще недавно казалось невозможным и даже сегодня иногда так кажется. Большие данные открывают человечеству новый мир. С не­ которыми современными компьютерами можно даже разгова­ ривать. Однозначно можно утверждать, что применение боль­ ших данных очень быстро растет и множится и имеет огромный потенциал. Станет ли наша жизнь от этого лучше или хуже? Большой вопрос. Просто Big Data ГЛАВА 1. ЧТО ТАКОЕ ДАННЫЕ И БОЛЬШИЕ ДАННЫЕ? Просто данные Слово «данные» происходит от латинского datum, кото­ рое означает «то, что дано». Данные — это сведения, показа­ тели, характеризующие кого-либо или что-либо как основа ка­ ких-то выводов и решений. Это факты и обстоятельства для суждений о ком-либо, чем-либо, оценках кого-то или че­ го-то. Это свойства, способности, качества, необходимые для какой-либо деятельности. В современном английском языке обычно используется множественное число слова «данные» — data, но ученые спо­ рят, множественное или единственное число глагола исполь­ зовать с этим словом. Специалисты из Оксфордского универ­ ситета и составители Оксфордского словаря современного английского языка пришли к выводу, что в настоящее время следует использовать единственное число, потому что имеется в виду массив данных. Обычно мы употребляем слово «данные», если говорим о числах и измерениях, хотя это может быть что угодно, записан­ ное, зафиксированное и используемое в дальнейшем. Например, слова в книге, которую вы держите в руках, — это данные. А вообще данные появились где-то 6 000 лет назад вместе с появлением сельскохозяйственных общин — это концепция данных в современном понимании. Люди, занятые сельским хозяйством, фиксировали, когда пахать землю, когда сеять те или иные культуры, когда собирать урожай, сколько семян нуж­ но для засевания той или иной площади. Например, геометрия Просто Big Data использовали десятичную систему но примерно такой же про­ цент составляют и племена, которые использовали пятеричную (основанную на числе 5) и даже пятерично-десятичную систе­ мы. Оставшаяся треть распределяется между доминирующей бинарной, или двоичной системой (основанной на числе 2; ее используют свыше 20% племен), двадцатичной системой (осно­ ванной на числе 20; ее используют 10% племен) и тридцатичной системой (основанной на числе 30; ее использует 1 % племен). Появился счет, появилась письменность — и данные стали хребтом цивилизации, потом они превратились в инструмент, который помогал открывать окно в будущее. Правда, эти по­ пытки далеко не всегда были успешными из-за ограниченного количества доступных данных и ограниченной способности людей к их анализу. В Египте использовался папирус, в Месопотамии — глиня­ ные таблички. Ряд папирусов и табличек с данными дошли до на­ ших дней. Например, папирус Ринда (или Ахмеса). Длина этого папируса составляет 6 метров. Он интересен нам благодаря свое­ му математическому содержанию: он включает 87 разнообразных задач вместе с решениями. Папирус датируется временем между 2000 и 1800 годами до н. э., хотя Ахмес объясняет, что представ­ ляет данные, которым свыше 200 лет. Автор утверждает, что со­ брал их вместе для обучения будущих писарей. Этот папирус мо­ жет рассматриваться как примитивный «учебник» для обучения математике. В настоящее время он хранится в Британском музее (с 1858 года), но изначально входил в коллекцию шотландского египтолога Генри Ринда, отсюда название. Глиняным табличкам из Месопотамии по крайней мере 4 000 лет. Они позволяли хранить и удобно использовать дан­ ные, а не держать их в голове или нацарапанными на стене пеще­ ры. Да и папирус было менее удобно носить с собой. И папирус менее надежен, чем глиняная табличка. Это первые портатив­ ные хранилища данных. Первые образцы письменности в этой области имели фор­ му пиктограмм (графические изображения описываемого предмета), затем они преобразовались в клинопись. Изменение было результатом влияния технологии: новая система письма сложилась благодаря используемым материалам. Клинопись наносилась на влажные глиняные таблички. Для начала насечки Глава 1. Что такое данные и большие данные? делались с использованием заостренного тростника, а в даль­ нейшем деревянной палочки для письма, один конец которой заострен клином (слово «клинопись» произошло от латин­ ского слова cuneus, что означает «клин»). Многие шумерские таблички сохранились до сегодняшнего дня в хорошем состо­ янии. Фактически в настоящее время в музеях по всему миру хранится 400 000 глиняных табличек из Месопотамии. Текст примерно на 400 из них относится к математике, старейшие — это таблички из исчезнувшего города Урук, располагавшегося на берегах Евфрата, примерно в 225 километрах от современ­ ного Багдада. Урук считается колыбелью вычислений и счета. Некоторые ученые считают, что современное название Ирак происходит от шумерского Урук. Для работы с данными в древности использовались палоч­ ки, камни, бусины — все, что помогало считать. Также нельзя не упомянуть и первый процессор — абак. Это счетная доска, которая применялась для арифметических вычислений начи­ ная примерно с V века до н. э. в Древнем Риме, Древней Гре­ ции, Древнем Китае и ряде других стран. Доска была разделена на полосы, считали с помощью камней или фишек. Абак играл исключительно важную роль как инструмент для вычислений. С развитием цивилизации развивались и технологии, помо­ гающие работать с данными для получения информации и, соот­ ветственно, знаний. Цепочка «данные — информация — зна­ ния» существовала всегда, только ее составляющие усложнялись. Многие проблемы не меняются столетиями, но меняются спосо­ бы передачи информации. Соответственно меняется скорость донесения ее до получателей. В наши дни она возросла в сотни раз по сравнению с предыдущими веками. Если в Интернет вбра­ сывается какой-то тезис, то он очень быстро обрастает коммен­ тариями и часто подталкивает к действию. Появление больших данных Не было бы просто данных — не появились бы боль­ шие данные. Данные — это основа понимания. Иногда цепочка «данные — информация — знание» представ­ ляют в виде пирамиды, где данные составляют основание, Просто Big Data а знание — вершину. Информация строится на основании данных. Мы собираем группы каким-то образом связанных данных и так получаем представление о мире или важную ин­ формацию об окружающем нас пространстве. Как уже ска­ зано, слова в этой книге — данные. Информация — это сло­ ва, соединенные в предложения, предложения, разделенные на абзацы, а абзацы на главы. И из информации получились знания. Знания — это интерпретация информации для ее ис­ пользования: вы читаете книгу, обрабатываете информацию, и у вас формируется мнение, появляются собственные идеи, вы предпринимаете какие-то действия. Данные могут быть и набором цифр, они в свою очередь могут быть представлены различным образом, например, в та­ блице. Если вы охотник, то вы, например, знаете или ищете ин­ формацию о том, когда в ближайшем к вам лесу бывает больше всего уток. Существуют специальные издания и сайты, где пу­ бликуется количество рыбы в той или иной местности по ме­ сяцам. Используя эту информацию, вы принимаете решение 0 том, когда пойти охотиться на уток или порыбачить. Хотя может показаться, что большие числа встречаются только в современном мире, а в текстах и хрониках, которые оставила нам история, можно увидеть только маленькие числа, это не так. В Оксфордском университете хранится артефакт, возраст которого составляет около 5 000 лет. В нем рассказыва­ ется о победе фараона Нармера над ливанцами к западу от дель­ ты Нила. Описывается, как Египет взял в плен 120 000 чело­ век, захватил 400 000 быков и 1 422 000 козлов. Сотни тысяч и миллионы также упоминаются в египетской Книге мертвых. Для того периода это очень большие данные. Сложности с большими данными возникли в связи с про­ ведением переписи населения. Первая перепись населения СИ1А была проведена в 1790 году. Тогда население Соединен­ ных Штатов составило чуть менее 4 миллионов человек — 3 929 326 человек, включая рабов. Во время последней пе­ реписи, которая проводилась в 2010 году, население страны составляло уже 308745538 человек. В соответствии со статьей 1 Конституции США перепись населения должна проводить­ ся не реже чем раз в десять лет. Она проводится в годы, закан­ чивающиеся на «0». С 1790-го по 1840 год она проводилась Глава 1. Что такое данные и большие данные? шерифами, а в 1840 году появился первый центральный офис Бюро по переписи населения. И каждый раз людям, занимавшимся переписью населения, казалось, что поставленная перед ними задача обречена на про­ вал. И все — из-за количества данных. Их количество посто­ янно росло, ну^кно было обрабатывать и хранить все больше и больше данных, а доступных и удобных инструментов не хва­ тало. В первые годы все, конечно, делалось вручную. Люди сами чертили таблицы, вносили туда данные, считали без помощи вы­ числительных машин, пересчитывали по несколько раз, чтобы избежать ошибок. Иногда данные одной переписи не успевали полностью проанализировать до начала следующей! А ведь пе­ риод между ними составлял десять лет! И следующая перепись приводила ответственных за нее чиновников в еще больший ужас, потому что население росло с каждым годом, и данных во время каждой следующей переписи населения получалось больше, чем во время предыдущей. Проблема была решена с помощью механизации. В 1890 году при переписи впервые использовали электриче­ скую табулирующую машину Германа Холлерита (1860-1929) для обработки данных. Это американский инженер и изобрета­ тель, сын немецких эмигрантов. Он учился и защитил диссер­ тацию, посвященную электрической табулирующей системе, которую взяло на вооружение правительство для работы Бюро по переписи населения. Холлерит вошел в историю как созда­ тель этой системы, она носит его имя (электрическая табулиру­ ющая система Холлерита). Благодаря ему данные переписи на­ селения удалось обработать всего за год, что было невероятным для того времени, когда результаты предыдущей переписи едва успевали проанализировать к началу следующей. Известна даже дата изобретения им табулятора — 29 февраля 1888 года. Табулятор — это электромеханическая машина, пред­ назначенная для автоматической обработки (суммирования и категоризации) числовой и буквенной информации, записан­ ной на перфокартах. Результаты выдаются на бумажную ленту или специальные карты. И до появления электронно-вычисли­ тельных машин табуляторы использовались по всему миру. Та­ буляторы достаточно эффективно складывали и вычитали. С ум­ ножением и делением было сложнее: требовалось многократное

See more

The list of books you might like