Как Большие данные изменят нашу жизнь

68
Большие данные
Как Большие данные изменят нашу жизнь

Влияние Больших данных на нашу жизнь

Если вы ищете новую работу на просторах рынка труда или все еще учитесь в школе и размышляете о своем будущем, задумайтесь о важной роли Больших данных и Науки о данных в росте современной экономики. Это касается не только деятельности программистов, математиков и статистиков — хотя этот сегмент достаточно силен — но и работы бизнес-стратегов, графических дизайнеров и многих других. На самом деле Большие данные будут оказывать влияние на многие аспекты нашей жизни, а Наука о данных потребует развития новых способов отношения ко всей информации, которая у нас накапливается.

Что же такое Большие данные?

Если вам казалось, что количество данных, поступивших с американских марсоходов на Землю, было огромным, то, вероятнее всего, вы еще о многом не подозреваете. Хранилища получаемых данных постоянно пополняются, иногда благодаря самым неожиданных источникам, среди них:

  • Открытые данные — бюджетные и социально-экономические (города, штаты/ провинции, страны), экологические данные (земля, океаны, погода, Астрономия), информация правоохранительных органов, а также спортивные данные;
  • Социальные сети – как публичные, так и частные данные;
  • Интернет вещи (IoE) — такую информацию дают датчики, отслеживающие физические характеристики или состояние окружающей среды (иногда крепятся к живым существам, даже к пчелам и коровам), домашние автоматизированные технологии и другие устройства, подключенные к интернету;
  • Личные данные – данные этого типа включают в себя частную и анонимную информацию из сферы общественного здравоохранения, личных записных книжек, списков дел в облаке и т.д.;
  • Другой пользовательский контент (UGC), такой как загруженные видеофайлы;
  • Коммерческие операции – как онлайн, так и личные анонимные публичные данные.

И это лишь краткий список источников, из которых будет собираться информация.
Готовы ли мы к столь огромным объемам данных в будущем? В ноябре 2013 года представители Белого дома заявили, обращаясь к колледжам, что страна нуждается в большом количестве специалистов по работе с данными, поскольку в будущем США и вся планета будут собирать гигантские объемы информации, и ей нужно будет как-то управлять.

Какое количество данных мы собираем и для чего?

Информация, которая станет частью Больших данных, будет поступать практически отовсюду и в любую точку, ведь желание и, следовательно, потребность иметь доступ к данным с помощью многих видов устройств (компьютеров, смартфонов, планшетов и т. д.) непрерывно растут. Даже данные, которые уже собраны — например, транзакции клиентов — будут относиться к большим данным, поскольку эта информация сохраняется в частных облачных системах хранения данных, а не на отдельных компьютерных серверах компании.

Большие данные
Как Большие данные изменят нашу жизнь

Каждую секунду через Интернет проходит больше данных, чем проходило 20 лет назад. В 2012 году ежедневно создавалось 2,5 эксабайта данных. Это 2,5 квинтиллиона байт = 2,5×10 15 (10 с 15 нулями). Ожидается, что в течение каждых 40 месяцев это количество будет расти вдвое, поэтому за короткие периоды времени удается собрать все больше и больше данных.

Так, американская компания «Wal-Mart» самостоятельно собирает 2,5 петабайта данных в час от транзакций, осуществляемых клиентами, хотя не всю информацию так уж необходимо хранить в Облаке.

Чтобы понять, о чем идет речь, стоит обратить внимания на некоторые измерения:

  • 1 зеттабайт (ЗБ) = 1000 эксабайт (ЭБ)
  • 1 ЭБ = 1000 петабайт (ПБ)
  • 1 ПБ = 1000 терабайт (ТБ)
  • 1 ТБ = 1000 гигабайт (ГБ)
  • 1 ГБ = 1000 мегабайт (МБ)

К 2015 году ожидалось, что такая мера измерения, как зеттабайты, будет наиболее широко используема. Чтобы было понятнее, просто представьте: в 2013 году носители вместимостью в один терабайт стали широко использоваться в компьютерах. К примеру, флэш-накопитель KingstonDataTravelerHyperXPredator 3.0 USB 1.0 TB имеет размеры 72 мм x 26.94 mm x 21mm = 40,733.28 кубических мм. Это примерно соответствует размеру среднего пальца взрослого мужчины, только чуть больше в ширину.

Поскольку 1 ЗБ равен 1 миллиарду терабайт, понадобился бы миллиард подобных носителей, и это количество заняло бы чуть более 1,412 (1,412.59) кубических футов, что равно объему куба с показателями около 11,22 футов в каждом измерении.
Кроме того важной характеристикой при работе с облачным хранилищем является не только вместительность, но и скорость работы. Однако, возвращаясь к вышесказанному, наиболее выгодным решением стал бы носитель на 100 терабайт, который на самом деле представляет собой множество подобных, но меньших по размеру носителей, собранных вместе. А с учетом их объемов, результат бы занял огромное количество места из-за объемов корпусов носителей. (В то время как одноприводные носители на 100 терабайт планируются быть введены в эксплуатацию в обозримом будущем, на момент написания статьи они недоступны).

Как удастся управлять всеми этими данными?

Помимо уже существующих источников данных, таких как упомянутые выше, новыми важными источниками станут результаты разработок в рамках концепции «интернета вещей», данные всех подключенных к системе “умных” устройств — умных часов и биомедицинских браслетов, устройств домашней автоматизации, умных датчиков, умных автомобилей и так далее. Все эти устройства будут коллективно производить огромное количество данных за короткие промежутки времени.

Например: у всемирно известной корпорации «Ford» в наличие имеется более 1 миллиона автомобилей, которые имеют доступ к системе AppLink. И у корпорации далеко идущие план – согласно им к 2014 году к ней должны были подключиться еще 3,4 миллиона авто. С такой машиной можно легко запускать различные приложения, включать и слушать радиостанцию «Пандора», оплачивать парковочные места и даже управлять системой домашней безопасности ADT.

И если представить, что эти 4,4 миллиона автомобилей ежедневно будут передавать данные объемом в 1 МБ (а это несложно представить, учитывая наличие датчиков, камер и прочего), то выходит, что Форд и его технические партнеры будут генерировать 1,6 эксабайта данных в год. (И разумеется, датчики парковочных мест уже генерируют свои собственные данные, в США, начиная с августа 2013 года, насчитывается не менее 35 городов с интеллектуальными парковочными счетчиками.

А теперь представьте себе, что все американские легковые автомобили (более 250 миллионов, зарегистрированных, начиная с 2010 года) были бы оснащены подобными “умными” технологиями. Начиная с 2010 года, в мире было зарегистрировано 1,15 триллиона автомобилей. Если в какой-то момент в будущем все автомобили в мире превратятся в “умные авто”, то количество данных, получаемых ежедневно, станет огромным, что и говорить о данных, получаемых в течение года.

Еще одним источником больших объемов данных в ближайшем будущем станут интеллектуальные датчики. Что неудивительно, ведь они уже в активном использовании. Так, в 2013 году их количество составляло около 65 млн., а к 2019 году по предварительным расчетам оно вырастет до 2,8 трлн.

Некоторые из этих датчиков располагаются на столбах неподалеку от лесных массивов, некоторые крепятся на животных или насекомых. Другие же располагаются на ветрогенераторах и газовых турбинах, домашних гаджетах и т.д. Например, на газовых турбинах компании GeneralElectric располагается сотня датчиков, производящих по 1000 единиц данных в секунду.

Еще один пункт связан с данными из области здравоохранения. Что будет, если через несколько лет количество людей, носящих умные часы или умные браслеты, которые генерируют в неделю полмегабайта или около 2 МБ в месяц данных о здоровье (пульс, температура и т. д.), достигнет 3 миллиардов? За месяц будет накапливаться 6 ЗБ данных, которые работники этой сферы смогут использовать в рамках профилактической медицины.

Конечно, существуют данные, которые медицинские работники собирают самостоятельно уже сейчас. В США расходы на здравоохранение составляют 17,6% ВВП (данные апреля 2013 года). Это составляет $ 2,6 трлн, что намного превышает $600 млрд, устанавливаемые нормой с точки зрения критериев размера страны и ее богатств. А, чтобы снизить затраты на здравоохранение, требуется обмен данными между поставщиками и возможность анализировать их на национальном уровне, а не своими личными силами.

К примеру, организация Kaiser Permanente сэкономила около $ 1 млрд, благодаря уменьшению количества посещений и лабораторных тестов и использованию общих данных для усовершенствования процесса лечения сердечно-сосудистых заболеваний.
Рынок данных, связанных со здравоохранением достаточно велик. Один только американский рынок оценивается в $ 300 млрд (апрель 2013). В промежутке между 2010 и 2013 годами были запущены по меньшей мере 200 новых стартапов, ориентированных на приложения для сферы здравоохранения. 40% из них держат в фокусе медицинское вмешательство и профилактические меры. По оценкам благодаря проведению анализа больших данных в целях своевременной профилактической деятельности возможно будет сэкономить около $300-450 млрд.

Базы данных NoSQL

Вопрос хранения таких огромных запасов данных (неважно, в облачном хранилище или на других носителях), несомненно является очень важным и сложным. И очевидно, что для этого недостаточно будет старых привычных систем, в некоторых случаях потребуется серьезная перепланировка архитектуры баз данных и методов управления ими. В последние годы появилось несколько новых систем доступа к базам данных (в совокупности их называют NoSQL), они изменили способ хранения, доступа и обновления массивных баз Больших данных. Среди них MongoDB, CouchDB, Hadoop, Cassandra и многие другие.

Facebook, например, изначально разработал систему Cassandra (теперь это проект с открытым исходным кодом, управляемый Apache) и использовал несколько новых методов управления базами данных, опираясь на то, что их веб-серверы структурированы и расположены по всему миру. По оценкам, Facebook обрабатывает не менее 350 ГБ данных в минуту, и эта информация поступает со всего мира. Когда в охвате весь мир, становится сложнее хранить данные обсуждений, особенное если веб-серверы также по всему миру. Отсюда и потребность в новых системах баз данных.

Наука о данных

В дополнение к новым системам баз данных для управления такими огромными объемами данных — независимо от того, хранятся ли они в облаке или на частных жестких дисках — требуются новые методы, охватывающие различные области, включая машинное обучение, искусственный интеллект и другие информационные технологии, а также моделирование, статистику и другие математические навыки, не говоря уже о бизнес-стратегии, которая демонстрирует, какую именно информацию искать и как ее использовать.

Большие данные
Как Большие данные изменят нашу жизнь

В совокупности эти и другие навыки и умения формируют “Науку о данных”. Говоря в двух словах, ученый-специалист по данным – это тот, кто следит за стратегией, которую использует организация в обращении с Наукой о данных.

Инженеры данных, в свою очередь, преобразовывают методы анализа данных в компьютерный код, чтобы добывать данные, находит образцы и значения согласно директиве ученого данных, а также производить возможно как можно более сложную инфографику (визуализацию данных), что делается с помощью компьютерного кода с использованием специальных библиотек кода.

Возникают опасения относительно объема знаний, необходимых для того, чтобы стать ученым данных, инженером данных или взять на себя другую профессию, связанную с Наукой о данных. Среди трудностей то, что, возможно, мы еще не готовы к управлению большими данными, и именно поэтому представители Белого дома предупреждают университеты о необходимости подготовки “ученых данных”.
В конце 2013 года в партнерстве между тремя известными университетами (участие приняли Нью-Йоркский университет, Калифорнийский университет в Беркли, а также Вашингтонский университет) был запущен проект по изучению данных стоимостью 37,8 млн. долл. Эти деньги, полученные от двух благотворительных организаций (Фонда Гордона и Бетти Мур и Фонда Альфреда Слоуна), помимо всего прочего будут использоваться «для продвижения Науки о данных в академических кругах» и разработки новых инструментов и методов. Проект был анонсирован на встрече, спонсируемой управлением науки и технологий Белого дома.

Как Большие данные повлияют на потребителей

Базы данных, хранящие в себе огромное количество информации, постепенно заполнят большую часть сфер жизнедеятельности. Хотя по большей части многие в них не разбираются или вовсе даже и не подозревают об их существовании, в потенциале они могут принести пользу всем людям на пути к “умной планете”. Наборы данных, которые когда-то формировались изолированно, теперь могут быть объединены и проанализированы на глобальной основе, что в итоге может привести к большей всеобщей вовлеченности.

Помимо удобства умных автомобилей и домашней автоматизации данные, собранные из этих и других источников, могут быть проанализированы, и полученные результаты способны даже потенциально спасти жизни. Большие наборы данных могут также использоваться для сокращения расходов на инфраструктуру и эксплуатацию, что потенциально снижает стоимость жизни.

Наконец, можно смело сделать вывод, что Большие данные не только изменят ход развития информационных технологий, но и даже создадут свою собственную глобальную экономику. Может звучать немного пугающе, однако благодаря такой экономической системе появится множество дополнительных рабочих мест, включая те, которые созданы специально для развития Науки о данных и для функционирования Интернета вещей.

Что такое Большие данные?

Вам понравилась статья? Напишите в комментариях ваше мнение!

Читайте также:
Сеть 5G: основные тезисы о новой технологии
Вред 5G: реальность или ложь?

Поделиться:

ОСТАВЬТЕ ОТВЕТ

Please enter your comment!
Please enter your name here