7 слов биг даты

7 слов биг даты

// Краткий справочник терминов, которые нужно знать, чтобы лучше ориентироваться в мире больших данных
Авторы: Светлана Соколова-Михайлова

Big Data

Как употреблять

С точки зрения транскрипции правильно говорить «биг дэйта», но если вы скажете «биг дата», криминала не будет — такой вариант произношения уже прижился, и, не исключено, именно он однажды войдёт в словари как нормативный вариант.

Почему data, а не datas, ведь «данные» — их много? Отвечаем: слово data является заимствованием из латинского языка, где множественное и единственное число образуются не так, как в английском, и data — это как раз форма множественного числа от datum. В общем, говорить «дата» можно, а «датас/дэйтас» нет. Русский эквивалент — «большие данные» — тоже уверенно вошёл в оборот, хоть он и в два раза длиннее.

«Большие данные — это когда больше терабайта», «большие данные — это объём информации, который невозможно обработать на одном компьютере», «большие данные — это новая нефть». Сколько людей, столько и определений big data. Формальной дефиниции не существует: неясно, где проходит граница между большими и просто данными.

Изначально понятие big data описывалось через три V: объём (volume) — очень много информации; скорость (velocity) — данные быстро увеличиваются и обрабатываются; многообразие (variety) — в работу идут и числа, и тексты, и графические образы, и другие виды данных, в том числе неструктурированных.

Потом количество V увеличилось: аналитики предложили добавить veracity — достоверность; viability — жизнеспособность; value — ценность для экономики, науки и общества; variability — переменчивость; visuali­zation — возможность образного представления.

Ясно одно: речь идёт не просто о горах данных, которыми зачем-​то забивают сервера научные лаборатории и коммерческие компании. Люди стремятся не только накапливать терабайты информации, но и извлекать из них пользу. Поэтому big data — это не столько про объём, сколько про подходы, инструменты, методы обработки данных, которые помогают добыть из тонн цифровой «руды» грамм «золота». Например, в квинтиллионах информации, собираемой телескопами NASA, найти следы новой планеты.

 

Data science

Как употреблять

Чаще всего используется английская версия — «дата сайнс» или «дэйта сайнс». Русский аналог — «наука о данных».

Это наука о методах анализа данных и извлечения из них ценной информации. Data science как академическая дисциплина формируется с начала 2010-х. Чтобы стать специалистом в этой области, необходимо прежде всего быть отличным математиком — знать матмоделирование, матстатистику, комбинаторику, теорию графов и многое другое. Ну и, конечно, уметь программировать. Надо заметить, пока спрос на дата-​сайентистов сильно превышает предложение (особенно в России).

 

Машинное обучение

Как употреблять

Русское словосочетание «машинное обучение» используется так же часто, как английское machine learning (что-​то вроде «мэшин лёрнинг»).

«Именно благодаря машинному обуче­нию поисковая машина понимает, какие результаты (и рекламу) показывать в ответ на ваш запрос. Когда вы просматриваете почту, большая часть спама проходит мимо вас, потому что он был отфильтрован с помощью машинного обучения. Если вы решили что-​нибудь купить на Ama­zon.com или заглянули на Netflix в поисках фильма, система машинного обучения услужливо предложит варианты, которые могут прийтись вам по вкусу. С помощью машинного обучения Facebook решает, какие новости вам показывать, а Twitter подбирает подходящие твиты» — с этих слов начинается книга «Верховный алгоритм» исследователя искусственного интеллекта Педро Домингоса.

 

Data mining

Как употреблять

Data mining переводится с английского как «обнаружение знаний в базах данных», что отражает суть понятия, но звучит уж слишком длинно. Поэтому принято говорить «дата/дэйта майнинг», «майнить» — извлекать данные, «намайнить» — извлечь.

Датамайнингом называют как технологии, так и процесс обнаружения в сырых данных неизвестной и полезной информации. Основу data mining составляют всевозможные методы классификации, моделирования и прогнозирования.

В научный обиход термин ввёл израильский математик Григорий Пятецкий-​Шапиро — ещё в 1989 году.

 

Облака

Как употреблять

Говорят как "облако"/"облачный«, так и cloud (например, cloud computing — облачные вычисления).

Держать в голове все задачи на день, месяц, год не очень-​то удобно, поэтому мы записываем их в блокнот или заносим на виртуальную доску. Точно так же наш компьютер не может хранить на своём диске сотни гигабайт видео, фоток и музыки — их приходится закачивать на такие сервисы, как Google Drive или Яндекс.Диск.

Мы имеем постоянный доступ к своим данным — через интернет, но физически они находятся на виртуальных серверах соответствующих компаний. При этом пользователь платит лишь за место в хранилище, а это гораздо дешевле аренды целого сервера. Естественно, для работы с большими данными «облака» просто необходимы.

 

Суперкомпьютер

Как употреблять

Не раздумывая и не сомневаясь. Это слово начало входить в русский язык ещё в конце 1960-х, когда в СССР появился первый суперкомпьютер БЭСМ‑6, способный выполнять 1 млн операций в секунду.

Речь идёт о вычислительной машине, значительно превосходящей по техническим параметрам и скорости обработки данных обычные персоналки. Как правило, она представляет собой систему высокопроизводительных компьютеров. Используется для решения задач в самых разных областях науки и технологий: от разработки атомного ­оружия до моделирования новых лекарств. ­Самые мощные российские ­суперкомпьютеры — «Ломоносов» и «Ломоносов‑2» — нахо­дятся в Московском государственном университете им. М. В. Ломоносова.

 

Интернет вещей

Как употреблять

Популярен и русский вариант, и английский — internet of things, а также аббревиатура IoT.

Вслед за компьютерами и смартфонами в Сеть вышли фитнес-​трекеры, чайники, стиральные машины, телевизоры, датчики и сенсоры. И всё же интернет вещей — это не включение света посредством брюк или удалённый спуск воды в унитазе через смартфон. Есть масса примеров внедрения технологий IoT в медицине, спорте, сельском хозяйстве, промышленности. Например, BigBelly — урна, которая предупреждает сотрудни­ков городской службы по уборке мусора, что её пора опорожнить. Локальная сеть анализирует данные, полученные от каждой урны, что позволяет планировать частоту вывоза бытовых отходов.

В 1990 году выпускник Массачусетского технологического института, один из отцов протокола TCP/IP Джон Ромки создал первую в мире интернет-​вещь. Он подключил к Сети свой тостер. Термин «интернет вещей» появился в 1999 году. Ожидается, что в 2020‑м IoT объединит более 30 млрд устройств.

 

Опубликовано в специальном выпуске журнала «Кот Шрёдингера» за октябрь 2017 г.

Подписаться на «Кота Шрёдингера»