MapReduce внутри, снаружи или сбоку от параллельных СУБД

         

MapReduce: модель и реализации


Программная модель MapReduce была придумана несколько лет тому назад в компании Google , и там же была выполнена первая реализация этой модели на основе распределенной файловой системы той же компании GFS (Google File System) . Эта реализация активно используется в программных продуктах самой Google, но является сугубо проприетарной и недоступна для использования вне Google.

Альтернативная, свободно доступная реализация Hadoop MapReduce (с открытыми исходными текстами) была выполнена в проекте Hadoop сообщества Apache . Она основана на использовании распределенной файловой системы HDFS (Hadoop Distributed File System) , также разработанной в проекте Hadoop. Реальную популярность MapReduce принесла именно реализация Hadoop в силу своей доступности и открытости, а широкое использование Hadoop MapReduce в различных исследовательских и исследовательских проектах приносит несомненную пользу этой системе, стимулируя разработчиков к ее постоянному совершенствованию.

Однако реализация Hadoop MapReduce полностью основана на спецификациях Google, и поэтому каноническим описанием технологии была и остается статья . Заметим, что при этом в документации Hadoop MapReduce используется терминология, несколько отличная от . В этом разделе из уважения к первенству Google я буду использовать термины из , а в следующих разделах там, где будет иметься конкретно реализация Hadoop MapReduce, будет использоваться терминология Hadoop (это не должно привести к путанице).



Содержание раздела