Последние достижения в области высокоскоростной обработки данных дзз

      Комментарии к записи Последние достижения в области высокоскоростной обработки данных дзз отключены

Последние достижения в области высокоскоростной обработки данных дзз

Успехи в области компьютерных разработок и совершенствование съемочной аппаратуры разрешают разрабатывать принципиально новые методы сбора, анализа и обработки данных дистанционного зондирования Почвы (ДЗЗ). В частности, внедрение сенсоров последнего поколения, применяемых для наблюдения Земли и планет, на данный момент разрешает приобретать фактически постоянный поток данных высокой размерности. Таковой резкий скачок количества приобретаемой информации привёл к необходимости разработки новых способов обработки данных.

Разработка действенных способов вычисления, снабжающих преобразование громадных количеств данных ДЗЗ в дешёвую данные, имеет громадное значение для развития наук о Земле. Рост количества данных дистанционного зондирования длится, тогда как пользователям и международным организациям требуются действенные совокупности обмена этими данными и ресурсами.

В этих целях в последнии месяцы были совершены изучения по применению систем и методов скоростных вычислений (high performance computing — HPC) для ответа задач ДЗЗ. HPC предусматривают комплект встроенных вычислительных методов и сред программирования, каковые смогут существенно уменьшить ответ широкомасштабных задач, в т. ч. многих задач дистанционного зондирования.

К примеру, для многих существующих и перспективных областей применения ДЗЗ в науках о Земле и космосе, а также в разных видах разведки требуется обработка в настоящем времени либо в режиме, близком к настоящему времени. Соответствующие примеры включают экологические изучения, разведку, мониторинг и отслеживание опасностей, таких как пожары в лесах и на целине, прочие типы и нефтяные разливы химического/биологического загрязнения.

Применение совокупностей HPC в приложениях дистанционного зондирования за последние годы стало широко распространено. Мысль об применении стандартных компьютеров (commercial off-theshelf — COTS), объединенных в кластеры, трудящиеся как «вычислительные группы», стала причиной созданию многих разработок, основанных на многопроцессорных совокупностях.

Методы обработки данных ДЗЗ в целом отлично внедряются в многопроцессорные совокупности, складывающиеся из кластеров, либо сети центральных процессоров, но эти совокупности, в большинстве случаев, являются дорогостоящими и еле адаптируются к сценариям бортовой обработки данных, в которых критически ответственными факторами являются небольшой малая нагрузка и вес интегрированных компонентов, где требуется снизить вес нужного груза спутника и приобретать результаты анализа в настоящем времени, т. е. на протяжении сбора данных сенсором. Хорошую потенциальную возможность устранения разрыва между бортовым анализом данных ДЗЗ и анализом в настоящем времени предоставляют новые специальные аппаратные средства, такие как программируемые вентильные матрицы (field programmable gate arrays — FPGA) и графические процессоры (graphic processing units — GPU).

потребность приложений ДЗЗ в скоростных вычислениях смогут удовлетворить эти компактные аппаратные средства, пре- имуществами которых являются маленькой размер и довольно дешевизна если сравнивать с кластерами либо компьютерными сетями. Эти нюансы имеют громадное значение при определении задач дистанционного зондирования, для которых серьёзным параметром есть вес нужного нагрузки.

В оригинале статьи громадное внимание уделяется обзорам специальной аппаратной архитектуры и кластерным вычислениям, но мы в отечественном переводе ограничимся лишь двумя разделами: инфраструктуре распределенных вычислений и дискуссии главных задач.

ИНФРАСТРУКТУРА РАСПРЕДЕЛЕННЫХ ВЫЧИСЛЕНИЙ

Область распределенных вычислений очень сильно развилась за последние сорок лет, начиная с появления компьютерных сетей, в особенности со времени появления сети Интернет. Как раз инфраструктура распределенных вычислений (Distributed Computing Infrastructure — DCI) поменяла метод мышления общества. Активное применение DCI началось в области науки и образования, но скоро распространилось на другие сферы людской деятельности, такие как торговля, развлечения и национальное управление.

При таком стремительном расширении области применения неудивительно, что появилось множество разных научных терминов «и названий» для обозначения способов реализации DCI, используемых в разных областях деятельности, отраслями промышленности и различными группами пользователей, что время от времени приводит к путанице в терминологии.

Исходя из этого перед дискуссией DCI, применяемых для дистанционного зондирования, мы разглядим характеристики и фундаментальные понятия, нужные для и управления DCI. Это разрешит разобраться в изобилии названий, применяемых для разных разработок распределенных вычислений, и классифицировать эти технологии — от весьма несложных, внедряемых и применяемых отдельными исследователями, до больших и сложных совокупностей, внедряемых и применяемых интернациональными организациями.

Затем мы разглядим существующие DCI, используемые для дистанционного зондирования, в рамках теоретической эталонной архитектуры для спутниковых наземных совокупностей. После этого мы определим главные области задач для DCI будущего.

Терминология распределенных вычислений

В области распределенных вычислений используется много терминов, что время от времени может приводить к путанице. Перед началом дискуссии о влиянии данной области на ДЗЗ мы желали бы обсудить терминологию, т.е. то, как используемые термины связаны между собой и что они подразумевают в отношении возможностей и инфраструктуры и преимуществ систем распределенных вычислений.

Совокупности (и совокупности совокупностей) разрабатываются на базе разнообразных архитектур (архитектурных типов); эти архитектуры возможно реализовать, применяя опорные технологии и различные каркасы. Мы дадим описание и определение этих их связей и понятий. Мы кроме этого определим главные характеристики каждого из этих понятий, в той мере, в которой оно имеет отношение к неспециализированной цели проектирования, использования и построения совокупности распределенных вычислений, поддерживающей приложения по дистанционному зондированию и изучению Почвы.

Совокупность — это комплект элементов, объединенных с целью достижения цели либо результатов, которых нереально достигнуть, применяя эти элементы по отдельности. Совокупности создаются на базе задач и ряда целей. По окончании создания нескольких совокупностей, основанных на разных комплектах целей, возможно создать совокупность совокупностей (system of systems — SOS).

Совокупности разрабатываются на базе типов и понятий архитектур, и как раз развертываемая совокупность дает пользователям рабочие возможности с целью достижения поставленных целей.

Виртуальная организация (virtual organization — VO) — это совокупность совокупностей, складывающаяся из разных объектов, которыми владел к разным административным доменам (административный домен определяется как комплект ресурсов, управляемых провайдером сервисов, что осуществляет контроль доступ к этим сервисам и ресурсам, и их применение) и физически отделенных друг от друга. VO является структурой , разрешающую нескольким организациям совместно руководить доступом и ресурсами соответствующих пользователей к этим ресурсам.

Любой член VO имеет роль, определяющую функции, каковые он может делать, эти, каковые он может записывать и просматривать, и сервисы, каковые он может создавать и применять. Организаторы VO, т.е. обладатели местных данных и сервисов, смогут определять права доступа, которые связаны с отдельными ролями этих местных ресурсов. При предоставления доступа при помощи ролей совокупность владеет более высокой свойством к масштабированию, чем при предоставления доступа отдельным пользователям.

Архитектура — это комплект структур, разрешающий ориентироваться в совокупности, включающий составные элементы совокупности, связи между ними, и свойства таких связей и элементов. Архитектура обязана снабжать описание программных и аппаратных элементов, и их интерфейсов. Архитектура кроме этого обязана снабжать логическое описание составных элементов совокупности, взаимодействий и контекста системы между элементами, нужных с целью достижения целей либо задач совокупности.

Архитектурное описание находится на логическом функциональном уровне («что») и не предоставляет информации о конкретных методах реализации («как»). Инженер-разработчик совокупностей обязан привязать архитектуру совокупности к конкретным методам реализации, применяя опорные технологии и каркасы.

Разные архитектурные типы подчеркивают разные цели в совокупностях большого уровня. К примеру, облачные вычисления относятся к обеспечению вычислительными ресурсами (предоставление ресурсов по запросу), а распределенные вычисления — к интеграции (распределение физических ресурсов при наличии единственного логического интерфейса в рамках совокупности).

Стиль сервисно-ориентированной архитектуры (service oriented architecture — SOA) относится к предоставлению соответствующих процедур и сервисов, протоколов, инфраструктур и интерфейсов связи, снабжающих доступ к этим сервисам и их применение. Любой сервис имеет четко выраженную функцию, которая есть независимой и не зависит от контекста либо состояния вторых сервисов.

Примером SOA есть сенсорная сеть, в которую входят сервисы данных, предоставляемые провайдерами (сервисы провайдеров), и разные типы потребительских данных (сервисы потребительских данных). В сервисах потребительских разрешённых могут использоваться данные (эти уровня 0 по классификации NASA), предоставленные для разных целей, включая создание разных выходных данных, каковые со своей стороны становятся дешёвыми в качестве сервисов данных (к примеру, выходные эти уровней 1–3).

Программные каркасы снабжают главную структуру либо идею, лежащую в базе проекта совокупности, что снабжает блоки для построения совокупности либо приложения. В данном обзоре мы уделяем главное внимание программным каркасам, но аппаратные каркасы возможно разглядывать подобно. Каркасы предоставляют комплект библиотек либо классов в качестве фундаментальных блоков, и комплект правил либо руководств, относящихся к составу при помощи четко определенных интерфейсов и данных.

Каркасы снабжают управление исполнением программы, поведение по умолчанию, другие конструкции и расширяемость, нужные для реализации проекта. Каркасы употребляются для внедрения связующего ПО, применяемого как «клей» для скрепления физического слоя (конкретные разработки исполнения и базисное аппаратное обеспечение) с логическим слоем.

Примеры каркасов: комплект инструментов Globus Grid и распределенная файловая совокупность с открытым исходным кодом Grid Data Farm (Gfarm). Каркас Apache Hadoop снабжает исполнение приложений на громадных компьютерных кластерных совокупностях при помощи реализации вычислительной парадигмы Map/Reduce.

Опорные разработки — это главные компоненты (аппаратное и ПО) и протоколы, разрешающие внедрять библиотеки и каркасы, высказывающие этот архитектурный тип. Примеры опорных разработок: веб-сервисы (SOAP), HTTP/HTTPS, сетевые протоколы (TCP, IP), коммерческие аппаратные средства, разрешающие создавать кластеры, скоростные волоконно-оптические сети и т. д.

Термин «инфраструктура распределенных вычислений» (DCI) относится к комплекту логических, физических и организационных элементов, нужных для и функционирования распределенной совокупности. Такие совокупности смогут быть распределены логически и физически; цель большинства DCI пребывает в четком разъяснении этого различия пользователю через понятие виртуализации.

В следующих разделах мы используем термин «эти» в нескольких разных контекстах. Данный термин может относиться к данным наблюдения Почвы (от данных сенсора до выходных данных с высокой степенью обработки, таких как глобальные карты температуры поверхности моря); он кроме этого может относиться к информации, передаваемой в рамках администрирования и управления DCI.

Мы не будем определять значение этого термина в каждом конкретном случае, т. к. предполагаем, что это значение светло из контекста. Существуют кроме этого метаданные («информацию о данных»), при дискуссии которых мы будем конкретно применять термин «метаданные».

Возможности, преимущества и масштабирование инфраструктуры распределенных вычислений (DCI)

Возможности.

Совокупности дистанционного зондирования Почвы должны владеть конкретными возможностями, снабжающими достижение неспециализированных целей совокупности (к примеру, представление калиброванных космических снимков с определением географического расположения), но они кроме этого должны включать комплект неспециализированных организации инфраструктуры и возможностей управления. Функция, определенная для администраторов возможностей и поддержания пользователей, обязана поддерживаться базовыми технологиями и каркасами.

Одной из наиболее значимых возможностей, предоставленных в DCI, есть разграничение логической и физической организации и функций (виртуализация). Это разграничение освобождает приложения и пользователя от необходимости управления инфраструктурой и ресурсами, разрешая им сосредоточиться на конкретных делаемых операциях.

Примеры типов возможностей, нужных для DCI, приведены ниже. В данном обзоре рассматриваются как пользователи-люди, так и клиенты-приложения (интерфейсы прикладного программирования). Для упрощения дискуссии мы будем использовать термин «клиент» как к пользователям-людям, так и к клиентам-приложениям.

Не смотря на то, что возможности перечислены раздельно, практически в любое время существует потребность в их взаимной поддержке и взаимодействии.

  • каталоги и Открытие ресурсов. Требуется, дабы возможно было легко обнаружить ресурсы в совокупности DCI. Ресурсом в большинстве случаев считается любой тип данных либо сервисов. В целях облегчения поиска ресурсов для пользователей они должны быть размещены в каталогах в дешёвых для поиска базах данных с четко языками запроса и определёнными интерфейсами. Каталоги, наровне со синтаксисом запроса и связанными метаданными, разрешают клиентам обнаружить и приобретать доступ к ресурсам на базе логического тождества. В следствии запроса возможно взята ссылка либо карта от логического тождества до одного либо нескольких вероятных физических объектов, к каким клиент может получить доступ.
  • Функциональная совместимость предоставит — шанс работы с возможно разнородными сохраненными данными, способами и подходами реализации в разных административных доменах (обычный пример: эти разных форматов, применяемые в разных инфраструктурах облачных вычислений, предоставленных разными провайдерами). Эта возможность есть фундаментальным требованием для совместного применения данных и доступа через разные домены. Она обязана снабжать функциональную совместимость семантики, преобразования и перевода данных, мест происхождения данных и безопасности в разных совокупностях. Для применения данной возможности требуется разработка процедур и инструментов; ее реализация должна быть прекрасно понятна пользователям.
  • Управление сервисами/заданиями/процессами. Для совместного управления разными ресурсами требуется свойство руководить запросами на сервисы, процессами и заданиями, определяемыми разными клиентами. Для применения данной возможности требуется разработка механизмов распределения ресурсов, талантливых обрабатывать запросы на сервисы, создавать экземпляры сервисов, располагать по приоритетам запросы на сервисы и отвечать на соглашения об уровнях сервисов (это может предусматривать определение сроков исполнения заданий).
  • предоставление экземпляров и Создание ресурсов (распределение) ресурсов. Для применения данной возможности объединяются разные возможности распределенных и облачных вычислений. Во многих случаях нежелательно выделять ресурсы для одного приложения, значительно чаще требуется снабжать предоставление и распределение ресурсов по запросу (по мере поступления запросов). Для этого требуется свойство поддержания баланса между поступлением ресурсов и запросами, для чего смогут потребоваться модели, прогнозирующие потенциальные всплески спроса, и способы получения доступа к дополнительным ресурсам лишь при, в то время, когда они нужны. Задача распределения ресурсов весьма сложна, и активная область изучений, разрешающих отыскать оптимальные подходы, основывается на условиях и различных ограничениях.
  • Мониторинг. Эта возможность относится к нескольким уровням операций DCI. Должна быть обеспечена надёжность и доступность базисной совокупности, дабы предоставлять клиентам ресурсы и сервисы, в то время, когда они нужны. Требуются инструменты не только для мониторинга ресурсов в пределах данного административного домена, вместе с тем для их распределения по разным доменам (интеграция данных управления DCI). Неточности и отказы, которые связаны с ресурсами, должны проверяться и передаваться чтобы не было обстановок с дефицитом ресурсов. Клиентам требуется минимальное уровень качества сервисов для многих задач либо составление конкретных соглашений об уровне сервиса (service level agreements — SLA). В данной связи требуется свойство осуществлять мониторинг сервисов и ресурсов. Такие административные возможности мониторинга разрешают разным системным администраторам DCI следить за статусом и общим состоянием местных системы и доменов в целом. Наконец, свойство осуществлять мониторинг неспециализированной безопасности совокупности имеет главное значение с учетом ландшафта угрозы, что существует и расширяется .
  • Уведомление о событиях. Эта функция имеет главное значение для обеспечения асинхронной связи разных элементов DCI-совокупности. Уведомления о событиях распространяются в приложениях DCI в разных целях, к примеру, регистрация, мониторинг и другие события и проверка, которые связаны с трансформацией состояния ресурса либо сервиса. Вероятные события включают результаты вычисления, обновления статуса, исключения и ошибки, и степень исполнения процесса клиента.
  • Безопасность. Тяжело переоценить важность обеспечения доступности, безопасности и целостности информации как фундаментальной возможности в любой совокупности DCI. Фактически все нюансы работы совокупности связаны с обеспечением безопасности. Это нужно чтобы обеспечивать клиентам целостность их данных и результатов анализа. Главные компоненты включают авторизации клиентов и механизмы идентификации и процессов. Эти способности должны снабжать сложные перекрестные операции разных доменов, к примеру, регистрацию во всей сети методом однократного ввода пароля, при поддержании безопасности совокупности. Информационная целостность — это свойство защитить от несанкционированного трансформации либо уничтожения информации. Учитывая важность данных наблюдения Почвы для многих качеств национальной и интернациональной политики, мы можем заявить, что происхождение и целостность данных имеют критическое значение.
  • проверки и Отчётность. С учетом того, что многие ресурсы, применяемые для построения DCI, поступают из разных источников, включая коммерческие объекты, нужно отслеживать применение ресурса для платных сервисов. Внутренние средства проверки в любой совокупности должны отслеживать схемы применения, дабы выяснить области, где смогут потребоваться дополнительные ресурсы либо области, где ресурсы употребляются не хватает полно.

Масштабирование.

Серьёзным нюансом DCI есть свойство масштабировать совокупность в ответ на трансформацию требований системы и требований ресурса. Для оценки этих трансформаций нужно количественно выяснить характеристики совокупности в отношении рабочих параметров либо параметров масштабирования. Параметры масштабирования касаются работы разных ресурсов и сервисов, предоставляемых совокупностью.

К примеру, время ожидания довольно часто есть главным рабочим параметром, поскольку для многих совокупностей требуется практически постоянная помощь, как при борьбы со стихийными бедствиями. В таких совокупностях возможно задано время ожидания для времени прибытия данных от сенсоров либо результатов вычислений прогнозных моделей.

Совокупность должна быть способна снабжать мощность и пропускную способность сети для поддержания требований времени ожидания, в особенности в течение периодов, в то время, когда требования ресурса изменяются. В SOA время, требуемое для завершения разных запросов на сервисы, есть ответственной рабочей чёртом, потому, что оно может зависеть от множества факторов, таких как отбор и внутренние сообщения образцов/ограничения сервисов сенсора, ограничения ресурса для конкретного сервиса, диапазон и использование частот.

Совокупности в большинстве случаев разрабатываются на базе конкретных требований к рабочим чертям, каковые смогут кроме этого включать потенциальный рост спроса со временем. Серьёзным причиной есть число клиентов, которое может варьироваться от мелких групп (?10 пользователей) до широкомасштабных VO (~ 1000 пользователей).

Преимущества.

Применение DCI для приложений и наблюдения Земли дистанционного зондирования снабжает много плюсов благодаря четко типам архитектуры и определённым концепциям, и их реализации с применением стандартных опорных технологий и каркасов. Концепция виртуализации сенсоров лежит в базе концепции сенсорной сети, вышеупомянутой.

Концепция виртуализации есть одним из основных преимуществ DCI. Ранее мы упоминали концепцию виртуальной организации, но концепция виртуализации имеет фундаментальное значение для определения метода, которым связующее ПО, снабжает связь между физическим устройством и логическим интерфейсом пользователя.

Цель пребывает в том, дабы высвободить пользователей от управления ресурсами, нужными для исполнения процесса, и разрешить им сосредоточиться на конкретных научных изучениях. Пользователи смогут логически обнаруживать и приобретать доступ к данным либо вычислительным ресурсам и включать их в процесс, не заботясь об их физической реализации.

Конечная цель, очевидно, пребывает в предоставлении этих возможностей по запросу и удовлетворении требований пользователей, которые связаны с рабочими сроками и характеристиками. Концепция виртуализации ресурсов возможно применена к любому типу ресурсов — от вычислительной инфраструктуры (CPU, хранение, частота) до источников данных, таких как приборы и сенсоры. Сенсоры смогут быть виртуализированы так, дабы возможности измерения и дистанционного зондирования в месте нахождения были дешёвы в виде сервисов.

Пользователи смогут определять личные потребности в данных, применяя «естественный» синтаксис и семантику, каковые совокупность потом показывает в конкретный процесс, дабы выполнить данный запрос на эти (к примеру, пользователь задает ограничивающий пространственно-временной прямоугольник с требованиями к пространственно-временному и отбору проб и спектральному разрешению, а совокупность определяет, какой сенсор может выполнить данный запрос наилучшим образом).

Виртуализация кроме этого разрешает пользователям искать и обнаружить данные и параметры наблюдений, основанные на чертях метаданных, специально предназначенных для для того чтобы анализа. Для этого возможно выполнен поиск с применением пространственного (географического) и временного ограничивающего прямоугольника, черт отбора проб (пространственных и временных) и замеров либо геофизических параметров. Дополнительное преимущество виртуализации содержится в возможности исполнения модернизации без ущерба либо фактически без ущерба для доступности.

Еще одно преимущество DCI — функциональная совместимость, достигаемая при помощи реализации стандартов и использования архитектуры для интерфейсов и протоколов, таких как интерфейсы и протоколы в SOA. Такая помощь стандартов снабжает расширяемость и комплексность, создавая инфраструктуру, отвечающую функциональным требованиям, ранееуказанным.

Дополнительные особенности, такие как быстрое развёртывание и повторное использование, кроме этого являются ответственными преимуществами подхода DCI. Громадное значение имеет свойство упорядочивать все нужные ресурсы по запросу на базе инициирующего события, к примеру, стихийного бедствия, для того чтобы как ураган либо землетрясения. Такая совокупность может поддерживать готовность с ограниченным применением ресурсов до тех пор, пока не потребуется их полное применение.

Так, эти ресурсы не «простаивают», а смогут употребляться вторыми приложениями, пока не потребуется доступ, определяемый по схеме приоритетов (события бедствий приобретают более большой приоритет, чем плановые научные изучения).

Дополнительное преимущество применения сервисно-ориентированных архитектурных концепций, в сочетании с верно выбранными технологиями и каркасами реализации, содержится в способности создавать так именуемую среду помощи программирования (Problem Solving Environment — PSE). PSE предназначена для каркаса, нацеленного на решение конкретного класса неприятностей в пределах данной научной области.

Каркас воображает инструменты на естественном языке конкретной научной дисциплины так, дабы пользователь имел возможность упорядочить эти ресурсы при весьма слабо выраженной кривой изучения. Каркас может содержать весьма замечательные средства анализа и обработки данных, объединенные с ресурсами и основными вычислениями данных методом, прекрасно понятным для пользователя.

Теоретическая эталонная архитектура наземной совокупности для ДЗЗ

Сейчас, по окончании четкого определения фундаментальных терминологии и возможностей DCI, мы используем системный подход для идентификации возможностей, нужных для организации сбора данных с орбитальных и наземных сенсоров, формирования выходных данных, их применения громадным распределенным сообществом управления и пользователей предприятием DCI в целом. Для этого мы воображаем теоретическую эталонную архитектуру спутниковой наземной совокупности, продемонстрированную на рис.

1, реализованную в виде сервисно-ориентированной архитектуры, где доступ пользователя и администратора осуществляется через инструменты типа браузера. Главным нюансом данной эталонной архитектуры есть разделение сервисов на предметные сервисы (domain services) и сервисы компании (enterprise services). Предметные сервисы — это сервисы, предназначенные для управления спутниковыми совокупностями (и, быть может, вторыми сенсорными совокупностями), к примеру, своевременное управление, определение орбиты, определение задач/замыслов/ расписаний (для орбитальных ресурсов), телеметрия и т. д. Своеобразные изюминки таких сервисов не входят в сферу рассмотрения данной работы, исходя из этого мы не приводим подробного описания этих сервисов.

Рис. 1. Теоретическая архитектура спутниковых наземных совокупностей

К предмету дискуссии данной работы конкретно относятся сервисы компании, снабжающие организации и возможности использования всех остальных качеств инфраструктуры. Четко выделяются сервисы для внесения в обнаружения и каталоги ресурсов, т. е. данных и сервисов. Сервисы процесса и исполнения осуществляют контроль срок применения отдельных экземпляров сервисов, и последовательности исполнения сервисов и все нужные передачи данных.

Сервисы мониторинга, уведомления о событиях и сервисы отчетности употребляются для оценки работы совокупности, сохранения журнала и мониторинга ошибок испытаний. Все эти сервисы смогут быть динамически распределены из хранилища ресурсов, т.е. облака, в рамках управления ресурсами.

Кое-какие другие сервисы охватывают остальные нюансы инфраструктуры. К ним относятся такие сервисы, как надежная передача сообщений, процедуры и безопасность управления, делаемые во всей пользовательской среде. направляться подчернуть, что все эти сервисы практически смогут быть распределены по разным участкам.

Надежная передача сообщений свидетельствует, что , если сообщение не удалось передать, гарантируется создание состояния неточности, т. е., иначе говоря сбои связи не смогут остаться незамеченными.

инфраструктура и Механизмы безопасности снабжают помощь конфиденциальности и целостности статических (находящихся на диске) и динамических (находящихся в сети) данных. Для обеспечения целостности употребляются другие методы и контрольные суммы. К операциям, конкретно делаемым большинством пользователей, относятся авторизация и идентификация.

В распределенной окружающей среде управление учетными данными пользователей требует совместного управления идентификацией и управления виртуальной организацией. Совместное управление идентификацией предусматривает обоюдное доверие пользователей разных организаций.

Виртуальные организации (VO) снабжают механизм, при помощи которого ролевая авторизация возможно осуществлена на базе его роли и кода пользователя в VO, которая может охватывать пара административных доменов. VO кроме этого возможно использована для управления неспециализированными данными и неспециализированными инструментами со стороны участников VO.

Управление компанией в большинстве случаев осуществляется при помощи процедур. Эти процедуры смогут выполняться администраторами либо (машинально) совокупностью. Процедуры применения по большей части инициируются при помощи ролевой авторизации пользователей. Кроме этого существуют процедуры управления совокупностью, определяющие длительность обработки задач, тиражирование данных на участках и т. д.

Отдельный класс составляют сервисы виртуализации данных (data virtualization services). Эти, организованные орбитальными сенсорами, должны быть собраны, откалиброваны, внесены в каталоги, заархивированы и предоставлены для доступа зарегистрированным пользователям. Базы данных употребляются для поддержания своевременных данных, таких как планирование задач, телеметрия, контроль, информацию о положении на орбите.

Большая часть пользователей уделяют главное внимание выходным данным и соответствующим метаданным. Эти каталоги смогут быть массивными и распределенными. Эти кроме этого должны быть заархивированы на неизвестное время.

Следовательно, оптимальным методом есть виртуализация данных, при которой доступ к данным осуществляется через их атрибуты, т. е. пользователям не нужно знать физическое расположение данных, формат хранения и т. д. Для этого требуется создание информационной архитектуры, определяющей онтологии и схемы метаданных. Виртуализация данных в информационной архитектуре облегчает определение места происхождения данных, познание развития данных и их долговременное сохранение.

Помимо этого, направляться подчернуть, что виртуализация данных кроме этого облегчает виртуализацию сенсоров. Доступ к данным по атрибуту возможно применен к тем данным, каковые будут организованы сенсорной сетью, и к ранее собранным и заархивированным данным. Данный подход снабжает чистый логический интерфейс для запросов, использования и сбора данных сенсора, избавляющий пользователя от необходимости изучать технические детали работы дистанционной сенсорной совокупности.

Многие из указанных неприятностей обсуждаются более детально в контексте геокосмических данных в работе.

Обзор главных примеров инфраструктуры распределенных вычислений (DCI)

Упомянутая эталонная архитектура предоставляет контекст для оценки и обсуждения главных примеров DCI, в которых используется дистанционное зондирование Почвы.

Проект Matsu. Цель проекта Matsu пребывает в том, дабы по запросу снабжать возможность оценки бедствий (основанной на облачных вычислениях) при помощи сравнения космических снимков. Данный проект предусматривает сотрудничество исследователей при помощи Открытого консорциума по облачным совокупностям (Open Cloud Consortium — OCC).

OCC руководит распределенной инфраструктурой типа облака, ведущие узлы которой снабжают участники OCC и участники коммисии по громадным количествам данных. Эта инфраструктура предоставляет собой облако на базе платформы Eucalyptus, содержащее более 300 ядер, 80 ТераБайт памяти, и сетевые соединения с пропускной свойством 10 Гбит/с (с возможностью апгрейда до 80 Гбит/с), сетевое оборудование для которого предоставлено компанией Cisco.

Исходный сценарий обработки данных для проекта Matsu воображает оценки наводнений и средство прогноза в Намибии. На базе довольно несложных мэшапов Web 2.0 в проекте Matsu реализована сенсорная сеть, осуществляющая сбор данных сенсоров из множества источников, включая шесть намибийских речных станций. Matsu кроме этого приобретает эти из сетевых источников, таких как координации бедствий и Глобальная система предупреждения (Global Disaster Alert and Coordination System), и сетевые ежедневные маски наводнения, организованные центром обработки данных MODIS (НАСА).

Что еще более принципиально важно, пользователи Matsu смогут предложить для сенсоров Hyperion и ALI спутника EO-1 задачу по сбору гиперспектральных изображений для областей интереса. По окончании сбора данных снимки подвергаются радиометрической и геометрической коррекции и сохраняются на облаке OCC. Вероятно проведение сравнения изображений в целях оценки наводнения с применением Hadoop.

Окончательные эти предоставляются конечным пользователям, применяющим стандартные инструменты сетевого картографирования OGC и обработки охвата сетью.

GENESI-DR и GENESI-DEC. Начальная цель проекта GENESI-DR (Ground European Network for Earth Science Interoperations — Digital Repositories; Наземная европейская сеть для сотрудничества исследователей Почвы — цифровая база данных) пребывала в создании громадной распределенной инфраструктуры данных для удовлетворения потребностей интернациональных сообществ. Последующий проект, GENESI-DEC (Digital Earth Communities — Сообщества цифровых изучений Почвы), выполняется до 2012 г. с целью усиления помощи конкретных сообществ пользователей и других существующих архивов данных.

Применяя веб веб-и обычный портал-сервисы API, пользователи смогут регистрировать личные комплекты разрешённых и предоставлять к ним доступ для других исследователей Почвы. самая сложной задачей проекта GENESI-DR было внесение в каталоги неоднородных комплектов данных; эта задача решалась методом создания правил метаданных на базе черт метаданных для INSPIRE (Европейской инфраструктуры пространственных данных).

Последняя была представлена в виде каркасной модели описания ресурсов, применяющей неспециализированные словари. Благодаря интеграции разработки OpenSearch GENESI-DR поддерживал геокосмические и временные поисковые запросы, основанные на тексте нестандартного формата либо на конкретных параметрах метаданных. По завершении проекта GENESI-DR были дешёвы более двенадцати европейских сайтов и более пятидесяти комплектов данных (включая спутниковые комплекты данных).

По окончании внедрения базисной инфраструктуры проекта стало ясно, что нужна модель авторизации, снабжающая соблюдение прав интеллектуальной собственности, определенных обладателями данных. Кроме этого потребовалось обеспечить возможность регистрации методом однократного ввода пароля во всей сети цифровых баз данных, применяемых в различных административных доменах, в целях помощи перекрестных процессов.

Ответ этих задач в проекте GENESI-DEC осуществлялось методом применения стандарта OpenID на базе концепции виртуальной организации. Кроме работы с разными сообществами, GENESI-DEC входит в ассоциацию, пропагандирующую концепцию совместного применения данных для неспециализированной инфраструктуры GEOSS.

G-POD. Цель проекта распределенной обработки данных по запросу (Grid Processing on Demand — G-POD) содержится в обеспечении обработки данных наблюдения Почвы по запросу. Проект G-POD был запущен Космическим агентством ЕС в 2002 г. с применением гридархитектуры, но потом был использован подход на базе облачных вычислений.

G-POD предоставляет собой портал, при помощи которого пользователи смогут искать данные в каталоге. К требуемым комплектам данных можно получить доступ через разные команды. Проект содержит комплекты данных, взятых со спутников ERS-1 и ERS-2, и от сенсоров Envisat ASAR и MERIS.

Портал предоставляет сервисы, в которых пользователь может применять алгоритмы и различные инструменты для обработки комплектов данных от уровня 0 (данные сенсора по окончании удаления помех связи) до отметки 3 (геофизические переменные с радиометрической и геометрической калибровкой, привязанные к однородной пространственно-временной совокупности координат). По окончании запуска заданий обработки возможно осуществлять управление этими заданиями и контролировать их статус, т.е. какие конкретно из них поставлены в очередь, выполняются, закончены и т. д.

G-POD был изначально выстроен посредством пакета Globus. Под эргономичным портальным интерфейсом в проекте G-POD употреблялись функции GridFTP для передачи комплектов данных и GRAM для представления заданий на предварительно сконфигурированных вычислительных ресурсах. Не обращая внимания на классическую схему процесса с передачей данных в виде пакетов, G-POD снабжал возможность обработки по запросу.

Потом ESA применяла Terradue Srl для коммерциализации и расширения G-POD. В следствии данной работы в G-POD стало возмможно применять при необходимости вычислительные узлы Amazon EC2 и блоки хранения S3 без внесения значительных трансформаций в интерфейс пользователя. Иначе говоря портал перемещает эти наблюдений Почвы в блок хранения S3, извлекает из него и руководит сервисами, подобными объектам EC2, наряду с этим воображая пользователю тот же интерфейс.

Это хороший пример того, что тучи употребляются в первую очередь для предоставления ресурсов. На рис. 2 продемонстрирована страница сервисов G-POD. Не считая портала, доступ к сервисам G-POD обеспечивается кроме этого через HTTP и SOAP.

Пользователи G-POD приобретают доступ по сертификатам PKI, производимым администраторами G-POD.

Рис. 2. Страница сервисов G-POD

GEO Grid. Цель GEO Grid пребывает в обеспечении возможности оценки бедствий; данный проект может принимать во внимание прототипом своевременной совокупности мониторинга стихийных бедствий. GEO Grid объединяет грид-разработку, снабжающую надежное управление совместными ресурсами, со стандартными геокосмическими инструментами, применяемыми для множества приложений, сосредоточенных на применении разных источников данных дистанционного зондирования.

Проект GEO Grid выполняется Исследовательским центром грид-разработок Японского национального университета передовых разработок информатики при денежной помощи японского правительства. GEO Grid принимает эти ASTER и MODIS и сохраняет эти сведенья, применяя связующее ПО сетки данных Gfarm, что разрешает достигнуть требуемой масштабируемости и распределения. Доступ к GEO Grid, как и ко многим вторым совокупностям, возможно взять через портал.

Но GEO Grid предоставляет, наровне с набором разработки порталов (portal development kit — PDK), набор разработки сервисов (service development kit — SDK). PDK разрешает пользователям создавать настраиваемые порталы на базе готовых компонентов из библиотеки, включающей модули управления процессами, инструменты доступа к данным и веб-сервисы OGC. SDK разрешает пользователям создавать личные сервисы, каковые смогут быть зарегистрированы и использованы совместно с другими пользователями и сайтами. Многие из этих сервисов основаны на обширно используемых сервисах OGC, предоставляющих геокосмические эти, к примеру, WMS, WFS, WCS, и т. д.

GEO Grid применяет инфраструктуру безопасности сетки (GSI) в сочетании с концепцией VO для реализации масштабируемого механизма авторизации для разных групп пользователей. На данный момент GEO Grid трудится с VO, созданными для «геологических угроз», и для «бизнеса, IT и ГИС».

Для иллюстрации возможностей GEO Grid разглядим виртуальную организацию Сети полевых наблюдений (Field Observation Network — FON), предназначенную для аттестации и поддержания калибровки орбитальных сенсоров, при помощи сравнения орбитальных данных с другими источниками данных, к примеру, наземными наблюдениями. Как продемонстрировано на рис.

3, виртуальная организация FON объединяет эти, полученные из сети наземных обсерваторий (цифровые эти, захватываемые камерой типа «рыбий глаз»), эти полусферического спектрорадиометра и эти солнечного фотометра. FON VO руководит наземными сенсорами на базе стандарта Сервиса наблюдений сенсоров OGC (SOS). Применяя портальные сервисы GEO Grid, пользователи смогут оценить свойства и точность орбитальных сенсоров.

Рис. 3. Виртуальная организация сети полевых наблюдений GEO grid

GEOSS. Цель проекта GEOSS (Global Earth Observation System of Systems — Глобальная совокупность совокупностей наблюдения Почвы) пребывает в развертывании совместной интернациональной инфраструктуры для совместного применения данных наблюдения Почвы во всем мире. Проект поддерживает девять социальных сфер: контроль стихийных бедствий, здравоохранение, энергетика, климат, вода, погода, экосистемы, сельское хозяйство, биологическое разнообразие.

Проектом GEOSS командует Несколько наблюдения Почвы (Group on Earth Observations — GEO) , интернациональное объединение организаций, формирующих и потребляющих эти наблюдения Почвы. Текущий рабочий замысел, определенный для периода 2009–2011 гг., нацелен на построение интегрированной неспециализированной инфраструктуры GEOSS (GEOSS Common Infrastructure — GCI). На рис. 4 продемонстрирована структура GCI в виде сервисно-ориентированной архитектуры.

Комплект реестров употребляется для компонентов сервиса, стандартов и требований пользователей функциональной совместимости. Тут группы пользователей со всех стран смогут регистрировать личные комплекты данных и сервисы.

Рис. 4. Неспециализированная инфраструктура GEOSS

В целях облегчения поиска ресурса Центр обмена информацией GEOSS делает глобальный поиск GEOSS на базе зарегистрированных метаданных для всех типов ресурсов, к примеру, совокупностей, сервисов, данных, документов либо конкретных типов файлов. Доступ ко всем компонентам совокупности осуществляется через портал при помощи ввода текста нестандартного формата, просмотра социальных сфер либо выбора расположения на интерактивном глобусе.

В качестве участника GEO Комитет по спутникам наблюдения Почвы (Committee on Earth Observation Satellites — CEOS) предоставляет космический сегмент для этого проекта и эти, вносимые в каталоги в этих реестрах. Участники CEOS руководят спутниковыми программами, формирующими эти сведенья в постоянном режиме.

В целях помощи GEOSS CEOS создал концепцию виртуальных группировок спутников, при которой предусмотрено скоординированное управление наземными сегментами и спутниками, применяемыми одной либо несколькими организациями, что разрешит делать неспециализированные требования наблюдений Почвы. Для этого GEO и CEOS выполняют последовательность совместных мероприятий (CEOS-GEO) в рамках десятилетнего замысла GEOSS и текущих рабочих замыслов на 2009– 2011 гг. Замысел включает виртуальные группировки спутников и правила совместного применения данных в дополнение к помощи конкретных социальных сфер, таких как глобальный сельскохозяйственный мониторинг.

Обсуждение главных задач

Не смотря на то, что в приведенном обзоре были показаны прекрасно себя зарекомендовавшие совокупности, в данной области все еще остается много нерешенных задач. Для масштаба и определения диапазона этих задач мы используем еще один главный показательный пример. В 2005 г. ураган «Катрина» унес более 1500 судеб и привёл к материальному ущербу более чем 81 млрд долл.

За четыре дня до успехи урагана берега разные совокупности прогноза урагана давали результаты, продемонстрированные на рис. 5.

Рис. 5. Прогнозы пути следования урагана «Катрина» за четыре дня до подхода его к берегу в штате Луизиана. Тёмная линия обозначает фактический маршрут

Разумеется, что прогнозы были ненадежны за четыре дня до урагана и начали приближаться к «истине» лишь за два дня до бедствия. Что же требуется для развёртывания и построения HPC-совокупности, которая обеспечит смягчение последствий бедствия?

При рассмотрении таковой совокупности делается ясно, что ее создание воображает весьма непростую проблему как с научной, так и с своевременной точки зрения. Для решения базисных научных неприятностей потребуется значительное увеличение знаний о функционировании атмосферных и океанских совокупностей в рамках неспециализированной совокупности Почвы, и разработка соответствующих вычислительных моделей, совершенно верно воображающих эти совокупности. Масштаб этих моделей может "настойчиво попросить" создания более широкомасштабной вычислительной инфраструктуры если сравнивать с существующими.

Как пример разглядим требования DCI для отслеживания урагана с момента зарождения до полной силы. DCI обязана владеть свойством усваивать громадный количество данных в настоящем времени, включая наблюдения со спутников, наземных систем и воздушных судов. Эти сведенья должны быть переданы в модель прогноза в настоящем времени для прогнозирования пути урагана, а после этого в системы обеспечения и различные организации ответов.

Результаты этих моделей отслеживания кроме этого должны быть переданы в модели выпадения осадков для оценки скоплений воды, которая должна быть передана в модели наводнений, дабы выяснить территории угрозы для жизни и имущества людей. С целью достижения большой эффективности это должно быть сделано в объединенных странах и организациях, дабы обеспечить немедленный доступ к критически ответственной информации для чиновников, каковые будут руководить маршрутами эвакуации, заложением мешков с другими мероприятиями и песком по смягчению бедствия. Для реализации таковой DCI требуется огромная мощность вычислений, экономически нереальная при концентрации на единственной указанной цели.

Следовательно, потребуется дополнительно применять совместные вычислительные ресурсы (включая все типы HPC-платформ, рассмотренных в обзоре). Не смотря на то, что роль каждого типа архитектуры во многом зависит от разглядываемого приложения дистанционного зондирования, параллельные кластерные вычисления представляются самые подходящими для действенного извлечения информации из больших архивов данных, в т. ч. комплектов данных, уже переданных на Землю, тогда как критические по времени ограничения, введенные многими приложениями ДЗЗ (к примеру, приложение, рассмотренное в этом разделе), требуют бортовых средств обработки и обычно средств обработки в настоящем времени, включая специальные аппаратные архитектуры, такие как GPU и FPGA. В любых ситуациях эти вычислительные ресурсы кроме этого должны быть дешёвы по запросу, быть может, из национального облака- ресурса, что может поддерживать объединенные HPC-коды с твёрдыми сроками обработки.

Разумеется, что такая масштабная сложная совокупность может поддерживать широкий диапазон доменов. С учетом этого мы можем выделить следующие фундаментальные нюансы:

  • масштаб и Своевременность по запросу. До недавнего времени исполнение широкомасштабных вычислительных заданий означало передачу задания планировщику и ожидание в очереди заданий. Но облачные вычисления основаны на принципе получения ресурсов по запросу. Не смотря на то, что коммерческие облачные вычисления вычислены в первую очередь на транзакционный стиль вычислений, отмечается кроме этого рост интереса к построению туч научных приложений, каковые смогут поддерживать более тесно связанные HPC-коды по запросу. Для обеспечения возможности смягчения бедствий в DCI потребуется распределение ресурсов для поддержания комплектов приложений в рабочем ходе, усваивающих эти настоящего мира в настоящем времени и передающих выходные данные в распределенную пользовательскую базу. Данный масштаб равнозначен распределению виртуальных центров обработки данных с твёрдыми ограничениями сроков в настоящем времени.
  • Обеспечение доступности, безопасности и целостности информации. Такие громадные совокупности смогут быть практически распределены по нескольким центрам обработки данных в разных административных доменах с пересечением не только организационных, вместе с тем и национальных границ. Следовательно, требуются совместные совокупности управления идентификацией типа single sign-on (регистрация во всей сети методом однократного ввода пароля). Ролевая авторизация осуществляется на базе идентификационного его роли и кода пользователя в рамках виртуальной организации. Доверительные отношения, требуемые для управления такими виртуальными организациями, регулируются при помощи конфиденциальных федераций, определяющих работу сертификационных организаций, выдающих сертификаты для всех участников таковой федерации. Но, независимо от используемых механизмов обеспечения безопасности, требуется фундаментальный компромисс между безопасностью, с одной стороны, и удобством и работоспособностью совокупности, иначе. Выбор верного уровня безопасности, снабжающего оптимальный баланс между безопасностью системы и работоспособностью, постоянно является непростой задачей.
  • доступ и Данные к данным. В некоторых проектах, рассмотренных в данном обзоре, главное внимание уделяется данным и доступу к данным. При текущем «наводнении данными», т. е. при огромном количестве захватываемых, формируемых и размещаемых в сети данных, тяжело переоценить важность доступа к данным. Существует последовательность стандартов для геокосмических данных, сетевого представления и каталогов, но это всего лишь первый ход на пути ответа данной неприятности. Учитывая широкое разнообразие форматов данных и метаданных, очень принципиально важно создать улучшенные способы управления информацией и дать пользователям простые способы (и инструменты) чтобы получить доступ к этим данным. В случаях, в то время, когда комплекты данных принадлежат разным учреждениям, смогут употребляться разные способы идентификации, доступа и авторизации к данным, что еще более усложняет проблему доступности данных. В конечном итоге, цель пребывает в создании цифровых библиотек, в которых обрабатываются и сохраняются комплекты текущих данных и данных прошлых периодов с регистрацией места происхождения, доступ к каким осуществляется на базе четко определенного комплекта стандартов.
  • функциональная совместимость и Стандарты. Разумеется, что ни одна из этих совокупностей не может быть реализована без всемирно признанных и принятых стандартов во всех фундаментальных областях, ранееуказанных. Число вероятных технических стандартов через чур громадно, и ненужно перечислять их в данной работе. На данный момент разрабатываются новые стандарты для совокупностей облачных вычислений, такие как открытый интерфейс облачных вычислений, открытый формат виртуализации, и интерфейс обработки данных облака, каковые в сочетании формируют базу для стандартных туч IaaS.
  • Методы постепенного принятия. С учетом опыта, извлеченного из прошлых попыток развертывания широкомасштабных совокупностей в виде монолитного целого, и того факта, что западные стандарты разрабатываются и принимаются не за одну ночь, возможно утверждать, что более целесообразным подходом есть постепенное развертывание совокупностей. Имея общее представление о будущих стандартах и больших системах для их помощи, возможно поэтапно принимать и развертывать развивающиеся разработки и разрабатывать стандарты для конкретных функций. Таковой подход «разработки на ходу» владеет большими преимуществами. Он дает возможность приобрести полезный опыт и свести к минимуму риск и одновременно с этим пользоваться преимуществами новых вычислительных разработок в плане соотношения цена/производительность. Следовательно, нужно направить упрочнения на испытания и исследования экспериментальных совокупностей – это разрешит повысить стабильность рынка и уверенность пользователей для всех качеств HPC-совокупностей, рассмотренных в этом обзоре.

Яндекс изнутри: инфраструктура хранения и обработки данных


Подобранные по важим запросам, статьи по теме: