Research output: Contribution to journal › Conference article › peer-review
Data Handling Optimization in Russian Data Lake Prototype. / Алексеев, Александр Александрович; Кирьянов, Андрей Константинович; Климентов, Алексей Анатольевич; Корчуганова, Татьяна; Митцин, Валерий; Олейник, Данила; Петросян, Артём; Смирнов, Сергей; Зароченцев, Андрей Константинович.
In: Journal of Physics: Conference Series, Vol. 2438, 012021, 15.02.2023.Research output: Contribution to journal › Conference article › peer-review
}
TY - JOUR
T1 - Data Handling Optimization in Russian Data Lake Prototype
AU - Алексеев, Александр Александрович
AU - Кирьянов, Андрей Константинович
AU - Климентов, Алексей Анатольевич
AU - Корчуганова, Татьяна
AU - Митцин, Валерий
AU - Олейник, Данила
AU - Петросян, Артём
AU - Смирнов, Сергей
AU - Зароченцев, Андрей Константинович
N1 - Conference code: 2021
PY - 2023/2/15
Y1 - 2023/2/15
N2 - Эксперименты ЦЕРН готовятся к эре HL-LHC, которая принесет беспрецедентный объем научных данных. Эти данные должны будут храниться и обрабатываться тысячами физиков, но ожидаемый рост ресурсов далеко не соответствует экстраполированным требованиям существующих моделей как с точки зрения объема хранилища, так и вычислительной мощности. Отдельные вычислительные ресурсы, такие как высокопроизводительные компьютеры и университетские кластеры, могут обеспечивать дополнительные вычислительные циклы, но не имеют достаточного отдельного хранилища. В этой статье мы представим основные архитектурные идеи, детали развертывания и результаты тестирования, уделив особое внимание нашим исследованиям по созданию прототипа распределенной системы обработки и хранения данных с упором на оптимизацию эффективности ресурсов за счет снижения накладных расходов на доступ к данным. Описываемый прототип построен с использованием территориально распределенных площадок WLCG и университетских кластеров в России.
AB - Эксперименты ЦЕРН готовятся к эре HL-LHC, которая принесет беспрецедентный объем научных данных. Эти данные должны будут храниться и обрабатываться тысячами физиков, но ожидаемый рост ресурсов далеко не соответствует экстраполированным требованиям существующих моделей как с точки зрения объема хранилища, так и вычислительной мощности. Отдельные вычислительные ресурсы, такие как высокопроизводительные компьютеры и университетские кластеры, могут обеспечивать дополнительные вычислительные циклы, но не имеют достаточного отдельного хранилища. В этой статье мы представим основные архитектурные идеи, детали развертывания и результаты тестирования, уделив особое внимание нашим исследованиям по созданию прототипа распределенной системы обработки и хранения данных с упором на оптимизацию эффективности ресурсов за счет снижения накладных расходов на доступ к данным. Описываемый прототип построен с использованием территориально распределенных площадок WLCG и университетских кластеров в России.
KW - LHC
KW - Big data
KW - GRID
KW - Data Lake
UR - https://www.mendeley.com/catalogue/5e61b99b-387f-3a95-bd51-3e27249df8b6/
UR - https://www.mendeley.com/catalogue/5e61b99b-387f-3a95-bd51-3e27249df8b6/
U2 - 10.1088/1742-6596/2438/1/012021
DO - 10.1088/1742-6596/2438/1/012021
M3 - Conference article
VL - 2438
JO - Journal of Physics: Conference Series
JF - Journal of Physics: Conference Series
SN - 1742-6588
M1 - 012021
T2 - 20th International Workshop on Advanced Computing and Analysis Techniques in Physics Research
Y2 - 29 November 2021 through 3 December 2021
ER -
ID: 102984757