Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
Хранение данных — Что имеем, то храним / Хабр
[go: Go Back, main page]

Обновить
256K+

Хранение данных *

Что имеем, то храним

143,98
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Город, которого нет… на карте ЦОД‑индустрии — и это странно

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели3.4K

Я из Воркуты. Несколько лет изучаю возможность строительства здесь крупного вычислительного центра для ИИ-задач. Каждый раз, когда я рассказываю об этом, слышу одни и те же шесть возражений. Все они звучат убедительно. Ни одно не выдерживает проверки фактами.

Разберёмся

Новости

Western Digital создала жесткий диск с защитой от квантовых атак: разбираем, как он работает

Время на прочтение5 мин
Охват и читатели3K

Разговоры о квантовых угрозах уже давно вышли за пределы научных лабораторий и стали частью повседневных обсуждений в IT-сфере. Данные, накопленные за годы работы систем искусственного интеллекта, живут намного дольше, чем сами серверы, и требуют защиты не на пару лет, а на десятилетия вперед. Производители накопителей начали реагировать на эти вызовы раньше многих других игроков рынка.

Western Digital в конце мая представила то, что можно считать первым в отрасли шагом к реальной интеграции постквантовой криптографии прямо в железо жестких дисков. Что именно? Новый жесткий диск, конечно, а чего вы ожидали? Свежие модели серии Ultrastar уже проходят тестирование у крупных заказчиков. Давайте разбираться, что у нас тут за технология.

Читать далее

Из мёртвого ноута — в домашний NAS: спасаем 100 ГБ фоток за 0 ₽

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9.5K

OpenMediaVault, бот в Telegram и проблема с провайдером, которую пришлось решать через собственный десктоп.

Читать далее

Нельзя попросить протоны сталкиваться помедленнее: как устроена фильтрация данных CERN

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.4K

Привет! Я — Аля, старший продакт-менеджер выделенных серверов в Selectel. Этой весной я побывала на экскурсии в CERN — и там я узнала, что за все время работы коллайдера на лентах архива накоплено более эксабайта данных. И это только то, что прошло фильтрацию — 99,99% уже было отброшено. 

У меня сразу возникло много вопросов. Как они справляются с таким потоком? Как хранят все это десятилетиями? Как проектируют архитектуру, которая должна работать десятки лет? Эти вопросы легли в основу серии статей — каждая прослеживает один инфраструктурный слой на пути данных от детекторной пещеры до ноутбука физика где-то в мире.

Читать далее

Обзор SPI Flash памяти MX25L6433F

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели11K

В этом тексте я произвел обзор микросхемы SPI-NOR FLASH памяти MX25L6433F.
Показан код, который позволит запустить на микросхеме файловую систему LittleFS.

Читать далее

SpaceVM: с нуля до кластера за 15 минут

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.5K

Предлагаем вашему вниманию пошаговый мануал, позволяющий за 15 минут из «чистого» инсталла получить рабочий кластер SpaceVM с общим хранилищем, сетями и ролями контроллеров. Все это — через понятный веб-интерфейс плюс пару CLI-команд там, где это действительно уместно. Поехали!

Читать далее

Вечный носитель информации

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели8.3K

Иногда цифровая цивилизация ведёт себя как подросток, уверенный, что всё новое автоматически лучше старого. Облачные хранилища, распределённые бэкапы, георезервирование, «девять девяток» надёжности — всё это звучит внушительно ровно до того момента, пока кто-то не находит исходный код операционной системы… в гараже, аккуратно распечатанный на бумаге.

Читать далее

Только Сигма выбирают Delta Lake

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели7.8K

Привет, Хабр! Меня зовут Дмитрий Кравчук, я занимаюсь всем, что связано с данными в блоке AI&ML MAGNIT TECH. Расскажу про фундамент прибыльных проектов, которыми мы занимаемся в департаменте. Эта начало цикла статей о наших достижениях за 5 лет и планах на будущее.

В 2020 году мы выбирали формат для больших ML-хранилищ: Delta Lake, Iceberg или Hudi. В итоге остановились на Delta Lake. За 5 лет вокруг него у нас выросла полноценная платформа данных для ML-нагрузок: Spark, Kubernetes, S3, YDB, Airflow, Flink, OpenMetadata, Trino, StarRocks и собственные фреймворки.

Я не буду пересказывать документацию Delta Lake, а расскажу, как это работает у нас в промышленном контуре: доставка данных, слои хранения, оркестрация, хранилище метаданных, lineage, data quality, observability и governance, а также доступ к данным.

Отдельно расскажу, в чём Delta Lake оказался силён, а где пришлось достраивать инфраструктуру: объектное хранилище вместо блочного, координировать коммиты для приближения к ACID, обеспечивать потоковую загрузку, оптимизировать хранение и эксплуатировать большие таблицы.

Материал будет полезен инженерам данных, ML-инженерам, Data scientist’ам, системным аналитикам, MLOps/DataOps/DevOps и всем, кто создаёт промышленную платформу данных под реальные нагрузки.

Читать далее

Elasticsearch без мастеров или как оживить труп

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели6.4K

Всем привет, меня зовут Илья и я хочу вам рассказать как я после небольшой правки в тераформ я потерял все мастера в кластере Elasticsearch. ЧатГПТ и гугл уже принесли мне лопату чтобы похоронить эти сервера, но начальство сказало: "Может что нибудь придумаешь?". В итоге 6 часов работ и кластер снова живой и зеленый. Хотите знать больше?

Хочу знать больше!

TOON против TRON против JSON, YAML и CSV для LLM-приложений

Уровень сложностиПростой
Время на прочтение19 мин
Охват и читатели9.8K

Разные форматы данных существуют потому, что решают разные задачи. JSON строгий и ориентирован на машины. YAML удобен для чтения. CSV минималистичен. TOON чрезвычайно компактен и специально спроектирован, чтобы снижать токенную нагрузку на LLM. TRON расширяет JSON определениями классов для обратно совместимого сжатия.

Читать далее

О версионировании в S3 в деталях: разбор от команды VK Object Storage

Время на прочтение11 мин
Охват и читатели7.3K

S3-совместимые хранилища предоставляют бизнесу и ИТ-специалистам широкий набор инструментов для работы с данными. Это и практически бесконечная масштабируемость, позволяющая хранить петабайты информации без сложной настройки, и высокая надежность за счет автоматического резервирования, и гибкое управление доступом для разных команд и сервисов. Наряду с ними важной и полезной функцией является версионирование бакетов, которое позволяет хранить полную историю изменений каждого объекта и защищает от потери данных.

Но чтобы раскрыть весь потенциал этой функции и грамотно встроить ее в рабочие процессы, важно понимать, как она устроена. 

В этой статье разберем, что такое версионирование бакетов в S3, как оно меняет логику работы хранилища и как использовать его для решения реальных задач.

Читать далее

rapeed: in-memory OLAP-движок с собственной алгеброй связей

Время на прочтение10 мин
Охват и читатели5.1K

Меня зовут Андрей Рыжик, я Product Owner BI-направления в компании «Белый код». Эта статья – обзор платформы rapeed: in-memory OLAP-движка с собственным форматом хранения, нестандартной алгеброй связей между источниками и несколькими клиентами поверх единого ядра. 

Читать далее

Как Яндекс Диск выдерживает сотни гигабит входящего трафика: устройство балансировки загрузок

Время на прочтение13 мин
Охват и читатели9.8K

Типичная схема бэкэнд‑приложения выглядит стандартно: группа экземпляров сервиса и балансировщик перед ними. Пользователь отправляет запрос на балансировщик, а тот проксирует его на конкретный инстанс.

Эта схема отлично работает на лёгких API‑запросах, но рассыпается, как только трафик становится тяжелее. В случае с Яндекс Диском речь идёт о массовой загрузке файлов. 

Меня зовут Илья Абрамов, я разработчик в Диске, и в статье я расскажу, почему для загрузки данных нам пришлось отказаться от классических балансеров, как наш первоначальный алгоритм страдал от высокой дисперсии загруженности узлов, и какую архитектуру мы применили, чтобы заметно сгладить этот разброс и статистически улучшить показатели утилизации сети.

Читать далее

Ближайшие события

Тегирование людей на изображениях и Генерация заголовков для видеороликов

Время на прочтение17 мин
Охват и читатели8.6K

Представьте ситуацию: вы только что вернулись из (заслуженного) отпуска с друзьями и, конечно, сделали множество фотографий. Вы хотите отправить друзьям фото с ними. Но как сделать это эффективно? Можно просмотреть фотографии вручную и отметить каждого друга отдельно. Но вы только вернулись из отпуска, ваш электронный почтовый ящик переполнен, и на просмотр фото совсем нет времени. Как же быть?

Читать далее

Автоскейлинг StarRocks в Kubernetes: как я довел его до предела

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.2K

Классическая проблема аналитических систем: кластер СУБД сайзится под пик, а 28 дней в месяц он задействован чуть больше чем наполовину. StarRocks (shared-data) и автоскейл Kubernetes убирают этот избыток. Compute добавляется под нагрузку и сворачивается на спаде. Внутри легкая пятничная статья: как это работает и где у эластичности потолок.

Читать далее

Медицина под ударом: как предотвратить утечки данных

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели7.7K

Привет, Хабр! Сегодня хотим обсудить утечки информации, пожалуй, в одной из самых чувствительных для человека отраслей — здравоохранении. Ведь здесь хранятся не просто персональные данные, а сведения, касающиеся глубоко личных аспектов жизни — диагнозы, регулярно выписываемые лекарства, результаты анализов и многое другое. Попади эти данные не в те руки, и жизнь человека может стать заметно сложнее.

Проблематика

Учреждения здравоохранения сегодня обладают очень большим набором конфиденциальных данных в цифровом формате. А чем они разнообразнее — тем сложнее обеспечивать ИБ, в том числе борьбу с утечками. Само по себе предотвращение утечек информации — это не какие-то разовые мероприятия, а постоянный процесс, включающий мониторинг состояния систем защиты информации, обучение персонала и совершенствование политик по всем организациям сферы здравоохранения. Максимальное количество инцидентов можно предотвратить, подобрав правильное сочетание технологий обработки и защиты информации 

За последние лет 10-15 здравоохранение в целом проделало большой путь к цифровизации. Клиники массово перешли на системы электронной записи и электронные медицинские карты, создали для пациентов порталы с личными кабинетами. С увеличением пропускной способности каналов связи развиваются сервисы телемедицины. Конечно же, стоит учитывать и медицинский интернет вещей (IoMT) — датчики, носимые устройства, умные медицинские приборы. Например, можно вспомнить системы мониторинга сахара в крови. 

Читать далее

Новая DRAM в 1000 раз быстрее обычной, и она может изменить компьютерный мир

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели22K

Пока мы привыкаем к мысли, что оперативная память за прошлый год подорожала более чем на 200% и в обозримом будущем дешеветь не собирается, в Токийском университете тихо показали штуку, которая способна перевернуть всю эту историю. Новое устройство переключает биты за 40 пикосекунд — в 1000 раз быстрее, чем умеет современная DRAM. При этом почти без нагрева. Эта технология может изменить не только рынок памяти, но и всю архитектуру сборки компьютера, к которой мы все привыкли. В этом точно стоит разобраться, чтобы понимать, что именно мы получим в будущем, и как будут работать наши компьютеры.

Читать далее

Как мы научили СХД TATLIN.OBJECT мигрировать данные из S3-хранилища MinIO

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели10K

Привет, Хабр. Меня зовут Ори Брук, я ведущий инженер в департаменте разработки объектных хранилищ YADRO. Раньше мы не писали о TATLIN.OBJECT, нашей децентрализованной системе хранения данных (СХД). Исправляемся, ведь у нас есть повод — релиз новой функциональности S3-зеркалирования. Она позволяет бесшовно переносить данные из S3-совместимого хранилища MinIO в нашу СХД. Впрочем, функция может работать с любым S3-совместимым хранилищем в качестве источника данных в рамках поддерживаемых вызовов.

Разберемся, как устроено децентрализованное хранилище, как работает S3 прокси-мигратор, и посмотрим на результаты замеров его производительности на примере MinIO.

Читать далее

Александрийская библиотека: краткая история античной системы хранения

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели7.1K

Вчера, если вы не в курсе, в стране отмечался Общероссийский день библиотек. Чем не повод отметить сие событие тематичной статьёй.

Она не стала великой сразу и не исчезла в один день. История Александрийской библиотеки — это длинный процесс, длившийся более шести веков: от амбициозного старта к постепенному усложнению и, в конечном счёте, распаду системы, которая удивительно напоминает раннюю версию того, что сегодня называют инфраструктурой хранения данных.

Всё началось с власти. Птолемеи, закрепившиеся в конце IV века до н.э. в Египте после распада державы Александра Македонского, строят Александрию как столицу нового типа — не только административную, но и культурную. Библиотека здесь возникает не просто ради собрания книг, а как политический проект: собрать тексты — значит собрать знание, а что знание — сила, понимали уже тогда.

Библиотека изначально была встроена в Мусейон — учреждение, которое Страбон в книге «География» описывает как часть царского дворца, где учёные живут, питаются и работают за счёт царя. Это был не архив, а научное производство: свитки не лежали мёртвым грузом, их читали, переписывали, сравнивали, исправляли.

Фактически библиотечных собраний было два: главное — в царском дворце в квартале Брухейон, и вспомогательное — в храме Сераписа (Серапеуме), где хранились общедоступные фонды и учебная литература.

Читать далее

Blockstor: Kubernetes-native альтернатива LINSTOR, которую мы готовим как отдельный CNCF-проект

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.8K

Всем привет. Мы в Ænix давно занимаемся Kubernetes-платформами, bare metal-инфраструктурой и Cozystack, поэтому тема блочного хранилища для Kubernetes у нас не теоретическая. Это та часть стека, где красивых абстракций быстро становится мало: надо переживать падения нод, понимать топологию, реплицировать данные, не ломать PVC, дружить с CSI и при этом оставаться предсказуемыми для операторов.

Сегодня хотим показать первый публичный результат этой работы — Blockstor 0.1.0.

Blockstor — это открытая система управления распределенным блочным хранилищем для Kubernetes. Она использует DRBD для репликации данных, совместима с REST API LINSTOR и написана на Go как самостоятельная clean-room реализация. Код распространяется под Apache 2.0.

Читать далее
1
23 ...