Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
Хранение данных — Что имеем, то храним / Хабр

Все потоки

Хранение данных *

Что имеем, то храним

143,98

Рейтинг

СтатьиПостыНовостиАвторыКомпании

Voltor 2 часа назад

Город, которого нет… на карте ЦОД‑индустрии — и это странно

Простой

6 мин

3.4K

Высоконагруженные системы * Хранение данных * Будущее здесьОблачные вычисления * Облачные сервисы *

Мнение

Из песочницы

Я из Воркуты. Несколько лет изучаю возможность строительства здесь крупного вычислительного центра для ИИ-задач. Каждый раз, когда я рассказываю об этом, слышу одни и те же шесть возражений. Все они звучат убедительно. Ни одно не выдерживает проверки фактами.

Разберёмся

+2

TrexSelectel 3 часа назад

Western Digital создала жесткий диск с защитой от квантовых атак: разбираем, как он работает

5 мин

3K

Блог компании SelectelХранение данных * Информационная безопасность * Системное администрирование *

Разговоры о квантовых угрозах уже давно вышли за пределы научных лабораторий и стали частью повседневных обсуждений в IT-сфере. Данные, накопленные за годы работы систем искусственного интеллекта, живут намного дольше, чем сами серверы, и требуют защиты не на пару лет, а на десятилетия вперед. Производители накопителей начали реагировать на эти вызовы раньше многих других игроков рынка.

Western Digital в конце мая представила то, что можно считать первым в отрасли шагом к реальной интеграции постквантовой криптографии прямо в железо жестких дисков. Что именно? Новый жесткий диск, конечно, а чего вы ожидали? Свежие модели серии Ultrastar уже проходят тестирование у крупных заказчиков. Давайте разбираться, что у нас тут за технология.

Читать далее

+6

fjvhvh 19 часов назад

Из мёртвого ноута — в домашний NAS: спасаем 100 ГБ фоток за 0 ₽

Простой

5 мин

9.5K

DIY или Сделай самСистемное администрирование * Настройка Linux * Хранение данных * Сетевые технологии *

Кейс

OpenMediaVault, бот в Telegram и проблема с провайдером, которую пришлось решать через собственный десктоп.

Читать далее

+4

AlyaCheers вчера в 11:15

Нельзя попросить протоны сталкиваться помедленнее: как устроена фильтрация данных CERN

Простой

7 мин

9.4K

Блог компании SelectelIT-компанииХранение данных * Научно-популярноеIT-инфраструктура *

Обзор

Привет! Я — Аля, старший продакт-менеджер выделенных серверов в Selectel. Этой весной я побывала на экскурсии в CERN — и там я узнала, что за все время работы коллайдера на лентах архива накоплено более эксабайта данных. И это только то, что прошло фильтрацию — 99,99% уже было отброшено.

У меня сразу возникло много вопросов. Как они справляются с таким потоком? Как хранят все это десятилетиями? Как проектируют архитектуру, которая должна работать десятки лет? Эти вопросы легли в основу серии статей — каждая прослеживает один инфраструктурный слой на пути данных от детекторной пещеры до ноутбука физика где-то в мире.

Читать далее

+20

aabzel 4 июн в 15:14

Обзор SPI Flash памяти MX25L6433F

Простой

9 мин

11K

Программирование микроконтроллеров * Хранение данных * Производство и разработка электроники * Электроника для начинающихC *

Туториал

В этом тексте я произвел обзор микросхемы SPI-NOR FLASH памяти MX25L6433F.
Показан код, который позволит запустить на микросхеме файловую систему LittleFS.

Читать далее

+23

SpaceVM 4 июн в 08:39

SpaceVM: с нуля до кластера за 15 минут

Средний

8 мин

5.5K

Блог компании SpaceВиртуализация * Системное администрирование * Серверное администрирование * Хранение данных *

Туториал

Предлагаем вашему вниманию пошаговый мануал, позволяющий за 15 минут из «чистого» инсталла получить рабочий кластер SpaceVM с общим хранилищем, сетями и ролями контроллеров. Все это — через понятный веб-интерфейс плюс пару CLI-команд там, где это действительно уместно. Поехали!

Читать далее

+6

Diamant_storage 3 июн в 10:55

Вечный носитель информации

Простой

2 мин

8.3K

Хранение данных * Распределённые системы * Резервное копирование * Операционные системыИстория IT

Ретроспектива

Иногда цифровая цивилизация ведёт себя как подросток, уверенный, что всё новое автоматически лучше старого. Облачные хранилища, распределённые бэкапы, георезервирование, «девять девяток» надёжности — всё это звучит внушительно ровно до того момента, пока кто-то не находит исходный код операционной системы… в гараже, аккуратно распечатанный на бумаге.

Читать далее

+4

dishkakrauch 3 июн в 10:33

Только Сигма выбирают Delta Lake

Средний

13 мин

7.8K

Блог компании Magnit TechУправление разработкой * Базы данных * Хранение данных * Машинное обучение *

Мнение

Привет, Хабр! Меня зовут Дмитрий Кравчук, я занимаюсь всем, что связано с данными в блоке AI&ML MAGNIT TECH. Расскажу про фундамент прибыльных проектов, которыми мы занимаемся в департаменте. Эта начало цикла статей о наших достижениях за 5 лет и планах на будущее.

В 2020 году мы выбирали формат для больших ML-хранилищ: Delta Lake, Iceberg или Hudi. В итоге остановились на Delta Lake. За 5 лет вокруг него у нас выросла полноценная платформа данных для ML-нагрузок: Spark, Kubernetes, S3, YDB, Airflow, Flink, OpenMetadata, Trino, StarRocks и собственные фреймворки.

Я не буду пересказывать документацию Delta Lake, а расскажу, как это работает у нас в промышленном контуре: доставка данных, слои хранения, оркестрация, хранилище метаданных, lineage, data quality, observability и governance, а также доступ к данным.

Отдельно расскажу, в чём Delta Lake оказался силён, а где пришлось достраивать инфраструктуру: объектное хранилище вместо блочного, координировать коммиты для приближения к ACID, обеспечивать потоковую загрузку, оптимизировать хранение и эксплуатировать большие таблицы.

Материал будет полезен инженерам данных, ML-инженерам, Data scientist’ам, системным аналитикам, MLOps/DataOps/DevOps и всем, кто создаёт промышленную платформу данных под реальные нагрузки.

Читать далее

+7

driveirk 3 июн в 08:01

Elasticsearch без мастеров или как оживить труп

Средний

4 мин

6.4K

DevOps * Системное администрирование * Big Data * Хранение данных *

Туториал

Всем привет, меня зовут Илья и я хочу вам рассказать как я после небольшой правки в тераформ я потерял все мастера в кластере Elasticsearch. ЧатГПТ и гугл уже принесли мне лопату чтобы похоронить эти сервера, но начальство сказало: "Может что нибудь придумаешь?". В итоге 6 часов работ и кластер снова живой и зеленый. Хотите знать больше?

Хочу знать больше!

+2

COBECT 2 июн в 18:40

TOON против TRON против JSON, YAML и CSV для LLM-приложений

Простой

19 мин

9.8K

Искусственный интеллектМашинное обучение * Хранение данных *

Обзор

Перевод

Разные форматы данных существуют потому, что решают разные задачи. JSON строгий и ориентирован на машины. YAML удобен для чтения. CSV минималистичен. TOON чрезвычайно компактен и специально спроектирован, чтобы снижать токенную нагрузку на LLM. TRON расширяет JSON определениями классов для обратно совместимого сжатия.

Читать далее

+3

Klochkov_Alexander 2 июн в 11:21

О версионировании в S3 в деталях: разбор от команды VK Object Storage

11 мин

7.3K

Блог компании VK TechБлог компании VKОблачные вычисления * Хранение данных * Системное администрирование *

S3-совместимые хранилища предоставляют бизнесу и ИТ-специалистам широкий набор инструментов для работы с данными. Это и практически бесконечная масштабируемость, позволяющая хранить петабайты информации без сложной настройки, и высокая надежность за счет автоматического резервирования, и гибкое управление доступом для разных команд и сервисов. Наряду с ними важной и полезной функцией является версионирование бакетов, которое позволяет хранить полную историю изменений каждого объекта и защищает от потери данных.

Но чтобы раскрыть весь потенциал этой функции и грамотно встроить ее в рабочие процессы, важно понимать, как она устроена.

В этой статье разберем, что такое версионирование бакетов в S3, как оно меняет логику работы хранилища и как использовать его для решения реальных задач.

Читать далее

+15

ryzhikad 2 июн в 08:25

rapeed: in-memory OLAP-движок с собственной алгеброй связей

10 мин

5.1K

Блог компании ИТ-интегратор Белый кодХранение данных * Data Engineering * Анализ и проектирование систем *

Обзор

Меня зовут Андрей Рыжик, я Product Owner BI-направления в компании «Белый код». Эта статья – обзор платформы rapeed: in-memory OLAP-движка с собственным форматом хранения, нестандартной алгеброй связей между источниками и несколькими клиентами поверх единого ядра.

Читать далее

+3

ilyaaabramov 1 июн в 07:29

Как Яндекс Диск выдерживает сотни гигабит входящего трафика: устройство балансировки загрузок

13 мин

9.8K

Блог компании ЯндексХранение данных * Программирование * Высоконагруженные системы *

Типичная схема бэкэнд‑приложения выглядит стандартно: группа экземпляров сервиса и балансировщик перед ними. Пользователь отправляет запрос на балансировщик, а тот проксирует его на конкретный инстанс.

Эта схема отлично работает на лёгких API‑запросах, но рассыпается, как только трафик становится тяжелее. В случае с Яндекс Диском речь идёт о массовой загрузке файлов.

Меня зовут Илья Абрамов, я разработчик в Диске, и в статье я расскажу, почему для загрузки данных нам пришлось отказаться от классических балансеров, как наш первоначальный алгоритм страдал от высокой дисперсии загруженности узлов, и какую архитектуру мы применили, чтобы заметно сгладить этот разброс и статистически улучшить показатели утилизации сети.

Читать далее

+20

ph_piter 31 мая в 09:03

Тегирование людей на изображениях и Генерация заголовков для видеороликов

17 мин

8.6K

Блог компании Издательский дом «Питер»Профессиональная литература * Python * Искусственный интеллектХранение данных *

Представьте ситуацию: вы только что вернулись из (заслуженного) отпуска с друзьями и, конечно, сделали множество фотографий. Вы хотите отправить друзьям фото с ними. Но как сделать это эффективно? Можно просмотреть фотографии вручную и отметить каждого друга отдельно. Но вы только вернулись из отпуска, ваш электронный почтовый ящик переполнен, и на просмотр фото совсем нет времени. Как же быть?

Читать далее

+4

Alex_StarRocks 29 мая в 14:46

Автоскейлинг StarRocks в Kubernetes: как я довел его до предела

Простой

7 мин

7.2K

Хранение данных * Базы данных * Kubernetes * DevOps * Высоконагруженные системы *

Кейс

Классическая проблема аналитических систем: кластер СУБД сайзится под пик, а 28 дней в месяц он задействован чуть больше чем наполовину. StarRocks (shared-data) и автоскейл Kubernetes убирают этот избыток. Compute добавляется под нагрузку и сворачивается на спаде. Внутри легкая пятничная статья: как это работает и где у эластичности потолок.

Читать далее

0

InfoWatch 29 мая в 11:53

Медицина под ударом: как предотвратить утечки данных

Простой

9 мин

7.7K

Блог компании InfoWatchИнформационная безопасность * Хранение данных * Законодательство в IT

Обзор

Привет, Хабр! Сегодня хотим обсудить утечки информации, пожалуй, в одной из самых чувствительных для человека отраслей — здравоохранении. Ведь здесь хранятся не просто персональные данные, а сведения, касающиеся глубоко личных аспектов жизни — диагнозы, регулярно выписываемые лекарства, результаты анализов и многое другое. Попади эти данные не в те руки, и жизнь человека может стать заметно сложнее.

Проблематика

Учреждения здравоохранения сегодня обладают очень большим набором конфиденциальных данных в цифровом формате. А чем они разнообразнее — тем сложнее обеспечивать ИБ, в том числе борьбу с утечками. Само по себе предотвращение утечек информации — это не какие-то разовые мероприятия, а постоянный процесс, включающий мониторинг состояния систем защиты информации, обучение персонала и совершенствование политик по всем организациям сферы здравоохранения. Максимальное количество инцидентов можно предотвратить, подобрав правильное сочетание технологий обработки и защиты информации

За последние лет 10-15 здравоохранение в целом проделало большой путь к цифровизации. Клиники массово перешли на системы электронной записи и электронные медицинские карты, создали для пациентов порталы с личными кабинетами. С увеличением пропускной способности каналов связи развиваются сервисы телемедицины. Конечно же, стоит учитывать и медицинский интернет вещей (IoMT) — датчики, носимые устройства, умные медицинские приборы. Например, можно вспомнить системы мониторинга сахара в крови.

Читать далее

+15

Xcom-shop 29 мая в 08:47

Новая DRAM в 1000 раз быстрее обычной, и она может изменить компьютерный мир

Простой

5 мин

22K

Блог компании Группа компаний X-ComКомпьютерное железоХранение данных *

Мнение

Пока мы привыкаем к мысли, что оперативная память за прошлый год подорожала более чем на 200% и в обозримом будущем дешеветь не собирается, в Токийском университете тихо показали штуку, которая способна перевернуть всю эту историю. Новое устройство переключает биты за 40 пикосекунд — в 1000 раз быстрее, чем умеет современная DRAM. При этом почти без нагрева. Эта технология может изменить не только рынок памяти, но и всю архитектуру сборки компьютера, к которой мы все привыкли. В этом точно стоит разобраться, чтобы понимать, что именно мы получим в будущем, и как будут работать наши компьютеры.

Читать далее

+35

obruk 28 мая в 09:54

Как мы научили СХД TATLIN.OBJECT мигрировать данные из S3-хранилища MinIO

Простой

10 мин

10K

Блог компании YADROХранение данных * Резервное копирование * IT-инфраструктура *

Кейс

Привет, Хабр. Меня зовут Ори Брук, я ведущий инженер в департаменте разработки объектных хранилищ YADRO. Раньше мы не писали о TATLIN.OBJECT, нашей децентрализованной системе хранения данных (СХД). Исправляемся, ведь у нас есть повод — релиз новой функциональности S3-зеркалирования. Она позволяет бесшовно переносить данные из S3-совместимого хранилища MinIO в нашу СХД. Впрочем, функция может работать с любым S3-совместимым хранилищем в качестве источника данных в рамках поддерживаемых вызовов.

Разберемся, как устроено децентрализованное хранилище, как работает S3 прокси-мигратор, и посмотрим на результаты замеров его производительности на примере MinIO.

Читать далее

+22

Diamant_storage 28 мая в 08:24

Александрийская библиотека: краткая история античной системы хранения

Простой

6 мин

7.1K

Хранение данных * Системы управления версиями * Распределённые системы * История IT

Ретроспектива

Вчера, если вы не в курсе, в стране отмечался Общероссийский день библиотек. Чем не повод отметить сие событие тематичной статьёй.

Она не стала великой сразу и не исчезла в один день. История Александрийской библиотеки — это длинный процесс, длившийся более шести веков: от амбициозного старта к постепенному усложнению и, в конечном счёте, распаду системы, которая удивительно напоминает раннюю версию того, что сегодня называют инфраструктурой хранения данных.

Всё началось с власти. Птолемеи, закрепившиеся в конце IV века до н.э. в Египте после распада державы Александра Македонского, строят Александрию как столицу нового типа — не только административную, но и культурную. Библиотека здесь возникает не просто ради собрания книг, а как политический проект: собрать тексты — значит собрать знание, а что знание — сила, понимали уже тогда.

Библиотека изначально была встроена в Мусейон — учреждение, которое Страбон в книге «География» описывает как часть царского дворца, где учёные живут, питаются и работают за счёт царя. Это был не архив, а научное производство: свитки не лежали мёртвым грузом, их читали, переписывали, сравнивали, исправляли.

Фактически библиотечных собраний было два: главное — в царском дворце в квартале Брухейон, и вспомогательное — в храме Сераписа (Серапеуме), где хранились общедоступные фонды и учебная литература.

Читать далее

+3

TimurTukaev 28 мая в 06:01

Blockstor: Kubernetes-native альтернатива LINSTOR, которую мы готовим как отдельный CNCF-проект

Простой

7 мин

7.8K

Блог компании ÆnixХранение данных * Kubernetes * Open source * Системное администрирование *

Кейс

Всем привет. Мы в Ænix давно занимаемся Kubernetes-платформами, bare metal-инфраструктурой и Cozystack, поэтому тема блочного хранилища для Kubernetes у нас не теоретическая. Это та часть стека, где красивых абстракций быстро становится мало: надо переживать падения нод, понимать топологию, реплицировать данные, не ломать PVC, дружить с CSI и при этом оставаться предсказуемыми для операторов.

Сегодня хотим показать первый публичный результат этой работы — Blockstor 0.1.0.

Blockstor — это открытая система управления распределенным блочным хранилищем для Kubernetes. Она использует DRBD для репликации данных, совместима с REST API LINSTOR и написана на Go как самостоятельная clean-room реализация. Код распространяется под Apache 2.0.

Читать далее

+3

1

2 3 ...