Как изменился Datalore за 2020 год: мощная онлайн-среда для Jupyter-ноутбуков
Datalore — это мощная онлайн-среда для Jupyter-ноутбуков, разработанная в JetBrains. Здесь мы собрали описание самых важных обновлений Datalore за прошедший год.
Профессиональный план Datalore
В ноябре мы запустили Datalore Professional. Этот план был разработан для решения сложных задач с большими наборами данных, которым требуется мощное вычислительное оборудование.
Вот сравнительная таблица параметров Datalore Community и Datalore Professional.
| Community | Professional | |
|---|---|---|
| Базовый CPU-процессор (4 ГБ RAM, имя AWS: t3.medium) | 120 часов | ♾️ |
| Мощный CPU-процессор (16 ГБ RAM, 2 ядра vCPUs, на 400% быстрее базового CPU-процессора, имя AWS: r5.large) | – | 120 часов |
| GPU-процессор (1 NVIDIA T4 GPU, 16 ГБ RAM GPU, 4 ядра vCPU, имя AWS: g4dn.xlarge) | — | 20 часов |
| Хранилище | 10 ГБ | 20 ГБ |
| Цена | Бесплатно | 19,90$ в месяц |
Улучшения в редакторе кода
Анализ кода из PyCharm
В начале года мы интегрировали анализ кода из PyCharm, добавив автодополнение кода, рефакторинги, быстрые исправления и навигацию в Datalore. Теперь вы можете пользоваться такой же первоклассной помощью при написании кода, как в PyCharm, в своих онлайновых Jupyter-ноутбуках.
Совместимость с ядром Jupyter
В прошлом году мы также много работали над стабильностью ядра IPython в Datalore, и сейчас оно стало намного надежнее. Еще есть над чем работать, так что мы продолжим делать ядро более стабильным в этом году.
Ядро Jupyter теперь полностью поддерживается вместе с виджетами, графическими библиотеками и shell-командами.
Кроме того, ноутбуки теперь загружаются значительно быстрее, так как нам удалось вдвое сократить время запуска Conda.
Поддержка Kotlin
Kotlin — это язык программирования с открытым исходным кодом, разработанный в JetBrains. Он хорошо подходит для анализа данных и разработки мультиплатформенных приложений. В Datalore мы добавили поддержку Kotlin в ноутбуки IPython. Попробуйте! Просто выберите Kotlin в качестве языка при создании ноутбука.
Поддержка workspace-файлов и S3-бакетов
В декабре мы реализовали поддержку workspace-файлов, что позволяет обмениваться файлами данных между несколькими ноутбуками.
Для тех, кто работает с большим объемом данных, мы также добавили поддержку подключения S3-бакетов. Подробности читайте в этом блогпосте.
Улучшения пользовательского интерфейса
Боковая панель для быстрых действий
Чтобы вы могли быстрее работать с файлами и перемещаться по содержимому ноутбуков, мы добавили вкладку боковой панели внутри редактора. С этой панели есть прямой доступ к прикрепленным файлам, включая файлы ноутбука и workspace-файлы. Кроме того, вы можете использовать оглавление и обозреватель переменных. Окно быстрых команд (Shortcuts) также появится на боковой панели при открытии из меню Help.
Темный режим
В прошлом году мы представили темный режим. Вы можете изменить тему ноутбука в меню View в редакторе, где также можно включить режим Distraction free и опцию разделенного просмотра Split view.
Панель инструментов Markdown
Мы также представили панель инструментов для более удобного редактирования Markdown. Она помогает описывать код с помощью текста, формул LaTex и HTML-кода внутри ячеек Markdown.
Сотрудничество с Anaconda
У JetBrains долгая история сотрудничества с Anaconda, а PyCharm — IDE для Python, рекомендованная в установщике Anaconda. С октября 2020 года и Datalore, и PyCharm представлены в новом Anaconda Navigator! Обновите Anaconda Navigator до последней версии и запускайте Datalore прямо оттуда.
Исследования и уроки:
В прошлом году мы сделали несколько интересных исследовательских и обучающих проектов:
- Мы скачали 10 000 000 Jupyter-ноутбуков с GitHub и поделились набором данных с сообществом.
- Мы проанализировали 495 спецификаций AMD Radeon и Nvidia GPU и опубликовали полученные данные.
- Видеоурок по началу работы в Datalore.
- Видеоурок по визуализации с помощью Pyplot.
- Урок продвинутой визуализации на наборе данных моделей GPU.
Вот и все, что касается основных обновлений, представленных в 2020 году. Следите за нашим блогом, чтобы узнавать о новых возможностях Datalore.
Всем здорового и продуктивного года!
Datalore: открываем бета-версию приложения для анализа данных на Python
В рядах инструментов JetBrains пополнение. Мы запускаем открытую бета-версию Datalore — умной веб-среды для анализа и визуализации данных на языке Python.
Машинное обучение уверенно захватывает мир: алгоритмы интеллектуального анализа данных стоят за современными коммерческими разработками и исследованиями. Мы разработали приложение, с которым решать задачи машинного обучения легко и приятно: все необходимые инструменты data science доступны из коробки, а умный редактор кода на Python облегчает процесс анализа данных.
Возможности Datalore
Во-первых, как и все продукты JetBrains, Datalore — это умный редактор кода: с автодополнениями, подсветкой синтаксиса и инспекциями.
Самая классная фича редактора кода — интеншны (intentions). В зависимости от задачи, внизу окна редактирования появляется релевантный интеншн — “load dataset”, “train test split” “select model” и т.д. Выберите нужное действие, и код для подгрузки датасета или модели автоматически сгенерируется в ячейке редактора. А результаты сразу же отобразятся в окне вывода.
Автодополнения и интеншны облегчают работу в редакторе кода. Можно перестать беспокоиться и сосредоточиться на анализе данных и подборе параметров модели.
Во-вторых, мы поддерживаем инкрементальные вычисления: при подборе параметров, замене одной строки или добавлении ячейки не нужно запускать весь воркбук с нуля. Datalore автоматически запускает вычисление только тех операций, которые зависели от правок. С учетом того, что все вычисления запускаются автоматически, в окне вывода всегда будут самые актуальные цифры и таблицы.
Кроме этого, Datalore дает доступ к разным вычислительным мощностям в зависимости от задачи.

В-третьих, мы собрали основные инструменты data science в одном веб-приложении: от базовых библиотек для работы с данными, библиотеки алгоритмов машинного обучения sklearn и алгоритмов deep learning pytorch до мощных инструментов для визуализации.
Инструменты действительно мощные. Наша библиотека datalore.plot — это реализованный на Питоне аналог библиотеки ggplot языка R. Модуль datalore.geo_maps разработан специально для создания интерактивных карт.
Если вы только начинаете работать с данными, подгрузите один из предустановленных датасетов (Iris, Titanic, MNIST) и поиграйте с разными моделями и параметрами. А загрузка своих данных возможна через встроенный файловый менеджер: он сохраняет исходный .csv-файл и конвертирует его в pandas-датафрейм по нажатию соответствующего интеншна.
Datalore сохраняет весь процесс анализа в облаке. Работа начинается с удобного файлового хранилища всех воркбуков. Отсюда же можно поделиться c коллегами ссылкой на воркбук и решать задачу вместе: Datalore поддерживает одновременную работу нескольких пользователей.
Изменения в воркбуке сохраняются автоматически (и никаких безнадежно утраченных данных). Если что-то пошло не так, можно откатиться к предыдущим вариантам анализа и отследить хронику изменений с помощью встроенной системы контроля версий.

Лицензирование
В режиме public beta Datalore доступен по бесплатному коммьюнити-плану. В дальнейшем плата за использование будет зависеть от объема загруженных данных и использованных мощностей.
Что дальше?
Регистрируйтесь на datalore.io и подгружайте первый датасет!
Жаждем услышать мнение о Datalore от всех, кто часто и придирчиво работает с задачами машинного обучения: аналитиков, data scientists, исследователей и студентов. Мы хотим сделать самый удобный инструмент для интеллектуального анализа данных и с нетерпением ждем ваши отзывы. Пишите на наш форум, чтобы оставить комментарий о продукте и связаться с нами и другими пользователями.
upd 15.02 Если вы запустили сложный алгоритм, использовали более мощные вычислительные инстансы и получили сообщение «Surcharge limit reached» — пожалуйста, расскажите на форуме, какую задачу вы решали, и мы пришлем вам код для активации дополнительного времени работы с инстансами.
- машинное обучение
- Python
- анализ данных
- визуализация данных
- JetBrains
- Блог компании JetBrains
- Python
- Машинное обучение
Datalore Enterprise для команд Data Science
Jupyter-ноутбуки хоть и вызывают споры, однако все равно являются самым часто используемым инструментом для решения задач Data Science. Ноутбуки просты в личном использовании. Но если вы когда-либо пробовали организовать командную работу с ними, то наверняка сталкивались со сложностями. Именно поэтому мы в JetBrains решили выпустить специальную версию Datalore Enterprise для команд Data Science!

Datalore — это платформа для совместной работы с Jupyter-ноутбуками. И сегодня мы рады сообщить, что Datalore теперь доступен не только в облаке, но и для установки на серверы компании!
В привычные Jupyter-ноутбуки мы интегрировали умную поддержку написания кода из PyCharm, персистентное хранилище данных, сервисы по аутентификации, гранулярную настройку среды и менеджмент вычислительных ресурсов, версионирование, а также возможность работать вместе в реальном времени.
Читайте дальше, чтобы узнать о возможностях Datalore для командной работы.
Настройте командную среду
Многие команды по-прежнему тратят огромное количество времени и сил на создание собственных решений вокруг Jupyter-технологий.
Мы не стараемся изменить привычную для вас среду работы, а лишь предлагаем сделать построение командной среды комфортным и предоставляем многие решения из коробки. При этом мы оставляем вам простор для дальнейшей настройки.
Аутентификация пользователей
Вместе с Datalore компании получают доступ к JetBrains Hub — инструменту, который позволяет настроить практически любой возможный метод аутентификации пользователей. Чтобы приступить к работе, членам вашей команды достаточно перейти по вашей ссылке на Datalore и авторизоваться на платформе.
Настройка окружения
Вы можете заранее настроить несколько дефолтных командных сред. При необходимости пользователи смогут динамически менять список пакетов для каждого ноутбука, используя Library Manager.
Управление вычислительными ресурсами
Вы можете подключить любые используемые вами вычислительные ресурсы и сделать их доступными для пользователей через интерфейс Datalore. Более того, вы можете настроить внутренние планы, чтобы контролировать совместное использование ресурсов членами вашей команды.
Подключение данных
Мы интегрировали в Datalore собственное персистентное хранилище, дающее быстрый доступ к ноутбукам и данным. Сейчас вы можете подключиться к любой базе данных из кода на Python, а в ближайшем будущем мы планируем добавить возможность работать с БД через интерфейс.
Datalore поддерживает установку бакетов AWS S3, а логины и пароли вы можете безопасно хранить в секретных переменных.
Создайте общую экосистему для работы
В Datalore работа команд осуществляется в вокрспейсах — общих пространствах для данных, настроек среды и ноутбуков. Воркспейсы снижают риск того, что сотрудники оставят или потеряют свою работу на локальных машинах, что является безусловным плюсом для компаний. Также они облегчают сотрудникам совместную работу над проектами и позволяют переиспользовать имеющиеся наработки.
Вы можете поделиться ноутбуком или целым воркспейсом всего за несколько кликов: для этого настройте права доступа и пригласите коллег по ссылке или через электронную почту. Настройки окружения, данные и другие вложения автоматически станут доступны приглашенным. А командная работа будет происходить в реальном времени, не выходя за пределы вашей приватной сети.
Чтобы поделиться результатами с коллегами не технического профиля, вы можете свернуть ячейки кода, опубликовать статическую копию ноутбука и поделиться отчетом с помощью ссылки. Коллеги затем смогут прокомментировать любую ячейку и поделиться своим мнением.
Мы интегрировали в Datalore систему контроля версий, чтобы отслеживать прогресс и при необходимости отменять изменения. Вы можете создавать контрольные точки, просматривать различия между версиями и возвращаться к предыдущим состояниям в любое время. Мы не храним историю аутпутов ноутбуков, благодаря чему вам будет легче просматривать изменения в коде.
Улучшите продуктивность написания кода
Платформа Datalore ориентирована на работу с ноутбуками. Наша главная цель — помочь специалистам Data Science работать с кодом более продуктивно.
Мы встроили в Datalore возможности анализа кода из PyCharm. Они включают автодополнение кода, подсказки из документации, рефакторинги и быстрые исправления. Это помогает писать более качественный код с меньшей когнитивной нагрузкой, позволяя сосредоточиться на достижении бизнес-результатов.
Чтобы вы не тратили много времени на написание шаблонного кода для визуализаций, мы добавили виджет автоматического создания графиков для Pandas DataFrames. Он помогает быстро выявлять тенденции в данных и генерирует шаблоны кода для дальнейшей кастомизации.
Попробуйте Datalore в своей команде
30-дневная бесплатная пробная версия и возможности по продлению
Ваша команда может попробовать Datalore Enterprise бесплатно в течение 30 дней. В процессе установки мы будем на связи и ответим на любые ваши вопросы.
После пробного периода вы сможете приобрести платную подписку на Datalore по цене 125 долларов США за пользователя в месяц. В эту стоимость входит приоритетная поддержка для корпоративных клиентов и возможность напрямую влиять на развитие продукта. Мы регулярно встречаемся с нашими первыми пользователями и следим за тем, как проходит интеграция Datalore в их процессы.
Чтобы запросить пробную версию и задать любые вопросы, свяжитесь с нами либо запишитесь на встречу с нашей командой.
- Запросить пробную версию: datalore-enterprise@jetbrains.com
- Забронировать демо: https://calendly.com/d/nqdw-5n63/datalore-enterprise-demo
Технические требования
В настоящее время доступны два типа установки:
- на кластер Kubernetes
- в частной учетной записи AWS
Процесс включает установку и настройку ваших экземпляров Datalore и JetBrains Hub. Для получения дополнительной информации ознакомьтесь с нашим руководством по установке.
Вы также можете бесплатно попробовать облачную версию Datalore. Настройка и запуск займут всего несколько секунд, после чего вы сможете сразу начать знакомиться с основной функциональностью.
И мы уверены, вам есть что сказать. Напишите в комментариях, что больше всего болит при работе с Jupyter-ноутбуками. А мы постараемся решить это в Datalore 🙂
Ну а чтобы быть в курсе обновлений, подписывайтесь на наш блог и Twitter!
Ваша команда Datalore
The Drive to Develop
Оригинал статьи на Habr.com
Что такое Datalore?
Мы довольно давно начали работу над этим проектом и хотим напомнить, что такое Datalore и как он поможет вам в путешествии по миру Data Science.
Datalore — это онлайн-блокнот для Data Science c функциями умного редактора кода.
А теперь по порядку.
Онлайн-инструмент
Все вычисления Datalore выполняет в облаке. Чтобы запустить код на Python или Kotlin, достаточно открыть браузер, зарегистрироваться на www.jetbrains.com/datalore/ и создать свой первый notebook-файл. Не нужно ничего настраивать. Datalore включает набор лучших библиотек для Data Science, готовых к использованию.
Инструмент для Data Science
Datalore был создан для того, чтобы помогать аналитикам и специалистам Data Science в решении повседневных задач.
- собирать и исследовать данные,
- создавать модели машинного и глубокого обучения,
- визуализировать результаты и делиться ими с другими.
Работа с блокнотами
Вы можете импортировать и экспортировать файлы формата .ipynb, а также notebook-файлы формата .datalore. Для запуска кода используется ядро Ipython, экспериментальное ядро Datalore либо ядро Zeppelin.
Редактор кода поддерживает Markdown и LaTex, которые позволяют записывать текст и формулы в удобном формате.
Также мы дополнили интерфейс. Теперь в работе с notebook-файлами вы можете использовать:
- режим погружения и возможность разделения окна редактора;
- панель инструментов для ячеек (быстрое добавление Markdown и новых ячеек кода);
- контекстное меню ячеек (создание оглавлений, доступ к вкладке Variable и др.)
Функции умного редактора кода
Пожалуй, лучшей из возможностей Datalore является функциональность IDE, унаследованная от PyCharm.
Автодополнение кода, быстрые исправления, автоимпорты, возможности переименования и переформатирования помогут вам писать код более эффективно. Попробуйте их и поделитесь с нами своими впечатлениями!
И еще одна важная вещь: Datalore создан не только для самостоятельной, но и для командной работы.
Командная работа в Datalore
Datalore предлагает несколько способов организации командной работы:
- Работайте над notebook-файлами вместе с командой в реальном времени.
- Публикуйте notebook-файлы, делитесь ими при помощи ссылок и получайте обратную связь.
- Делитесь рабочими средами с любым количеством notebook-файлов и наборов данных.
- Предоставляйте удаленный доступ к notebook-файлам PyCharm, публикуя их при помощи плагина Datalore.
Готовы начать работу с Datalore? Предлагаем вам посмотреть небольшой видеоурок для знакомства с инструментом:
Регистрируйтесь в Datalore!
Подробнее о возможностях Datalore читайте в нашем блоге. Как и всегда, мы рассчитываем на вашу обратную связь. Пишите нам в комментариях либо на нашем форуме.
Путешествуйте по миру Data Science с удовольствием!
Ваша команда Datalore
The Drive to Develop