Category: Базы данных

08
Окт
2021

Конференция HighLoad++ 2021

Крупнейшая в Европе IT-конференция для разработчиков высоконагруженных систем. В программе более 130 докладов, персональные консультации и полезные знакомства.
— Читать дальше «Конференция HighLoad++ 2021»

31
Авг
2021

📊 Путеводитель по Big Data для начинающих: методы и техники анализа больших данных

Методы и техники анализа Big Data: Machine Learning, Data mining, краудсорсинг, нейросети, предиктивный и статистический анализ, визуализация, смешение и интеграция данных, имитационные модели. Как разобраться во множестве названий и аббревиатур? Читайте наш путеводитель.

Machine Learning

Инструмент для извлечения нужной информации из потока данных или машинное обучение представляет собой модели, которые обучаются поэтапно или самостоятельно по настроенным алгоритмам.

Как методы машинного обучения применяют при анализе больших данных:

  • Осуществление маркетинговых исследований и сегментации информации. Это дает возможность предприятию понимать рынок, узнавая потребности целевой аудитории. В СМИ машинное обучение помогает определить, какой контент нравится аудитории, а какой нет.
  • Изучение поведения клиентов.
В особенности преимущества машинного обучения в Big Data видны в процессе построения IoT-систем. Технологию используют Tesla Motors и Nest, а также IoT-платформы: AWS IoT Greengrass ML Inference, SageMaker, Google Cloud IoT.
В особенности преимущества машинного обучения в Big Data видны в процессе построения IoT-систем. Технологию используют Tesla Motors и Nest, а также IoT-платформы: AWS IoT Greengrass ML Inference, SageMaker, Google Cloud IoT.

Нейронные сети и распознавание образов

С задачей распознавания визуальных образов справляются искусственные нейросети (ИНС), которые представляют собой математические модели в виде аппаратного и программного воплощения, имитирующие функционирование нейронных сетей живых организмов. Работа нейронных сетей выстроена по одному алгоритму: на вход поступают данные, которые проходят по нейронам, а на выходе выдается некий результат.

Метод используют для решения задач в социальных и профессиональных сферах, для обеспечения безопасности, прогнозирования, классификации и т.д и т.п. Технология позволяет заменить работу десятков людей.

Вариант использования нейросетей с распознаванием образов – различать фото мужчин и женщин.

Для этого потребуется:

  • Построить нейронную сеть, т.е. искусственные нейроны нужно запрограммировать воспринимать данные на входе и выстраивать связи.
  • Отправить нейросети выборку очищенного потока информации – базу фотографий с отметками женских и мужских лиц. Это необходимо для обучения нейросети, чтобы она в дальнейшем понимала, по каким критериям отличаются лица.
  • Запустить тест нейросети, для этого отправить новую очищенную выборку с лицами, но без отметок. В ходе тестирования можно определить частоту возникновения ошибок.

Data mining

Термин Data mining появился благодаря математику Григорию Пятецкому-Шапиро в 1989 году. Добыча данных – это интеллектуальный анализ, необходимый для выявления закономерностей в массиве разнородной информации.

Данные добывают при помощи технологий: моделирования, прогнозирования, классификации, нейросетей, деревьев решений, генетических алгоритмов и др. Технологию используют в статистических методах сбора и анализа.

Основные задачи, решаемые Data mining:

  • Анализ отклонений выявляет резко отличающиеся данные, нетипичные для потока.
  • Ассоциации предназначены для поиска повторяющейся информации из различных источников.
  • Регрессионный анализ позволяет найти факторы, которые влияют на какой-то заданный параметр.
  • Классификация предназначена для разделения сведений по группам, где находятся схожие элементы.
  • Кластеризация выполняет распределение полученных записей по ранее составленным классам.

Краудсорсинг

Для обработки данных иногда привлекают большие группы людей. В какой ситуации это необходимо? Краудсорсинг поможет, например, собрать и обработать соцопрос из нескольких источников или решить другую задачу, с которой компьютер не справится в одиночку. Подобные материалы могут быть в нецифровом виде, содержать сокращения и ошибки, которые человек может быстро выявить и привести сведения в структурированный вид, понятный для программных алгоритмов.

Для разового опроса или сбора/обработки отзывов покупателей невыгодно разрабатывать систему искусственного интеллекта. Однако для регулярной обработки данных и их анализа стоит использовать системы, которые основаны на машинном обучении или Data Mining. Машины способны выполнять сложный анализ, который основан на математических методах (имитационное моделирование или статистика).

Предиктивная аналитика

Прогнозная, предсказательная или предиктивная аналитика составляет прогноз на основании накопившейся информации, отвечая на вопрос «Что может произойти?». Данные получают методами моделирования, математической статистики, машинного обучения, Data mining и т.д.


Предприятия могут использовать предиктивную аналитику для контроля технологических или каких-то иных бизнес-процессов. На основании прошлых и текущих показаний можно, например, заранее определить время профилактического ремонта оборудования, чтобы избежать поломки техники. Также метод применяется в сфере продаж (по результатам предыдущих периодов можно получить прогноз по продажам на следующий); трейдерами на бирже; в логистике для расчета времени доставки; для выявления мошенничества в страховой и банковской сферах; для прогноза роста компании и финансовых показателей.

Принцип работы Predictive analytics:

  • Изучить базу за прошедший период, выявив параметры, которые повлияли на результат.
  • При помощи нейросетей или математических функций построить модель, позволяющую прогнозировать те или иные события.

Имитационное моделирование

Отличие имитационного моделирования от предиктивной аналитики в том, что прогнозы делаются не на реальных, а на теоретически возможных или желаемых данных. Построение моделей происходит с использованием методов Big Data, при помощи которых эксперимент проводят, если можно так выразиться, в виртуальной реальности.

Метод подходит для анализа воздействия различных факторов на конечный результат. Для оценки уровня продаж изучают воздействие цены, количества клиентов, количестве продавцов, наличие скидок или предложений для постоянных клиентов и пр. Изменение показателей влияет на другие, после чего можно определить удачный для внедрения вариант. Для имитационного моделирования лучше использовать большое количество факторов, чтобы снизить риски при создании модели.

Статистический анализ

Метод предполагает сбор материалов, а также расчет по заданным критериям для получения результата. Недостаток статистики в том, что в выборку могут попасть недостоверные результаты из маленького опроса, поэтому для более достоверных результатов необходимо увеличить количество исходной информации для обработки.

Статистические данные используют в машинном обучении для получения комплексного прогноза по базовой модели, в предиктивной аналитике и имитационном моделировании.

К статистике относят анализ временных рядов и А/В тестирование. A/B testing или split testing – это маркетинговый метод исследования, при котором сравнивают контрольную группу элементов с наборами тестовых групп с измененными параметрами, чтобы определить, какие факторы улучшают целевые показатели.
К статистике относят анализ временных рядов и А/В тестирование. A/B testing или split testing – это маркетинговый метод исследования, при котором сравнивают контрольную группу элементов с наборами тестовых групп с измененными параметрами, чтобы определить, какие факторы улучшают целевые показатели.

Методы для получения статистических результатов:

  • Корреляционный анализ для выявления взаимосвязей и того, как изменение одних показателей влияет на другие.
  • Подсчет процентного соотношения результатов исследования.
  • Динамические ряды для оценивания частоты и интенсивности изменений условий на протяжении времени.
  • Вычисление среднего показателя.

Визуализация аналитических данных

Для упрощения процесса анализа информации используют метод визуализации данных. Выполнить визуализацию Big Data можно при помощи средств виртуальной реальности и «больших экранов». Визуальные образы воспринимаются лучше текста, поскольку 90% информации человек получает через зрение.

При помощи визуализации аналитических данных можно оперативно оценить колебания продаж в разных регионах на гистограмме или карте, обозначив регионы отличающимися цветами, либо на графике показать зависимость уровня продаж от изменения стоимости продукции.

Результаты выводят в виде диаграмм, карт, графиков, гистограмм, 3-D моделей, либо пиктограмм. Инструменты для визуализации больших данных: Qlik, Microsoft (Excel, Power BI), Tableau (tableau desktop, tableau public), Orange и Microstrategy.
Результаты выводят в виде диаграмм, карт, графиков, гистограмм, 3-D моделей, либо пиктограмм. Инструменты для визуализации больших данных: Qlik, Microsoft (Excel, Power BI), Tableau (tableau desktop, tableau public), Orange и Microstrategy.

Смешение и интеграция данных

При работе с полученной из нескольких источников разнородной информацией стоит собрать ее воедино для комплексного анализа. Автоматически загружать данные в базу нельзя, поскольку в источниках они могут быть записаны в различных форматах и с отличающимися параметрами. В таком случае выполняют интеграцию и смешение, в процессе которых разнородные данные сводят к единому формату.

Методы, благодаря которым можно использовать записи из разных источников:

  • Записи переводят в один формат при помощи конвертации документов, распознавания текста, перевода текста в цифры.
  • Дополнение информации происходит при сборе показателей для одного объекта из нескольких источников.
  • Избыточные данные фильтруют, т.е. сначала происходит сбор лишней информации, а та, что недоступна для анализа, подлежит удалению.

Применение техники интеграции и смешения данных: сетевой магазин ведет торговлю не через сайт или маркетплейс, в нескольких соц. сетях и в розницу. Для сбора полных сведений следует обработать товарные остатки на складах, кассовые чеки, все заказы с интернет площадок и пр.

Для интеграции можно использовать стандартный метод, основанный на ETL-процессе (извлечение данных из источника, преобразование к единому формату и очищение от избыточной информации, загрузка в хранилище). Экосистема Hadoop и БД NoSQL имеют свои инструменты для извлечения, преобразования и загрузки информации. После процедуры интеграции, происходит анализ и дальнейшая обработка материалов.

***

Если вы только начинаете путь в профессии, обратите внимание на Факультет аналитики Big Data образовательной онлайн-платформы GeekBrains. Вы научитесь собирать и анализировать данные, извлекать полезную информацию и находить закономерности. После обучения сможете проверять гипотезы и помогать бизнесу принимать взвешенные решения. Занятия под руководством опытных наставников и поддержка опытных HR помогут вам продвинуться по карьерной лестнице. Специализированный опыт не потребуется: программа предполагает освоение профессиональных навыков с нуля.

31
Авг
2021

📊 С чего начать погружение в Big Data?

Как стать специалистом по Big Data? Какое направление выбрать: Data Scientist, Data Analyst или Data Engineer? С чего начать изучение этого направления, разберем информацию для начинающих IT-шников.

Генерация и обмен большими данными между устройствами происходит практически в каждой социальной сфере. С Big Data работают такие гиганты Google, Uber, IBM, Amazon, оптимизируя работу с клиентами, снижая риск мошенничества и угроз безопасности данных. Специалисты по Big Data необходимы в сферах: маркетинга, поисковых технологий, ритейла, социальных сетях, играх, персонализации, речевых технологиях, финансовых учреждениях и в рекомендательных системах.

Вакансии Data Scientist, Data Engineer и Data Analyst все чаще встречаются в объявлениях с привлекательно высокими зарплатами. С чего начать погружение в Big Data? Чтобы влиться в это направление, рассмотрим основные знания, навыки и технологии, которые стоит изучить новичку для поиска работы.


Направления в Big Data

Существует три основных направления специалистов по Big Data: Data Science, Data Engineer, Data Analyst. Всем им желательно иметь высшее образование (бакалавр, магистр) по техническим специальностям: компьютерные системы, информационные технологии, экономическая кибернетика или подобным.

Разберем направления работы экспертов по большим данным:

  • Аналитикой занимаются Data Scientist и Data Analyst, в их обязанности входит формирование гипотез, поиск закономерностей в наборах данных (dataset), визуализация информации, подготовка данных к моделированию, разработка алгоритмов Machine Learning (машинного обучения), интерпретация полученных данных, а также изучение предметной области или бизнес-процесса.
  • Инженерия относится к профессиям Data Engineer и администратор. Такие специалисты занимаются поддержкой, созданием и настройкой программной и аппаратной инфраструктуры системы сбора, хранения и обработки информации, а также аналитикой массивов и информационных потоков, в том числе конфигурированием облачных (Cloud) и локальных кластеров.

Специалист по Big Data должен знать, что такое самодисциплина и уметь следовать рабочему процессу, который бывает монотонным и однообразным.

Для работы с большими данными, необходимо иметь хотя бы базовые знания:


Что нужно знать Data Scientist?

Исследователь, ученый по данных (Data Scientist) в основном занимается извлечением полезной информации из массивов сведений.

Основные знания, которыми должен обладать специалист Data Scientist:

  • Математика, а точнее теория вероятностей, статистика и дискретная математика. Знания математики необходимы и для машинного обучения, что предполагает также использование линейной алгебры.
  • Различные информационные технологии, средства и методы для интеллектуального анализа данных (Data Mining): языки программирования (Haskell, R, Julia, Python), среды для статического анализа данных (MatLab, R-Studio, Jupyter Notebook), структуры и алгоритмы данных, машинное обучение и иные ветви искусственного интеллекта (генетические алгоритмы, искусственные нейронные сети, deep learning).
  • Понимание предметной области.

Что следует изучать Data Engineer?

Роли в Data Engineering:

  • Database Administrator должен обладать обширными знаниями по базам данным, уметь настраивать СУБД и уровни доступа пользователей, обслуживать и обеспечивать бесперебойную работу системы.
  • Data Architect создает основу для управления данными, их прием из разных источников, интеграцию и обслуживание. Для этого стоит использовать Apache Pig, SQL, Apache Spark, Hive, XML, Apache Zookeeper, Apache Kafka и тому подобные инструменты.
  • Data Engineer должен уметь пользоваться инструментами для работы с базами данных, знать языки программирования (Python или Java), уметь пользоваться системами AWS, HDFS (Hadoop S3 Buckets, MapReduce).

Каждому из перечисленных специалистов важно понимать, как работают операционные системы, а также обладать навыками машинного обучения.


Какой базой должен обладать Data Analyst

Для аналитика не обязательно высшее образование в области информационных технологий. Однако Data Analyst должен разбираться в бизнес-процессах, понимать статистику, выполнять машинное обучение, уметь работать с инструментами.

Типа анализа данных:

  • Описательный – для сбора характеристик, обработки полученной информации.
  • Прогнозный направлен на прогнозирование будущих результатов.
  • Диагностический помогает обнаружить ошибки в данных.
  • Предписательный включает перечисленные выше типы анализа информации.
В обязанности аналитика также входят задачи по Business Inteligence (BI) и оптимизации процессов на производстве. Специалист должен знать методы анализа бизнес-процессов: SWOT, ABC, IDEF, BPMN, ССП, PDCA, EPC и прочие.

Базовые навыки Data Analyst:

  • Умение извлекать данные из различных источников (Hadoop, MS SQL, MySQL и др.).
  • Обработка информации с использованием Scala, R, Python или Java.
  • Визуализация структурированных данных с применением Qlik, Plotly или Tableau.
  • Формирование исследования, которое соответствует категории бизнес-задачи.
  • Предоставление гипотез в соответствии с задачами бизнеса.

Дополнительно аналитик может использовать Apache Storm, Apache Kinesis, Apache Spark Streaming.

Специалистам по Big Data нужно уметь строить графические модели, используя байесовские и нейронные сети, кластеризацию и виды анализа. Data Scientist, Data Analyst или Data Engineer должны обладать навыками работы с Data Lakes (озерами данных), а также разбираться в вопросах безопасности и управления данными (Data Governance). Стать экспертом поможет углубленная проработка каждого из навыков.

***

Если вы только начинаете путь в профессии, обратите внимание на Факультет аналитики Big Data образовательной онлайн-платформы GeekBrains. Вы научитесь собирать и анализировать данные, извлекать полезную информацию и находить закономерности. После обучения сможете проверять гипотезы и помогать бизнесу принимать взвешенные решения. Занятия под руководством опытных наставников и поддержка опытных HR помогут вам продвинуться по карьерной лестнице. Специализированный опыт не потребуется: программа предполагает освоение профессиональных навыков с нуля.

25
Июл
2021

📊 Как стать дата-инженером в 2021 году?

Не будет преувеличением сказать, что данные – это новая нефть. Должность инженера по данным имеет решающее значение для использования всего их потенциала.

Мир науки о данных быстро меняется, и это открыло новые возможности и вакансии в области инженерии данных. Давно хотели разобраться, как стать дата-инженером, но не знали с чего начать? Тогда эта статья для вас.

Типичные обязанности дата-инженера:

  • Исследовательский анализ данных.
  • Извлечение данных из массивов разнородной информации.
  • Оценка и очистка наборов данных.
  • Подготовка и написание логики ETL (процессов обработки/преобразования информации).
  • Построение конвейеров данных для распределения по нескольким серверам.
  • Сбор и запрос данных.
  • Объединение данных.
  • Создание хранилищ данных.
  • Оптимизация доставки данных.
  • Нормализация и моделирование данных.
  • Перепроектирование инфраструктуры данных для масштабируемости.
  • Использование инструментов для обслуживания данных.
  • Помощь специалистам по исследованию данных в оптимизации продуктов.

Главные технические компетенции дата-инженера:

  • Языки программирования Python, C++, Java и Scala.
  • Знание алгоритмов и структур данных.
  • Системы управления базами данных (SQL и NoSQL).
  • Инфраструктура – облачные вычисления.
  • Потоковая передача данных – Apache Beam.

Как стать успешным дата-инженером в 2021 году?


Изучите языки программирования

Требования индустрии вращаются вокруг Python и Scala. Чтобы создавать качественное ПО, вам потребуется подтянуть навыки владения этими языками и получить практический опыт работы с инструментами для инженерии данных. Также желательно владеть такими языками, как Java и C++.

Освойте SQL

Все компании используют базы данных, чаще всего с SQL (языком структурированных запросов). Вам нужно изучить его, чтобы быстро добавлять, изменять или извлекать данные из этих баз. Один из лучших ресурсов для изучения − SQL Exercises. Другой вариант − наши статьи. Вы также можете использовать бесплатные шпаргалки по SQL, потому что запомнить все функции сразу будет тяжело.


Изучите облачные технологии

В наше время очень важно уметь работать с облачными средами. Изучите различные виды услуг, предоставляемых облачными платформами: хранение данных, управление кластерами, управление обработкой данных, вычисления и т.д.

Придется также изучить инструменты, вроде Kafka или Hadoop для планирования рабочих процессов в экосистеме больших данных.

Soft skills
Чтобы добиться успеха, технических навыков недостаточно. Вы также должны иметь навыки общения, презентации и командной работы.

Лучший способ профессионального роста – следить за последними тенденциями и инновациями в области науки о данных. Следите за выходом нового программного обеспечения и появлением новых инструментов для работы с данными. Работайте над большим количеством проектов и создавайте портфолио, чтобы продемонстрировать свои технические навыки и получить хорошую должность в известной компании.

Обзор ресурсов для изучения

Алгоритмы и структуры данных

На курсах будут подробно разобраны базовые алгоритмические методы и структуры данных, наиболее часто использующиеся на практике.

Python

С помощью этих двух курсов вы освоите основы Python: изучите синтаксис языка, получите базовые навыки структурного и процедурного программирования, познакомитесь со структурами данных языка.

SQL

Облачные технологии

  • Hadoop. Система для обработки больших объемов данных. Курс посвящен методам обработки больших объемов данных с помощью системы Hadoop. Завершив обучение, вы получите базовые знания об основных способах хранения и методов обработки больших объемов данных, а также поймете принципы работы распределенных систем в контексте фреймворка Hadoop.
Из более продвинутых курсов хочется отметить англоязычный GCP: Complete Google Data Engineer and Cloud Architect Guide на Udemy, где 28 часов контента дополняются 25 статьями и 48 ресурсами для скачивания. Программа обучения дает полное представление о дисциплине.

Итог

Если вам нравится работать в спокойной обстановке и проводить чистку необработанных данных, карьера в области дата-инженерии – правильный выбор. Самое трудное – создать портфолио и накопить опыт для получения первой работы. Значительное увеличение объема облачных услуг стало одной из основных причин столь высокого спроса на инженеров по обработке данных.

Вам не нужно быть экспертом во всех связанных областях. Достаточно выбрать один навык, например, облачные технологии, и получить практический опыт, сосредоточившись на решении реальных проблем. Благодаря этому на первом собеседовании вы будете чувствовать себя гораздо увереннее.

***

Если вы только начинаете путь в профессии, обратите внимание на курс Data Engineering образовательной онлайн-платформы GeekBrains. Занятия под руководством опытных наставников и поддержка опытных HR помогут вам продвинуться по карьерной лестнице. Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Специализированный опыт для этого не потребуется: программа предполагает освоение профессиональных навыков с нуля.

12
Июл
2021

Интенсив ASP.NET Core Fundamentals

.NET-разработчик и тренер Microsoft проведёт 11 онлайн-сессий по работе с платформой ASP.NET Core и научит создавать современные кроссплатформенные приложения.
— Читать дальше «Интенсив ASP.NET Core Fundamentals»

10
Июн
2021

Конференция SECON 2021

В программе конференции доклады от экспертов, общение с коллегами, новые знакомства, выставка и развлечения в атмосфере летнего фестиваля.
— Читать дальше «Конференция SECON 2021»

04
Июн
2021

Курс «Профессия Data Scientist» с трудоустройством

За 2 года освоите профессию Data Science: научитесь программировать на Python и R, применять алгоритмы машинного обучения и визуализировать данные.
— Читать дальше «Курс «Профессия Data Scientist» с трудоустройством»

31
Май
2021

Курс «Backend-разработка на Node.js»

За 4 месяца станете fullstack-разработчиком, будете создавать бэкенд веб-приложений на Node.js и расширите возможности ваших проектов на JavaScript с помощью языка TypeScript.
— Читать дальше «Курс «Backend-разработка на Node.js»»

26
Май
2021

Курс «Fullstack-разработчик на JavaScript»

За полтора года с нуля научитесь программировать на JavaScript и TypeScript и освоите передовые технологии — React, Node.js, Docker, Express.js, Nest.js, Firebase, MongoDB.
— Читать дальше «Курс «Fullstack-разработчик на JavaScript»»

12
Май
2021

Java. Backend-практикум

Бесплатный онлайн-курс для начинающих Java-разработчиков. За 8 недель получите систематизированную базу знаний и создадите свой проект для портфолио.
— Читать дальше «Java. Backend-практикум»

06
Май
2021

Конференция Highload++ 2021

Большая конференция для разработчиков высоконагруженных систем. Доклады, митапы, нетворкинг, уникальный опыт и ноу-хау от экспертов, задающих тренды.
— Читать дальше «Конференция Highload++ 2021»

28
Апр
2021

Установка пробной версии Microsoft Access в 2021 году бесплатно

Для учебных целей нам потребовалась установка пробной бесплатной версии Microsoft Access, но в реальности это оказалось нетривиальной задачей. К сожалению, ссылку на установку персональной или семейной версии найти не удалось, поэтому нужно ставить При…

14
Апр
2021

Курс «PHP + MySQL за 1,5 месяца»

12 занятий, практика на каждом уроке, сертификат об окончании курса и возможность попасть в команду BrainForce. Старт в любой день.
— Читать дальше «Курс «PHP + MySQL за 1,5 месяца»»

25
Мар
2021

Менеджер баз данных DBeaver

В этой статье поговорим об инструменте, который нужен всем, кто работает с базами данных: программистам, сисадминам, аналитикам и т.д. Это универсальный менеджер баз данных DBeaver, который поддерживает более 80 баз данных. Преимущества DBeaver Менедже…

10
Мар
2021

Факультет игровой аналитики

Научитесь создавать игры, используя знания маркетинга, гейм-дизайна и статистики. Курс подойдёт начинающим аналитикам, гейм-дизайнерам и даже простым геймерам, которые хотят превратить хобби в работу мечты.
— Читать дальше «Факультет игровой аналитики»…

10
Мар
2021

Курс «Профессия DevOps-инженер PRO» с трудоустройством

Освоите DevOps-практики и научитесь применять Docker и GitLab, чтобы оптимизировать и автоматизировать тестирование, доставку кода и запуск приложений на серверах.
— Читать дальше «Курс «Профессия DevOps-инженер PRO» с трудоустройством»

05
Фев
2021

Курс «Профессия разработчик на C++ с нуля»

Научитесь программировать на легендарном языке, создавать сложные микросервисы и игры для движка Unreal Engine. Соберёте портфолио и сможете начать карьеру в разработке приложений, «железа» или игр, даже если никогда раньше не писали код.
— Читать даль…

31
Дек
2020

📊 ТОП-10 необходимых для специалиста по Big Data навыков

Рассказываем о необходимом наборе технических и карьерных навыков для специалиста по Big Data.

О работе специалистов по анализу больших данных и необходимых для освоения перспективной профессии ресурсах мы уже писали. В этой статье речь пойдет о самых необходимых специалисту по Big Data навыках.

Big Data – это термин, используемый для обозначения значительного объема как структурированных, так и неструктурированных данных, который слишком велик для обработки традиционными методами. Аналитик больших данных – это специалист, который выявляет и исследует закономерности в данных с помощью специальных программных средств. Большие данные – перспективное направление в сфере Data Science. По мере того, как компании внедряют соответствующие методы, владеющие ими сотрудники будут становиться все более востребованными.

<a href="https://www.valtira.com/wp-content/uploads/2020/01/analytics.jpg" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Большие данные применяются в бизнесе, социальных сетях, медицине, транспортных организациях и т.д. Почти все стратегические решения высшего уровня бизнеса принимаются на основе технологий Big Data и Data Science. Они дают пользователям представление о тенденциях и событиях, которые в противном случае было бы трудно или невозможно обнаружить. Компании во многих отраслях уделяют все большее внимание сбору, хранению и анализу этих данных, а также тому, как использовать их для получения новых возможностей и продвижения. В этой области постоянно появляются новые должностные роли, но чтобы получить работу, нужно обладать определенными способностями и освоить соответствующие методики.

, <a href="https://www.valtira.com/wp-content/uploads/2020/01/analytics.jpg" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
, Источник

Аналитические навыки

Аналитические способности и навыки одни из самых важных для работы с большими данными. Без них нельзя стать экспертом в данной области. Аналитические инструменты необходимы для решения проблем в бизнесе или других сферах, а для глубокого понимания их возможностей необходимо обладать как математическими знаниями, так и методами количественного анализа данных, вроде описательной статистики и статистики умозаключений. Это помогает инженерам Big Data курировать большое количество неструктурированных данных, обобщать их и находить закономерности для прогнозного анализа

Достижения в области технологий за последние пять лет вывели интеллектуальный анализ на ошеломляющие высоты. Профессионалы с релевантным опытом пользуются большим спросом во всех технологических сферах. Получить его можно, изучая инструменты, вроде RapidMiner, KNIME или Apache Mahout.

Машинное обучение и искусственный интеллект

Расширяющиеся пробелы в цифровых навыках означают, что организации по всему миру находятся в бесконечной гонке за профессионалами в области больших данных с навыками машинного обучения и искусственного интеллекта. Нейронные сети, обучение с подкреплением, состязательное обучение, деревья решений, логистическая регрессия, контролируемое машинное обучение список можно продолжать и продолжать. Чем больше вы можете предложить, тем более ценным активом будете для любого прогрессивного, ориентированного на технологии работодателя.

Машинное обучение является важным инструментом для инженеров, поскольку оно позволяет им сортировать и обрабатывать большие объемы данных за короткий промежуток времени. Кроме того, Big Data являются частью построения алгоритмов машинного обучения. Специалист должен быть с ним знаком: требуется знать, как писать алгоритмы и как использовать их.

<a href="https://www.bsebti.com/blog/wp-content/uploads/2020/08/expert-talk-data-science-data-analytics-machine-learning.jpg" target="_blank" rel="noopener noreferrer nofollow">Источник</a>
Источник

Бизнес-аналитика

Методы Big Data применяются в различных отраслях для принятия решений и оптимизации деятельности. Многие компании используют инсайты из массивных наборов данных, которые они получают с помощью специальных инструментов. Чтобы лучше понять задачи и цели анализа, специалисту необходимо развивать соответствующие навыки и познакомиться с предметной областью. Прежде чем начинать разработку модели и делать выводы, аналитик данных должен понимать все аспекты и бизнес-цели организации. Эксперт должен иметь представление о процессах бизнес-потока, а также иметь знания в области статистики, навыки презентации и коммуникации.

Интерпретация и визуализация данных

Для специалиста по Big Data способность визуализировать и интерпретировать данные являются одними из ключевых навыков для успешной карьеры. Визуализация самый простой способ понять любую техническую концепцию. Здесь требуется не только понимание статистики и математики, но и наличие изобретательности, воображения и естественного любопытства.

Данные должны быть четко и ясно представлены для передачи в понятном для широкой публике формате. Важно, чтобы вы хорошо понимали бизнес-среду и предметную область, а также умели четко донести идею до аудитории. Придется развивать навыки коммуникации и презентации. Можно начать с изучения визуализации данных с помощью специальных инструментов и программного обеспечения: Tableau, Data Wrapper, Plotly и т. д.

Навыки программирования

Чтобы стать специалистом по большим данным, необходимо знать основы алгоритмов, структур данных, а также объектно-ориентированных языков программирования. Профессионал должен уметь проводить количественный и статистический анализ. Необходимо изучить основные понятия кодирования и уметь исправлять ошибки в существующем коде, который является частью массивной базы данных. Основные языки, в которые стоит инвестировать свое время включают Python, SQL, Java и C++. Нет никакой необходимости изучать все существующие языки, но если вы не ограничите себя только одним, это значительно повысит шансы на трудоустройство и карьерный рост. Например, знание статистических языков, таких как R и Python, даст кандидату преимущества в области аналитики.

Навыки решения проблем

Способность быстро решать проблемы и творческий подход играют важную роль в области больших данных, которые и сами по себе являются проблемой из-за неструктурированной природы. Независимо от того, являетесь ли вы от природы одаренным аналитиком или нет, потребуется постоянная практика, чтобы отточить этот навык. Существует бесчисленное множество способов это сделать, включая решение головоломок, игру в шахматы или даже некоторые видеоигры.


Базы данных SQL и NoSQL

Базы данных это ядро хранения, организации и поиска информации, поэтому важно знать их структуру и язык. Существует два основных типа баз данных:

  1. Хранящие информацию в виде записей в таблицах и позволяющие использовать для доступа к ней структурированный язык запросов (SQL). SQL формирует основу движения больших данных и занимает центральное место в хранилищах Hadoop Scala.
  1. Подход NoSQL (от англ. not only SQL) становится все более популярным, поэтому специалисты по Big Data должны быть знакомы и с ним. Распределенные базы данных NoSQL, вроде MongoDB, быстро заменяют сболее традиционные аналоги SQL, включая DB2 и Oracle. Зачастую они обеспечивают более эффективные возможности хранения и доступа. Серверы NoSQL работают в полной гармонии с Hadoop, а наличие навыков работы с ними существенно повысит ваши шансы на трудоустройство.

Знакомство с технологиями

Профессионалы в области больших данных должны быть знакомы с целым рядом технологий и инструментов, помогающих проводить анализ и делать выводы. Всегда лучше работать с максимально широким технологическим стеком: Scala, Hadoop, Linux, MatLab, R, SAS, SQL, Excel, SPSS и т.д. Это существенно повысит ваши шансы на трудоустройство и быстрый карьерный рост.

Фреймворки, вроде Hadoop и Apache Spark помогают в потоковой передаче моделей больших данных, а различные компоненты Apache Hadoop (MapReduce, HIVE, HDFS и Pig) пользуются большим спросом у специалистов и работодателей.

Навыки работы с публичными и гибридными облаками

В большинстве проектов используется облако, настроенное для хранения и обеспечения высокой доступности данных. Организации предпочитают такие хранилища созданию собственной инфраструктуры из-за меньших затрат. Многие имеют гибридную облачную реализацию.

Некоторые из общедоступных облаков, которые нужно знать: Amazon Web Services (AWS), Microsoft Azure, Alibaba Cloud. К внутренним облачным технологиям относятся OpenStack, Vagrant, Openshift, Docker, Kubernetes и др.

Практические навыки

Начинающий специалист по большим данным перед трудоустройством на хорошую должность должен получить практический опыт и изучить необходимые инструменты. Поскольку технологии меняется быстро, прохождение некоторых курсов может помочь в оперативном усвоении необходимых навыков.

***

Если вы только начинаете свой путь в профессии, хотите получить диплом и помощь в трудоустройстве, обратите внимание на курс Факультета Аналитики Big Data онлайн-университета GeekBrains. Помимо основ математики, языка Python и систем управления базами данных, в программу включена работа с Apache Hadoop и Apache Spark. Обучение ориентировано на применение навыков машинного обучения в бизнесе и построено по принципу практической работы над проектами с ведущими специалистами отрасли и личным помощником-куратором. Успешно окончившие курс студенты получат диплом о профессиональной подготовке и помощь в трудоустройстве.

17
Ноя
2020

Конференция HighLoad++ 2020

Темы выступлений — все аспекты разработки и поддержки высоконагруженных систем. Спикеры расскажут про архитектуры и разные методологии.
— Читать дальше «Конференция HighLoad++ 2020»

13
Ноя
2020

☕ ☁️ 👍 Начало работы с IntelliJ IDEA и распределенным SQL

Всерьез задумались о переносе инфраструктуры в облако? Тогда этот материал придется вам кстати. Попробуем разбираться, что это такое и с чем его едят.

Перевод публикуется с сокращениями, автор оригинальной статьи Jimmy
Guerrero.

IntelliJ IDEA – это интегрированная написанная на Java среда разработки (IDE). Создана она компанией JetBrains
и доступна как лицензионное издание сообщества Apache 2, а также в проприетарном
коммерческом формате. Поскольку YugabyteDB совместим с PostgreSQL, большинство
сторонних инструментов и приложений будут работать “из коробки”.

В этом материале вы узнаете как:

  • установить кластер YugabyteDB на движке Google Kubernetes;
  • установить БД Northwind;
  • настроить IntelliJ для работы с YugabyteDB;
  • протестировать некоторые основные функции БД IntelliJ с помощью YugabyteDB.

Что такое распределенный SQL?

Распределенные базы данных SQL пользуются популярностью среди
организаций, заинтересованных в переносе инфраструктуры данных в облако. Это
часто затевается ради уменьшения TCO (Total Cost of Ownership) или избавления
от ограничений горизонтального масштабирования СУБД: Oracle, PostgreSQL, MySQL
и Microsoft SQL Server. Основные характеристики распределенного SQL:

  • Наличие SQL API для запросов и моделирования данных, с поддержкой внешних ключей, частичных индексов, хранимых процедур и триггеров.
  • Интеллектуальное распределенное выполнение запросов позволяет отдалить обработку передаваемых по сети данных, уменьшая время отклика на запросы.
  • Поддержка автоматического и прозрачного распределенного хранения данных для обеспечения высокой производительности и доступности.
  • Обеспечение строго согласованной репликации и распределенных ACID-транзакций.

Для получения углубленных знаний о распределенном SQL,
ознакомьтесь с
официальной документацией.

Что такое YugabyteDB?

YugabyteDB – это
высокопроизводительная распределенная СУБД с открытым исходным кодом, построенная
на масштабируемом и отказоустойчивом дизайне, вдохновленном Google Spanner.
YugabyteDB совместима с PostgreSQL, а также умеет интегрироваться с
проектами GraphQL и поддерживает хранимые процедуры, триггеры, а также UDFs.

Остались вопросы – обратитесь к официальному
форуму
.

Шаг 1: Установка YugabyteDB на кластер GKE с помощью Helm 3

Полный мануал можно найти по этой ссылке. Предположим, что у вас уже есть запущенный и работающий кластер GKE.

Первое, что нужно сделать – добавить репозиторий:

        $ helm repo add yugabytedb https://charts.yugabyte.com
    

Получим обновления:

        
$ helm repo update
    

Создадим пространство имен yb-demo:

        
$ kubectl create namespace yb-demo
    

В ответ получим следующее:

        namespace/yb-demo created
    

Теперь установим YugabyteDB и укажем значения для некоторых
ограничений:

        $ helm install yb-demo yugabytedb/yugabyte \
--set resource.master.requests.cpu=1,resource.master.requests.memory=1Gi,\
resource.tserver.requests.cpu=1,resource.tserver.requests.memory=1Gi,\
enableLoadBalancer=True --namespace yb-demo --wait
    

Проверим статус:

        $ kubectl get services --namespace yb-demo
    

Обратите внимание на внешний IP-адрес и порт для сервиса yb-tserver, который мы собираемся использовать для установления
соединения между YugabyteDB и IntelliJ: 35.224.XX.XX:5433.

Шаг 2: Создайте Northwind БД

Следующим шагом является загрузка образца схемы и данных. Вы
можете найти множество примеров
совместимых с YugabyteDB баз данных в документации для разработчиков. Для этого туториала будем использовать
образец БД Northwind, содержащий данные о продажах компании “Northwind
Traders”. Это отличная учебная схема для ERP-системы малого бизнеса с
клиентами, заказами, закупками, поставщиками, доставкой и прочим.

Подключитесь к yb-tserver-pod:

        $ kubectl exec -n yb-demo -it yb-tserver-0 /bin/bash
    

Чтобы загрузить файлы схемы и данные, выполните следующие
команды:

        $ wget https://raw.githubusercontent.com/yugabyte/yugabyte-db/master/sample/northwind_ddl.sql
$ wget https://raw.githubusercontent.com/yugabyte/yugabyte-db/master/sample/northwind_data.sql
    

Выйдите из оболочки pod и подключитесь к службе YSQL:

        $ exit
$ kubectl exec -n yb-demo -it yb-tserver-0 -- ysqlsh -h yb-tserver-0.yb-tservers.yb-demo
    

Создайте базу данных и подключитесь к ней:

        
yugabyte=# CREATE DATABASE northwind;
northwind=# \c northwind;
    

Теперь можно создать объекты БД и заполнить их данными,
используя файлы, которые мы загрузили в yb-tserver-pod:

        northwind=# \i 'northwind_ddl.sql';
northwind=# \i 'northwind_data.sql';
    

Убедитесь, что таблицы созданы:

        northwind-# \d
                 List of relations

 Schema |          Name          | Type  |  Owner
-------+------------------------+-------+----------
 public | categories             | table | yugabyte
 public | customer_customer_demo | table | yugabyte
 public | customer_demographics  | table | yugabyte
 public | customers              | table | yugabyte
 public | employee_territories   | table | yugabyte
 public | employees              | table | yugabyte
 public | order_details          | table | yugabyte
 public | orders                 | table | yugabyte
 public | products               | table | yugabyte
 public | region                 | table | yugabyte
 public | shippers               | table | yugabyte
 public | suppliers              | table | yugabyte
 public | territories            | table | yugabyte
 public | us_states              | table | yugabyte

(14 rows)
    

Проверьте, что данные присутствуют, выполнив простой SELECT:

        northwind=# SELECT count(*) FROM products;
 count
-------
    77

(1 row)
    

По умолчанию настроенная YugabyteDB поставляется без пароля для пользователя yugabyte. Изменение выполняется
так же, как и в PostgreSQL:

        northwind=# ALTER ROLE yugabyte WITH PASSWORD 'password';
    

Шаг 3: Настройка IntelliJ для работы с YugabyteDB

Откройте окно БД (View > Tool Windows > Database):


Добавьте источник данных PostgreSQL. (New (+) > Data Source >
PostgreSQL
):


На вкладке General заполните данные для подключения к БД:

  • Host: внешний IP-адрес, который GKE назначил YugabyteDB на предыдущем шаге.
  • Port: YugabyteDB использует порт 5433.
  • Database: образец БД northwind из предыдущего шага.
  • User: по умолчанию – это yugabyte.
  • Password: пароль из предыдущего шага.
  • Driver: установите последнюю версию драйвера PostgreSQL.

Прежде чем нажать кнопку “ОК”, убедитесь, что присутствует
соединение.

Шаг 4: Выполнение запроса

Теперь давайте протестируем интеграцию, выполнив следующий
запрос в IntelliJ:


В окне вывода должны увидеть следующий результат:


Шаг 5: Генерируем объяснение

IntelliJ умеет создавать визуализацию ваших запросов.
Например, можно получить визуализацию последнего запроса, выбрав Explain Plan > Show Visualization.


Примечание: не все функции управления базами данных IntelliJ
поддерживаются с помощью YugabyteDB.

Заключение

Теперь у вас есть кластер YugabyteDB на три узла и GKE с
образцом базы данных Northwind, которые и дальше можно использовать в тестах на IntelliJ. Дополнительные сведения о взаимодействии с БД с помощью IntelliJ ищите в
документации, а для получения информации о сторонних интеграциях с YugabyteDB ознакомьтесь с документацией для разработчиков.

Дополнительные материалы

11
Ноя
2020

Курс «Разработка на Java»

Изучите основы ООП на Java, баз данных, сетевых технологий и веб-разработки на Spring и Hibernate.
— Читать дальше «Курс «Разработка на Java»»

15
Окт
2020

Курс «Spring Framework Developer»

Научитесь быстро проходить путь от идеи до production-grade на практическом онлайн-курсе «Spring Framework Developer».
— Читать дальше «Курс «Spring Framework Developer»»

08
Окт
2020

Старт 9 ноября, Москва и СПб: интенсив «Fullstack-разработчик. JavaScript»

За 3 месяца овладеете необходимыми знаниями по JavaScript и основным инструментам, которые позволят трудоустроиться на позицию разработчика.
— Читать дальше «Очный интенсив «Fullstack-разработчик. JavaScript»»

08
Окт
2020

Цель статьи – познакомить читателей с процессом сбора, интерпретации и обработки данных для оперирования временными рядами с помощью сервера SQL и Python.

Адаптированный текст публикуется с сокращениями, автор оригинальной статьи Rick Dobson.

***

Распространённая задача анализа данных – обработка временно́го ряда. Это может быть отслеживание распространения вируса или анализ стоимости ценных бумаг, который мы рассмотрим в данной статье. В качестве сервера SQL возьмём Microsoft SQL Server, а программировать будем на Python.

Для начала выделим три общие задачи:

  1. Управление информацией после заполнения базы данных.
  2. Увеличение числа отслеживаемых элементов после первоначального заполнения БД.
  3. Добавление свежих данных для более поздних интервалов времени.

Cбор и настройка
исходного набора данных

Начнем со сбора сведений. Раздобыть их можно в транзакционных базах данных, хранилищах информации вашей
компании или в общедоступных интернет-источниках. Необходимо
связать между собой по крайней два измерения: метки времени и соответствующие им значениями переменной.

Ниже показана
информация о мартовских ценах акций корпорации Microsoft на Yahoo Finance. Обратите внимание, что торгующиеся на бирже ценные бумаги обозначаются специальными идентификаторами – тикерами (тикерными символами – от англ. ticker symbols). Например, MSFT – тикер акций Microsoft.

 Cтраница Historical Data на Yahoo Finance
Cтраница Historical Data на Yahoo Finance

В серой части страницы приведены основные параметры запроса: в частности можно указать интервал времени и частоту.

Разберем скрипт
Python, предназначенный для сбора данных временных рядов из файла MSSQLTips_4.txt.

        import pandas_datareader.data as web
import datetime
 
symbol = []
with open('C:\python_programs\MSSQLTips_4.txt') as f:
    for line in f:
        symbol.append(line.strip())
f.close()
 
start = datetime.date(2019,9,17)
end = datetime.date(2019,9,24)
 
path_out = 'c:/python_programs_output/'
file_out = 'yahoo_prices_volumes_for_MSSQLTips_4_to_csv_demo.csv'
 
i = 0
while i < len(symbol):
    try:
        df = web.DataReader(symbol[i], 'yahoo', start, end)
        df.insert(0, 'Symbol', symbol[i])
        df = df.drop(['Adj Close'], axis=1)
        if i == 0:
            df.to_csv(path_out+file_out)
            print (i, symbol[i],'has data stored to csv file')
        else:
            df.to_csv(path_out+file_out,mode = 'a', header=False)
            print (i, symbol[i],'has data stored to csv file')
    except:
        print("No information for symbol or file is open in Excel:")
        print (i, symbol[i])
        continue
    i+=1
    

Скрипт записывает информацию в файл yahoo_prices_volumes_for_MSSQLTips_4_to_csv_demo.csv , который выглядит следующим образом:

Вы можете вставить
данные временных рядов из yahoo_prices_volumes_for_MSSQLTips_4_to_csv_demo.csv
в таблицу на сервере SQL с помощью группового insert-а. Приведённый ниже сценарий демонстрирует
этот процесс:

  • Начинается он с инструкции use для базы данных, содержащей таблицу для начальной загрузки.
  • Сценарий создает новую копию таблицы yahoo_prices_volumes_for_MSSQLTips.
  • Таблица yahoo_prices_volumes_for_MSSQLTips заполняется начальными данными.
  • Оператор if exists проверяет наличие таблицы и если она существует, старая копия удаляется.
  • Вставка содержимого файла yahoo_prices_volumes_for_MSSQLTips_4_to_csv_demo.csv в таблицу yahoo_prices_volumes_for_MSSQLTips осуществляется с помощью insert.
  • Завершает скрипт оператор select, который возвращает содержимое заполненной таблицы.
        use [for_csv_from_python]
go
 
-- drop table for watchlist if it exists
if exists(select object_id('dbo.yahoo_prices_volumes_for_MSSQLTips'))
drop table dbo.yahoo_prices_volumes_for_MSSQLTips
 
-- create table for watchlist
create table dbo.yahoo_prices_volumes_for_MSSQLTips(
   [Date] date,
   [Symbol] nvarchar(10),
   [Open] money NULL,
   [High] money NULL,
   [Low] money NULL,
   [Close] money NULL,
   [Volume] int NULL
) 
go 
 
-- bulk insert first batch of symbols to watchlist
bulk insert dbo.yahoo_prices_volumes_for_MSSQLTips
from 'C:\python_programs_output\yahoo_prices_volumes_for_MSSQLTips_4_to_csv_demo.csv'
with
(
    firstrow = 2,
    fieldterminator = ',',  --CSV field delimiter
    rowterminator = '\n'
) 
 
-- display watchlist table with data for first batch of symbols
select * from dbo.yahoo_prices_volumes_for_MSSQLTips order by symbol, date
    

Ниже приведён набор
значений из последнего select в предыдущем скрипте. Строки упорядочиваются с помощью директивы order by.

Добавление новых тикеров в начальную загрузку

После начальной загрузки данными нужно управлять. Пользователи могут запрашивать информацию о
дополнительных элементах: например, о ценах в том же диапазоне дат ещё для трех тикеров, вроде ENPH, INS и KL. Вам в помощь txt-файл
MSSQLTips_3.txt с тикерными символами для начальной загрузки.

Вы можете загрузить
цены и объёмы для этих новых символов с помощью скрипта Python read_mssqltips_3_for_export_via_csv.py.
Он ссылается на MSSQLTips_3.txt и сохраняет выходные данные в файле yahoo_prices_volumes_for_MSSQLTips_3_to_csv_demo.csv.
Полный список всех скриптов Python в этом руководстве доступен по этой
ссылке.

Приведем файл с данными: yahoo_prices_volumes_for_MSSQLTips_3_to_csv_demo.csv

Обновление списка наблюдения может быть выполнено с помощью
инструкции bulk insert, которая перекачивает содержимое yahoo_prices_volumes_for_MSSQLTips_3_to_csv_demo.csv
в таблицу yahoo_prices_volumes_for_MSSQLTips. Следующий скрипт показывает код
T-SQL для обновления таблицы:

        -- bulk insert second batch of symbols to watchlist
bulk insert dbo.yahoo_prices_volumes_for_MSSQLTips
from 'C:\python_programs_output\yahoo_prices_volumes_for_MSSQLTips_3_to_csv_demo.csv'
with
(
    firstrow = 2,
    fieldterminator = ',',  --CSV field delimiter
    rowterminator = '\n'
)
 
-- display watchlist table with data for first and second batches of symbols
select * from dbo.yahoo_prices_volumes_for_MSSQLTips order by symbol, date
    

Последний select
показывает таблицу наблюдения после того, как в нее добавились тикеры ENPH,
INS и KL. Напомним, что изначально в таблице их было всего четыре: AMZN,
MSFT, ORCL, PAYS.

Таблица наблюдения
содержит сорок две строки данных — по шесть строк для
каждого из семи тикеров.

Добавление новых строк
с данными

В этом разделе
представлен обзор изменений кода для обновления существующей таблицы значений
временных рядов данными для дополнительного периода времени. До
этого момента в статье фигурировал интервал с 17 сентября 2019 по 24
сентября 2019. При работе с данными временных рядов обычно происходит
регулярное обновление информации, например, один раз в день.
Поскольку в примерах используются последовательные торговые дни, добавим данные за 25
сентября 2019 года для тикеров из MSSLQTIPS_7.txt.

В файле yahoo_prices_volumes_for_MSSQLTips_7_to_csv_demo.csv с данными
за 25 сентября 2019 года для каждого тикера существует только одна строка.

Содержимое файла
можно добавить в таблицу наблюдения значений временных рядов
(yahoo_prices_volumes_for_MSSQLTips) с помощью следующего кода.

        -- bulk insert fresh time series data to watchlist
bulk insert dbo.yahoo_prices_volumes_for_MSSQLTips
from 'C:\python_programs_output\yahoo_prices_volumes_for_MSSQLTips_7_to_csv_demo.csv'
with
(
    firstrow = 2,
    fieldterminator = ',',  --CSV field delimiter
    rowterminator = '\n'
)
  
-- display watchlist table with data for first and second batches of symbols
-- and with an extra row of time series data from the preceding select statement
select * from dbo.yahoo_prices_volumes_for_MSSQLTips order by symbol, date
    

В выводе оператора select из предыдущего скрипта показаны результаты
по AMZN для начальной загрузки данных временных рядов, а также по ENPH из
обновления. Как видите, оба символа имеют исторические значения временных рядов
для торговых дат с 17 сентября 2019 года по 25 сентября 2019 года. Остальные
пять символов, также имеют значения временных рядов в том же диапазоне дат.

Заключение

Для закрепления
информации, предлагаем вам домашнее задание:

  • попробуйте повторить описанные в статье действия;
  • измените тикеры и даты на те, которые вам больше нравятся;
  • замените текущие файлы cave новыми, из систем вашей компании.

Не
останавливайтесь на достигнутом. Удачи!

29
Сен
2020

14 октября – 17 октября, онлайн: конференция Golang Live 2020

Профессиональная конференция для Go-разработчиков. Специалисты расскажут о применении языка программирования Golang в энтерпрайз-проектах.
— Читать дальше «Конференция Golang Live 2020»