Целью работы являлась разработка алгоритма обработки больших массивов данных с помощью свободно распространяемого языка программирования Python с подключением библиотеки Pandas, предназначенной для работы с базами данных. Для решения этой задачи использована информация, размещённая на форумах сети интернет, а также в документации к перечисленным программным продуктам.
При создании алгоритма ставилась цель формализации последовательности команд обращения к библиотеке Pandas и действий, производимых этими командами для создания выборки только тех данных из массива, которые необходимы исследователю. После этого рассмотрен процесс сортировки значений из полученной выборки. Такое пошаговое описание алгоритма необходимо для понимания последовательности процесса обработки данных при создании научных и прикладных программных продуктов на языке Python.
Использование разработанного алгоритма продемонстрировано на примере обработки массива данных по продажам крупных американских компаний за один год. Для вывода результатов обработки в виде диаграммы применены команды управления графической библиотекой Matplotlib для Python.
Ключевой особенностью полученного алгоритма является простота его применения для обработки данных любого типа, представленных в разных форматах – как популярных, так и экзотических. Показаны уникальные возможности библиотеки Pandas, которыми не обладают традиционные средства обработки баз данных, основанные на SQL (языке структурированных запросов, работающим только с реляционными базами данных).
Предполагается дальнейшее использование и развитие данного алгоритма для расчёта мощности фотоэлектрических солнечных и ветряных электростанций по статистической информации о характеристиках солнечного излучения и атмосферных потоков в определённом регионе с подключением дополнительных библиотек.
БИБЛИОГРАФИЧЕСКАЯ ССЫЛКА
Ильичев В.Ю., Юрик Е.А. АНАЛИЗ МАССИВОВ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ БИБЛИОТЕКИ PANDAS ДЛЯ PYTHON // Научное обозрение. Технические науки. – 2020. – № 4. – С. 41-45
The purpose of the work was to develop an algorithm for processing large amounts of data using a freely distributed Python programming language with a Pandas library attached to work with databases. Information posted on Internet forums, as well as documentation for these software products, is used to solve this problem.
When creating the algorithm, the goal was to formalize the sequence of commands to access the Pandas library and the actions these commands perform to create a sample of only the data from the array that the researcher needed. The process of sorting the values of the obtained sample is then considered. This step-by-step description of the algorithm is necessary to understand the sequence of the data processing when creating scientific and application software products in Python.
The use of the developed algorithm is demonstrated by the example of processing an array of data on sales of large American companies in one year. The Matplotlib graphics library management commands for Python are used to display the results of processing as a chart.
A key feature of the resulting algorithm is its ease of use for processing data of any type presented in different formats - both popular and exotic. Shows the unique capabilities of the Pandas library that traditional SQL-based database processing tools do not have (a structured query language that only works with relational databases).
It is expected to further use and develop this algorithm to calculate the capacity of photovoltaic solar and wind farms based on statistical information on the characteristics of solar radiation and atmospheric flows in a certain region with the connection of additional libraries.
_