PYTHON ILE VERI ANALIZI VE GÖRSELLEŞTIRME

Python, verileri yönetmeye yönelik sağlam kütüphaneleri ve araçları nedeniyle bir veri analizi dili olarak yaygın şekilde kullanılmaktadır. Bu kütüphaneler arasında veri araştırma manipülasyonunu ve analizini kolaylaştıran Pandalar bulunmaktadır. kullanacağız Pandalar adı verilen bir veri kümesini analiz etmek için Ülke-data.csv Kaggle'dan. Bu verilerle çalışırken Pandalar'daki bazı önemli kavramları da tanıtıyoruz.

1. Kurulum

Pandaları kurmanın en kolay yolu pip kullanmaktır:

Python pip install pandas

veya şuradan indirin: Burada .

2. Pandas'ta DataFrame Oluşturma

A Veri Çerçevesi Pandas'ta satırlar ve sütunlar halinde saklanan verilere sahip tablo benzeri bir veri yapısıdır. Bir DataFrame, birden fazla python Serisi nesnesinin DataFrame sınıf ( pd.DataFrame() ) kullanarak pd.Series Yöntem. Bu örnekte iki Series nesnesi kullanılmıştır: s1 ilk sıra olarak ve s2 ikinci sıra olarak.

Örnek 1: Seriden DataFrame Oluşturma:

Python

import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)

Çıkış:

Python ile Veri Analizi ve Görselleştirme' title=

Örnek 2: Özel Dizin ve Sütun Adlarına Sahip Bir Listeden DataFrame:

Python dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=

Örnek 3: Sözlükten DataFrame:

Python dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)

Çıkış:

3. Pandalarla Verileri İçe Aktarma

İlk adım veriyi okumaktır. Bizim durumumuzda veriler, her satırın yeni bir satırla ve her sütunun virgülle ayrıldığı bir CSV (Virgülle Ayrılmış Değerler) dosyası olarak depolanır. Python'daki verilerle çalışabilmek için csv'yi okumak gerekir. dosya Pandas DataFrame'e aktarın.

Python

import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape

Çıkış:

(167 10)

4. DataFrame'leri Pandalarla İndeksleme

Pandalar güçlü indeksleme yetenekleri sağlar. Her ikisini de kullanarak DataFrame'leri indeksleyebilirsiniz. pozisyona dayalı Ve etiket tabanlı yöntemler.

Konuma Dayalı İndeksleme (Konum Bazlı İndeksleme) iloc ):

Python

# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]

Çıkış:

Etiket Tabanlı İndeksleme (Kullanarak loc ):

İndeksleme etiketlerle çalışılabilir. pandas.DataFrame.loc Konumlar yerine etiketleri kullanarak indekslemeye izin veren yöntem.

Örnekler:

Python

# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]

Çıkış:

Yukarıdakiler aslında df.iloc[0:5:]'dan pek farklı görünmüyor. Bunun nedeni, satır etiketlerinin herhangi bir değeri alabilmesine rağmen satır etiketlerimizin konumlarla tam olarak eşleşmesidir. Ancak sütun etiketleri verilerle çalışırken işleri çok daha kolaylaştırabilir.

Örnek:

Python # Prints the first 5 rows of Time period # value df.loc[:5'child_mort']

Çıkış:

5. Pandalarla DataFrame Matematiği

Pandalar, veri çerçevelerinde depolanan veriler üzerinde matematiksel işlemler yapmayı kolaylaştırır. Pandalar üzerinde gerçekleştirilebilecek işlemler vektörleştirilmiştir, yani hızlıdırlar ve döngüler kullanılmadan tüm öğelere otomatik olarak uygulanırlar.

Örnek - Sütun Bazında Matematik:

Python

# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df

Çıkış:

Pandalarda İstatistiksel Fonksiyonlar:

Java'da prime kod yok

Veri çerçevelerinin hesaplanması pandas araçlarının İstatistiksel Fonksiyonları kullanılarak yapılabilir. Aşağıdaki gibi işlevleri kullanabiliriz:

df.sum() → değerlerin toplamı
df.mean() → ortalama
df.max() / df.min() → maksimum ve minimum değerler
df.describe() → hızlı istatistik özeti

Python

# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()

Çıkış:

6. Pandalar ve Matplotlib ile Veri Görselleştirme

Pandaların kullanımı çok kolaydır Matplotlib Temel grafikler ve grafikler oluşturmak için kullanılan güçlü bir kütüphane. Yalnızca birkaç satır kodla verilerimizi görselleştirebilir ve daha iyi anlayabiliriz. Aşağıda Pandas ve Matplotlib kullanarak çizim yapmaya başlamanıza yardımcı olacak bazı basit örnekler verilmiştir:

Python # Import the library first import matplotlib.pyplot as plt

Histogram

Histogram, bir sütundaki değerlerin dağılımını gösterir.

Python

df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()

Çıkış:

Kutu Grafiği

A kutu grafiği Aykırı değerleri tespit etmek ve veri yayılımını anlamak için faydalıdır.

Python

df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()

Çıkış:

Dağılım Grafiği

A dağılım grafiği iki değişken arasındaki ilişkiyi gösterir.

Python

x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()

Çıkış:

İlgili Makale:

Pandalar Giriş
Python'da Grafik Çizme
Python'da csv dosyalarıyla çalışma
Pandalar DataFrame
Matplotlib'e Giriş
Histogram - Tanım Türleri Grafiği ve Örnekler
Kutu Grafiği
Dağılım Grafiği

Test Oluştur

Python ile Veri Analizi ve Görselleştirme

1. Kurulum

2. Pandas'ta DataFrame Oluşturma

3. Pandalarla Verileri İçe Aktarma

4. DataFrame'leri Pandalarla İndeksleme

5. Pandalarla DataFrame Matematiği

6. Pandalar ve Matplotlib ile Veri Görselleştirme