logo

Python ile Veri Analizi ve Görselleştirme

Python, verileri yönetmeye yönelik sağlam kütüphaneleri ve araçları nedeniyle bir veri analizi dili olarak yaygın şekilde kullanılmaktadır. Bu kütüphaneler arasında veri araştırma manipülasyonunu ve analizini kolaylaştıran Pandalar bulunmaktadır. kullanacağız  Pandalar  adı verilen bir veri kümesini analiz etmek için  Ülke-data.csv  Kaggle'dan. Bu verilerle çalışırken Pandalar'daki bazı önemli kavramları da tanıtıyoruz.

1. Kurulum

Pandaları kurmanın en kolay yolu pip kullanmaktır:

Python
pip install pandas 


veya şuradan indirin:  Burada .



2. Pandas'ta DataFrame Oluşturma

Veri Çerçevesi  Pandas'ta satırlar ve sütunlar halinde saklanan verilere sahip tablo benzeri bir veri yapısıdır. Bir DataFrame, birden fazla python Serisi nesnesinin DataFrame sınıf ( pd.DataFrame() ) kullanarak  pd.Series  Yöntem. Bu örnekte iki Series nesnesi kullanılmıştır: s1 ilk sıra olarak ve s2 ikinci sıra olarak.

Örnek 1: Seriden DataFrame Oluşturma:

Python
import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe) 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' title=

Örnek 2: Özel Dizin ve Sütun Adlarına Sahip Bir Listeden DataFrame:

Python
dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1) 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=

Örnek 3: Sözlükten DataFrame:

Python
dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2) 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=

3. Pandalarla Verileri İçe Aktarma

İlk adım veriyi okumaktır. Bizim durumumuzda veriler, her satırın yeni bir satırla ve her sütunun virgülle ayrıldığı bir CSV (Virgülle Ayrılmış Değerler) dosyası olarak depolanır. Python'daki verilerle çalışabilmek için csv'yi okumak gerekir.  dosya  Pandas DataFrame'e aktarın.

Python
import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape 

Çıkış:

KAFA' loading='lazy' title=
(167 10)

4. DataFrame'leri Pandalarla İndeksleme

Pandalar güçlü indeksleme yetenekleri sağlar. Her ikisini de kullanarak DataFrame'leri indeksleyebilirsiniz. pozisyona dayalı Ve etiket tabanlı yöntemler.

Konuma Dayalı İndeksleme (Konum Bazlı İndeksleme) iloc ):

Python
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5] 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title= Python ile Veri Analizi ve Görselleştirme' loading='lazy' title= Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=

Etiket Tabanlı İndeksleme (Kullanarak loc ):

İndeksleme etiketlerle çalışılabilir.  pandas.DataFrame.loc  Konumlar yerine etiketleri kullanarak indekslemeye izin veren yöntem.

Örnekler:

Python
# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::] 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title= Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=


Yukarıdakiler aslında df.iloc[0:5:]'dan pek farklı görünmüyor. Bunun nedeni, satır etiketlerinin herhangi bir değeri alabilmesine rağmen satır etiketlerimizin konumlarla tam olarak eşleşmesidir. Ancak sütun etiketleri verilerle çalışırken işleri çok daha kolaylaştırabilir.

Örnek:

Python
# Prints the first 5 rows of Time period # value  df.loc[:5'child_mort'] 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=

5. Pandalarla DataFrame Matematiği

Pandalar, veri çerçevelerinde depolanan veriler üzerinde matematiksel işlemler yapmayı kolaylaştırır. Pandalar üzerinde gerçekleştirilebilecek işlemler vektörleştirilmiştir, yani hızlıdırlar ve döngüler kullanılmadan tüm öğelere otomatik olarak uygulanırlar.

Örnek - Sütun Bazında Matematik:

Python
# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=

Pandalarda İstatistiksel Fonksiyonlar:

Java'da prime kod yok

Veri çerçevelerinin hesaplanması pandas araçlarının İstatistiksel Fonksiyonları kullanılarak yapılabilir. Aşağıdaki gibi işlevleri kullanabiliriz:

  • df.sum() → değerlerin toplamı
  • df.mean() → ortalama
  • df.max() / df.min() → maksimum ve minimum değerler
  • df.describe() → hızlı istatistik özeti
Python
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum() 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title= Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=

6. Pandalar ve Matplotlib ile Veri Görselleştirme

Pandaların kullanımı çok kolaydır  Matplotlib Temel grafikler ve grafikler oluşturmak için kullanılan güçlü bir kütüphane. Yalnızca birkaç satır kodla verilerimizi görselleştirebilir ve daha iyi anlayabiliriz. Aşağıda Pandas ve Matplotlib kullanarak çizim yapmaya başlamanıza yardımcı olacak bazı basit örnekler verilmiştir:

Python
# Import the library first import matplotlib.pyplot as plt 

Histogram

Histogram, bir sütundaki değerlerin dağılımını gösterir.

Python
df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show() 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=

Kutu Grafiği

kutu grafiği  Aykırı değerleri tespit etmek ve veri yayılımını anlamak için faydalıdır.

Python
df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show() 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=

Dağılım Grafiği

dağılım grafiği  iki değişken arasındaki ilişkiyi gösterir.

Python
x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show() 

Çıkış:

Python ile Veri Analizi ve Görselleştirme' loading='lazy' title=

İlgili Makale:

  • Pandalar Giriş
  • Python'da Grafik Çizme
  • Python'da csv dosyalarıyla çalışma
  • Pandalar DataFrame
  • Matplotlib'e Giriş
  • Histogram - Tanım Türleri Grafiği ve Örnekler
  • Kutu Grafiği
  • Dağılım Grafiği


Test Oluştur