Python, verileri yönetmeye yönelik sağlam kütüphaneleri ve araçları nedeniyle bir veri analizi dili olarak yaygın şekilde kullanılmaktadır. Bu kütüphaneler arasında veri araştırma manipülasyonunu ve analizini kolaylaştıran Pandalar bulunmaktadır. kullanacağız Pandalar adı verilen bir veri kümesini analiz etmek için Ülke-data.csv Kaggle'dan. Bu verilerle çalışırken Pandalar'daki bazı önemli kavramları da tanıtıyoruz.
1. Kurulum
Pandaları kurmanın en kolay yolu pip kullanmaktır:
Pythonpip install pandas
veya şuradan indirin: Burada .
2. Pandas'ta DataFrame Oluşturma
A Veri Çerçevesi Pandas'ta satırlar ve sütunlar halinde saklanan verilere sahip tablo benzeri bir veri yapısıdır. Bir DataFrame, birden fazla python Serisi nesnesinin DataFrame sınıf ( pd.DataFrame() ) kullanarak pd.Series Yöntem. Bu örnekte iki Series nesnesi kullanılmıştır: s1 ilk sıra olarak ve s2 ikinci sıra olarak.
Örnek 1: Seriden DataFrame Oluşturma:
Pythonimport pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)
Çıkış:
Örnek 2: Özel Dizin ve Sütun Adlarına Sahip Bir Listeden DataFrame:
Pythondataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)
Çıkış:
Örnek 3: Sözlükten DataFrame:
Pythondataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)
Çıkış:
3. Pandalarla Verileri İçe Aktarma
İlk adım veriyi okumaktır. Bizim durumumuzda veriler, her satırın yeni bir satırla ve her sütunun virgülle ayrıldığı bir CSV (Virgülle Ayrılmış Değerler) dosyası olarak depolanır. Python'daki verilerle çalışabilmek için csv'yi okumak gerekir. dosya Pandas DataFrame'e aktarın.
Pythonimport pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape
Çıkış:
(167 10)4. DataFrame'leri Pandalarla İndeksleme
Pandalar güçlü indeksleme yetenekleri sağlar. Her ikisini de kullanarak DataFrame'leri indeksleyebilirsiniz. pozisyona dayalı Ve etiket tabanlı yöntemler.
Konuma Dayalı İndeksleme (Konum Bazlı İndeksleme) iloc ):
# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]
Çıkış:
Etiket Tabanlı İndeksleme (Kullanarak loc ):
İndeksleme etiketlerle çalışılabilir. pandas.DataFrame.loc Konumlar yerine etiketleri kullanarak indekslemeye izin veren yöntem.
Örnekler:
Python# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]
Çıkış:
Yukarıdakiler aslında df.iloc[0:5:]'dan pek farklı görünmüyor. Bunun nedeni, satır etiketlerinin herhangi bir değeri alabilmesine rağmen satır etiketlerimizin konumlarla tam olarak eşleşmesidir. Ancak sütun etiketleri verilerle çalışırken işleri çok daha kolaylaştırabilir.
Örnek:
Python# Prints the first 5 rows of Time period # value df.loc[:5'child_mort']
Çıkış:
5. Pandalarla DataFrame Matematiği
Pandalar, veri çerçevelerinde depolanan veriler üzerinde matematiksel işlemler yapmayı kolaylaştırır. Pandalar üzerinde gerçekleştirilebilecek işlemler vektörleştirilmiştir, yani hızlıdırlar ve döngüler kullanılmadan tüm öğelere otomatik olarak uygulanırlar.
Örnek - Sütun Bazında Matematik:
Python# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df
Çıkış:
Pandalarda İstatistiksel Fonksiyonlar:
Java'da prime kod yok
Veri çerçevelerinin hesaplanması pandas araçlarının İstatistiksel Fonksiyonları kullanılarak yapılabilir. Aşağıdaki gibi işlevleri kullanabiliriz:
df.sum()→ değerlerin toplamıdf.mean()→ ortalamadf.max()/df.min()→ maksimum ve minimum değerlerdf.describe()→ hızlı istatistik özeti
# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()
Çıkış:
6. Pandalar ve Matplotlib ile Veri Görselleştirme
Pandaların kullanımı çok kolaydır Matplotlib Temel grafikler ve grafikler oluşturmak için kullanılan güçlü bir kütüphane. Yalnızca birkaç satır kodla verilerimizi görselleştirebilir ve daha iyi anlayabiliriz. Aşağıda Pandas ve Matplotlib kullanarak çizim yapmaya başlamanıza yardımcı olacak bazı basit örnekler verilmiştir:
Python# Import the library first import matplotlib.pyplot as plt
Histogram
Histogram, bir sütundaki değerlerin dağılımını gösterir.
Pythondf['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()
Çıkış:
Kutu Grafiği
A kutu grafiği Aykırı değerleri tespit etmek ve veri yayılımını anlamak için faydalıdır.
Pythondf = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()
Çıkış:
Dağılım Grafiği
A dağılım grafiği iki değişken arasındaki ilişkiyi gösterir.
Pythonx = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()
Çıkış:
İlgili Makale:
- Pandalar Giriş
- Python'da Grafik Çizme
- Python'da csv dosyalarıyla çalışma
- Pandalar DataFrame
- Matplotlib'e Giriş
- Histogram - Tanım Türleri Grafiği ve Örnekler
- Kutu Grafiği
- Dağılım Grafiği