Python adalah bahasa pemrograman yang sangat populer untuk analisis data karena:
• Mudah dipelajari: Sintaksnya yang sederhana membuatnya mudah dipahami, bahkan bagi pemula.
• Banyak library: Memiliki banyak library (perpustakaan) yang sangat berguna untuk analisis data, seperti:
- NumPy: Untuk komputasi numerik.
- Pandas: Untuk manipulasi dan analisis data.
- Matplotlib: Untuk visualisasi data.
- Seaborn: Untuk visualisasi data tingkat tinggi.
- Scikit-learn: Untuk machine learning.
1. Import Library:
import numpy as np
import pandas as pd
import pandas as pd
import matplotlib.pyplot as plt
2. Load Data:
• Dari file CSV:
data = pd.read_csv('data.csv')
• Dari database:
2. Load Data:
• Dari file CSV:
data = pd.read_csv('data.csv')
• Dari database:
import sqlalchemy
engine = sqlalchemy.create_engine('sqlite:///mydatabase.db')
data = pd.read_sql_query('SELECT * FROM mytable', engine)
3. Eksplorasi Data:
• Lihat data awal:
print(data.head())
• Cek informasi dasar:
print(data.info())
• Deskripsi statistik:
print(data.describe())
4. Cleaning Data:
• Hapus data yang hilang:
data.dropna(inplace=True)
• Handle outlier:
# Gunakan metode seperti IQR atau Z-score
5. Analisis Data:
• Groupby: Kelompokkan data berdasarkan kolom tertentu.
• Pivot table: Buat tabel pivot untuk analisis lebih lanjut.
• Korelasi: Hitung korelasi antara variabel.
6. Visualisasi Data:
• Line plot: Untuk data time series.
• Scatter plot: Untuk melihat hubungan antara dua variabel numerik.
• Histogram: Untuk melihat distribusi data.
• Bar plot: Untuk data kategorikal.
plt.scatter(data['kolom1'], data['kolom2'])
plt.show()
7. Modeling:
• Regresi: Untuk memprediksi nilai numerik.
• Klasifikasi: Untuk memprediksi kelas.
• Clustering: Untuk mengelompokkan data.
Contoh Sederhana:
import pandas as pd
import matplotlib.pyplot as plt
# Load data
data = pd.read_csv('tips.csv')
# Lihat 5 data pertama
print(data.head())
# Histogram jumlah tagihan
plt.hist(data['total_bill'])
plt.show()
Ingin belajar lebih lanjut?
Tips:
data = pd.read_sql_query('SELECT * FROM mytable', engine)
3. Eksplorasi Data:
• Lihat data awal:
print(data.head())
• Cek informasi dasar:
print(data.info())
• Deskripsi statistik:
print(data.describe())
4. Cleaning Data:
• Hapus data yang hilang:
data.dropna(inplace=True)
• Handle outlier:
# Gunakan metode seperti IQR atau Z-score
5. Analisis Data:
• Groupby: Kelompokkan data berdasarkan kolom tertentu.
• Pivot table: Buat tabel pivot untuk analisis lebih lanjut.
• Korelasi: Hitung korelasi antara variabel.
6. Visualisasi Data:
• Line plot: Untuk data time series.
• Scatter plot: Untuk melihat hubungan antara dua variabel numerik.
• Histogram: Untuk melihat distribusi data.
• Bar plot: Untuk data kategorikal.
plt.scatter(data['kolom1'], data['kolom2'])
plt.show()
7. Modeling:
• Regresi: Untuk memprediksi nilai numerik.
• Klasifikasi: Untuk memprediksi kelas.
• Clustering: Untuk mengelompokkan data.
Contoh Sederhana:
import pandas as pd
import matplotlib.pyplot as plt
# Load data
data = pd.read_csv('tips.csv')
# Lihat 5 data pertama
print(data.head())
# Histogram jumlah tagihan
plt.hist(data['total_bill'])
plt.show()
Ingin belajar lebih lanjut?
- Dicoding: https://www.dicoding.com/academies/555
- Microsoft Learn: https://learn.microsoft.com/id-id/training/modules/explore-analyze-data-with-python/
Tips:
- Praktek: Semakin banyak Anda berlatih, semakin mahir Anda akan menjadi.
- Gunakan Jupyter Notebook: Ini adalah alat yang sangat berguna untuk analisis data dengan Python.
- Cari tutorial dan contoh: Banyak sumber daya online yang dapat membantu Anda belajar.
- Join komunitas: Bergabunglah dengan komunitas Python untuk mendapatkan bantuan dan berbagi pengetahuan.