Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Daniel Y. Chen

Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Daniel Y. Chen - okladka książki

Zajrzyj do książki

Autor:: Daniel Y. Chen
Serie wydawnicze:: Praktyczne wprowadzenie
Wydawnictwo:: Helion
Wydawnictwo:: Helion
Ocena:: 3.0/6 Opinie: 1
Stron:: 456
Druk:: oprawa miękka
Dostępne formaty::      PDF

     ePub

     Mobi

Czytaj fragment

Książka

70,85 zł ~~109,00 zł~~ (-35%)

65,40 zł najniższa cena z 30 dni

(2za1 » dobierz książkę GRATIS)

Dodaj do koszyka Wysyłamy w 24h

Ebook

59,94 zł ~~109,00 zł~~ (-45%)

39,90 zł najniższa cena z 30 dni

(2za1 » dobierz ebook GRATIS)

Dodaj do koszyka Dostępny natychmiast po opłaceniu zakupu lub Kup na prezent Kup 1-kliknięciem

Przenieś na półkę

Do przechowalni

Powiadom o dostępności audiobooka »

Kup w zestawie z dodatkowym rabatem i zyskaj darmową dostawę

Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Daniel Y. Chen

Nowe Ziemie. Poszukiwanie życia w kosmosie Lisa Kaltenegger

Sztuka analizy danych. Twarde i miękkie umiejętności w czasach sztucznej inteligencji Mona Khalil

Cena zestawu: 197.83 zł

Zyskujesz: 95.07 zł (-32%)

Dodaj do koszyka

Kup w zestawie z dodatkowym rabatem

Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Daniel Y. Chen

Nowe Ziemie. Poszukiwanie życia w kosmosie Lisa Kaltenegger

Sztuka analizy danych. Twarde i miękkie umiejętności w czasach sztucznej inteligencji Mona Khalil

Cena zestawu: 149.81 zł

Zyskujesz: 143.09 zł (-49%)

Dodaj do koszyka

Czego się nauczysz?

Tworzenia i modyfikowania struktur danych Series oraz DataFrame w Pandas
Importowania i eksportowania danych w różnych formatach, takich jak CSV, Excel, JSON czy Feather
Wybierania, filtrowania oraz grupowania danych według kolumn i wierszy
Agregowania, transformowania i filtrowania danych z wykorzystaniem metod grupowania
Wizualizowania danych za pomocą bibliotek matplotlib, seaborn oraz narzędzi wbudowanych w Pandas
Przetwarzania i łączenia wielu zbiorów danych, w tym scalania, konkatenacji oraz pracy z wieloma tabelami
Normalizowania i porządkowania danych, w tym dzielenia i łączenia kolumn oraz pracy z danymi uporządkowanymi
Obsługi brakujących danych, ich identyfikowania, czyszczenia i uzupełniania
Przekształcania typów danych, w tym pracy z danymi liczbowymi, tekstowymi oraz kategorialnymi
Przetwarzania i analizowania danych tekstowych z użyciem wyrażeń regularnych i metod łańcuchowych
Pracy z datami i godzinami, w tym przekształcania, wyodrębniania składników oraz operacji na indeksach czasowych
Budowania i dopasowywania modeli regresji liniowej oraz uogólnionych modeli liniowych z użyciem statsmodels i scikit-learn
Wykonywania analizy przeżycia, w tym tworzenia krzywych Kaplana-Meiera i modeli Coxa
Przeprowadzania diagnostyki modeli, porównywania ich oraz stosowania walidacji krzyżowej
Stosowania technik regularyzacji, takich jak regresja LASSO, grzbietowa oraz sieć elastyczna
Wykonywania klasteryzacji danych, w tym metod k-średnich, hierarchicznych i redukcji wymiarów PCA

Wprawny analityk potrafi się posługiwać zbiorami danych o wysokiej dynamice i różnorodności. Działanie to ułatwia biblioteka open source Pandas, która pozwala, przy użyciu języka Python, zrealizować niemal każde zadanie wymagające analizy danych. Pandas może pomóc w zapewnieniu wiarygodności danych, wizualizowaniu ich pod kątem efektywnego podejmowania decyzji i analizowaniu wielu zbiorów danych.

Oto drugie, zaktualizowane i uzupełnione wydanie przewodnika po bibliotece Pandas. Dzięki tej przystępnej książce nauczysz się w pełni korzystać z możliwości oferowanych przez bibliotekę, nawet jeśli dopiero zaczynasz przygodę z analizą danych w Pythonie. Naukę rozpoczniesz z użyciem rzeczywistego zbioru danych, aby wkrótce rozwiązywać złożone problemy danologii, takie jak obsługa brakujących danych, stosowanie regularyzacji czy też używanie metod nienadzorowanego uczenia maszynowego do odnajdywania podstawowej struktury w zbiorze danych. Pracę z poszczególnymi zagadnieniami ułatwia to, że zostały one zilustrowane prostymi, ale praktycznymi przykładami.

W książce:

importowanie i eksportowanie danych, przygotowywanie ich zbiorów
tworzenie wykresów za pomocą bibliotek matplotlib, seaborn i Pandas
konwersja typów danych
skalowanie operacji przetwarzania danych
zaawansowane możliwości biblioteki Pandas powiązane z datami i czasem
dopasowywanie modeli liniowych przy użyciu bibliotek statsmodels i scikit-learn

Analizuj zbiory danych i odkrywaj ukrytą w nich wiedzę!

Pokaż opis z okładki oryginału »

Automatyzowanie analizy danych oraz zarządzanie nią za pomocą biblioteki Pandas języka Python

Obecnie analitycy muszą zarządzać danymi cechującymi się wyjątkową różnorodnością, dynamiką i wolumenem. Dzięki zastosowaniu biblioteki open source Pandas możesz za pomocą języka Python szybko zautomatyzować i zrealizować prawie każde zadanie dotyczące analizy danych niezależnie od jego wielkości lub stopnia złożoności. Biblioteka ta może pomóc w zapewnieniu wiarygodności danych, wizualizowaniu ich pod kątem efektywnego podejmowania decyzji oraz odtwarzania w pewny sposób analiz w przypadku wielu zbiorów danych.

W książce Biblioteka Pandas dla każdego. Wydanie drugie połączono wiedzę praktyczną i obserwacje w celu umożliwienia rozwiązywania realnych problemów przy użyciu biblioteki Pandas nawet wtedy, gdy dopiero zaczynasz analizować dane za pomocą języka Python. Daniel Y. Chen prezentuje kluczowe pojęcia z wykorzystaniem prostych, lecz praktycznych przykładów. Stopniowo bazuje na nich, aby rozwiązywać trudniejsze i rzeczywiste problemy ze świata danologii. Jest to na przykład zastosowanie regularyzacji w celu uniknięcia nadmiernego dopasowania lub użycie metod nienadzorowanego uczenia maszynowego do znalezienia podstawowej struktury w zbiorze danych.

Nowości w wydaniu drugim obejmują:

Rozszerzono omówienie tworzenia wykresów oraz biblioteki do wizualizacji danych seaborn.
Rozbudowano przykłady i zasoby informacji.
Zaktualizowano kod do wersji 3.9 języka Python oraz omówienie pakietów z uwzględnieniem bibliotek statsmodels i scikit-learn.

Autor umożliwia rozpoczęcia korzystania z biblioteki Pandas z użyciem rzeczywistego zbioru danych. Ponadto omawia łączenie zbiorów danych, obsługę brakujących danych oraz tworzenie struktury zbiorów danych w celu ułatwienia analizy i wizualizacji. Autor demonstruje zaawansowane techniki oczyszczania danych, począwszy od podstawowego modyfikowania łańcuchów, a skończywszy na jednoczesnym stosowaniu funkcji w obrębie wielu ramek danych.

Po przygotowaniu danych autor prezentuje modele dopasowywania używane na potrzeby predykcji, klasteryzacji, wnioskowania i eksplorowania. Zapewnia wskazówki dotyczące wydajności i skalowalności, a także wprowadza do obszerniejszego ekosystemu analizy danych w języku Python.

Praca z obiektami DataFrame i Series oraz importowanie lub eksportowanie danych.
Tworzenie wykresów za pomocą bibliotek matplotlib, seaborn i Pandas.
Łączenie zbiorów danych i obsługa brakujących danych.
Przekształcanie, porządkowanie i oczyszczanie zbiorów danych w celu ułatwienia pracy z nimi.
Konwersja typów danych i modyfikowanie łańcuchów tekstowych.
Stosowanie funkcji do skalowania operacji przetwarzania danych.
Agregowanie, transformowanie i filtrowanie dużych zbiorów danych za pomocą metody .groupby.
Korzystanie z zaawansowanych możliwości biblioteki Pandas powiązanych z datami i czasem.
Dopasowywanie modeli liniowych przy użyciu bibliotek statsmodels i scikit-learn.

Wybrane bestsellery

O autorze książki

Dr Daniel Y. Chen jest wykładowcą na uczelni University of British Columbia. Prowadzi też zajęcia edukacyjne z zakresu danologii w firmie RStudio PBC. Współpracował z organizacją The Carpentries jako instruktor, prowadzący szkolenia, opiekun materiałów lekcyjnych i kierownik odpowiedzialny za utrzymanie społeczności.

Ebooka "Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II" przeczytasz na:

czytnikach Inkbook, Kindle, Pocketbook, Onyx Boox i innych
systemach Windows, MacOS i innych

systemach Windows, Android, iOS, HarmonyOS
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi

Masz pytania? Zajrzyj do zakładki Pomoc »

Oceny i opinie klientów: Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Daniel Y. Chen

(1)

6
(0)
5
(0)
4
(0)
3
(1)
2
(0)
1
(0)

3.0

Książka zawiera wiele informacji i przykładów co jest zdecydowanie plusem. Problemem jest jednak tłumaczenie/język - miejscami brak konsekwencji oraz tłumacz zdecydował się na przetłumaczenie nazw modułów / struktur na j. polski. Prowadzi to do pewnego bałaganu - pisze o funkcji range() a następnie o ramce danych (zamiast dataFrame) przez co cały czas trzeba uważać, czy autor mówi o teorii czy też o konkretnym działaniu. Dodatkowo czasem w obrębie jednej instrukcji język jest niespójny - przykładowo przy filtrowaniu danych przy pomocy iloc oraz loc tłumacz pisze 'loc[] dopasowuje względem wartości (...) iloc[] stosuje wycięcia według pozycji'. W tym wypadku 'dopasowuje' i 'wycięcia' to dokładnie to samo działanie ale o innym zakresie. Innymi słowy - niepotrzebnie ciężka lektura ze względu na tłumaczenie.

Rozwiń »

Opinia: Michał Opinia dodana: 2024-09-08 Ocena: 3

Opinia niepotwierdzona zakupem

Opinia dotyczy produktu: ksiązka drukowana

Czy opinia była pomocna:

TAK (0) NIE (0)

Szczegóły książki

Dane producenta: »
Tytuł oryginału:: Pandas for Everyone: Python Data Analysis (Addison-Wesley Data & Analytics Series), 2nd Edition
Tłumaczenie:: Piotr Pilch
ISBN Książki drukowanej:: 978-83-289-0151-3, 9788328901513
Data wydania książki drukowanej :: 2024-01-16
ISBN Ebooka:: 978-83-289-0152-0, 9788328901520
Data wydania ebooka :: 2024-01-16 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@ebookpoint.pl.
Format:: 165x235
Numer z katalogu:: 208967
Rozmiar pliku Pdf:: 5.6MB
Rozmiar pliku ePub:: 8.3MB
Rozmiar pliku Mobi:: 16.4MB
Pobierz przykładowy rozdział PDF »
Przykłady na ftp » 47.8MB

Zgłoś erratę
Serie wydawnicze: Praktyczne wprowadzenie

Kategorie

Kliknij, aby zgłosić błędnie przypisaną kategorię »

Informatyka » Programowanie » Python
Informatyka » Programowanie » Inne - Programowanie
Informatyka » Bazy danych » Inne
Informatyka » Biznes IT » Big data » Analiza danych

Dostępność produktu

Produkt nie został jeszcze oceniony pod kątem ułatwień dostępu lub nie podano żadnych informacji o ułatwieniach dostępu lub są one niewystarczające. Prawdopodobnie Wydawca/Dostawca jeszcze nie umożliwił dokonania walidacji produktu lub nie przekazał odpowiednich informacji na temat jego dostępności.

Spis treści książki

Słowo wstępne do wydania drugiego

Słowo wstępne do wydania pierwszego

Przedmowa

Podziękowania

O autorze

Zmiany w wydaniu drugim

Część I. Wprowadzenie

Rozdział 1. Typ danych DataFrame biblioteki Pandas - podstawy
- 1.1. Wprowadzenie
- Cele rozdziału
- 1.2. Ładowanie pierwszego zbioru danych
- 1.3. Sprawdzanie kolumn, wierszy i komórek
  - 1.3.1. Wybieranie i określanie podzbioru kolumn na podstawie nazwy
  - 1.3.2. Określanie podzbioru wierszy
  - 1.3.3. Określanie podzbioru wierszy za pomocą numeru wiersza: atrybut .iloc[]
  - 1.3.4. Użycie kombinacji
  - 1.3.5. Określanie podzbioru wierszy i kolumn
- 1.4. Obliczenia grupowane i agregowane
  - 1.4.1. Średnie grupowane
  - 1.4.2. Liczebności grupowane
- 1.5. Podstawowy wykres
- Podsumowanie
Rozdział 2. Struktury danych biblioteki Pandas - podstawy
- Cele rozdziału
- 2.1. Tworzenie własnych danych
  - 2.1.1. Tworzenie obiektu Series
  - 2.1.2. Tworzenie obiektu DataFrame
- 2.2. Obiekty Series
  - 2.2.1. Obiekt Series przypomina typ ndarray
  - 2.2.2. Określanie podzbioru wartości boolowskich: obiekt Series
  - 2.2.3. Operacje są automatycznie wyrównywane i wektoryzowane (rozgłaszanie)
- 2.3. Obiekt DataFrame
  - 2.3.1. Części obiektu DataFrame
  - 2.3.2. Określanie podzbioru wartości boolowskich: obiekty DataFrame
  - 2.3.3. Operacje są automatycznie wyrównywane i wektoryzowane (rozgłaszanie)
- 2.4. Wprowadzanie zmian w obiektach Series i DataFrame
  - 2.4.1. Dodawanie dodatkowych kolumn
  - 2.4.2. Bezpośrednie modyfikowanie kolumny
  - 2.4.3. Modyfikowanie kolumn za pomocą metody .assign()
  - 2.4.4. Usuwanie wartości
- 2.5. Eksportowanie i importowanie danych
  - 2.5.1. "Peklowanie"
  - 2.5.2. Format danych CSV
  - 2.5.3. Excel
  - 2.5.4. Format Feather
  - 2.5.5. Projekt Arrow
  - 2.5.6. Słownik
  - 2.5.7. Format JSON
  - 2.5.8. Inne typy danych wyjściowych
- Podsumowanie
Rozdział 3. Tworzenie wykresów - podstawy
- Cele rozdziału
- 3.1. Dlaczego warto wizualizować dane?
- 3.2. Podstawy obsługi biblioteki matplotlib
  - 3.2.1. Obiekty rysunków i podwykresy z osiami
  - 3.2.2. Anatomia rysunku
- 3.3. Tworzenie graficznych wizualizacji danych statystycznych za pomocą biblioteki matplotlib
  - 3.3.1. Jednozmienność (pojedyncza zmienna)
  - 3.3.2. Dwuzmienność (dwie zmienne)
  - 3.3.3. Dane wielozmienne
- 3.4. Biblioteka seaborn
  - 3.4.1. Jednozmienność
  - 3.4.2. Dane dwuzmienne
  - 3.4.3. Dane wielozmienne
  - 3.4.4. Aspekty
  - 3.4.5. Style i kompozycje biblioteki seaborn
  - 3.4.6. Jak korzystać z dokumentacji biblioteki seaborn?
  - 3.4.7. Interfejs biblioteki seaborn następnej generacji
- 3.5. Metoda tworzenia wykresów za pomocą biblioteki Pandas
  - 3.5.1. Histogram
  - 3.5.2. Wykres gęstości
  - 3.5.3. Wykres punktowy
  - 3.5.4. Wykres przedziałów sześciokątnych (hexbin)
  - 3.5.5. Wykres pudełkowy
- Podsumowanie
Rozdział 4. Dane uporządkowane
- Cele rozdziału
  - Uwaga dotycząca niniejszego rozdziału
- 4.1. Kolumny zawierają wartości, a nie zmienne
  - 4.1.1. Utrwalenie jednej kolumny
  - 4.1.2. Utrwalenie wielu kolumn
- 4.2. Kolumny zawierają wiele zmiennych
  - 4.2.1. Osobne dzielenie i dodawanie kolumn
  - 4.2.2. Dzielenie i łączenie kolumn w jednym kroku
- 4.3. Zmienne znajdują się w wierszach i kolumnach
- Podsumowanie
Rozdział 5. Zastosowanie funkcji
- Cele rozdziału
  - Uwaga dotycząca niniejszego rozdziału
- 5.1. Elementarz funkcji
- 5.2. Zastosowanie funkcji (podstawy)
  - 5.2.1. Zastosowanie funkcji względem obiektu Series
  - 5.2.2. Zastosowanie funkcji względem obiektu DataFrame
- 5.3. Funkcje wektoryzowane
  - 5.3.1. Wektoryzacja za pomocą biblioteki NumPy
  - 5.3.2. Wektoryzacja za pomocą biblioteki Numba
- 5.4. Funkcje lambda (funkcje anonimowe)
- Podsumowanie

Część II. Przetwarzanie danych

Rozdział 6. Łączenie danych
- Cele rozdziału
- 6.1. Łączenie zbiorów danych
- 6.2. Konkatenacja
  - 6.2.1. Części przeglądowe obiektu DataFrame
  - 6.2.2. Dodawanie wierszy
  - 6.2.3. Dodawanie kolumn
  - 6.2.4. Konkatenacja z różnymi indeksami
- 6.3. Jednostki obserwacyjne w obrębie wielu tabel
  - 6.3.1. Ładowanie wielu plików za pomocą pętli
  - 6.3.2. Ładowanie wielu plików przy użyciu listy składanej
- 6.4. Scalanie wielu zbiorów danych
  - 6.4.1. Scalanie typu "jedna z jedną"
  - 6.4.2. Scalanie typu "wiele z jedną"
  - 6.4.3. Scalanie typu "wiele z wieloma"
  - 6.4.4. Sprawdzanie wyników pracy za pomocą asercji
- Podsumowanie
Rozdział 7. Normalizacja danych
- Cele rozdziału
- 7.1. Wiele jednostek obserwacyjnych w tabeli (normalizacja)
- Podsumowanie
Rozdział 8. Operacje grupowania: dzielenie, stosowanie i łączenie
- Cele rozdziału
- 8.1. Agregacja
  - 8.1.1. Podstawowa agregacja danych grupowanych z jedną zmienną
  - 8.1.2. Wbudowane metody agregacji
  - 8.1.3. Funkcje agregacji
  - 8.1.4. Użycie wielu funkcji jednocześnie
  - 8.1.5. Zastosowanie słownika w metodzie .agg() lub .aggregate()
- 8.2. Transformacja
  - 8.2.1. Przykład wyniku standardowego z
  - 8.2.2. Przykład z brakującymi wartościami
- 8.3. Filtrowanie
- 8.4. Obiekt pandas.core.groupby.DataFrameGroupBy
  - 8.4.1. Grupy
  - 8.4.2. Obliczenia w ramach grupowania obejmujące wiele zmiennych
  - 8.4.3. Wybieranie grupy
  - 8.4.4. Iteracja w obrębie grup
  - 8.4.5. Wiele grup
  - 8.4.6. "Spłaszczanie" wyników (.reset_index())
- 8.5. Zastosowanie obiektu MultiIndex
- Podsumowanie

Część III. Typy danych

Rozdział 9. Brakujące dane
- Cele rozdziału
- 9.1. Czym jest wartość NaN?
- 9.2. Skąd biorą się brakujące wartości?
  - 9.2.1. Ładowanie danych
  - 9.2.2. Scalone dane
  - 9.2.3. Wartości wprowadzane przez użytkownika
  - 9.2.4. Ponowne indeksowanie
- 9.3. Zajmowanie się brakującymi danymi
  - 9.3.1. Znajdowanie brakujących danych i określanie ich ilości
  - 9.3.2. Oczyszczanie danych z brakującymi wartościami
  - 9.3.3. Obliczenia uwzględniające brakujące dane
- 9.4. Brakująca wartość NA wbudowana w bibliotece Pandas
- Podsumowanie
Rozdział 10. Typy danych
- Cele rozdziału
- 10.1. Typy danych
- 10.2. Przekształcanie typów
  - 10.2.1. Konwersja do postaci obiektów łańcuchów
  - 10.2.2. Przekształcanie w wartości liczbowe
- 10.3. Dane kategorialne
  - 10.3.1. Przekształcanie w kategorię
  - 10.3.2. Przetwarzanie danych kategorialnych
- Podsumowanie
Rozdział 11. Łańcuchy i dane tekstowe
- Wprowadzenie
- Cele rozdziału
- 11.1. Łańcuchy
  - 11.1.1. Określanie podzbioru i dzielenie łańcuchów
  - 11.1.2. Uzyskanie ostatniego znaku łańcucha
- 11.2. Metody łańcuchowe
- 11.3. Dodatkowe metody łańcuchowe
  - 11.3.1. Metoda join
  - 11.3.2. Metoda splitlines
- 11.4. Formatowanie łańcuchów (f-łańcuchy)
  - 11.4.1. Formatowanie liczb
- 11.5. Wyrażenia regularne
  - 11.5.1. Dopasowanie wzorca
  - 11.5.2. Pamiętaj, jakich używasz wzorców wyrażeń regularnych
  - 11.5.3. Znajdowanie wzorca
  - 11.5.4. Zastępowanie wzorca
  - 11.5.5. Kompilowanie wzorca
- 11.6. Biblioteka regex
- Podsumowanie
Rozdział 12. Daty i godziny
- Cele rozdziału
- 12.1. Obiekt datetime języka Python
- 12.2. Przekształcanie do postaci ramki danych
- 12.3. Ładowanie danych zawierających daty
- 12.4. Wyodrębnianie składników daty
- 12.5. Obliczenia obejmujące daty i obiekty timedelta
- 12.6. Metody obiektu datetime
- 12.7. Uzyskiwanie danych notowań giełdowych
- 12.8. Określanie podzbioru danych na podstawie dat
  - 12.8.1. Obiekt DatetimeIndex
  - 12.8.2. Obiekt TimedeltaIndex
- 12.9. Zakresy dat
  - 12.9.1. Częstotliwości
  - 12.9.2. Przesunięcia
- 12.10. Wartości przesuwające
- 12.11. Ponowne próbkowanie
- 12.12. Strefy czasowe
- 12.13. Biblioteka Arrow do lepszej obsługi dat i godzin
- Podsumowanie

Część IV. Modelowanie danych

Rozdział 13. Regresja liniowa (wynikowa zmienna ciągła)
- 13.1. Prosta regresja liniowa
  - 13.1.1. Użycie biblioteki statsmodels
  - 13.1.2. Zastosowanie biblioteki scikit-learn (sklearn)
- 13.2. Regresja wielokrotna
  - 13.2.1. Użycie biblioteki statsmodels
  - 13.2.2. Zastosowanie biblioteki scikit-learn (sklearn)
- 13.3. Modele ze zmiennymi kategorialnymi
  - 13.3.1. Zmienne kategorialne w bibliotece statsmodels
  - 13.3.2. Zmienne kategorialne w bibliotece scikit-learn (sklearn)
- 13.4. Kodowanie One-Hot w bibliotece scikit-learn z wykorzystaniem potoków transformera
- Podsumowanie
Rozdział 14. Uogólnione modele liniowe
- Coś o tym rozdziale
- 14.1. Regresja logistyczna (binarna zmienna wyjściowa)
  - 14.1.1. Użycie biblioteki statsmodels
  - 14.1.2. Zastosowanie biblioteki sklearn
  - 14.1.3. Zachowaj ostrożność w przypadku domyślnych wartości biblioteki scikit-learn (sklearn)
- 14.2. Regresja Poissona (ilościowa zmienna wynikowa)
  - 14.2.1. Użycie biblioteki statsmodels
  - 14.2.2. Ujemna regresja dwumianowa w przypadku nadmiernej dyspersji
- 14.3. Bardziej uogólnione modele liniowe
- Podsumowanie
Rozdział 15. Analiza przeżycia
- 15.1. Dane analizy przeżycia
- 15.2. Krzywe Kaplana-Meiera
- 15.3. Model proporcjonalnego hazardu Coxa
  - 15.3.1. Testowanie założeń modelu Coxa
- Podsumowanie
Rozdział 16. Diagnostyka modeli
- 16.1. Residua
  - 16.1.1. Wykresy kwantylowe K-K
- 16.2. Porównanie wielu modeli
  - 16.2.1. Korzystanie z modeli liniowych
  - 16.2.2. Zastosowanie uogólnionych modeli liniowych
- 16.3. Walidacja krzyżowa k-krotna
- Podsumowanie
Rozdział 17. Regularyzacja
- 17.1. Dlaczego regularyzacja?
- 17.2. Regresja LASSO
- 17.3. Regresja grzbietowa
- 17.4. Sieć elastyczna
- 17.5. Walidacja krzyżowa
- Podsumowanie
Rozdział 18. Klasteryzacja
- 18.1. k-średnie
  - 18.1.1. Ograniczanie liczby wymiarów za pomocą analizy PCA
- 18.2. Klastrowanie hierarchiczne
  - 18.2.1. Klastrowanie kompletne
  - 18.2.2. Klastrowanie pojedyncze
  - 18.2.3. Klastrowanie ze średnią
  - 18.2.4. Klastrowanie z centroidem
  - 18.2.5. Klastrowanie metodą Warda
  - 18.2.6. Ręczne ustawianie progu
- Podsumowanie

Część V. Podsumowanie

Rozdział 19. Świat poza obrębem biblioteki Pandas
- 19.1. Stos do obliczeń (naukowych)
- 19.2. Wydajność
  - 19.2.1. Pomiar czasu wykonywania kodu
  - 19.2.2. Profilowanie kodu
  - 19.2.3. Moduł concurrent.futures
- 19.3. Dask
- 19.4. Siuba
- 19.5. Ibis
- 19.6. Polars
- 19.7. PyJanitor
- 19.8. Pandera
- 19.9. Uczenie maszynowe
- 19.10. Publikowanie
- 19.11. Panele kontrolne
- Podsumowanie
Rozdział 20. Działanie w pojedynkę jest niebezpieczne!
- 20.1. Lokalne spotkania
- 20.2. Konferencje
- 20.3. The Carpentries
- 20.4. Podcasty
- 20.5. Inne zasoby
- Podsumowanie

Dodatki

Dodatek A. Mapy pojęć
Dodatek B. Instalacja i konfiguracja
- B.1. Instalacja języka Python
  - B.1.1. Anaconda
  - B.1.2. Miniconda
  - B.1.3. Odinstalowywanie dystrybucji Anaconda lub Miniconda
  - B.1.4. pyenv
- B.2. Instalowanie pakietów języka Python
- B.3. Pobieranie zbiorów danych używanych w książce
Dodatek C. Wiersz poleceń
- C.1. Instalacja
  - C.1.1. System Windows
  - C.1.2. System Mac
  - C.1.3. System Linux
- C.2. Podstawy
Dodatek D. Szablony projektowe
Dodatek E. Zastosowanie języka Python
- E.1. Wiersz poleceń i edytor tekstu
- E.2. Python i IPython
- E.3. Jupyter
- E.4. Zintegrowane środowiska programistyczne IDE
Dodatek F. Katalogi robocze
Dodatek G. Środowiska
- G.1. Środowiska systemu conda
- G.2. Pyenv + Pipenv
Dodatek H. Instalacja pakietów
- H.1. Aktualizowanie pakietów
Dodatek I. Importowanie bibliotek
Dodatek J. Styl kodu
- J.1. Znaki podziału wiersza w kodzie
Dodatek K. Kontenery: listy, krotki i słowniki
- K.1. Listy
- K.2. Krotki
- K.3. Słowniki
Dodatek L. Określanie wartości za pomocą składni wycinków
Dodatek M. Pętle
Dodatek N. Listy składane
Dodatek O. Funkcje
- O.1. Parametry domyślne
- O.2. Parametry arbitralne
  - O.2.1. Wyrażenie *args
  - O.2.2. Wyrażenie **kwargs
Dodatek P. Zakresy i generatory
Dodatek Q. Przypisanie wielokrotne
Dodatek R. Typ ndarray biblioteki NumPy
Dodatek S. Klasy
Dodatek T. Komunikat SettingWithCopyWarning
- T.1. Modyfikowanie podzbioru danych
- T.2. Zastępowanie wartości
- T.3. Dodatkowe zasoby informacji
Dodatek U. Tworzenie łańcuchów metod
Dodatek V. Czas wykonywania kodu
Dodatek W. Formatowanie łańcuchów
- W.1. Formatowanie w stylu języka C
- W.2. Formatowanie łańcuchów: metoda .format()
- W.3. Formatowanie liczb
Dodatek X. Instrukcje warunkowe (if-elif-else)
Dodatek Y. Przykład regresji logistycznej ze zbiorem danych ACS dla Nowego Jorku
- Y.0.1. Użycie biblioteki sklearn
Dodatek Z. Replikowanie wyników za pomocą języka R
- Z.1. Regresja liniowa
- Z.2. Regresja logistyczna
- Z.3. Regresja Poissona
  - Z.3.1. Ujemna regresja dwumianowa w przypadku nadmiernej dyspersji

Skorowidz

pokaż cały spis treści

Helion - inne książki

Najczęściej zadawane pytania (FAQ)

1. Czy książka ,,Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II" zawiera praktyczne przykłady kodu w Pythonie?

Tak, książka obfituje w praktyczne przykłady kodu w języku Python, ilustrujące zastosowanie biblioteki Pandas na rzeczywistych zbiorach danych.

2. Czy publikacja obejmuje również zagadnienia związane z wizualizacją danych?

Tak, w książce znajdziesz rozdziały poświęcone tworzeniu wykresów i wizualizacji danych przy użyciu bibliotek matplotlib, seaborn oraz narzędzi dostępnych w Pandas.

3. Jakie dodatkowe biblioteki, poza Pandas, są omawiane w książce?

Oprócz Pandas, książka omawia m.in. biblioteki NumPy, matplotlib, seaborn, statsmodels, scikit-learn, a także narzędzia takie jak Dask, Arrow czy Jupyter.

4. Czy książka jest aktualna względem najnowszych wersji bibliotek?

Tak, jest to drugie, zaktualizowane wydanie, uwzględniające zmiany i nowości w bibliotekach oraz praktykach analizy danych.

5. Czy książka zawiera instrukcje dotyczące instalacji Pythona i wymaganych pakietów?

Tak, w dodatkach znajdziesz szczegółowe wskazówki dotyczące instalacji Pythona, środowisk programistycznych i wszystkich niezbędnych pakietów.

6. Czy książka omawia zaawansowane techniki analizy danych, takie jak modelowanie czy uczenie maszynowe?

Tak, w publikacji znajdziesz rozdziały poświęcone modelowaniu danych, regresji, regularyzacji, klasteryzacji oraz podstawom uczenia maszynowego z wykorzystaniem Pandas i powiązanych bibliotek.

7. Czy do książki dołączone są dane do samodzielnych ćwiczeń?

Tak, książka zawiera instrukcje, jak pobrać rzeczywiste zbiory danych wykorzystywane w przykładach, umożliwiając samodzielne ćwiczenia i naukę.

8. Czy ta książka może służyć jako podręcznik do nauki analizy danych w Pythonie od podstaw?

Tak, książka prowadzi czytelnika krok po kroku od podstawowych zagadnień do bardziej zaawansowanych tematów, dzięki czemu sprawdzi się zarówno dla początkujących, jak i osób chcących ugruntować i poszerzyć swoją wiedzę.

Zamknij

Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II Daniel Y. Chen