data science

analiza danych naukowych

Wnioskowanie statystyczne oraz opisanie części metodologicznej.

Od prostych statystyk opisowych, testowania hipotez, do wykorzystania uczenia maszynowego (w tym głębokich sieci neuronowych) do rozwiązywania złożonych problemów naukowych.

pytania i odpowiedzi

Jaki jest zakres analizy danych?

  • Indywidualne konsultacje statystyczne i metodologiczne przed rozpoczęciem pracy naukowej oraz w jej trakcie,
  • opracowanie statystyczne i metodologiczne do prac naukowych na podstawie dostarczonych baz danych,
  • konsultacje dotyczące wyboru odpowiedniego testu statystycznego lub związane z narzędziami badawczymi.

W jakiej formie dostarczane jest opracowanie statystyczne?

Opracowanie statystyczne jest sformułowane w postaci wystarczającej do "przeklejenia" ich do pracy naukowej. Nie dostarczam i nie piszę jednak części wykraczających poza samą analizę danych, w szczególności: wprowadzenia teoretycznego, dyskusji uzyskanych wyników, czy też podsumowania. Opracowanie wyników zawiera przeprowadzone porównania statystyczne w tabelach, wartości statystyk oraz ich opis (np. "W celu określenia związku między zmiennymi przeprowadzono test [...], ponieważ [...]. Wartości statystyk wynoszą [...], co wskazuje na [...]). W komentarzach do opracowania statystycznego dodaję również informacje "po ludzku" co oznacza dany fragment oraz wskazówki co do późniejszej prezentacji wyników (na co zwrócić uwagę przy prezentacji).

Jaki jest i od czego zależy koszt wykonania opracowania lub konsultacji?

Koszt opracowania wyników zależy od liczby hipotez do przetestowania oraz ich złożoności. Cena obejmuje zaimportowanie danych do SPSS lub środowiska R, przedstawienie statystyk opisowych w tabelach, sprawdzenie przygotowanych danych oraz możliwości przeprowadzenia wybranych testów, analizy i testy statystyczne z opisem, zapisanie wyników, uwzględnienie wykresów do odpowiednich porównań statystycznych.

Koszt na przykładzie podstawowych analiz statystycznych związanych z określeniem związku pomiędzy efektywnością terapii a techniką psychoterapeutyczną: opracowanie wyników badania z dwoma podstawowymi hipotezami (np. efektywność terapii zależy od wybranej techniki psychoterapeutycznej), sprawdzenie w jakim stopniu dana zmienna wiąże się z grupą badawczą (np. czy efektywność terapii jest lepsza wśród uczestników badania w określonym wieku, płci, etc.) oraz przedstawienie statystyk opisowych w tabelach (dane socjodemograficzne grupy badawczej, średni czas trwania psychoterapii, etc.) wyniósłby od 400 do 600 zł. Koszt opracowania oszacowuję za darmo na podstawie wiadomości e-mail zawierającej bazę danych oraz hipotezy, które mają być przetestowane.

Uczenie maszynowe (w tym sieci neuronowe)

Sztuczne sieci neuronowe, lasy losowe, k-średnie - w analizie związków między zmiennymi, w badaniach jakościowych (określenie związku między zmiennymi a całą wypowiedzią osób badanych), czy też wyszukiwanie wzorców w obrazach. Mogą stanowić samodzielną metodę weryfikacji zależności między zmiennymi lub uzupełniać podejście tradycyjne.

Analizy klasyczne

Podstawowe metody określenia związków między zmiennymi oraz statystyki opisowe związane z badanymi zależnościami, w tym testy normalności rozkładu, różnic między średnimi, częstości, czy też analizy wariancji.

Testy normalności rozkładu (np. Test Kołmogorowa-Smirnowa)

Testy jednorodności wariancji (np. Test Levene'a)

Statystyki opisowe (m.in. odchylenie standardowe, średnia z przedziałem ufności)

Testy różnic między średnimi (np. rodzina testów t)

Testy nieparametryczne (np. test U-Manna Whitney'a)

Testy częstości (np. test niezależności chi-2)

Analiza wariancji (np. ANOVA, MANOVA)

Analiza regresji (logistyczna, liniowa)