P 值計算器:如何計算 p 值

快速驗證您獲得的統計結果。使用我們的 P 值計算器立即判定檢驗結果的顯著水準,然後在專家的引導下做出精準的解讀。您只需要輸入 Z 分數和 α 值,就能知道是否應該拒絕虛無假說。

一名女性在筆電前工作

Z 分數表示某個資料點與整體平均的差距為幾個標準差。請從標準常態分佈表或軟體中查得。
使用雙尾檢定來測試出任何方向的變化。如果您已經預期結果會低很多或高很多,請選擇左尾或右尾檢定。
通常會設定為 0.05,這是您接受結果具有統計顯著性的閾值。

p 值為 

0

結果不顯著的條件為 p ≥ 

0.05

試著想像以下情境:您正沉浸於分析和統計的世界,試圖釐清眼前所有數字和資料點的意義,突然間,您發現了一個非常有用的東西,叫做 p 值。它是研究人員用來解開數據謎團,看穿假說檢驗結果是否具有顯著性的秘密武器。

這個 p 值最主要的作用,是在幫助我們決定要不要相信假說檢驗的結果。研究人員會用它來評估手上的數據資料是否足以推翻虛無假說,並支持對立假說。研究人員也會用 p 值來比較兩個群組或檢驗之間的相關性。

您可以使用上面的 SurveyMonkey p 值計算器得到該數值。

p 值代表機率 (probability) 值,它衡量的是在虛無假說為真的情況下,獲得某測量結果的可能性有多大。換句話說,假設真實差異並不存在 (意即虛無假說是成立的),那麼您的調查結果的發生機率有多大。

簡言之,p 值就是用來量化調查結果可推翻虛無假說的證據力度有多強。這個值通常會被拿來與預設的顯著水準 (例如 0.05) 作對比,當 p 值比這個值還低的時候,就表示「出現這個結果可能不是偶然!」這樣您就能夠放心認定虛無假說並不成立,並認真考慮您提出的假說或許是真的。 

p 值之所以那麼重要,就是因為研究人員需要透過它來決定應該接受或否定虛無假說。下面這幾種研究題目都可以運用 p 值來檢定:

  • 「男性客戶和女性客戶的滿意度有差異嗎?」
  • 「員工滿意度與員工對訓練計畫的滿意度有關聯性嗎?」

當 p 值越低,您所測試的群組之間就越有可能存在差異,而這也可能進一步代表您所研究的變數之間存在某種可預測的關係。

如此一來,研究人員就能知道如何解讀調查結果的重要性,並向利益關係人及同事傳達證據強度。

若要計算 p 值,首先必須判定在虛無假說為真的前提下,您獲得目前手上這組資料的機率是多少。接著,將這個機率與您所設定的顯著水準 (通常為 0.05) 相比,藉此決定您的結果是否具有統計顯著性

若要從 z 分數推導 p 值,您必須先在標準常態分布表查找到該 z 分數所對應的機率,或使用軟體來找到相對應的機率。這個機率就代表在假設虛無假說為真時,研究觀測到一樣極端或更極端的 z 分數的機率是多少。

下列這些公式能給出 p 值:

  • 左尾 z 檢定:p 值 = P(Zscore)
  • 右尾 z 檢定:p 值 = 1 - P(Zscore)
  • 雙尾 z 檢定:p 值 = 2 × P(−|Zscore|) 或 2 - 2 × P(|Zscore|)

以下將逐步說明如何從 z 分數推導 p 值:

  1. 了解問題:您手上有一組資料,而您想知道獲得這個結果的可能性有多大。您也想要知道,若假設虛無假說成立,要收集到比您手上這組資料更極端的資料集,可能性會有多大。
  2. 找到 z 分數:首先,先找出您的資料的 z 分數。這個值能夠顯示您的資料點與平均值之間,相差的距離有多少個標準差。您可以利用統計軟體 (如 R 或 SPSS) 找出 z 分數,或透過查表 (例如這個表) 找出偏差。
  3. 決定方向:選擇要採用單尾檢定 (考慮極端值的方向性) 或雙尾檢定 (不考慮方向性)。如果您所預期的差異是明顯較小或較大,就要使用單尾檢定 — 左尾或右尾檢定。如果您所假設的差異並不涉及方向性,那麼就使用雙尾檢定。
  4. 用 z 分數查表:您可以翻閱標準常態分布表,也可以使用軟體或現成的 p 值計算器來算出累積機率。
  5. 利用上面的 p 值計算器算出 p 值,或:
    • 在單尾檢定的情況中:如果 z 分數是正的 (右尾檢定),應以 1 減去查到的累積機率。如果 z 分數是負的 (左尾檢定),就可以直接使用所查到的累積機率。
    • 在雙尾檢定的情況中:應將累積機率乘以二,以把左右兩側都考慮進去。然後,如果 z 分數為正值,就用 1 減去該分數。
  6. 解讀 p 值:如果 p 值非常小 (通常是指小於 0.05),就表示在虛無假說成立的情況下,要獲得您的資料的可能性很低,也就是說您的資料具有統計顯著性。您也可以使用上面的 p 值計算器算出信心水準,再根據信心水準來解讀 p 值。

t 分數是用來表示樣本平均與母體平均之差的數值,若想要從 t 分數推導 p 值,必須先確定 t 分數。接著,使用 t 分布表或軟體來找出觀測到該 t 值的機率,也就是說,在虛無假說為真的情況下,獲得您手上這組樣本的可能性有多大。

下列這些公式能用 t 分數算出 p 值。

  • 左尾 t 檢定:p 值 = cdft,d(tscore)
  • 右尾 t 檢定:p 值 = 1 - cdft,d(tscore)
  • 雙尾 t 檢定:p 值 = 2 × cdft,d(−|tscore|) 或 p 值 = 2 - 2 × cdft,d(|tscore|)

其中 cdft,d 代表的是在自由度為 d 之 t-Student 分布下的累積分布函數 (cdf)。

以下將逐步說明如何從 t 分數推導 p 值:

  1. 了解情況:您手上有一組樣本資料,而您想知道獲得這個結果的可能性有多大。這項計算的預設前提是母體內實質上並沒有差異。
  2. 計算 t 分數:此數值能告訴您,您的樣本平均與母體平均之間有多大差異。
  3. 判定自由度:自由度取決於您的樣本大小。它能協助您在 t 分布表上查找到正確的機率值。
  4. 查閱 t 分布表:在表上查找您計算出來的 t 分數對應到的值。該結果能夠告訴您當母體無實質差異時,觀察到相等差異或更大差異的機率有多大。
  5. 解讀結果:如果 p 值非常小,就表示在虛無假說成立的情況下,要獲得您的樣本結果的可能性很低。也就是說,您的結果可能是顯著的。

若要用皮爾森相關係數計算 p 值,必須先用計算出來係數來推導 t 分數。接著,您就能夠用該數值和自由度 (n-2) 在 t 分布表上查到對應的 p 值了。

利用皮爾森相關係數計算 t 統計量的公式如下:

t 統計量公式

其中:

  • r 為皮爾森相關係數。
  • n 為樣本數量。 

取得 t 統計量後,就可以利用 t 分布表上對應的累積分布函數來求得 p 值了。自由度是 n-2,其中 n 為樣本數量。

一般流程如下:

  1. 了解情況:您手上有一些樣本資料,而您想知道兩個變數之間是否有相關性。
  2. 計算 t 統計量:利用上面的公式將相關係數 (r) 轉換為 t 統計量。
  3. 判定自由度:自由度 (df) 很容易算,公式為 𝑑𝑓 = n - 2,其中 n 為樣本數量。
  4. 找到 p 值:已知 t 統計量和自由度之後,您就可以使用 t 分布表或統計軟體套件查得與該 t 統計量相對應的 p 值。
  5. 解讀結果:如果 p 值小於您所選擇的顯著水準 (一般為 0.05),您就能拒絕虛無假說,並得出兩個變數之間有顯著統計相關性的結論。若不然,您便無法推翻虛無假說。

若想從卡方值推導 p 值,必須先確定該卡方分布所對應的自由度。接著,使用統計表或軟體來找出獲得一樣極端或更極端的卡方值的機率是多少。

您可以透過下列公式求得 p 值:

p 值 = 1 − cdfχ² (xdf)

其中:

  • x 為卡方檢定統計量。
  • ​cdfχ² 為該卡方分布下的累積分布函數。
  • df 為自由度。

​由於卡方分布是向右偏斜的,因此您需要以 1 減去累積機率,而求得的卡方觀測值右尾區域即為 p 值。

以下將逐步說明如何從卡方值推導 p 值:

  1. 了解情況:您手上有一組類別型資料,而您想知道兩個變數之間是否有顯著關聯性。
  2. 計算卡方值。
  3. 判定自由度:在簡單的卡方檢定中,類別數量減 1 即為自由度。若是獨立性卡方檢定,算法則是 (列數 - 1) × (行數 - 1)。
  4. 找到 p 值:使用統計表或軟體查得與該卡方值和自由度對應的累積機率。累積機率就是在該卡方分布曲線下,特定卡方值右側區域的面積。
  5. 解讀結果:將獲得的 p 值與您所選擇的顯著水準 (一般為 0.05) 相比,如果 p 值小於您所選擇的顯著水準 (一般為 0.05),您就能拒絕虛無假說,並得出兩個變數之間有顯著關聯性的結論。若不然,您便無法推翻虛無假說。

如果 p 值小於或等於 0.05 (或您所選擇的其他顯著水準),就表示結果具有統計顯著性。換句話說,觀測到的結果在 α 水準下達到了顯著性。

這表示要在虛無假說為真的情況下獲得如此極端的結果,機率非常低。一般來說,這就代表機率低於 5%。

因此,您可以否定虛無假說,轉而支持對立假說,因為您手上握有一些足以支持對立假說之主張的證據。

如果 p 值大於 0.05,就表示觀測到的結果在您所設定的顯著水準下未達統計顯著性。換句話說,您沒有足夠的證據可以推翻虛無假說。這表示我們無法推論我們所觀測到的結果與虛無假說能期望的結果之間有真實差異。

有些人誤以為當 p 值是 0.05 時,表示所測試的假說有 95% 的機會為真,有 5% 的機會為假。這完全誤解了 p 值的意義。

p 值指的是在假定虛無假說為真的情況下,收集到特定一組資料的可能性有多大。它並不能直接用來表示某個假說為真或假的機率。

將 p 值視為效果量或重要性的同義詞也是常見的誤解。這種誤解是源自於未能確實區別「統計顯著性」和「實務顯著性」的差異。

p 值小,意味著所觀測到的結果不太可能只是湊巧,但它並無法代表特定效果的強度,也無法反映該效果與所見之差異的實質相關性。

例如,以大型資料集來說,即使與虛無假說只有極小的偏差,也可能產生相當的統計顯著性,雖然其實務上的差異小到幾乎可以忽略。又例如,即使某個實驗多次展現出顯著差異,您仍有可能觀測到不顯著的結果,因為機率使然。

反之,p 值大不一定表示所觀測到的效果微不足道,它能告訴您的是,您所獲得的資料並不構成可推翻虛無假說的充分證據。

若要準確評估調查結果的實務重要性,必須拿效果量來彌補 p 值的不足。效果量反映了所觀測到之現象的強度,它能幫助研究人員在研究與應用這個廣大領域中,依據現實脈絡解讀手中的研究發現。

能夠做出這種區別,才能確保統計顯著性不會與真實世界中的重要性脫節,使您正確判讀研究結果並做出明智的決策。

當研究人員重複對某個假設進行檢定,卻未將顯著水準作適度調整,就可能導致多重檢定謬誤。因為這種做法會大幅增加出現偽陽性結果 (也就是型一錯誤) 的機率,導致研究人員錯誤地拒絕虛無假說。

請試著想像同時有多個檢定獨立進行的情形,即使每個檢定的顯著水準都很低 (例如 α = 0.05),偶然觀測到至少一次顯著結果的累積機率卻會增加。檢定的次數越高,這種情況就越有可能發生。

研究人員會使用統計校正方式 (如 Bonferroni 校正) 提升拒絕虛無假說的門檻。這類解決方案有助於嚴謹控制偽陽性的整體比例,以確保所有測試的偽陽性機率都保持在一定的水準之下。

在研究問題或應用情境的整體脈絡下來評估調查發現的實質影響,以免未經仔細考慮就過度解讀具統計顯著性的結果或斷然否定無統計顯著性的結果。

假設您用新的教學方式與傳統的教學方式做比較,發現新的教學方式讓學生的成績達到在統計上有意義的進步。

為了避免過度解讀這項結果,您應該也要考慮其他因素,例如效果量。您觀察到的成績進步幅度大到足以合理化大規模改變教學法的負擔嗎?在類似情況下做的其他研究有辦法複製這個結果嗎?是否還需要考慮其他因素,例如成本?

相反地,當結果不顯著,有可能是由於樣本太小或測量誤差。

因此,在下結論之前,嚴格評估研究設計、資料品質和潛在偏差來源是很重要的。

不論研究結果是否顯著,均應列出研究中的所有 p 值。這麼做是為了展現分析過程的整體面貌,讓讀者能夠親自評估研究結果的可信度。

透過詳列所有 p 值,研究人員就能呈現統計分析的全貌,包括結果不顯著的部分。這種將資訊透明化而完整呈現的作為,不僅讓讀者能夠自己評估不同變數和分析方式的一致性和可靠性,也能提升研究本身的公信力,將偏誤和失真的可能性降到最低。

當 p 值極小的時候,必須小心解讀。有時它會讓人誤判某個觀測到之效果的重要性。

您必須知道,極小的 p 值可能是來自於真實效果,也可能只是因為樣本很大。巨大的樣本量會使統計檢定力大幅提升,連微不足道的偏差也偵測得出來。

也就是說,在樣本量很大時所看到的極小 p 值,可能不見得能反映有意義或有實務重要性的效果。

  • 何謂 z 分數?
  • 何謂 t 分數?
  • 何謂皮爾森相關係數?
  • 何謂卡方值?
Woman with red hair creating a survey on laptop

SurveyMonkey 可協助您更有效地完成工作。探索如何藉由制定成功策略、產品、體驗等來發揮更大影響力。

A man and woman looking at an article on their laptop, and writing information on sticky notes

探索超過 400 種由專家撰寫、可自訂的調查問卷範本。使用 SurveyMonkey 快速建立和傳送吸引人的調查問卷。

Smiling man with glasses using a laptop

在離職面談中詢問合適的問題,以減少員工流失。立即開始使用我們的員工表單建立器工具和範本。

Woman reviewing information on her laptop

輕鬆建立並自訂專屬的同意書。我們提供安全又人性化的表單建立器,讓您可收集電子簽名、確保合規性,還能簡化工作流程。