藥品臨床試驗設計要求隨機、盲法和對照藥物比較,以判斷和區別其實(shí)際的療效。我國藥品研發(fā),以仿制國外已上市藥品為主;基于臨床認識和倫理學(xué)因素,臨床研究也多選擇針對目標適應癥的已有治療藥物為對照,即所謂的陽(yáng)性對照藥。目前,已公認的傳統假設檢驗(又稱(chēng)顯著(zhù)性檢驗)在臨床試驗中用于判斷藥物的療效是不合理的,它不能準確區分2藥療效差異的方向性和體現差異大小所揭示的臨床實(shí)際意義。因此,國際上根據研究目的不同,普遍用非劣效、等效或優(yōu)效性假設檢驗。 1 顯著(zhù)性檢驗 無(wú)效假設H0:A藥療效一B藥療效=0 備擇假設H :A藥療效≠B藥療效 結論:如P>0.05,按Or.=0.05的檢驗水準,不能拒絕H0假設;如尸≤0.05,則接受H 假設。 問(wèn)題是這種假設檢驗推斷的2個(gè)總體均數是否不相等,是純粹的統計學(xué)意義,而未體現實(shí)際的臨床意義,雖然有單雙側之分,如單側為H0: 。一 2=0,H。:。一 2>0(或 。一 2此外,對檢驗結論:①如P>0.05,表示2藥療效的差別無(wú)統計學(xué)意義,不拒絕H0假設,說(shuō)明現有數據尚無(wú)法對2藥療效的總體均數是否不等的判斷下結論,并不是當然的接受H0假設,即并非認為H0假設必然成立;而2藥療效的總體均數一定相等,此時(shí)有可能2藥療效的總體均數確實(shí)近似,也有可能是檢驗效能(把握度)不夠,尚需更大樣本量進(jìn)行檢驗。②如P≤0.05,2藥療效的差別有統計學(xué)意義,2藥療效的總體均數確實(shí)不相等;但這種統計學(xué)意義的差異不一定具有實(shí)際的臨床意義,可能其臨床意義卻是優(yōu)效、等效或非劣效的,因此傳統的假設檢驗,無(wú)論是何結論,都無(wú)法判定所比較的2藥是優(yōu)效、等效、還是非劣效。顯然,這種方式所得結論是不符合臨床試驗的目的要求的;但在國內的臨床試驗中,這種檢驗卻屢見(jiàn)不鮮。本文就對非劣效、等效或優(yōu)效性試驗設計中的有關(guān)統計檢驗原則,進(jìn)行相應的闡釋?zhuān)P(guān)于臨床試驗中的統計學(xué)一般原則,見(jiàn)ICH E9⋯。 2 非劣效、等效和優(yōu)效性檢驗 2.1 統計學(xué)原理 統計學(xué)家們提出了區間假設檢驗的方法,以臨床意義的差異△來(lái)進(jìn)行假設檢驗,即非劣效、等效和優(yōu)效性檢驗的概念和方法。這種臨床意義的差異△,不是特指藥物的療效指標,也可用于評估安全性,本文主要探討療效方面的應用。盡管安全性指標也可確 定差異△,但對療效終點(diǎn)的許多討論,不適用于評估安全性試驗。 2.1.1 非劣效檢驗 非劣效性試驗⋯指主要研究目的是顯示對試驗藥的反應,在臨床意義上不差于(非劣于)對照藥的試驗。設A藥為待確證療效的試驗藥,B藥為對照藥,下同。非劣效試驗的假設檢驗如下。 無(wú)效假設H。:A藥療效一B藥療效≤ 一△ 備擇假設H,:A藥療效一B藥療效>一△ 結論:如P>0.025,按單側 =0.025的檢驗水準不能拒絕Hn假設,即無(wú)法判斷A藥不差于B藥;如P≤0.025,則接受H 假設,可認為A藥不差于B藥。根據非劣效試驗的統計學(xué)原理,治療差異(A藥療效一B藥療效)>0,則試驗藥的療效較好;治療差異一△,則試驗藥非劣效于對照藥,此處的△表示臨床意義上判斷療效不差、所允許的最大差異值,即非劣效試驗的判斷界值。 2.1.2 等效性檢驗 等效性試驗指主要研究目的是要顯示2種或多種處理的反應間差異的大小,在臨床上并無(wú)重要性的試驗,通常通過(guò)顯示真正的差異、在臨床上可以接受的等效的上下界值間來(lái)證實(shí)。等效性試驗的假設檢驗如下。 無(wú)效假設H。:A藥療效一B藥療效≤ 一△ 或A藥療效一B藥療效≥△ 備擇假設H,:一△藥療效一B藥療效<△ 結論:如Pl>0.025或P2>0.025,按2a=0.05的檢驗水準不能拒絕H。假設,即無(wú)法判斷A藥等效于B藥;如P ≤0.025且Pz≤0.025,則接受H 假設,可認為A藥等效于B藥。 2.1.3 優(yōu)效性檢驗 優(yōu)效性試驗指主要研究目的是顯示所研究的藥物反應優(yōu)于對比制劑(陽(yáng)性或安慰劑對照)的試驗。優(yōu)效性試驗的假設檢驗如下。 無(wú)效假設H。:A藥療效一B藥療效≤△ 備擇假設H,:A藥療效一B藥療效>△ 結論:如P>0.025,按單側 =0.025的檢驗水準不能拒絕Hn假設,即無(wú)法判斷A藥優(yōu)于B藥;如P≤0.025,則接受H 假設,可認為A藥優(yōu)于B藥。實(shí)際應用中,更多采用的是可信區間法檢驗,它是分析時(shí)最直接的方法,且比假設檢驗可提供更多的信息。非劣效性試驗中,僅關(guān)注1個(gè)方向的可能差異,因此試驗藥與對照藥的療效差異的單側97.5%(或雙側95%)可信區間,應當完全在一△值的右側,即其單側97.5%(或雙側95%)可信區間的下限應該大于設定的判斷界值一△,即[單側97.5%CI(A—B)的下限]>一△(或[雙側95% CI(A—B)下限]>一△);同理,在等效性試驗中,等效的結果應該是其95%可信區間范圍,包括在一△一△,即一△< [95%CI(A—B)]<△;而優(yōu)效性試驗的結果,則應該是其單側97.5%(或雙側95%)可信區間的下限大于△值,即[單側97.5% CI(A—B)下限]>△或[雙側95% CI(A—B)下限]>△。 recruit.druggcp.net 2.2 適用范圍 對1個(gè)新研發(fā)的試驗藥,通常具有某方面的優(yōu)勢,如給藥方便、耐受性較好、毒性較低或價(jià)格便宜等;一般需與安慰劑進(jìn)行優(yōu)效性試驗,以比較其真正的療效和安全性,來(lái)判斷其上市的利益風(fēng)險。如果當前已有上市、曾用優(yōu)效性試驗證實(shí)為有效藥物,還常與其進(jìn)行比較,并判定待驗證藥物的療效至少不差于(非劣于)已上市的有效藥物。作為其上市的最低標準,非劣效性試驗通常用于與已上市的有效藥物或標準治療方案進(jìn)行比較,以求能提供1個(gè)新的治療選擇。少數情況下,當安慰劑對照不被允許或違反倫理時(shí),用以間接證明試驗藥優(yōu)于安慰劑。等效性試驗的應用多見(jiàn)于對同一活性成分的生物等效性以及血漿無(wú)法測定時(shí)的臨床等效驗證。對國內尚未上市的藥品,無(wú)論是創(chuàng )新藥還是仿制藥,如選安慰劑為對照,則應證實(shí)其優(yōu)效性。如選國內已上市的同一治療領(lǐng)域的藥物作為陽(yáng)性對照藥,則應至少驗證其具有非劣效性。與已上市藥物具有相同活性成分的藥品,應進(jìn)行生物等效性或臨床等效性驗證。這既是我國非劣效、等效和優(yōu)效性試驗的適用范圍,也是國際多數藥品注冊管理機構共同的基本要求。 2.3 判斷界值(△)的確定 非劣效、等效和優(yōu)效性試驗的區間檢驗與傳統假設檢驗最大的不同是考慮了臨床意義,以臨床意義的差異△來(lái)進(jìn)行假設檢驗。因此,如何確定這個(gè)療效差異的判斷界值就至關(guān)重要。若△太大,將把療效遠不如對照藥的藥物,判斷為有效或等效;若△太小,則可能將本來(lái)可推廣應用的有效藥物,誤判為無(wú)效而得不到及時(shí)上市,并且所需的樣本含量可能會(huì )大得不切實(shí)際。因此,△的確定應當合適,理論上應該是藥效間具有臨床意義的最大允許差異值;但實(shí)際確定起來(lái)往往較困難和復雜,需要根據已有的文獻數據,設計類(lèi)型及數據的分布類(lèi)型,從臨床認識水平及成本效益來(lái)綜合考慮,將統計學(xué)推理和臨床判斷相結合。 2.3.1 非劣效檢驗 非劣效檢驗的△值的確定最為復雜,通常參考陽(yáng)性對照藥與安慰劑間的療效差異,即陽(yáng)性對照藥的絕對療效來(lái)判定,需要達到2個(gè)目標(滿(mǎn)足2個(gè)條件)才是適合的判斷界值:使試驗藥物(A)療效既要優(yōu)于安慰劑(P)以保證藥物的有效性(A—P>0);又要好到不差于陽(yáng)性對照藥(B)(A—B>一△)。因此,ICH及EMEA等均推薦,同時(shí)包括安慰劑對照和陽(yáng)性對照藥的3個(gè)試驗組設計的研究,試驗藥必須證明在統計學(xué)意義上優(yōu)于安慰劑(試驗產(chǎn)品與安慰劑差異的雙側95%可信區間的下限必須>0;如果試驗藥和參照藥均未能顯示、在統計學(xué)意義上優(yōu)于安慰劑,可能提示試驗不靈敏或者是測定方法不靈敏);然后,要用臨床判斷來(lái)評價(jià)所觀(guān)察到的結果與安慰劑的差異,是否具有臨床意義。 在國內研究設計中,更多見(jiàn)僅為試驗藥組和陽(yáng)性對照組2試驗組研究;而沒(méi)有安慰劑對照組,且陽(yáng)性對照藥的絕對療效常不易確定,這時(shí)就要檢索文獻,參考歷史數據,并利用薈萃分析等以找出所用陽(yáng)性對照藥和安慰劑進(jìn)行比較的同類(lèi)研究,估計在目標患者人群中、陽(yáng)性對照藥物和安慰劑之間的差異,確定藥效靈敏度(sensitivity to drug efects)。關(guān)于對照藥的選擇原則及其優(yōu)缺點(diǎn)的考慮,請參見(jiàn)ICH—El0_2]。需注意,藥效靈敏度和試驗的檢測靈敏度(assay sensi—tivity)是不同的,很多情況下,藥效靈敏度難以維持恒定不變。由于臨床實(shí)踐可能發(fā)生變化,或者測量效果的標準或方法的不同,某些既往的研究結論可能會(huì )毫無(wú)意義。當前試驗設計中,應考慮和既往試驗進(jìn)行比較,看是否有可能會(huì )影響治療結果的變化。例如,人選標準、診斷方法、允許的合并治療、參照產(chǎn)品的給藥方案、測定終點(diǎn)、評價(jià)時(shí)間等。如果試驗設計有不可避免的差異,那么其差異的意義應當認真考慮,這有可能導致無(wú)法確定合適的非劣效性界值。另外,還應當考慮陽(yáng)性對照藥的療效隨時(shí)間發(fā)生的變化。例如,在某些情況下,可能由于醫療水平總體改善,疾病或事件的發(fā)生率降低了,計算時(shí)只能用較近期的研究,如果不能確保近期的試驗與當前試驗中治療效果的恒定性,那么選擇非劣效性邊界時(shí),應當保守一些。為保持已確定的△值的可靠性,應當重視試驗的檢測靈敏度和嚴格控制試驗的質(zhì)量,保證陽(yáng)性對照藥在試驗中、顯示出其應有的療效。在充分考慮了以上因素的基礎上,當試驗目的是通過(guò)與陽(yáng)性對照藥比較,間接說(shuō)明試驗藥優(yōu)于安慰劑時(shí),在確保試驗藥和安慰劑的間接療效差異的95%可信區間的下限>0時(shí),△可選為試驗藥與對照藥療效差異95%可信區間的下限;但通常選擇比這一間接計算提示的數值小一些的值。對試驗目的是為說(shuō)明試驗藥可代替陽(yáng)性對照藥而療效無(wú)顯著(zhù)降低時(shí)(非劣效性試驗最常見(jiàn)的目的),通常做法是以陽(yáng)性對照藥與安慰劑之間預期療效差異的百分比來(lái)確定△值。FDA認為,應該不大于有效藥物與安慰劑間療效差異值的1/2。有些學(xué)者提出_3],選定療效指標測定的1/5~1/2個(gè)標準差,或陽(yáng)性對照藥療效均數的1/10~1/5,相對數(如率、比值)最大不超過(guò)陽(yáng)性對照組樣本率的1/5。但如此確定的理由尚不充分,還須通過(guò)臨床證據來(lái)確認和認可△值無(wú)重要差異的意義 ]。實(shí)際做法(尤其對市場(chǎng)上目前只有1個(gè)有效藥物時(shí))是對臨床醫生進(jìn)行調查,了解他們認為無(wú)關(guān)緊要的差異,有多大范圍,根據他們回答結果和分析選擇△。如果預期試驗藥的安全性?xún)?yōu)于陽(yáng)性對照藥(其他情況包括:給藥途徑更方便、劑量更方便、次要療效終點(diǎn)更優(yōu)等),由于有安全性方面的受益作為補償,可稍微降低療效,選擇較大的△值,但應能證明療效優(yōu)于安慰劑。這種情況下,選擇復合的主要終點(diǎn)十分有用,可以用1個(gè)終點(diǎn)證明安全性的優(yōu)效性;而另1個(gè)終點(diǎn)證明療效的非劣效性。 2.3.2 等效性檢驗 等效性檢驗的△一般較為確定,在生物等效性研究中,當評價(jià)2種劑型的藥代動(dòng)力學(xué)參數平均值是否足夠接近時(shí),2者比值90%可信區間在80% ~125%成為可接受的標準,此時(shí)的△為±Ln 0.8。當用生物等效性試驗不可能時(shí)(例如仿制的吸人藥或外用藥等局部用藥),可進(jìn)行臨床等效性試驗,得出雙側95%可信區間,其等效界值的確定仍然是統計學(xué)推理和臨床判斷相結合,具體藥品具體分析,而無(wú)恒定的界值數值。 2.3.3 優(yōu)效性檢驗 對優(yōu)效性檢驗,一般情況下取A=0(絕對數指標)或1(相對數指標);特殊情況,需確定另外的數值。 2.4 樣本含量和檢驗效能 對樣本含量和檢驗效能的具體計算公式,請參考有關(guān)文獻[3,5—7]。需注意,所用公式的假定前提和適用條件,通常受試者被隨機分配到試驗組(A藥)和對照組(B藥);2組方差齊性。雙側檢驗取僅:0.05,單側檢驗取僅=0.025;B取0.1或0.2。目前認為,在生物等效性研究中例外,取單側為0.05。通常用陽(yáng)性對照的非劣效性試驗、等效性試驗、優(yōu)效性試驗,所需樣本含量均較安慰劑對照試驗大。因為,一般確定的優(yōu)效界值小于等效界值,也小于非劣效界值。因而所得樣本含量由少到多可依次排列為:安慰劑對照優(yōu)效試驗、非劣效性試驗、等效性試驗和陽(yáng)性對照優(yōu)效試驗。若取非劣效界值為陽(yáng)性對照與安慰劑療效差異△的1/2,則進(jìn)行陽(yáng)性對照非劣效性試驗所需的樣本含量,至少是安慰劑對照優(yōu)效性試驗的4倍。試驗中,還應考慮到病人的脫落、2組比例不同、因依從性問(wèn)題而引起稀釋效應等因素,來(lái)校正估計實(shí)際的樣本含量(Ⅳ),例如,設脫落率為Q,則Ⅳl 。 =Ⅳ re /(1一Q) .5 統計推斷【8 J 從實(shí)際的國內臨床試驗看,將試驗藥和陽(yáng)性藥在臨床療效上的非劣效、等效甚至優(yōu)效,錯誤地稱(chēng)為“療效相當”的現象并不少見(jiàn),有時(shí)會(huì )將非劣效性試驗誤認為是設計為等效性試驗。只有認清不同研究設計所要達到的目的,才能正確地下結論。對非劣效性試驗,下結論時(shí)一定要注意考察檢測靈敏度和研究質(zhì)量,必須分析其可能的影響因素,估計對檢測靈敏度的影響。如果按照非劣效性試驗設計,結果試驗藥的效應好于陽(yáng)性對照藥。當非劣效性試驗的無(wú)效假設被拒絕,可進(jìn)一步檢驗其是否具有優(yōu)效性;如果治療作用的95%可信區間既大于一△,也大于0,那么在5%水平(P<0.05)有優(yōu)效性的證據。在這種情況下,可計算與優(yōu)效性檢驗相關(guān)的P值,并評價(jià)這一P值是否足夠小,以拒絕無(wú)差異的假設。只要新藥與對照藥的安全性特點(diǎn)相似,通常證明優(yōu)效本身就足夠;但當不良事件增加時(shí),一定要估計作用的大小,以評價(jià)臨床上受益是否足以超越不良反應。即從非劣效性試驗向優(yōu)效性試驗轉換是可行的,前提是:試驗要按照非劣效性試驗的嚴格要求來(lái)設計和實(shí)施,并按照意向治療原則進(jìn)行分析。如果優(yōu)效性試驗結果表明,治療組間差異無(wú)顯著(zhù)性,試驗目的從優(yōu)效性向非劣效性轉換是可行的,前提是對照治療的非劣效性邊界,要事先指定或具有充分的合理理由(可能性極小,僅限于有廣泛接受的公認△值的情況);意向治療原則(nTI')的全分析集(FAS)和符合方案集(PP)分析的結果應相似,顯示劣效性無(wú)效假設的可信區間和P值;試驗按照非劣效性試驗的嚴格要求設計和實(shí)施(見(jiàn)ICH E9和El0);試驗的靈敏度足夠高,以確保能夠檢測出實(shí)際的差異;有直接或間接證據表明,對照治療顯示其應有的療效。 3 審評要求 藥品審評部門(mén)常關(guān)注以下幾方面內容。研究設計非劣效性試驗有時(shí)會(huì )被誤認為是試驗設計為等效性試驗,而產(chǎn)生混淆。應該根據不同的研究目的,選擇適當研究比較類(lèi)型,注意非劣效、等效和優(yōu)效性設計3者之間的聯(lián)系和區別,選擇合適的對照組。關(guān)于對照藥的選擇,ICH—El0已進(jìn)行了全面的闡釋。應該在試驗方案中,對研究的假設事先明確,須注意傳統的假設檢驗,由于不能準確區分2藥療效差異的方向性和體現差異大小所揭示的臨床實(shí)際意義,不適于判斷藥物臨床試驗的療效。非劣效界值的確定 要比較的藥效間差異的判斷界值的確定至關(guān)重要,尤其是非劣效界值的確定,需要詳細分析論證,對其數值的計算和假定,應合理有據,并且無(wú)精確統一的算法;而是統計學(xué)推理和臨床判斷綜合考慮的結果。在設計階段確定,研究中一般不得更改。 研究的把握度試驗結果應得出統計學(xué)結論,以確保足夠的把握度,臨床意義的差異△越小,所需的樣本量越大。進(jìn)行陽(yáng)性對照的非劣效性試驗所需的樣本含量,至少是安慰劑對照優(yōu)效性試驗的4倍。統計分析過(guò)程用正確的統計量,建議療效間的差異以雙側95%可信區間表示。統計學(xué)結果所揭示的臨床意義應當重視試驗的檢測靈敏度和試驗質(zhì)量的控制,保證陽(yáng)性對照藥在試驗中顯示出其應有的療效,分析既往成功的同類(lèi)試驗的設計要點(diǎn)和結果,分析可能降低檢測靈敏度的種種因素及其對結論的影響。應注意,試驗中的以下因素常能降低試驗的檢測靈敏度:如研究人群對藥物作用的反應較差;對治療的依從性差;同時(shí)合并其他用藥,干擾了或降低了對受試藥物的反應范圍、程度;部分受試者有自發(fā)改善而不會(huì )對藥物有反應;診斷標準不明確,而入選了無(wú)所研究疾病的陰性患者;療效指標不敏感;療效指標測量變異太大;盲法不嚴格,導致評價(jià)偏倚等。
|