頸椎MRIスキャンで脊髄圧迫を検出するための深層学習モデル

ハイライト

はじめに

変性性頸髄症(DCM)は、頸髄の進行性の非外傷性圧迫を引き起こす慢性疾患です。脊髄の圧迫が悪化すると、DCMは神経学的欠損、運動障害、生活の質の重大な障害を引き起こす可能性があります。

CSM-InternationalおよびCSM-NorthAmericanの臨床試験 s は、DCMで脊髄を外科的に減圧した後の臨床転帰を研究した2つの最大の臨床試験です。脊髄症の臨床的兆候が1つ以上あり、頸髄圧迫の画像診断の証拠がある場合、患者は研究に含まれました。各患者は頸椎のMRIスキャンを受けた後、手術を受けました。その後、患者は手術後6か月、12か月、24か月で評価されました。

データ表現

各患者は、頸椎の術前MRIを持っていました。これには、少なくとも軸方向および矢状方向のシリーズを含むT2強調およびT1強調シーケンスが含まれていました。残念ながら、MRIはさまざまな形式で保存されていました。大部分はdicomファイルでしたが、多くはjpegまたはpngのタイル状のシリーズとして保存されていました。さらに、一部のMRIが欠落しているか破損しています。 dicomファイルとして保存されたMRIのみを含めたため、289人の患者に制限されました。

各MRIを一連の独立したアキシャル2D画像として表すことを選択しました。これは、VGG16やResNet50などの既存のディープラーニングモデルを利用できるため、有利でした。スキャン内の他のアキシャルスライスとは独立して、各アキシャルスライスを検討することにしました。これは妥当な妥協案だと思いました。このアプローチの欠点は、主にZ軸に沿って現れた機能が失われることです。各患者のT2強調軸シーケンスを抽出し、それらを新しいdicomファイルのセットとして保存しました。これは、OsiriXLiteを使用して手動で実行されました。

データのラベル付け

DCM患者のMRIスキャンで特定できる病理学的変化がいくつかあります。脳神経外科フォーカスからのこの2016年の記事には、画像所見の全範囲が要約されています。 (https://www.ncbi.nlm.nih.gov/pubmed/27246488)

要約すると、MRIで検出できるDCMに関連する構造変化は次のとおりです。

次の理由から、深層学習モデルを脊髄圧迫の検出に集中させることにしました。

これらの理由から、脊髄圧迫を確実に検出できる深層学習モデルは、臨床的脊髄症の症状がある患者や臨床的脊髄症を発症するリスクのある患者を検出するための有用なスクリーニングツールとして役立つと信じていました。

データのラベル付けを標準化するために、この2010年の調査で概説した定性的基準を使用しました。 https://www.ncbi.nlm.nih.gov/pubmed/20150835。重要なことに、私は部分的な脊髄圧迫と周囲の脊髄圧迫を区別しませんでした。代わりに、脊髄圧迫を、脊髄実質のくぼみとして定義し、脊髄周囲の輪郭を変化させました。ラベラーは、T2で重み付けされた各軸方向スライスを評価し、次のラベルを割り当てました。

ラベリングの結果

2つのラベラーが、5635の個別の軸方向画像に対応する110人の患者に個別にラベルを付けました。残りの173人の患者は、この段階ではラベルが付けられておらず、モデルテストのために保管されていました。

ご覧のとおり、2つのラベラーは、圧縮されていない画像で優れた一致(96.4%)を示しました。圧縮された画像については、依然として良好な一致(88.1%)でした。ラベラー間に不一致がある画像を調べたところ、これらの画像は部分的な圧縮が最小限の画像である傾向があることがわかりました。

要約

このレポートの最初の部分では、データ表現の方法とデータを準備するプロセスについて説明しました。要約すると、CSM-InternationalおよびCSM-North Americanの試験から、変性頸部脊髄症(DCM)の患者からMRIスキャンを収集しました。次に、各患者からT2加重軸シーケンスを抽出しました。脊髄圧迫は臨床的脊髄症の非常に感度が高く特異的な所見であるため、これらの軸方向画像で脊髄圧迫を特定することに焦点を当てました。 2人のラベラーが画像のサブセットを調べ、脊髄圧迫を示す画像を特定するために、事前に決定された定性的基準のセットに基づいて、各T2強調アキシャル画像にラベルを付けました。

モデルアーキテクチャ

確立されたディープ畳み込みニューラルネットワーク(CNN)を調べ、いくつかの比較の結果、ImageNetデータベースでのパフォーマンスが高く、メモリ要件が比較的小さいため、ResNet50に焦点を当てることにしました。以前の研究では、Imagenetからの重みを適用してMRIおよびCT画像を分類する転移学習を使用して良好な結果を達成しています。したがって、私は同じことを試み、さまざまな程度の微調整をテストしました。モデルのシンプルさを優先しました。したがって、アンサンブルによってより複雑なモデルを作成する前に、単一のResNet50CNNから最適なパフォーマンスを達成しようとしました。

CNNのResNetファミリーは、ILSVRC2015コンペティションで1位になって以来一般的になっています。このアーキテクチャは、精度の低下の問題を回避する残余単位を利用します。 ResNet50の欠点は、その深さを考えると、モデルを最初からトレーニングできないことです。とにかくいくつかのレイヤーに事前にトレーニングされたウェイトを使用するつもりだったので、それは問題ありません。

モデルトレーニング

ラベル付けされたデータセットを、データの80%を含むトレーニング/検証コホートに分割し、モデルテスト用に20%を予約しました。私はいくつかのモデルアーキテクチャをトレーニングし、モデルを比較するためのメトリックとしてテストデータセットの全体的な精度を使用しました。モデルの実装には、TensorFlowv1.5バックエンドでKerasv2.24を使用しました。モデルのトレーニング中に、ランダムなスケーリング、回転、水平方向の反転を使用したデータ拡張を使用しました。次のアーキテクチャがテストされました。


モデル4は、それぞれ512ユニットの2つの完全に接続されたレイヤーを持ち、92.99%の精度で最高のパフォーマンスを発揮しました。ここには確かに改善の余地がありますが、より深いネットワークでGPUのメモリの制約に遭遇し始めたので、今のところこのパフォーマンスに落ち着きました。比較的単純なネットワーク構成で最大93%の精度を達成したことに嬉しい驚きを覚えました。

脊髄症の患者の検出

したがって、私は個々のT2強調アキシャルスライスでモデルをテストし、脊髄圧迫の識別で93%の精度を達成しました。ただし、このモデルが実際の臨床現場で役立つことはまだ実証していません。

現実の世界では、患者はプライマリケア医に頸部脊髄症を示唆する可能性のあるさまざまな症状を呈する可能性があります。これらの患者はしばしば頸椎のMRIを受けます。次に、専門の放射線科医がMRIスキャンを解釈し、異常なスキャンを特定します。これは、面倒で時間のかかるプロセスになる可能性があります。

モデルが健康な患者とDCMの診断が確定した患者を区別できるかどうかを判断したかったのです。頸椎の​​MRIを受けた32人の健康な対照患者のデータセットを使用しました。また、DCM-InternationalおよびDCM-North Americanの研究に登録され、頸部脊髄症の診断が確定した179人の患者を使用しました。モデルは、これらの画像のいずれについてもトレーニングされていません。したがって、モデルで分類しようとする2つの患者コホートがありました。

各患者について、T2加重アキシャルスライスごとに畳み込みニューラルネットワークモデルを適用しました。モデルは、各スライスのクラス予測を出力します。患者あたりのスライス数は18〜82の範囲で、中央値は43でした。単純なしきい値を使用して、患者レベルの予測を生成しました。モデルが脊髄圧迫を示すものとして> 1スライスを識別した場合、患者は異常とラベル付けされました。

モデルは、健康な対照コホートと罹患したコホートの患者を高感度(0.9665)および高特異度(0.8529)で区別することができました。

手術結果の予測

退行性頸部脊髄症の患者は、特に中等度または重度の症状がある場合、しばしば手術で治療されます。すべてではありませんが、ほとんどの患者は手術で症状が改善します。他の人は、DCMの手術後の結果を予測するための臨床予測モデルの開発を試みました。この論文では、ロジスティック回帰モデルを使用して、術前の年齢、症状の持続期間、疾患の重症度、精神医学的併存疾患、歩行障害、喫煙状態に基づいて、手術後の臨床的改善を予測しました。

私は、術前の臨床変数とモデルによって自動的に生成されたX線写真の特徴を組み合わせることで、279人の患者のコホートにおける手術結果を予測できると仮定しました。

修正された日本整形外科学会(mJOA)スコアを使用して、手術の結果を測定しました。 mJOAは、この分野の専門家によって一般的に使用されています。 mJOAスコア15〜18は軽度の脊髄症を示し、8〜14は中等度の脊髄症を示し、3〜7は重度の脊髄症を示します。以前の研究では、「臨床的に重要な」改善であるとして、mJOAの改善が少なくとも2ポイント確立されています。手術後6か月でmJOAが少なくとも2ポイント改善した患者を、手術後に「臨床的に改善した」とラベル付けしました。

臨床的特徴

レントゲン写真の特徴

各患者について、T2加重アキシャルスライスごとに畳み込みニューラルネットワークモデルを適用しました。モデルは、各患者のクラス予測のベクトルを出力します。次に、クラス予測のベクトルからいくつかの要約特徴を生成しました。

ランダムフォレストモデルをトレーニングして、6か月での手術結果を予測しました。私は2つのモデルをトレーニングしました。1つは臨床的特徴のみを備え、もう1つは臨床的特徴と自動生成されたX線写真的特徴を備えています。データを75%のトレーニング/検証コホートと25%のテストコホートに分割しました。グリッド検索戦略を使用して両方のモデルを調整しました。次に、10分割交差検定を使用してモデルをトレーニングし、モデル間のテストデータセットのパフォーマンスをROC曲線の下の領域と比較しました。


特徴の重要性に基づいて、臨床+ X線写真の特徴モデルで使用される23の特徴をランク付けしました。モデルで使用された上位10の機能のうち、5つはX線撮影機能でした。

概要