[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2023512560A - 機械学習アルゴリズムを訓練し、患者のプライバシーを維持するための連合学習システム - Google Patents

機械学習アルゴリズムを訓練し、患者のプライバシーを維持するための連合学習システム Download PDF

Info

Publication number
JP2023512560A
JP2023512560A JP2022547853A JP2022547853A JP2023512560A JP 2023512560 A JP2023512560 A JP 2023512560A JP 2022547853 A JP2022547853 A JP 2022547853A JP 2022547853 A JP2022547853 A JP 2022547853A JP 2023512560 A JP2023512560 A JP 2023512560A
Authority
JP
Japan
Prior art keywords
model
image
updated
global model
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022547853A
Other languages
English (en)
Inventor
ファラナク アガエイ,
ニディン ムラリ,
ジム エフ. マーティン,
ジョアヒム シュミット,
ファヒム シェイクザデ,
アニルド ソム,
Original Assignee
ヴェンタナ メディカル システムズ, インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴェンタナ メディカル システムズ, インク. filed Critical ヴェンタナ メディカル システムズ, インク.
Publication of JP2023512560A publication Critical patent/JP2023512560A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

デジタル病理において連合学習分類器を使用するための方法は、集中サーバによって、グローバルモデルを複数のクライアント装置に配信することを含む。クライアント装置は、標本の複数の画像および対応する注釈を使用してグローバルモデルをさらに訓練して、少なくとも1つのさらなる訓練されたモデルを生成する。クライアント装置は、さらなる訓練されたモデルを集中サーバに提供し、集中サーバは、さらなる訓練されたモデルをグローバルモデルと集約して更新されたグローバルモデルを生成する。そして、更新されたグローバルモデルは、複数のクライアント装置に配信される。【選択図】図1

Description

本開示は、デジタル病理に関し、特に連合学習のための機械学習技術に関する。
デジタル病理は、組織および/または細胞を有する病理スライド(例えば、組織病理または細胞病理ガラススライド)を、評価に使用するためのデジタル画像にスキャンすることを含む。デジタル画像内の組織および/または細胞は、その後、疾患の診断、治療に対する応答の評価、および疾患と戦うための薬剤の開発を含む様々な理由のために、デジタル病理画像分析を使用して検査され、および/または病理学者によって解釈されることができる。デジタル画像(実質的に透明である)内の組織および/または細胞を検査するために、病理スライドは、組織および/または細胞成分に選択的に結合する着色染色(例えば、免疫染色)を使用して調製されることができる。免疫組織化学(IHC)は、免疫染色の一般的な用途であり、生体組織中の抗原に特異的に結合する抗体および他の化合物(または物質)の原理を利用することによって、組織切片の細胞中の抗原(タンパク質)を選択的に識別するプロセスを含む。いくつかのアッセイでは、検体中の染色剤に対する標的抗原は、バイオマーカーと呼ばれることがある。その後、染色された組織および/または細胞のデジタル画像に対してデジタル病理画像分析を実施して、生体組織中の抗原(例えば、腫瘍細胞を示すバイオマーカー)に対する染色を識別および定量することができる。
機械学習技術は、腫瘍領域の識別、転移の検出、および患者の予後などのデジタル病理画像分析において大きな将来性を示している。腫瘍領域および転移検出などの画像分類およびデジタル病理画像分析のために、畳み込みニューラルネットワーク(CNN)を含む機械学習技術を備えた多くのコンピューティングシステムが提案されている。例えば、CNNは、隠れ層として一連の畳み込み層を有することができ、このネットワーク構造は、物体/画像分類およびデジタル病理画像分析のための表現特徴の抽出を可能にする。物体/画像分類に加えて、画像セグメンテーションのために機械学習技術も実装されている。画像セグメンテーションは、デジタル画像を複数のセグメント(画像オブジェクトとしても知られる画素のセット)に分割するプロセスである。セグメンテーションの典型的な目的は、画像の表現をより意味があり、より分析しやすいものに単純化および/または変更することである。例えば、画像セグメンテーションは、画像内の腫瘍(または他の組織タイプ)および境界(線、曲線など)などのオブジェクトを見つけるために使用されることが多い。大きなデータ(例えば、全スライド病理画像)のための画像セグメンテーションを実行するために、画像は最初に多くの小さなパッチに分割される。機械学習技術を備えたコンピューティングシステムは、これらのパッチを分類するように訓練され、同じクラス内の全てのパッチは、1つのセグメント化された領域に結合される。その後、機械学習技術をさらに実装して、セグメント化された領域に関連する表現特徴に基づいて、セグメント化された領域(例えば、染色発現を有しない陰性腫瘍細胞または腫瘍細胞)を予測または分類することができる。
様々な機械学習技術は、分類を実行するためのグラウンドトゥルースを確立するために訓練データを必要とする。医療分野では、プライバシーの懸念および法的要件のために、患者データは、取得することが困難であることが多い。したがって、分類器を適切に訓練することは、難題となり得る。連合学習は、1つ以上のクライアント装置にベース分類器を提供することを含む非中央集権型機械学習技術である。次いで、各装置は、ベース分類器を使用して動作することができる。分類器が各装置において利用されると、ユーザは、分類器によって提供される出力に関する入力を提供する。ユーザは、出力に基づいてそれぞれの分類器に入力を提供することができ、それぞれの分類器のそれぞれは、ユーザ入力にしたがって更新されることができる。次いで、更新された分類器は、ベース分類器を更新するために提供されることができる。次いで、更新された分類器は、クライアント装置に配信されることができる。したがって、連合学習システムは、エンティティ間でデータを渡す必要なしに更新することができる。
様々な実施形態では、コンピュータ実装方法が提供される。
いくつかの実施形態では、1つ以上のデータプロセッサと、1つ以上のデータプロセッサ上で実行されると、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部を実行させる命令を含む非一時的コンピュータ可読記憶媒体と、を含む、システムが提供される。
いくつかの実施形態では、非一時的機械可読記憶媒体に有形に具現化され、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部を実行させるように構成された命令を含む、コンピュータプログラム製品が提供される。
本開示のいくつかの実施形態は、1つ以上のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムは、命令を含む非一時的コンピュータ可読記憶媒体であって、命令が、1つ以上のデータプロセッサ上で実行されると、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部および/または1つ以上のプロセスの一部または全部を実行させる、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部および/または1つ以上のプロセスの一部または全部を実行させるように構成された命令を含む、非一時的機械可読記憶媒体において有形に具現化されたコンピュータプログラム製品を含む。
本開示のいくつかの実施形態は、連合学習分類器を使用するためのコンピュータ実装方法を含む。本方法は、集中サーバによって、複数のクライアント装置に病理画像を分類するように構成されたグローバルモデルを配信することと、集中サーバによって、複数のクライアント装置のうちの少なくとも1つから更新されたモデルを受信することであって、更新されたモデルが、複数のスライド画像および複数の対応する注釈を使用して複数のクライアント装置のうちの少なくとも1つにおいてさらに訓練されている、受信することと、集中サーバによって、更新されたモデルをグローバルモデルと集約して、更新されたグローバルモデルを生成することと、更新されたグローバルモデルを複数のクライアント装置のうちの少なくとも1つに配信することと、を含む。
本開示のいくつかの実施形態は、更新されたモデルをグローバルモデルと集約して、更新されたグローバルモデルを生成することが、更新されたモデルの少なくとも1つの重みによってグローバルモデルの少なくとも1つの重みの平均化を実行することを含む、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、平均化を実行することが、更新されたモデルをさらに訓練するために使用される複数のスライド画像の数およびグローバルモデルを訓練するために使用される画像の総数にしたがって、更新されたモデルの少なくとも1つの重みとグローバルモデルの少なくとも1つの重みとの加重平均を実行することを含む、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、注釈が、スライド画像上のグローバルモデルの出力を観察するユーザによって提供され、注釈が、グローバルモデルによって生成された出力に対する変更を含む、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、集中サーバによって、複数のスライド画像に関連するメタデータを受信することをさらに含み、集約することが、メタデータにしたがってさらに訓練されたモデルを正規化することをさらに含む、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、集中サーバによって、検証データセットを使用してグローバルモデルに対する更新されたグローバルモデルの性能改善を検証することをさらに含む、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、クライアント装置によって連合学習分類器を使用するためのコンピュータ実装方法を含む。本方法は、集中サーバから病理画像を分類するように構成されたグローバルモデルを受信することと、染色された組織画像を受信することであって、染色された組織画像が画像パッチに分割される、受信することと、画像パッチに対してグローバルモデルを使用して画像分析を実行することと、画像パッチおよび少なくとも1つの対応するユーザ注釈を使用してグローバルモデルを訓練して、更新されたモデルを生成することであって、少なくとも1つの対応するユーザ注釈が、グローバルモデルによって生成された分類の補正を含む、生成することと、更新されたモデルを集中サーバに送信することと、更新されたグローバルモデルを受信することと、クライアント固有の検証データセットを使用して、更新されたグローバルモデルの性能改善を検証することと、を含む。
本開示のいくつかの実施形態は、グローバルモデルによって生成された分類の補正が、細胞タイプ、組織タイプ、または組織境界のうちの少なくとも1つの再分類である、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、更新されたモデルが、個々の患者情報を含まない、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、複数の画像に関連するメタデータを生成することと、メタデータを集中サーバに提供することと、をさらに含む、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、メタデータが、画像が対応するスライドまたは組織の領域、行われた染色の種類、染色の濃度、および染色またはスキャンに使用される機器のうちの少なくとも1つを含む、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、更新されたモデルを送信することが、閾値の後、反復回数、時間の長さ、またはモデルが閾値量を超えて変更された後に実行される、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、デジタル病理において連合学習分類器を使用するためのコンピュータ実装方法を含む。本方法は、集中サーバによって、グローバルモデルを複数のクライアント装置に配信することと、複数のクライアント装置からのクライアント装置によって、標本の複数の画像を使用してグローバルモデルを訓練して、少なくとも1つのさらなる訓練されたモデルを生成することであって、複数の画像のうちの1つ以上の画像が少なくとも1つの注釈を含む、生成することと、クライアント装置によって、集中サーバにさらなる訓練されたモデルを提供することと、集中サーバによって、グローバルモデルによってさらなる訓練されたモデルを集約して、更新されたグローバルモデルを生成することと、更新されたグローバルモデルを複数のクライアント装置に配信することと、を含む。
本開示のいくつかの実施形態は、クライアント装置によって、複数の画像に関連するメタデータを生成することと、クライアント装置によって、メタデータを集中サーバに提供することであって、集中サーバによって、グローバルモデルによってさらなる訓練モデルを集約して、更新されたグローバルモデルを生成することが、メタデータにしたがってさらなる訓練モデルを正規化することをさらに含む、提供することと、をさらに実行するコンピュータ実装方法を含む。
本開示のいくつかの実施形態は、メタデータが、画像が対応するスライドまたは組織の領域、行われた染色の種類、染色の濃度、および染色またはスキャンに使用される機器のうちの少なくとも1つを含む、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、集中サーバによって、検証データセットを使用してグローバルモデルに対する更新されたグローバルモデルの性能を検証するようにさらに構成されたコンピュータ実装方法を含む。
本開示のいくつかの実施形態は、更新されたグローバルモデルの性能がグローバルモデルよりも低い場合に、更新をグローバルモデルにロールバックするようにさらに構成されたコンピュータ実装方法を含む。
本開示のいくつかの実施形態は、更新されたモデルをグローバルモデルと集約して、更新されたグローバルモデルを生成することが、更新されたモデルの少なくとも1つの重みによってグローバルモデルの少なくとも1つの重みの平均化を実行することを含む、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、平均化を実行することが、更新されたモデルをさらに訓練するために使用される複数のスライド画像の数およびグローバルモデルを訓練するために使用される画像の総数にしたがって、更新されたモデルの少なくとも1つの重みとグローバルモデルの少なくとも1つの重みとの加重平均を実行することを含む、コンピュータ実装方法を含む。
本開示のいくつかの実施形態は、更新されたモデルを送信することが、閾値の後、反復回数、時間の長さ、またはモデルが閾値量を超えて変更された後に実行される、コンピュータ実装方法を含む。
使用された用語および表現は、限定ではなく説明の用語として使用され、そのような用語および表現の使用において、示されて説明された任意の特徴の均等物またはその一部を除外する意図はないが、特許請求の範囲に記載された発明の範囲内で様々な変更が可能であることが認識される。したがって、特許請求の範囲に記載された本発明は、実施形態および任意の特徴によって具体的に開示されているが、本明細書に開示された概念の変更および変形は、当業者によってあてにされてもよく、そのような変更および変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると見なされることを理解されたい。
本開示は、以下の添付の図面と併せて説明される:
様々な実施形態にかかる連合学習デジタル病理システムの例を示している。
様々な実施形態にかかる深層畳み込みニューラルネットワークを使用した非腫瘍セグメンテーションおよび画像分析のためのコンピューティング環境を示すブロック図を示している。
様々な実施形態にかかる非標的領域セグメンテーションのためのモデルアーキテクチャを表す例示的な概略図300を示している。
様々な実施形態にかかる異なるH&Eスライド画像にわたる染色変動の例を描写している。
様々な実施形態にかかる予測モデルを訓練するためのプロセスを示している。
様々な実施形態にかかる予測モデルのFL訓練のラウンドのためのプロセスを示している。
様々な実施形態にかかる予測モデルのFL訓練の複数ラウンド後に生成された結果を示している。
様々な実施形態にかかる予測モデルのFL訓練のラウンドのためのプロセスを示している。
様々な実施形態にかかるクライアントから更新されたモデルを受信するためのプロセスを示している。
添付の図面において、同様の構成要素および/または特徴は、同じ参照ラベルを有することができる。さらに、同じタイプの様々な構成要素は、参照ラベルの後に同様の構成要素を区別するダッシュおよび第2のラベルを続けることによって区別されることができる。本明細書において第1の参照ラベルのみが使用される場合、説明は、第2の参照ラベルに関係なく、同じ第1の参照ラベルを有する同様の構成要素のいずれかに適用可能である。
本開示は、デジタル病理(DP)連合学習(FL)システムのための技術を記載する。FLは、訓練データを共有せずに画像分析を行うための深層学習モデル(グローバルモデル)を複数のクライアント装置が協働して訓練する分散型機械学習手法である。サーバは、グローバルモデルを1つ以上のクライアントに配信するように構成される。サーバは、反復プロセスの一部としてグローバルモデルを維持、更新、および再配信するように構成される。各反復(またはラウンド)において、各クライアントは、グローバルモデルを受信して、ローカルデータ(例えば、病理スライドを含む患者データ)に対してDP画像分析を実行することができる。クライアントは、ローカルで利用可能なデータ(例えば、患者データおよびユーザ入力)を利用して、グローバルモデルをさらに訓練することができる。更新されたモデルは、1つ以上のクライアントからサーバに定期的に送信されることができる。更新されたモデルは、更新されたグローバルモデルを生成するためにグローバルモデルに組み込まれてもよい。次いで、更新されたグローバルモデルは、クライアントに配信されることができる。反復は、無期限に、または例えば、訓練が収束するまで継続する。いくつかの例では、受信された更新されたモデルは、グローバルモデルに組み込まれなくてもよい。
免疫組織化学的(IHC)スライド染色は、組織切片の細胞内のタンパク質を識別するために利用可能であるため、生体組織内の癌性細胞や免疫細胞など、異なるタイプの細胞の研究に広く使用されている。顕微鏡下で組織切片のIHC染色細胞を高倍率で評価すること、および/またはデジタル病理アルゴリズムを用いて生物学的検体のデジタル画像を自動的に分析することが可能である。多くの場合、全スライド分析において、染色された生物学的検体の評価は、標的領域(例えば、陽性および陰性腫瘍細胞)の識別および非標的領域(例えば、正常組織またはブランクスライド領域)の除外を含む染色された生物学的検体の領域のセグメンテーションを必要とする。いくつかの例では、除外される非標的領域は、標的領域の他の生物学的物質または構造体と区別することが非常に困難であり得る生物学的物質または構造体を含み、したがって生物学的検体の評価から除外する。結果として、そのような場合、病理学者は、通常、非標的領域を除外しながら手動の腫瘍注釈を提供する。しかしながら、手動の腫瘍注釈は、高倍率での全スライド画像のサイズが大きく、処理されるデータの量が多いため、エラー、病理学者のバイアス、および手間がかかる。
腫瘍および腫瘍細胞の自動化されたセグメンテーションおよび分類は、様々な理由で困難である可能性がある。例えば、腫瘍および腫瘍細胞は、サイズ、形状、および局在化に関して患者全体で大きく異なることがある。これは、顔認識またはナビゲーションなどの他の多くの用途で堅牢な画像分析に一般的に使用される形状および位置特定に関する強力な事前情報の使用を禁止する。結果として、従来の画像分析アルゴリズムは、通常、これらの困難な領域の望ましくない検出結果(例えば、過剰検出または誤分類)を提供する。
これらの制限および問題に対処するために、多種多様且つ大量の訓練データが必要とされる。医療データに関するプライバシー上の懸念を考慮すると、大量の訓練データを取得することは困難であることが判明している。本実施形態のFL DPシステムの技術は、集中位置にデータを送信する必要なしに、訓練のためにクライアント位置においてデータを使用することを可能にする機械学習アーキテクチャの使用を含む。したがって、患者の個人情報は、その元の場所を離れず、プライバシーの懸念が軽減される。本開示の1つの例示的な実施形態は、前処理、画像分析、および後処理を実行することを含む、病理スライドに対して画像分析を自動的に実行するためのコンピュータ実装方法に関する。例えば、FL DPシステムは、エンティティ間で基礎となる訓練データを転送しない一方で性能を改善するためにFLを利用する1つ以上の深層学習アーキテクチャを含むことができる。例えば、FL DPシステムは、(例えば、特定の領域を除去またはマスクするために画像のセグメンテーションを実行するための)深層学習前処理システム、(例えば、所望の特徴を有する画像の領域を識別するための)画像処理のための深層学習システム、および/または(例えば、画像の識別された領域を利用して、さらなる分析を実行する)後処理を実行するための深層学習システムを含むことができる。したがって、FL DPシステムは、各クライアント装置に複数のモデルを含むことができ、各モデルは、FLを利用することができる。
いくつかの実施形態では、コンピュータ実装方法は、1つ以上のモデルの使用を含むことができる。モデルは、例えば、標的領域を学習および認識するための標準的な画像分析アルゴリズムを実行する前に生物学的構造または非腫瘍細胞を自動的に検出および排除するために二次元セグメンテーションモデル(例えば、修正U-Netまたは他の適切なアーキテクチャ)を利用する畳み込みニューラルネットワーク(CNN)アーキテクチャまたはモデルを有することができる。その後、診断またはさらなる一連の動作を提供または支援するために、後分析が実行されることができる。畳み込みニューラルネットワークアーキテクチャまたはモデルは、予めラベル付けされた画像を使用して訓練されることができる。その結果、モデル(例えば、訓練された畳み込みニューラルネットワークのアーキテクチャまたはモデル)が使用されて、非標的領域をセグメント化することができ、これは、次いで、画像分析アルゴリズムに画像を入力する前、間、または後に、全スライド分析からマスクされることができる。画像分析モデル(例えば、CNN)は、分類タスクを実行し、標的領域の腫瘍読み出しを出力する。後処理モデルは、腫瘍読み出しに基づいてさらなる分類を実行する。有利には、この提案されたアーキテクチャおよび技術は、画像の分析の全ての段階で使用されるモデルを改善することによって腫瘍細胞分類の精度を改善することができる。
本明細書で使用される場合、動作が何かに「基づく」場合、これは、動作が何かの少なくとも一部に少なくとも部分的に基づくことを意味する。
本明細書で使用される場合、「実質的に(substantially)」、「およそ(approximately)」、および「約(about)」という用語は、当業者によって理解されるように、大部分が指定されるものであるが、必ずしも完全には指定されないもの(および完全に指定されるものを含む)として定義される。任意の開示された実施形態では、「実質的に」、「およそ」、または「約」という用語は、指定されたものの「[パーセンテージ]以内」で置き換えられることができ、パーセンテージは、0.1、1、5、および10%を含む。
本明細書で使用される場合、「試料」、「生物学的試料」または「組織試料」という用語は、ウイルスを含む任意の生物から得られる生体分子(タンパク質、ペプチド、核酸、脂質、炭水化物、またはそれらの組み合わせなど)を含む任意の試料を指す。生物の他の例は、哺乳類(ヒト、ネコ、イヌ、ウマ、ウシ、およびブタなどの獣医動物、ならびにマウス、ラット、霊長類などの実験動物など)、昆虫、環形動物、クモ形類動物、有袋類、爬虫類、両生類、細菌、および菌類などを含む。生物学的試料は、組織試料(組織切片や組織の針生検など)、細胞試料(Pap塗抹検体もしくは血液塗抹検体などの細胞学的塗抹検体、またはマイクロダイセクションによって得られた細胞の試料など)、または細胞分画、断片または細胞小器官(細胞を溶解し、遠心分離などによってそれらの成分を分離することによって得られる)を含む。生物学的試料の他の例は、血液、血清、尿、精液、糞便、脳脊髄液、間質液、粘膜、涙、汗、膿、生検組織(例えば、外科的生検または針生検によって得られる)、乳頭吸引物、耳垢、乳、膣液、唾液、ぬぐい液(頬スワブなど)、または最初の生物学的試料に由来する生体分子を含む任意の材料を含む。特定の実施形態では、本明細書で使用される「生物学的試料」という用語は、被験者から得られた腫瘍またはその一部から調製された試料(均質化または液化された試料など)を指す。
本明細書で使用される場合、「生物学的物質または構造体」という用語は、生物学的構造(例えば、細胞核、細胞膜、細胞質、染色体、DNA、細胞、細胞塊など)の全体または一部を含む天然材料または構造体を指す。
本明細書で使用される場合、「非標的領域」という用語は、画像分析プロセスで評価されることを意図されていない画像データを有する画像の領域を指す。非標的領域は、例えばイメージング源からの白色光のみが存在する場合、試料のないガラスなどの基材に対応する画像の非組織領域を含むことができる。非標的領域は、追加的または代替的に、画像分析プロセスで分析されることが意図されていないか、または標的領域内の生物学的物質または構造体と区別することが困難な1つ以上の生物学的物質または構造体に対応する画像の組織領域を含んでもよい(例えば、リンパ系凝集体)。
本明細書で使用される場合、「標的領域」という用語は、画像分析プロセスで評価されることが意図された画像データを含む画像の領域を指す。標的領域は、画像分析プロセスにおいて分析されることが意図される画像の組織領域などの任意の領域を含む。
本明細書で使用される場合、「タイル」または「タイル画像」という用語は、画像全体の一部または全スライドに対応する単一の画像を指す。いくつかの実施形態では、「タイル」または「タイル画像」は、全スライドスキャンの領域、または(x,y)画素寸法(例えば、1000画素×1000画素)を有する関心領域を指す。例えば、M列のタイルとN行のタイルとに分割された画像全体を考えてみると、M×Nモザイク内の各タイルは、画像全体の一部を含み、すなわち、位置M1、N1のタイルは、画像の第1の部分を含み、位置M3、N4のタイルは、画像の第2の部分を含み、第1の部分と第2の部分とは異なる。いくつかの実施形態では、タイルは、それぞれ同じ寸法(画素サイズ×画素サイズ)を有することができる。
本明細書で使用される場合、「パッチ」または「画像パッチ」という用語は、タイル画像の一部、画像全体、またはスライド全体に対応する画素のコンテナを指す。いくつかの実施形態では、「パッチ」または「画像パッチ」は、(x,y)画素寸法(例えば、256画素×256画素)を有するタイル画像の領域または関心領域を指す。例えば、100画素×100画素のパッチに分割された1000画素×1000画素のタイル画像は、100パッチを含むことになる(各パッチは、1000画素を含む)。他の例では、パッチは、重なっていてもよい。
いくつかの実施形態では、デジタル病理(DP)のための連合学習(FL)システムが利用されて、クライアントおよび/または集中システム(例えば、サーバ)間で機密データまたは識別データ(例えば、患者データ)を交換することなく、グローバルモデル(例えば、集約されたグローバルモデル)を生成および配信することができる。サーバは、更新されたモデルがクライアントから受信されると、反復プロセスにおいてグローバルモデルを維持および配信するように構成される。図1は、1つ以上のグローバルモデル112、114を維持および配信するように構成された1つ以上のサーバ110を含む例示的なFL DPシステム100を描写している。サーバ110は、ワークステーション122、132、142、顕微鏡124、134、144、デジタルスライドスキャナ126、136、146、および当業者によって理解されるような任意の他の必要な機器などの様々なDP機器をそれぞれ含むことができる1つ以上のクライアントシステム120、130、140と通信する。クライアントシステムのそれぞれは、グローバルモデル112、114に基づく1つ以上のローカルモデル128、138、148、150を利用することができる。クライアントシステム120、130、140は、ローカルモデル128、138、148、150をさらに訓練するために利用されることができる。例えば、クライアントシステム120、130、140は、患者データを受信し、ローカルモデル128、138、148、150を使用して患者データを分類し、(例えば、分類されたデータを表示するグラフィカルユーザインターフェースを利用する病理学者または他の医療専門家から)分類された患者データに関するユーザ入力を受信し、ユーザ入力に基づいてローカルモデル128、138、148、150を更新する(例えば、各クライアントは、ローカル訓練データセットを使用してグローバルモデルを再訓練する)ことができる。様々な実施形態では、クライアント装置は、それらのローカルモデル128、138、148、150を集中サーバ110に定期的に提供するように構成される。次いで、集中サーバ110は、ローカルモデル128、138、148、150を利用してグローバルモデル112、114を更新し(例えば、グローバルモデル内の重みを更新することによって)、更新されたグローバルモデル112、114をクライアントシステム120、130、140に配信することができる。
いくつかの実施形態では、各反復の後、更新されたローカルモデル128、138、148、150のそれぞれの性能は、検証データセットを使用して確認されることができる。ローカルモデル128、138、148、150が検証データセットに対して改善された性能を提供すると判定された場合、ローカルモデルは、グローバルモデル112、114に組み込まれることができる。更新されたグローバルモデル112、114の性能はまた、検証データセットを用いて検証されてもよい。グローバルモデル112、114が改善されている場合、更新されたグローバルモデル112、114は、クライアント装置120、130、140の全部または一部に配信されてもよい。いくつかの実施形態では、クライアントは、それらの更新されたローカルモデル128、138、148、150を共有しないが、依然として更新されたグローバルモデル112、114を受信することを選択することができる。他の実施形態では、クライアントは、それらのローカルモデル128、138、148、150を共有するが、更新されたグローバルモデル112、114を受信しないことを選択することができる。他の実施形態では、クライアントは、それらの更新されたローカルモデル128、138、148、150を共有せず、更新されたグローバルモデル112、114を受信しないことを選択することができる。そのため、クライアントサイトで生成されるモデルは、集中サーバ110に制御されず、クライアントの裁量に基づいて集中サーバ110と共有される。各クライアントは、独立した検証データセットを有することができ、それらの品質基準に基づいてモデルの性能を検査するために検証データセットを使用することができる。この検証に基づいて、クライアントは、グローバルモデル112、114を展開するか否かを決定することができる。
いくつかの実施形態では、各反復の後、更新されたローカルモデル128、138、148、150のそれぞれの性能は、検証データセットを使用して確認されることができる。ローカルモデル128、138、148、150が検証データセットに対して改善された性能を提供すると判定された場合、ローカルモデルは、グローバルモデル112、114に組み込まれることができる。更新されたグローバルモデル112、114の性能はまた、検証データセットを用いて検証されてもよい。グローバルモデル112、114が改善されている場合、更新されたグローバルモデル112、114は、クライアント装置120、130、140の全部または一部に配信されてもよい。いくつかの実施形態では、クライアントは、それらの更新されたローカルモデル128、138、148、150を共有しないが、依然として更新されたグローバルモデル112、114を受信することを選択することができる。他の実施形態では、クライアントは、それらのローカルモデル128、138、148、150を共有するが、更新されたグローバルモデル112、114を受信しないことを選択することができる。他の実施形態では、クライアントは、それらの更新されたローカルモデル128、138、148、150を共有せず、更新されたグローバルモデル112、114を受信しないことを選択することができる。そのため、クライアントサイトで生成されるモデルは、集中サーバ110に制御されず、クライアントの裁量に基づいて集中サーバ110と共有される。各クライアントは、独立した検証データセットを有することができ、それらの品質基準に基づいてモデルの性能を検査するために検証データセットを使用することができる。この検証に基づいて、クライアントは、更新されたグローバルモデル112、114を展開するか否かを決定することができる。
図2は、様々な実施形態にかかる深層畳み込みニューラルネットワークを使用した非腫瘍セグメンテーションおよび画像分析のためのコンピューティング環境200を示すブロック図を示している。コンピューティング環境200は、予測モデル、例えば二次元CNNモデルを訓練して実行するための分析システム205を含むことができる。より具体的には、分析システム205は、コンピューティング環境200の他の構成要素によって使用されるそれぞれの予測モデル215a~n(本明細書では個別に予測モデル215として、またはまとめて予測モデル215として参照されることができる)を構築および訓練する訓練サブシステム210a~n(「a」および「n」は任意の自然数を表す)を含むことができる。予測モデル215は、機械学習(「ML」)または深層学習(「DL」)モデル、例えばU-Netニューラルネットワークなどの深層畳み込みニューラルネットワーク(CNN)、初動ニューラルネットワーク、残差ニューラルネットワーク(「Resnet」)、またはリカレントニューラルネットワーク、例えば長期短期記憶(「LSTM」)モデルまたはゲーテッド回帰ユニット(「GRU」)モデルとすることができる。予測モデル215はまた、非標的領域(例えば、リンパ系凝集体領域)をセグメント化し、標的領域をセグメント化し、または標的領域の画像分析を提供するように訓練された任意の他の適切なMLモデル、例えば、二次元CNN(「2DCNN」)、動的時間伸縮(「DTW」)技術、隠れマルコフモデル(「HMM」)など、またはそのような技術のうちの1つ以上の組み合わせ、例えば、CNN-HMMもしくはMCNN(マルチスケール畳み込みニューラルネットワーク)とすることができる。コンピューティング環境200は、非標的領域をセグメント化し、標的領域をセグメント化し、または標的領域の画像分析を提供するように訓練された同じタイプの予測モデルまたは異なるタイプの予測モデルを使用することができる。例えば、コンピューティング環境200は、非標的領域(例えば、リンパ系凝集領域、壊死領域、または任意の他の適切な領域)をセグメンテーションするための第1の予測モデル(例えば、U-Net)を含むことができる。コンピューティング環境200はまた、標的領域(例えば、腫瘍細胞の領域)をセグメント化するための第2の予測モデル(例えば、2DCNN)を含むことができる。コンピューティング環境200はまた、標的領域の画像分析のための第3のモデル(例えば、CNN)を含むことができる。コンピューティング環境200はまた、患者などの被験者の処置または予後診断のための疾患の診断のための第4のモデル(例えば、HMM)を含むことができる。本開示にかかる他の例では、さらに他のタイプの予測モデルが実装されてもよい。さらにまた、複数のモデルが使用されて、異なる細胞タイプおよび領域を分類することができる。
様々な実施形態では、分類器サブシステム210a~nに対応する各予測モデル215a~nは、サーバ110によって提供されるグローバルモデル112、114に基づくことができる。様々な実施形態では、分類器サブシステム210a~nに対応する各予測モデル215a~nは、入力画像要素220a~nの1つ以上のセットに基づいて別々にさらに訓練される。いくつかの実施形態では、入力画像要素220a~nのそれぞれは、1つ以上のスキャンされたスライドからの画像データを含む。入力画像要素220a~nのそれぞれは、画像に対応する基礎となる画像データが収集された単一の検体および/または1日からの画像データに対応することができる。画像データは、画像、ならびに画像が生成されたイメージングプラットフォームに関する任意の情報を含むことができる。例えば、組織切片は、明視野イメージングのための発色性染色または蛍光イメージングのためのフルオロフォアに関連する1つ以上の異なるバイオマーカーを含む染色アッセイの適用によって染色される必要があり得る。染色アッセイは、明視野イメージングのための発色性染色、有機フルオロフォア、量子ドット、または有機フルオロフォアを、蛍光イメージングのための量子ドットと一緒に、または染色、バイオマーカー、および観察またはイメージング装置の任意の他の組み合わせを使用することができる。さらに、典型的な組織切片は、組織切片に染色アッセイを適用する自動染色/アッセイプラットフォームで処理され、染色された試料が得られる。染色/アッセイプラットフォームとしての使用に適した様々な市販製品が市場に存在し、一例は、譲受人であるVentana Medical Systems,Inc.のVENTANA SYMPHONY製品である。染色された組織切片は、例えば、顕微鏡または顕微鏡および/またはイメージング構成要素を有するホールスライドスキャナ上のイメージングシステムに供給されることができ、一例は、譲受人であるVentana Medical Systems,Inc.のVENTANA iScan Coreo製品である。多重組織スライドは、同等の多重スライドスキャナシステムでスキャンされることができる。イメージングシステムによって提供される追加の情報は、染色に使用される化学物質の濃度、染色において組織に適用される化学物質の反応時間、および/または組織の事前分析条件、例えば組織の年齢、固定方法、期間、切片がどのように埋め込まれたか、切断されたかなどを含む、染色プラットフォームに関する任意の情報を含むことができる。
入力画像要素220a~nは、1つ以上の訓練入力画像要素220a~d、検証入力画像要素220e~g、およびラベルなし入力画像要素220h~nを含むことができる。訓練グループ、検証グループ、およびラベルなしグループに対応する入力画像要素220a~nは、同時にアクセスされる必要はないことを理解されたい。例えば、訓練および検証入力画像要素220a~nのセットは、予測モデル215をさらに訓練するために最初にアクセスおよび使用されてもよく、ラベルなし入力画像要素は、続いてアクセスまたは受信され(例えば、単一または複数の後続の時間に)、所望の出力(例えば、非標的領域のセグメンテーション)を提供するためにさらなる訓練された予測モデル215によって使用されてもよい。いくつかの例では、予測モデル215a~nは、教師あり訓練を使用して訓練され、訓練入力画像要素220a~dおよび任意選択の検証入力画像要素220e~gのそれぞれは、非標的領域、標的領域の「正しい」解釈、ならびに訓練入力画像要素220a~dおよび検証入力画像要素220e~g内の様々な生物学的物質および構造の識別を識別する1つ以上のラベル225と関連付けられる。ラベルは、代替的または追加的に、正常または異常な生物学的構造(例えば、腫瘍細胞)に関連する染色の存在および/または解釈に関して、対応する訓練入力画像要素220a~dおよび検証入力画像要素220e~gまたはその中の画素を分類するために使用されてもよい。特定の例では、代替的または追加的に、ラベルが使用されて、下にある画像が撮像されたときまたは後続の時点(例えば、これは、画像が撮像された時間に続く所定の期間である)に対応する時点で、対応する訓練入力画像要素220a~dおよび検証入力画像要素220e~gを分類することができる。
いくつかの実施形態では、分類器サブシステム210a~nは、特徴抽出器230、パラメータデータストア235、分類器240、および訓練器245を含み、これらは訓練データ(例えば、訓練入力画像要素220a~d)に基づいて予測モデル215を訓練し、教師ありまたは教師なし訓練中に予測モデル215のパラメータを最適化するために集合的に使用される。いくつかの例では、訓練プロセスは、予測モデル215の損失関数を最小化する予測モデル215のパラメータのセットを見つけるための反復演算を含む。各反復は、パラメータのセットを使用する損失関数の値が前の反復におけるパラメータの別のセットを使用する損失関数の値よりも小さくなるように、予測モデル215のパラメータのセットを見つけることを含むことができる。損失関数は、予測モデル215を使用して予測された出力と訓練データに含まれるラベル225との間の差を測定するように構築されることができる。パラメータのセットが識別されると、予測モデル215は訓練されており、設計どおりにセグメンテーションおよび/または予測に利用されることができる。
いくつかの実施形態では、分類器サブシステム210a-nは、入力層において訓練入力画像要素220a-dから訓練データにアクセスする。特徴抽出器230は、訓練データを前処理して、訓練入力画像要素220a~dの特定の部分で検出された関連する特徴(例えば、エッジ、色、テクスチャ、または任意の他の適切な関連する特徴)を抽出することができる。分類器240は、抽出された特徴を受信し、1つ以上の予測モデル215内の隠れ層のセットに関連する重みにしたがって、特徴を、非標的領域または標的領域をセグメント化する1つ以上の出力メトリックに変換し、画像分析を提供し、患者などの被験者の処置または予後診断のための疾患の診断を提供し、またはそれらの組み合わせを提供することができる。訓練器245は、訓練入力画像要素220a~dに対応する訓練データを使用して、1つ以上のパラメータの学習を容易にすることによって特徴抽出器230および/または分類器240を訓練することができる。例えば、訓練器245は、分類器240によって使用される予測モデル215の隠れ層のセットに関連する重みの学習を容易にするために、バックプロパゲーション技術を使用することができる。バックプロパゲーションは、例えば、確率的勾配降下(SGD)アルゴリズムを使用して、隠れ層のパラメータを累積的に更新することができる。学習されたパラメータは、例えば、重み、バイアス、および/または他の隠れ層関連パラメータを含むことができ、これらは、パラメータデータストア235に記憶されることができる。
訓練された予測モデルの個々またはアンサンブルが展開されて、ラベル化されていない入力画像要素220h~nを処理して非標的領域または標的領域をセグメント化し、画像分析を提供し、患者などの被験者の処置または予後診断のための疾患の診断を提供し、またはそれらの組み合わせを提供することができる。より具体的には、特徴抽出器230の訓練バージョンは、次に分類器240の訓練バージョンによって処理されることができるラベルなし入力画像要素の特徴表現を生成することができる。いくつかの実施形態では、分類器サブシステム210a~n内の予測モデル215の拡張を活用する1つ以上の畳み込みブロック、畳み込み層、残差ブロック、またはピラミッド層に基づいて、ラベルなし入力画像要素220h~nから画像特徴を抽出することができる。特徴は、画像の特徴ベクトルなどの特徴表現に編成されることができる。予測モデル215は、予測モデル215の全結合層を含む隠れ層におけるパラメータの分類およびその後の調整に基づいて特徴タイプを学習するように訓練されることができる。
いくつかの実施形態では、畳み込みブロック、畳み込み層、残差ブロック、またはピラミッド層によって抽出された画像特徴は、1つ以上の画像処理動作(例えば、エッジ検出、画像解像度の鮮明化)が実行された検体スライドの1つ以上の部分を表す値の行列である特徴マップを含む。これらの特徴マップは、非標的領域マスク、標的領域マスク、または検体スライドに関する現在または将来の予測に対応する1つ以上のメトリックを出力する予測モデル215の完全接続層による処理のために平坦化されることができる。例えば、入力画像要素は、予測モデル215の入力層に供給されることができる。入力層は、特定の画素に対応するノードを含むことができる。第1の隠れ層は、隠れノードのセットを含むことができ、隠れノードのそれぞれは、複数の入力層ノードに接続される。後続の隠れ層内のノードも同様に、複数の画素に対応する情報を受信するように構成されることができる。したがって、隠れ層は、複数の画素にわたって延びる特徴を検出するように学習するように構成されることができる。1つ以上の隠れ層のそれぞれは、畳み込みブロック、畳み込み層、残差ブロック、またはピラミッド層を含むことができる。予測モデル215は、1つ以上の完全接続層(例えば、ソフトマックス層)をさらに含むことができる。
訓練入力画像要素220a~d、検証入力画像要素220e~gおよび/またはラベルなし入力画像要素220h~nの少なくとも一部は、分析システム205の要素とすることができるが、必ずしもそうである必要はないソースから直接的または間接的に取得されたデータを含むことができ、またはそれらから導出されていてもよい。いくつかの実施形態では、コンピューティング環境200は、いくつかの(例えば、10から16の間などの)チャネルを有するマルチチャネル画像(例えば、マルチチャネル蛍光または明視野画像)などの画像データを取得するために試料をイメージングするイメージング装置250を備える。イメージング装置250は、限定されるものではないが、カメラ(例えば、アナログカメラ、デジタルカメラなど)、光学系(例えば、1つ以上のレンズ、センサフォーカスレンズ群、顕微鏡対物レンズなど)、イメージングセンサ(例えば、電荷結合素子(CCD)、相補的金属酸化物半導体(CMOS)イメージセンサなど)、写真フィルムなどを含む。デジタル実施形態では、画像撮像装置は、オンザフライフォーカシングを証明するために協働する複数のレンズを含むことができる。イメージセンサ、例えば、CCDセンサは、検体のデジタル画像を撮像することができる。いくつかの実施形態では、イメージング装置250は、明視野イメージングシステム、マルチスペクトルイメージング(MSI)システムまたは蛍光顕微鏡システムである。イメージング装置250は、不可視電磁放射線(例えばUV光)または他のイメージング技術を利用して画像を撮像することができる。例えば、イメージング装置250は、顕微鏡と、顕微鏡によって拡大された画像を撮像するように構成されたカメラとを備えることができる。画像分析システム205によって受信された画像データは、イメージング装置250によって取り込まれた生画像データと同一であってもよく、および/または生画像データから導出されてもよい。
いくつかの例では、訓練入力画像要素220a~dおよび/または検証入力画像要素220e~gに関連付けられたラベル225は、受信されていてもよく、またはそのそれぞれが特定の被験者に関連付けられた(例えば)医師、看護師、病院、薬剤師などに関連付けられることができる1つ以上のプロバイダシステム255から受信されたデータから導出されてもよい。受信データは、(例えば)特定の被験者に対応する1つ以上の医療記録を含むことができる。医療記録は、(例えば)被験者に関連する1つ以上の入力画像要素が収集された時間またはその後の定義された期間に対応する期間に関して、被験者が腫瘍を有したかどうか、および/または被験者の腫瘍の進行の段階(例えば、標準的な尺度に沿って、および/またはメトリックを識別することによって、そのような総代謝腫瘍量(TMTV))を示す専門家の診断または特徴付けを示すことができる。受信データは、被験者に関連する1つ以上の入力画像要素内の腫瘍または腫瘍細胞の位置の画素をさらに含むことができる。したがって、医療記録は、各訓練/検証入力画像要素220a~gに関して、1つ以上のラベルを含むか、または識別するために使用されることができる。医療記録は、被験者が受けていた1つ以上の処置(例えば、薬物)および被験者が処置を受けていた期間のそれぞれをさらに示すことができる。いくつかの例では、1つ以上の分類器サブシステムに入力される画像またはスキャンは、プロバイダシステム255から受信される。例えば、プロバイダシステム255は、イメージング装置250から画像を受信し、次いで画像またはスキャンを(例えば、被験者識別子および1つ以上のラベルとともに)分析システム205に送信することができる。
いくつかの実施形態では、イメージング装置250のうちの1つ以上で受信または収集されたデータは、プロバイダシステム255のうちの1つ以上で受信または収集されたデータと集約されてもよい。例えば、分析システム205は、イメージング装置250から受信した画像データをプロバイダシステム255から受信したラベルデータと関連付けるために、被験者および/または期間の対応するまたは同一の識別子を識別することができる。分析システム205は、メタデータまたは自動画像分析をさらに使用してデータを処理し、どの分類器サブシステムに特定のデータ成分を供給するかを判定することができる。例えば、イメージング装置250から受信した画像データは、全スライドまたはスライドもしくは組織の複数の領域に対応することができる。メタデータ、自動アライメントおよび/または画像処理は、各画像について、画像がスライドまたは組織のどの領域に対応するか、行われた染色の種類、使用された染色の濃度、染色を行った検査室、タイムスタンプ、使用されたスキャナの種類、または当業者によって理解されるような任意の他の適切なデータを示すことができる。自動アライメントおよび/または画像処理は、画像がスライド基材に対応する画像特性を有するかどうか、または白血球などの特定の細胞に関連する生物学的構造および/または形状を有するかどうかを検出することを含むことができる。プロバイダシステム255から受信されるラベル関連データは、スライド固有、領域固有、または被験者固有であってもよい。ラベル関連データがスライド固有または領域固有である場合、メタデータまたは自動分析(例えば、自然言語処理またはテキスト分析を使用する)が使用されて、特定のラベル関連データがどの領域に対応するかを識別することができる。ラベル関連データが被験者固有である場合、(所与の被験者についての)同一のラベルデータが訓練中に各分類器サブシステム210a~nに供給されることができる。
いくつかの実施形態では、コンピューティング環境200は、分析システム205の1回以上の反復(例えば、各反復は、モデルの1回の実行および/またはモデルの出力の1回の生成に対応する)の実行を要求および/または調整しているユーザに関連付けられることができるユーザ装置260をさらに含むことができる。ユーザは、医師、研究実施者(例えば、臨床試験に関連付けられた)、患者、医療専門家などに対応することができる。したがって、いくつかの例では、プロバイダシステム255は、ユーザ装置260を含み、および/またはユーザ装置260として機能してもよいことが理解されよう。各反復は、ユーザと異なる可能性がある(ただし、そうである必要はない)特定の被験者(例えば、人)に関連付けられてもよい。反復の要求は、特定の被験者に関する情報(例えば、識別されていない患者識別子などの被験者の名前または他の識別子)を含むおよび/または伴うことができる。反復の要求は、被験者に対応する入力画像データなどのデータを収集する1つ以上の他のシステムの識別子を含むことができる。いくつかの例では、ユーザ装置260からの通信は、特定の被験者のセットに表された各被験者について反復を実行する要求に対応して、セットのそれぞれの識別子を含む。
要求を受信すると、分析システム205は、ラベルなし入力画像要素の(例えば、被験者の識別子を含む)要求を、1つ以上の対応するイメージングシステム250および/またはプロバイダシステム255に送信することができる。次いで、訓練された予測モデル215は、ラベル化されていない入力画像要素を処理して、非標的領域または標的領域をセグメント化し、画像分析を提供し、患者などの被験者の処置または予後診断のための疾患の診断を提供し、またはそれらの組み合わせを提供することができる。識別された各被験者の結果は、分類器サブシステム110a~nによって展開された訓練された予測モデル215からのセグメント化および/または1つ以上の出力メトリックを含むか、またはそれに基づくことができる。例えば、セグメント化および/または1つ以上の出力メトリックは、1つ以上のCNNの完全接続層によって生成された出力を含むことができ、またはそれに基づくことができる。いくつかの例では、そのような出力は、(例えば)ソフトマックス関数を使用してさらに処理されてもよい。さらに、出力および/またはさらに処理された出力は、次いで、集約技術(例えば、ランダムフォレスト集約)を使用して集約され、1つ以上の被験者特有のメトリックを生成することができる。1つ以上の結果(例えば、プレーン特異的出力および/または1つ以上の被験者特異的出力および/またはそれらの処理されたバージョンを含む)は、ユーザ装置260に送信および/または利用されることができる。いくつかの例では、分析システム205とユーザ装置260との間の通信の一部または全部は、ウェブサイトを介して行われる。CNNシステム205は、認証分析に基づいて結果、データ、および/または処理リソースへのアクセスをゲーティングすることができることが理解されよう。
明示的に示されていないが、コンピューティング環境200は、開発者に関連付けられた開発者装置をさらに含むことができることが理解されよう。開発者装置からの通信は、分析システム205内の各予測モデル215にどのタイプの入力画像要素が使用されるべきか、使用されるべきニューラルネットワークの数、隠れ層およびハイパーパラメータの数を含む各ニューラルネットワークの構成、ならびにデータ要求がどのようにフォーマットされるべきか、および/またはどの訓練データが使用されるべきか(例えば、および訓練データへのアクセス方法)を示すことができる。
図3は、様々な実施形態にかかる、非標的領域セグメンテーションのためのモデルアーキテクチャ(例えば、図2に関して説明した分析システム205の一部)を表す例示的な概略図300を示している。モデルアーキテクチャは、単一画像データ(例えば、それぞれが単一の染色を有する画像)および/または多重画像データ(例えば、複数の染色を有する画像)を含む入力画像を生成または取得するための画像取得モジュール310と、さらなる分析のための部分、例えば腫瘍領域または免疫細胞領域を示す部分などの入力画像の一部に電子的に注釈を付けるための任意の画像注釈モジュール315と、多重画像に存在する1つ以上の染色チャネルに対応する画像チャネル画像を生成するための任意の混合解除モジュール320と、を備える前処理段階305を備えることができる。モデルアーキテクチャは、入力画像内(例えば、ヘマトキシリンおよびエオシン染色画像、バイオマーカー画像、または非混合画像チャネル画像内)の特徴に基づいて細胞または核(例えば、腫瘍細胞、間質細胞、リンパ球など)を含む生物学的物質または構造体を検出および/または分類するための画像分析モジュール330を備える処理段階325をさらに備えることができる。
モデルアーキテクチャは、識別された領域または生物学的構造のそれぞれにおける各バイオマーカーについての発現予測および/またはスコアを導出するための任意のスコアリングモジュール340と、異なる領域または生物学的構造における導出された発現予測および/またはスコア間の変動性を記述するメトリックを導出し、任意に患者などの被験者の処置または予後診断のための疾患の診断を提供するための任意のメトリック生成モジュール345とを備える後処理段階335をさらに備えることができる。モデルアーキテクチャは、入力画像内のリンパ球凝集体または腫瘍細胞のクラスターなどの領域または生物学的構造をセグメント化し、セグメント化された領域または生物学的構造に基づいてマスクを生成するためのセグメンテーションおよびマスキングモジュール350と、入力画像内の第1の画像または第1の画像セットからの識別された領域または生物学的構造(例えば腫瘍細胞または免疫細胞)を少なくとも1つの追加の画像または複数の追加の画像にマッピングするための任意の位置合わせモジュール355とをさらに備えることができる。セグメンテーションおよびマスキングモジュール350および任意の位置合わせモジュール355は、前処理段階305、処理段階325、後処理段階335、またはそれらの任意の組み合わせ内に実装されてもよい。
いくつかの実施形態では、画像取得モジュール310は、1つ以上の染色(例えば、画像は、単一画像または多重画像であってもよい)を有する生物学的試料の画像または画像データを生成または取得する。いくつかの実施形態では、生成または取得された画像は、RGB画像またはマルチスペクトル画像である。いくつかの実施形態では、生成または取得された画像は、メモリ装置に記憶される。画像または画像データ(本明細書では互換的に使用される)は、イメージング装置(例えば、図2に関して説明したイメージング装置250)を使用して、例えばリアルタイムで生成または取得されることができる。いくつかの実施形態では、画像は、本明細書に記載のように、検体を保持する顕微鏡スライドの画像データを撮像することができる顕微鏡または他の機器から生成または取得される。いくつかの実施形態では、画像は、画像タイルをスキャンすることができるものなどの2Dスキャナを使用して生成または取得される。あるいは、画像は、以前に生成され(例えば、スキャンされ)、メモリ装置に記憶された(または、その場合には、通信ネットワークを介してサーバから取得された)画像であってもよい。
いくつかの実施形態では、画像取得モジュール310は、生物学的試料の、1つ以上の画像または画像データが取得されるべき部分を選択するために使用される。例えば、画像取得モジュール310は、識別された関心領域または視野(FOV)を受信することができる。いくつかの実施形態では、関心領域は、本開示のシステム、または本開示のシステムに通信可能に結合された別のシステムのユーザによって識別される。あるいは、他の実施形態では、画像取得モジュール305は、記憶装置/メモリ装置から領域または関心の位置または識別を取得する。いくつかの実施形態では、画像取得モジュール310は、例えば、その内容があらゆる目的のためにその全体が本明細書に組み込まれるPCT/EP2015/062015号に記載されている方法を介して、視野または関心領域(ROI)を自動的に生成する。いくつかの実施形態では、ROIは、画像内または画像のいくつかの所定の基準または特性(例えば、3つ以上の染色で染色された生物学的試料について、2つの染色のみを含む画像の領域を識別すること)に基づいて画像取得モジュール305によって自動的に判定される。いくつかの例では、画像取得モジュール310は、ROIを出力する。
いくつかの実施形態では、画像取得モジュール310は、入力として少なくとも2つの画像を生成または取得する。いくつかの実施形態では、入力として生成または取得された画像は、連続する組織切片、例えば、同じ組織試料に由来する連続切片から得られる。一般に、入力として受信された少なくとも2つの画像は、それぞれ、染色(クロモゲン、フルオロフォア、量子ドットなどを含む)に対応する信号を含む。いくつかの実施形態では、画像の1つは、少なくとも1つの一次染色(ヘマトキシリンまたはエオシン(H&E))で染色されており、画像の別の1つは、特定のバイオマーカーを識別するためのIHCアッセイまたはin-situハイブリダイゼーション(ISH)アッセイの少なくとも1つで染色されている。いくつかの実施形態では、画像の1つは、ヘマトキシリンおよびエオシンの双方で染色されており、画像の別の1つは、特異的バイオマーカーを識別するためのIHCアッセイまたはISHアッセイの少なくとも1つで染色されている。いくつかの実施形態では、入力画像は多重画像であり、例えば、当業者に公知の方法にかかる多重アッセイで複数の異なるマーカーについて染色される。
いくつかの実施形態では、生成または取得された画像は、画像注釈モジュール315を使用して画像分析のためにユーザ(例えば、病理医などの医療専門家)によって任意に注釈付けされる。いくつかの実施形態では、ユーザは、さらなる分析に適した画像の部分(例えばサブ領域)を識別する。スライドスコアを生成するために注釈が付けられた標的領域または非標的領域(例えば、腫瘍領域または免疫領域)は、組織領域全体またはデジタルスライド上の領域の指定されたセットのいずれかであってもよい。例えば、いくつかの実施形態では、識別された部分は、特定のバイオマーカー、例えば特定のIHCマーカーの過剰発現性腫瘍領域を表す。他の実施形態では、ユーザ、医療専門家、または病理学者は、デジタルスライド内のリンパ球凝集体領域に注釈付けすることができる。いくつかの実施形態では、注釈付き代表フィールドは、病理学者が全体的なスライド解釈に使用するバイオマーカー発現を反映するために、病理学者によって選択されることができる。注釈は、ビューアアプリケーション(例えば、VENTANA VIRTUOSOソフトウェア)に設けられた注釈ツールを使用して描かれてもよく、注釈は、任意の倍率または解像度で描かれてもよい。代替的または追加的に、画像分析動作が使用されて、セグメント化、閾値処理、エッジ検出などの自動画像分析動作、および検出された領域に基づいて自動的に生成された視野(FOV-所定のサイズおよび/または形状を有する画像部分)を使用して、標的領域および非標的領域または他の領域を自動的に検出することができる。いくつかの実施形態では、ユーザ注釈が利用されて、モデルのうちの1つ以上をさらに訓練することができる。
いくつかの実施形態では、生成または取得された画像は、多重画像であってもよく、すなわち、受信された画像は、2つ以上の染色剤で染色された生物学的試料の画像である。これらの実施形態では、さらなる処理の前に、各多重画像は、まず、混合解除モジュール320などを用いてその構成チャネルに混合解除され、各混合解除チャネルは、特定の染色または信号に対応する。いくつかの実施形態では、非混合画像(「チャネル画像」または「画像チャネル画像」と呼ばれることが多い)は、本明細書に記載の各モジュールの入力として使用されることができる。例えば、モデルアーキテクチャは、第1のH&E画像、複数の分化マーカークラスター(CD3、CD8など)について染色された第2の多重画像、および特定のバイオマーカー(例えば、ER、PR、Ki67など)についてそれぞれ染色された複数の単一画像を用いて判定されたマーカー間不均一性(試料中のバイオマーカーのタンパク質発現不均一性の量の指標)を評価するために実装されることができる。この例では、多重画像は、最初にその構成チャネル画像に混合解除され、それらのチャネル画像は、マーカー間の不均一性を判定するためにH&E画像および複数の単一画像とともに使用されることができる。
画像取得および/または混合解除に続いて、入力画像または混合解除された画像チャネル画像は、画像分析モジュール330によって提供される画像分析アルゴリズムによって処理されて、細胞および/または核を識別および分類する。本明細書に記載の手順およびアルゴリズムは、腫瘍細胞、非腫瘍細胞、間質細胞、リンパ球、非標的染色などの識別および分類を含む、入力画像内の特徴に基づいて様々なタイプの細胞または細胞核を識別および分類するように適合されることができる。当業者は、細胞の核、細胞質および膜が異なる特徴を有し、異なる染色組織試料が異なる生物学的特徴を示し得ることを理解すべきである。具体的には、当業者は、特定の細胞表面受容体が、膜に局在する、または細胞質に局在する染色パターンを有し得ることを理解すべきである。したがって、「膜」染色パターンは、「細胞質」染色パターンとは分析的に異なる。同様に、「細胞質」染色パターンと「核」染色パターンは分析的に異なる。これらの別個の染色パターンのそれぞれは、細胞および/または核を識別するための特徴として使用されることができる。例えば、間質細胞は、FAPによって強く染色されることができるのに対して、腫瘍上皮細胞は、EpCAMによって強く染色されることができるが、サイトケラチンは、panCKによって染色されることができる。したがって、異なる染色を利用することにより、画像分析中に異なる細胞タイプを識別し区別して、分類解決策を提供することができる。
1つ以上の染色を有する生物学的試料の画像中の核、細胞膜、および細胞細胞質を識別、分類、および/またはスコアリングする方法は、米国特許第7,760,927号「’927特許」に記載されており、その内容はあらゆる目的のためにその全体が本明細書に組み込まれる。例えば、’927特許は、細胞質および細胞膜画素の同時識別のために入力画像の前景にある複数の画素の第1の色平面を考慮することであって、入力画像の背景部分を除去し且つ入力画像の逆染色された成分を除去するように処理される、考慮することと、することであって、デジタル画像の前景にある細胞質と細胞膜画素との間の閾値レベルを判定することと、判定された閾値レベルを使用して、選択された画素が、デジタル画像内の細胞質画素、細胞膜画素、または遷移画素であるかどうかを、選択された画素および前景からのその8つの隣接画素と同時に決定することと、を含む、バイオマーカーで染色された生体組織の入力画像内の複数の画素を同時に識別するための自動化された方法を記載している。いくつかの実施形態では、腫瘍核は、最初に候補核を識別し、次に腫瘍核と非腫瘍核を自動的に区別することによって自動的に識別される。組織の画像内の候補核を識別する多くの方法が当該技術分野において知られている。例えば、自動候補核検出は、混合解除後のヘマトキシリン画像チャネルまたはバイオマーカー画像チャネルなどで、放射状対称性に基づく方法であるParvinの放射状対称性に基づく方法を適用することによって実行されることができる(Parvin、Bahramら「Iterative voting for inference of structural saliency and characterization of subcellular events」Image Processing,IEEE Transactions on 16.3(2007):615-623を参照、その開示は、参照によりその全体が本明細書に組み込まれる)。
例えば、いくつかの実施形態では、入力として取得された画像は、核の中心(シード)を検出するため、および/または核をセグメント化するなどのために処理される。例えば、Parvin(上記)の技術を使用した放射状対称投票に基づいて核中心を検出するための命令が提供および実行されることができる。いくつかの実施形態では、核は、核の中心を検出するために放射状対称性を使用して検出され、次に、核は、細胞中心の周りの染色の強度に基づいて分類される。いくつかの実施形態では、その内容があらゆる目的のためにその全体が本明細書に組み込まれる、同一出願人による同時係属中の特許出願である国際公開第2014140085号パンフレットに記載されているように、放射状対称性に基づく核検出動作が使用される。例えば、画像の大きさは、画像内で計算されることができ、各画素における1つ以上の投票は、選択された領域内の大きさの合計を加算することによって累積される。平均シフトクラスタリングを使用して、領域内の局所中心を見つけることができ、局所中心は、実際の核の場所を表す。放射状対称投票に基づく核検出は、カラー画像強度データに対して実行され、核が様々なサイズと偏心を有する楕円形のブロブであるという先験的なドメイン知識を明示的に利用する。これを実現するために、入力画像の色の強度とともに、画像勾配情報が放射状対称投票で使用され、適応セグメンテーションプロセスと組み合わせて、細胞核を正確に検出して位置を特定する。本明細書で使用される「勾配」は、例えば、前記特定の画素を取り囲む画素のセットの強度値勾配を考慮に入れることによって前記特定の画素について計算された画素の強度勾配である。各勾配は、そのx軸およびy軸がデジタル画像の2つの直交するエッジによって定義される座標系に対して特定の「方向」を有することができる。例えば、核シード検出は、細胞核の内側にあると想定され、細胞核の位置を特定するための開始点として機能する点としてシードを定義することを含む。第1のステップは、放射状対称性に基づく非常にロバストなアプローチを使用して、各細胞核に関連するシード点を検出し、細胞核に似た構造である楕円形のブロブを検出することである。放射状対称性アプローチは、カーネルベースの投票手順を使用して勾配画像に対して動作する。投票応答行列は、投票カーネルを介して投票を蓄積する各画素を処理することによって作成される。カーネルは、その特定の画素で計算された勾配方向と、最小および最大の核サイズの予想範囲、および投票カーネル角度(通常は[p/4、p/8]の範囲)に基づいている。結果として得られる投票空間では、事前定義された閾値よりも高い投票値を有する極大位置がシード点として保存される。無関係なシードは、後で後続のセグメンテーションまたは分類プロセス中に破棄されることができる。他の方法は、米国特許出願公開第2017/0140246号明細書に記載されており、その開示は、参照により本明細書に組み込まれる。
候補核が識別された後、候補核がさらに分析されて、腫瘍核を他の候補核と区別することができる。他の候補核は、さらに分類されることができる(例えば、リンパ球核および間質核を識別することによって)。いくつかの実施形態では、本明細書でさらに説明するように、学習された教師あり分類器を適用して腫瘍核を識別する。例えば、学習された教師あり分類器は、核特徴について訓練されて腫瘍核を識別し、次いで検査画像内の核候補を腫瘍核または非腫瘍核のいずれかとして分類するために適用される。場合により、学習された教師あり分類器は、リンパ球核および間質核などの異なるクラスの非腫瘍核を区別するようにさらに訓練されてもよい。いくつかの実施形態では、腫瘍核を識別するために使用される学習された教師あり分類器は、ランダムフォレスト分類器である。例えば、ランダムフォレスト分類器は、以下によって訓練されることができる:(i)腫瘍核と非腫瘍核の訓練セットを作成すること、(ii)各核の特徴を抽出すること、および(iii)抽出された特徴に基づいて腫瘍核と非腫瘍核とを区別するようにランダムフォレスト分類器を訓練すること。次いで、訓練されたランダムフォレスト分類器が適用されて、試験画像内の核を腫瘍核と非腫瘍核とに分類することができる。場合により、ランダムフォレスト分類器は、リンパ球核および間質核などの異なるクラスの非腫瘍核を区別するようにさらに訓練されてもよい。
核は、当業者に知られている他の技術を使用して識別されることができる。例えば、画像の大きさは、FI&EまたはIHC画像の1つの特定の画像チャネルから計算されることができ、指定された大きさの周りの各画素には、画素の周りの領域内の大きさの合計に基づく投票数を割り当てられることができる。あるいは、平均シフトクラスタリング動作を実行して、核の実際の位置を表す投票画像内の局所中心を見つけることができる。他の実施形態では、核セグメンテーションを使用して、形態学的操作および局所閾値処理を介して、現在知られている核の中心に基づいて核全体をセグメント化することができる。さらに他の実施形態では、モデルベースのセグメンテーションを利用して核を検出することができる(すなわち、訓練データセットから核の形状モデルを学習し、それを試験画像内の核をセグメント化するための事前知識として使用する)。
次に、いくつかの実施形態では、核は、その後、各核について個別に計算された閾値を使用してセグメント化される。例えば、Otsuの方法は、核領域の画素強度が変化すると考えられるため、識別された核の周りの領域のセグメンテーションに使用されることができる。当業者によって理解されるように、Otsuの方法は、クラス内分散を最小化することによって最適な閾値を判定するために使用され、当業者に知られている。より具体的には、Otsuの方法は、クラスタリングベースの画像閾値処理、またはグレーレベル画像のバイナリ画像への縮小を自動的に実行するために使用される。このアルゴリズムは、画像がバイモーダルヒストグラムに従う2つのクラスの画素(前景画素および背景画素)を含むことを前提としている。次に、クラス間分散が最大になるように、それらの結合された広がり(クラス内分散)が最小になるか、同等になるように(ペアワイズ二乗距離の合計が一定であるため)、2つのクラスを分離する最適な閾値を計算する。
いくつかの実施形態では、システムおよび方法は、さらに、非腫瘍細胞の核を識別するために、画像内の識別された核のスペクトルおよび/または形状の特徴を自動的に分析することを含む。例えば、ブロブは、第1のステップの第1のデジタル画像において識別されることができる。本明細書で使用される「ブロブ」は、例えば、いくつかの特性、例えば、強度またはグレー値が一定であるかまたは指定された値の範囲内で変化するデジタル画像の領域とすることができる。ブロブ内の全ての画素は、ある意味で互いに類似していると見なすことができる。例えば、ブロブは、デジタル画像上の位置の関数の導関数に基づく微分法、および局所極値に基づく方法を使用して識別されることができる。核ブロブは、その画素および/またはその輪郭形状が、ブロブがおそらく第1の染色によって染色された核によって生成されたことを示すブロブである。例えば、ブロブの放射状対称性を評価して、ブロブを核のブロブとして識別するかまたは任意の他の構造、例えば染色アーチファクトとして識別する必要があるかを判定することができる。例えば、ブロブが長い形状を有し、放射状対称性でない場合、前記ブロブは、核ブロブとしてではなく、むしろ染色アーチファクトとして識別されることができる。実施形態に応じて、「核ブロブ」として識別されるブロブは、候補核として識別され、前記核ブロブが核を表すかどうかを判定するためにさらに分析されることができる画素のセットを表すことができる。いくつかの実施形態では、任意のタイプの核ブロブが「識別された核」として直接使用される。いくつかの実施形態では、フィルタリング動作は、バイオマーカー陽性腫瘍細胞に属さない核を識別するため、および既に識別された核のリストから前記識別された非腫瘍核を除去するため、または最初から識別された核のリストに前記核を追加しないために、識別された核または核ブロブに適用される。例えば、識別された核ブロブの追加のスペクトルおよび/または形状の特徴を分析して、核または核耳ブロブが腫瘍細胞の核であるかどうかを判定することができる。例えば、リンパ球の核は、他の組織細胞、例えば肺細胞の核よりも大きい。腫瘍細胞が肺組織に由来する場合、リンパ球の核は、正常な肺細胞核の平均サイズまたは直径よりも有意に大きい最小サイズまたは直径の全ての核ブロブを識別することによって識別される。リンパ球の核に関連する識別された核ブロブは、既に識別された核のセットを除去する(すなわち、「フィルタにかけて除去する」)ことができる。非腫瘍細胞の核を除去することにより、本方法の精度を高めることができる。バイオマーカーに応じて、非腫瘍細胞もある程度バイオマーカーを発現する可能性があり、したがって、腫瘍細胞に由来しない第1のデジタル画像で強度信号を生成する可能性がある。既に識別された核の全体から腫瘍細胞に属さない核を識別およびフィルタリングすることにより、バイオマーカー陽性腫瘍細胞を識別する精度を高めることができる。これらおよび他の方法は、米国特許出願公開第2017/0103521号明細書に記載されており、その内容はあらゆる目的のためにその全体が本明細書に組み込まれる。いくつかの実施形態では、シードが検出されると、局所的に適応可能な閾値法が使用されることができ、検出された中心の周りのブロブが作成される。いくつかの実施形態では、マーカベースの分水界アルゴリズムもまた使用して、検出された核中心の周りの核ブロブを識別することができるなど、他の方法も組み込むことができる。これらおよび他の方法は、国際公開第2016/120442号パンフレットとして公開されたPCT/EP2016/051906号に記載されており、その内容はあらゆる目的のためにその全体が本明細書に組み込まれる。
いくつかの実施形態では、様々なマーカー発現スコアが、スコアリングモジュール340を使用して、各画像(多重画像からの単一画像または混合解除画像チャネル画像)内の各細胞クラスター内の各染色またはバイオマーカーについて計算される。スコアリングモジュール340は、いくつかの実施形態では、画像分析モジュール330による細胞の検出および分類中に取得されたデータを利用する。例えば、画像分析モジュール330は、一連の画像分析アルゴリズムを含むことができ、本明細書に記載されるように、識別された細胞クラスター内の核、細胞壁、腫瘍細胞、または他の構造のうちの1つ以上の存在を判定するために使用されることができる。いくつかの実施形態では、各視野に対する特定の核の導出された染色強度値およびカウントは、陽性パーセントまたはHスコアなどの様々なマーカー発現スコアを判定するためにスコアリングモジュール340によって使用されることができる。スコアリング方法は、2013年12月19日に出願された同一出願人による同時係属出願である国際公開第2014/102130号パンフレット「Image analysis for breast cancer prognosis」および2104年3月12日に出願された国際公開第2014/140085号パンフレット「Tissue object-based machine learning system for automated scoring of digital whole slides」にさらに詳細に記載されており、それぞれの内容は参照によりその全体が本明細書に組み込まれる。例えば、画像分析モジュール330内の自動画像分析アルゴリズムが使用されて、一連のIFICスライドのそれぞれを解釈して、Ki67、ER、PR、FIER2などの特定のバイオマーカーについて陽性および陰性に染色された腫瘍核を検出することができる。検出された陽性および陰性の腫瘍核に基づいて、マーカーパーセント陽性、Hスコアなどの様々なスライドレベルスコアを、スコアリングモジュール340を使用して計算することができる。
いくつかの実施形態では、発現スコアは、「弱 」「中」または「強」と等級付けされた細胞膜染色を有する腫瘍細胞の割合を評価するために使用されるHスコアである。等級は合計され、300の全体の最大スコアおよび100のカットオフポイントを与え、「陽性」および「陰性」を区別する。例えば、膜染色強度(0、1+、2+、または3+)は、固定視野内の各細胞(またはここでは腫瘍または細胞クラスター内の各細胞)に対して判定される。Hスコアは、単に優勢な染色強度に基づくことができ、より複雑には、観察される各強度レベルの個々のHスコアの合計を含むこともできる。他の実施形態では、発現スコアは、Allredスコアである。Allredスコアは、ホルモン受容体が陽性であるとテストされた細胞の割合と、染色後に受容体がどれだけよく現れるか(これは「強度」と呼ばれる)を調べるスコアリングシステムである。他の実施形態では、発現スコアは、陽性パーセントである。PRおよびKi-67スライド対してPRおよびKi-67バイオマーカー、PRおよびKi-67スライドについて染色された乳癌試料のスコアリングの文脈において、以下のように単一スライドにおける陽性パーセントが計算される(例えば、スライドのデジタル画像の各視野で陽性に染色された細胞の核の総数(例えば、悪性細胞)は、加算され、デジタル画像の各視野からの陽性および陰性に染色された核の総数で除算される):陽性パーセント=陽性に染色された細胞の数/(陽性に染色された細胞の数+陰性に染色された細胞の数)。他の実施形態では、発現スコアは、IHC組み合わせスコアであり、これは、IHCマーカーの数に基づく予後スコアであり、マーカーの数は、1よりも多い。IHC4は、乳癌試料中の4つの測定されたIHCマーカー、すなわちER、HER2、Ki-67およびPRに基づく1つのそのようなスコアである(例えば、Cuzickら、J.Clin.Oncol.29:4273-8,2011年、およびBartonら、Br.J.Cancer 1-6,2012年4月24日、双方とも参照により本明細書に組み込まれる)。
各識別されたクラスターまたはマッピングされたクラスター内の各マーカーの画像分析および発現スコアの判定に続いて、メトリック生成モジュール345を使用して、様々な識別されたクラスターおよび生物学的構造からメトリックが導出されることができる。いくつかの例では、核ブロブまたはシードに含まれるかまたは核ブロブまたはシードを取り囲む画素に様々な画像分析アルゴリズムを適用することによって、形態メトリックが計算されることができる。いくつかの実施形態では、形態メトリックは、面積、短軸および長軸の長さ、周囲長、半径、固体度などを含む。細胞レベルでは、そのようなメトリックが使用されて、核を健常な細胞または疾患細胞に属するものとして分類することができる。組織レベルでは、組織全体のこれらの特徴の統計が、組織が罹患しているかどうかの分類に利用される。いくつかの例では、核を識別するために使用される核ブロブまたはシードに含まれるかまたは核ブロブまたはシードを囲む画素の画素強度値を比較することによって、特定の核について外観メトリックが計算されることができ、それにより、比較される画素強度は、異なる画像チャネル(例えば、背景チャネル、バイオマーカーの染色のためのチャネルなど)から導出される。いくつかの実施形態では、外観特徴から導出されたメトリックは、異なる画像チャネルから計算された画素強度および勾配の大きさのパーセンタイル値(例えば、10パーセンタイル値、50パーセンタイル値、および95パーセンタイル値)から計算される。例えば、まず、目的の核を表す核ブロブ内の複数のICの画像チャネル(例えば、3つのチャネル:HTX、DAB、輝度)のそれぞれの画素値のXパーセンタイル値の数P(X=10、50、95)が識別される。外観特徴メトリックを計算することは、導出されたメトリックが核領域の特性を記述し、核の周りの膜領域を記述することができるため有利であり得る。
いくつかの例では、背景特徴が画像から抽出された核を含む細胞の細胞質および細胞膜特徴における外観および/または染色の存在を示す背景メトリックが計算されることができる。背景特徴および対応するメトリックは、例えば核を表す核ブロブまたはシードを識別し、計算される、識別された細胞のセットに直接隣接する画素領域(例えば、核ブロブ境界の周りの厚さ約9ミクロンの20画素のリボン)を分析し、したがって、細胞に直接隣接する領域とともにこの核を用いて細胞の細胞質および膜における外観および染色の存在を撮像することによって、デジタル画像に描写された核および対応する細胞について計算されることができる。いくつかの例では、色メトリックは、色比R/(R+G+B)または色主成分を含む色から導出されてもよい。他の実施形態では、色から導出された色メトリックは、各色の局所統計(平均/中央値/分散/標準偏差)および/または局所画像ウィンドウ内の色強度相関を含む。いくつかの例では、強度メトリックは、画像に表される灰色のセルの暗い色調と白い色調との間に設定される特定の特性値を有する隣接セルのグループから導出されてもよい。色の特徴の相関関係は、サイズクラスのインスタンスを定義することができ、したがって、このようにして、これらの着色細胞の強度が周囲の暗い細胞のクラスターから影響を受ける細胞を判定する。
いくつかの例では、テクスチャ特徴または空間特徴などのメトリックの計算の基礎として、他の特徴が考慮され、使用されてもよい。別の例として、発現スコアリングは、予測的尺度として、または処置を導くために利用されることができる。例えば、乳癌ならびにERおよびPRバイオマーカーとの関連において、陽性を検査する試料は、処置過程の間にホルモン療法を提供するという決定を導くことができる。当業者はまた、生物学的試料内の全てのクラスターが任意の特定のマーカーについて同じスコアを有し得るわけではないことを理解するであろう。クラスター間の変動性を記述する不均一性スコアまたはメトリックを判定することができることにより、情報に基づいた処置決定を行うための追加のガイダンスが提供されることができる。いくつかの実施形態では、不均一性は、異なるクラスターが互いにどの程度比較されるかを測定するために判定される。不均一性は、例えば、その内容があらゆる目的のためにその全体が本明細書に組み込まれる国際公開第2019110567号パンフレットに記載されているように、様々な識別およびマッピングされたクラスター間のタンパク質発現レベルが互いにどのように異なるかを説明する可変性メトリックによって測定されることができる。いくつかの実施形態では、不均一性は、識別された全てのクラスター間で測定される。他の実施形態では、不均一性は、識別されたクラスターのサブセット(例えば、特定の所定の基準を満たすクラスター)間でのみ測定される。
いくつかの実施形態では、入力として受信された画像は、セグメンテーションおよびマスキングモジュール350によってセグメント化およびマスキングされることができる。例えば、訓練された畳み込みニューラルネットワークのアーキテクチャまたはモデルが使用されて、非標的領域および/または標的領域をセグメント化することができ、次いで、画像を画像分析アルゴリズムに入力する前、入力中、または入力後に分析のためにマスクされることができる。いくつかの実施形態では、入力画像は、組織領域のみが画像内に存在するようにマスクされる。いくつかの実施形態では、組織領域マスクは、組織領域から非組織領域をマスクするために生成される。いくつかの実施形態では、組織領域を識別し、背景領域(例えば、撮像源からの白色光のみが存在する場合など、試料のないガラスに対応する全スライド画像の領域)を除外することによって、組織領域マスクが作成されることができる。
いくつかの実施形態では、セグメンテーション技術を使用して、入力画像内の非組織領域から組織領域をマスクすることによって組織領域マスク画像を生成する。いくつかの実施形態では、画像セグメンテーション技術を利用して、デジタル化された組織データと画像内のスライド、前景に対応する組織、および背景に対応するスライドを区別する。いくつかの実施形態では、セグメンテーションおよびマスキングモジュール350は、分析される背景の非組織領域の量を制限しながら、ホールスライド画像の関心領域(AOI)内の全ての組織領域を検出するためにAOIを計算する。広範囲の画像セグメンテーション技術(例えば、HSVカラーベースの画像セグメンテーション、Lab画像セグメンテーション、平均シフトカラー画像セグメンテーション、領域成長、レベルセット法、高速マーチング法など)を使用して、例えば、組織データと非組織または背景データとの境界を判定することができる。少なくとも部分的にセグメンテーションに基づいて、セグメンテーションおよびマスキングモジュール350は、組織データに対応するデジタル化されたスライドデータの部分を識別するために使用されることができる組織前景マスクを生成することができる。あるいは、構成要素は、組織データに対応しないデジタル化されたスライドデータの部分を識別するために使用される背景マスクを生成することができる。
この識別は、エッジ検出などの画像分析操作によって可能にされることができる。組織領域マスクを使用して、画像内の非組織背景ノイズ、例えば非組織領域を除去することができる。いくつかの実施形態では、組織領域マスクの生成は、以下の動作のうちの1つ以上を備える(しかしながら、以下の動作に限定されるものではない):低解像度入力画像の輝度の計算、輝度画像の生成、輝度画像への標準偏差フィルタの適用、フィルタリングされた輝度画像の生成、および、所与の閾値を超える輝度を有する画素が1に設定され、閾値を下回る画素がゼロに設定されるようにフィルタリングされた輝度画像への閾値の適用、組織領域マスクの生成。組織領域マスクの生成に関する追加の情報および例は、「An Image Processing Method and System for Analyzing a Multi-Channel Image Obtained from a Biological Tissue Sample Being Stained by Multiple Stains」と題されたPCT/EP/2015/062015号に開示されており、その内容はあらゆる目的のためにその全体が本明細書に組み込まれる。
組織領域から非組織領域をマスキングすることに加えて、セグメンテーションおよびマスキングモジュール350は、必要に応じて、非標的領域または特定の組織タイプ(例えば、リンパ系凝集体領域)に属すると識別された組織の一部、または標的領域または特定の組織タイプ(例えば、疑わしい腫瘍領域)に属すると識別された組織の一部など、他の関心領域もマスクすることができる。様々な実施形態では、リンパ球凝集体領域セグメンテーションなどの非標的領域セグメンテーションは、CNNモデル(例えば、図2に関して説明した分類器サブシステム210aに関連付けられたCNNモデル)によって行われる。いくつかの実施形態では、CNNモデルは、二次元セグメンテーションモデルである。例えば、CNNモデルは、残差ブロック、拡張、および深さ方向の畳み込みを有するU-Netであってもよい。前処理または処理された画像データ(例えば、二次元領域または全スライド画像)は、U-Netへの入力として使用されることができる。U-Netは、拡張経路で補完された縮小経路を含み、拡張経路内の連続層のプーリング演算は、アップサンプリング演算子で置き換えられる。したがって、これらの連続する層は、出力の解像度を高める。セグメンテーションに少なくとも部分的に基づいて、U-Netは、非標的領域データに対応するデジタル化スライドデータの部分を識別するために使用されることができる非標的領域前景マスクを生成することができる。あるいは、コンポーネントは、非標的領域データに対応しないデジタル化スライドデータの部分を識別するために使用される背景マスクを生成することができる。U-Netの出力は、下にある画像内に存在する非標的領域の位置を表す前景非標的領域マスク、または非標的領域データに対応しないデジタル化スライドデータの部分(例えば、標的領域)を表す背景非標的領域マスクであってもよい。
いくつかの実施形態では、位置合わせモジュール355および位置合わせプロセスを使用して、1つ以上の画像で識別された腫瘍細胞または細胞クラスターなどの生物学的物質または構造体が1つ以上の追加の画像にマッピングされる。位置合わせは、異なるデータセット、ここでは画像、または画像内の細胞クラスターを1つの座標系に変換するプロセスである。より具体的には、位置合わせは、2つ以上の画像を位置合わせするプロセスであり、一般に、1つの画像を参照(参照画像または固定画像とも呼ばれる)として指定することと、それらが参照と位置合わせされるように他の画像に幾何学的変換を適用することとを含む。幾何学的変換は、ある画像の場所を別の画像の新たな場所にマッピングする。正しい幾何学的変換パラメータを判定するステップは、画像位置合わせプロセスの鍵である。いくつかの実施形態では、画像位置合わせは、その内容があらゆる目的のためにその全体が本明細書に組み込まれる、2014年9月30日に出願された「Line-Based Image Registration and Cross-Image Annotation Devices,Systems and Methods」と題された国際公開第2015/049233号パンフレットに記載されている方法を使用して行われる。国際公開第2015/049233号パンフレットは、単独で、または精緻な位置合わせプロセスと組み合わせて使用される粗い位置合わせプロセスを含む位置合わせプロセスを記載している。いくつかの実施形態では、粗い位置合わせプロセスは、位置合わせのためにデジタル画像を選択することと、選択されたデジタル画像のそれぞれから前景画像マスクを生成することと、結果として生じる前景画像間の組織構造をマッチングすることとを含むことができる。さらなる実施形態では、前景画像マスクを生成することは、染色された組織切片のホールスライド画像からソフト加重前景画像を生成することと、ソフト加重前景画像にOTSU閾値を適用して、バイナリソフト加重画像マスクを生成することとを含む。他のさらなる実施形態では、前景画像マスクを生成することは、染色された組織切片のホールスライド画像からバイナリソフト加重画像マスクを生成することと、同じホールスライド画像から勾配振幅画像マスクを別々に生成することと、勾配画像マスクにOTSU閾値を適用して、バイナリ勾配振幅画像マスクを生成することと、バイナリOR演算を使用してバイナリソフト加重画像とバイナリ勾配振幅画像マスクとを組み合わせて前景画像マスクを生成することとを含む。本明細書で使用される「勾配」は、例えば、特定の画素を取り囲む画素のセットの強度値勾配を考慮に入れることによって前記特定の画素について計算された画素の強度勾配である。各勾配は、そのx軸およびy軸がデジタル画像の2つの直交するエッジによって定義される座標系に対して特定の「方向」を有することができる。「勾配配向特徴」は、前記座標系内の勾配の配向を示すデータ値とすることができる。
いくつかの実施形態では、組織構造のマッチングは、結果として生じる前景画像マスクのそれぞれの境界から線ベースの特徴を計算することと、第1の前景画像マスク上の線特徴の第1のセットと第2の前景画像マスク上の線特徴の第2のセットとの間のグローバル変換パラメータを計算することと、変換パラメータに基づいて第1および第2の画像をグローバルに位置合わせすることとを含む。さらに別の実施形態では、粗い位置合わせプロセスは、グローバル変換パラメータに基づいて選択されたデジタル画像を共通のグリッドにマッピングすることを含み、このグリッドは、選択されたデジタル画像を包含することができる。いくつかの実施形態では、精緻な位置合わせプロセスは、位置合わせされたデジタル画像のセット内の第1のデジタル画像の第1のサブ領域を識別することと、位置合わせされたデジタル画像のセット内の第2のデジタル画像の第2のサブ領域を識別することであって、第2のサブ領域が第1のサブ領域よりも大きく、第1のサブ領域が共通グリッド上の第2のサブ領域内に実質的に位置する、識別することと、第2のサブ領域内の第1のサブ領域についての最適化された位置を計算することとを含むことができる。
図4は、異なるH&Eスライド画像410、420、430、440にわたる染色変動の例を描写している。様々な例では、H&Eスライドは、色および輝度が異なり得る。例えば、異なる病理検査室および/または病理学者は、個々の選好、異なる染色プロセス、および/または異なる染色/スキャン機器に基づいて組織試料を染色することを選択することができる。さらにまた、H&Eスライド画像は、異なる種類の組織(例えば、腫瘍、間質および壊死)および/または異なる器官(例えば、肝臓、前立腺、乳房など)のものであってもよい。したがって、グローバルモデル112、114は、色、組織、および器官の変化にもかかわらずモデルが依然として正確に動作するのに十分に一般的であるように適切に訓練されるべきであり、または複数のモデルが利用されることができる。
図5は、様々な実施形態にかかる予測モデルを訓練するためのプロセスを示している。
訓練のためのプロセスは、ブロック500で始まり、ここで、標本の複数のタイル画像がアクセスされる。複数のタイル画像のうちの1つ以上のタイル画像は、1つ以上のタイル画像の注釈(例えば、腫瘍細胞を有する領域を識別するため、非標的領域および標的領域をセグメント化するため、または任意の他の適切な注釈)を含む。ブロック510において、1つ以上のタイル画像が画像パッチ(例えば、256画素×256画素のサイズ)に分割されることができる。ブロック520において、二次元セグメンテーションモデルなどの予測モデルが、1つ以上のタイル画像または画像パッチを使用して訓練される。いくつかの例では、二次元セグメンテーションモデルは、縮小経路および拡張経路を含む修正U-Netモデルであり、縮小経路および拡張経路のそれぞれは、最大256チャネルを有し、縮小経路の1つ以上の層は、空間ドロップアウトを実施する。訓練は、予測モデルの損失関数を最小化する予測モデルのパラメータのセットを見つけるために反復演算を実行することを含むことができる。各反復は、パラメータのセットを使用する損失関数の値が前の反復におけるパラメータの別のセットを使用する損失関数の値よりも小さくなるように、予測モデルのパラメータのセットを見つけることを含むことができる。損失関数は、予測モデルを使用して予測された出力と、1つ以上のタイル画像または画像パッチに含まれる注釈との間の差を測定するように構成される。いくつかの例では、訓練は、所定のスケジュールにしたがって学習率を低減することによって修正U-Netの学習率を調整することをさらに含む。所定のスケジュールは、損失関数を最適化するために所定数のエポックごとに学習率を所定の係数だけ低下させるステップ減衰スケジュールであってもよい。特定の例では、損失関数は、バイナリ交差エントロピー損失関数である。ブロック530において、さらなる訓練された予測モデルは、反復回数、時間の長さ、またはモデルが閾値量を超えて修正された後に、集中サーバに提供されることができる。例えば、さらなる訓練された予測モデルは、図2および図3に関して説明したように、FL画像分析環境で実行するために展開されることができる。
図6は、様々な実施形態にかかる予測モデルのFL訓練のラウンドのためのプロセスを示している。
訓練のラウンドのためのFLプロセスは、ブロック600で始まり、ここで、クライアント装置のそれぞれに、分類に使用するための1つ以上のグローバルモデルが提供される。クライアント装置のそれぞれは、提供されたグローバルモデルのさらなる訓練に使用されることができるローカルデータにアクセスすることができる。ローカルデータからの1つ以上のタイル画像は、1つ以上のタイル画像の注釈(例えば、腫瘍細胞を有する領域を識別するため、非標的領域および標的領域をセグメント化するため、または任意の他の適切な注釈)を含む。上述したように、1つ以上のタイル画像は、画像パッチに分割されることができる。ブロック610において、予測モデル(例えば、グローバルモデル)は、1つ以上のタイル画像または画像パッチについてさらに訓練される。ブロック620において、ローカル訓練データが使い果たされた後、さらなる訓練された予測モデルが集中サーバに提供される。ブロック630において、サーバは、1つ以上のさらなる訓練されたモデルを受信し、それらのモデルからの重みをグローバルモデルに集約することができる。重みは、平均、加重平均、または当業者によって理解されるような重みを組み合わせるための他の適切な方法を実行することによって集約されることができる。例えば、いくつかの実施形態では、重みは、実行された訓練ラウンド(例えば、分析されたスライド)の数に基づく加重平均に基づいてグローバルモデルに組み込まれてもよい。
図7は、様々な実施形態にかかる予測モデルのFL訓練の複数ラウンド後に生成された結果を示している。
複数の訓練ラウンドによって提供される改善された精度が視覚化されることができる。例えば、H&E画像700が使用されて、FLシステムの訓練を検証することができる。グラウンドトゥルース710は、モデルの出力と比較するために提供されることができる。この例では、画像は、腫瘍を示すために青色に着色され、他の全ての組織については紫色に着色される。集中データを使用して訓練されたモデルを使用する例示的な結果720も提供される。この例では、6ラウンドの分類および訓練が実行され、各ラウンドによって生成された得られた分類730が示されている。FLの各ラウンドの後、グローバルモデルは、1つ以上のクライアントシステムにおいてさらに訓練され、結果は、グラウンドトゥルース710に収束する。
図8は、様々な実施形態にかかる予測モデルのFL訓練のラウンドのためのプロセスを示している。
様々な実施形態では、訓練のラウンドのためのFLプロセスは、ブロック800で始まり、ここで、クライアント装置のそれぞれに、分類に使用するための1つ以上のグローバルモデルが提供される。上述したように、クライアント装置のそれぞれは、提供されたグローバルモデルのさらなる訓練に使用されることができるローカルデータにアクセスすることができ、ローカルデータからの1つ以上のタイル画像は、注釈(例えば、腫瘍細胞を有する領域を識別するため、非標的領域および標的領域をセグメント化するため、または任意の他の適切な注釈)を含む。さらにまた、ローカルデータは、そのローカルデータをさらに記述するメタデータを含んでもよい。例えば、メタデータは、試料がどのように調製されたかに関する情報(例えば、適用された染色、染色濃度、および/または試料調製に関連する任意の他の関連情報)、使用された機器(例えば、染色機器、スキャン機器など)、およびさらなる患者情報を含むことができる。ブロック810において、メタデータは、データ補償または正規化が管理される必要があるか否かを決定するために上げられてもよい。例えば、特定のスキャン装置は、補償を必要とするアーチファクトを導入することがある。別の例では、いくつかの染色濃度は、補償されることができる過度に明るいまたは暗い着色を生じることがある。したがって、ブロック820において、システムは、メタデータまたは他の情報を使用してデータ不均衡を補償することができる。ブロック830において、モデルは、1つ以上のタイル画像または画像パッチについてさらに訓練され、更新されたモデルが集中サーバに提供され、グローバルモデルが更新される。ブロック840において、モデルの改善を確認するために、検証データセットを使用して更新されたグローバルモデルが試験される。グローバルモデルが改善されると、変更が保存されることができる。ブロック850において、サーバは、更新されたモデルを各クライアント装置に配信することができる。
図9は、様々な実施形態にかかるクライアントから更新されたモデルを受信するためのプロセスを示している。
様々な実施形態では、集中サーバは、クライアント装置から更新されたモデルおよびメタデータを受信する。上述したように、ブロック910において、システムは、ローカル訓練データに関連付けられたメタデータを評価することができる。様々な実施形態では、システムは、様々なメタデータにしたがって選択される複数のグローバル分類器を有するように構成されてもよい。例えば、別個の分類器は、特定の機器または染色技術を利用する位置に使用されることができる。したがって、ブロック920において、システムは、更新された分類器が複数のグローバルモデルのうちの1つを更新するために使用されるべきかどうか、または新たなグローバルモデルが追加されるべきかどうかを決定するように構成されることができる。ブロック930において、受信された更新されたモデルが正規化され、グローバルモデルのうちの1つを更新するために使用される。ブロック940において、新たに更新されたモデルが検証データセットを使用して検証される。ブロック950において、新たなグローバルモデルを追加する必要があると決定されている。これにより、受信された更新モデルが検証される。次に、ブロック960において、検証されたモデルが複数のグローバルモデルに追加される。ブロック970において、更新されたモデルが適切なクライアント装置に配信される。
本開示のいくつかの実施形態は、1つ以上のデータプロセッサを含むシステムを含む。いくつかの実施形態では、システムは、命令を含む非一時的コンピュータ可読記憶媒体であって、命令が、1つ以上のデータプロセッサ上で実行されると、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部および/または1つ以上のプロセスの一部または全部を実行させる、非一時的コンピュータ可読記憶媒体を含む。本開示のいくつかの実施形態は、1つ以上のデータプロセッサに、本明細書に開示された1つ以上の方法の一部または全部および/または1つ以上のプロセスの一部または全部を実行させるように構成された命令を含む、非一時的機械可読記憶媒体において有形に具現化されたコンピュータプログラム製品を含む。
使用された用語および表現は、限定ではなく説明の用語として使用され、そのような用語および表現の使用において、示されて説明された任意の特徴の均等物またはその一部を除外する意図はないが、特許請求の範囲に記載された発明の範囲内で様々な変更が可能であることが認識される。したがって、特許請求の範囲に記載された本発明は、実施形態および任意の特徴によって具体的に開示されているが、本明細書に開示された概念の変更および変形は、当業者によってあてにされてもよく、そのような変更および変形は、添付の特許請求の範囲によって定義される本発明の範囲内にあると見なされることを理解されたい。
その後の説明は、好ましい例示的な実施形態のみを提供し、本開示の範囲、適用可能性または構成を限定することを意図しない。むしろ、好ましい例示的な実施形態のその後の説明は、様々な実施形態を実装するための可能な説明を当業者に提供する。添付の特許請求の範囲に記載の趣旨および範囲から逸脱することなく、要素の機能および配置に様々な変更を加えることができることが理解される。
実施形態の完全な理解を提供するために、以下の説明において具体的な詳細が与えられる。しかしながら、これらの具体的な詳細なしで実施形態が実施され得ることが理解されよう。例えば、回路、システム、ネットワーク、プロセス、および他の構成要素は、実施形態を不必要に詳細に不明瞭にしないために、ブロック図形式の構成要素として示されてもよい。他の例では、実施形態を不明瞭にすることを避けるために、周知の回路、プロセス、アルゴリズム、構造、および技術が不必要な詳細なしに示されてもよい。

Claims (20)

  1. 連合学習分類器を使用するためのコンピュータ実装方法であって、
    集中サーバによって、複数のクライアント装置に病理画像を分類するように構成されたグローバルモデルを配信することと、
    前記集中サーバによって、前記複数のクライアント装置のうちの少なくとも1つから更新されたモデルを受信することであって、前記更新されたモデルが、複数のスライド画像および複数の対応する注釈を使用して前記複数のクライアント装置のうちの前記少なくとも1つにおいてさらに訓練されている、更新されたモデルを受信することと、
    前記集中サーバによって、前記更新されたモデルを前記グローバルモデルと集約して、更新されたグローバルモデルを生成することと、
    前記更新されたグローバルモデルを前記複数のクライアント装置のうちの少なくとも1つに配信することと、を含む、コンピュータ実装方法。
  2. 前記更新されたモデルを前記グローバルモデルと集約して、更新されたグローバルモデルを生成することが、前記更新されたモデルの少なくとも1つの重みによって前記グローバルモデルの少なくとも1つの重みの平均化を実行することを含む、請求項1に記載のコンピュータ実装方法。
  3. 前記平均化を実行することが、前記更新されたモデルをさらに訓練するために使用される前記複数のスライド画像の数および前記グローバルモデルを訓練するために使用される画像の総数にしたがって、前記更新されたモデルの前記少なくとも1つの重みと前記グローバルモデルの前記少なくとも1つの重みとの加重平均を実行することを含む、請求項2に記載のコンピュータ実装方法。
  4. 前記注釈が、スライド画像上の前記グローバルモデルの出力を観察するユーザによって提供され、前記注釈が、前記グローバルモデルによって生成された前記出力に対する変更を含む、請求項1に記載のコンピュータ実装方法。
  5. 前記集中サーバによって、前記複数のスライド画像に関連するメタデータを受信することをさらに含み、集約することが、前記メタデータにしたがって前記さらなる訓練されたモデルを正規化することをさらに含む、請求項1に記載のコンピュータ実装方法。
  6. 前記集中サーバによって、検証データセットを使用して前記グローバルモデルに対する前記更新されたグローバルモデルの性能改善を検証することをさらに含む、請求項1に記載のコンピュータ実装方法。
  7. クライアント装置によって連合学習分類器を使用するためのコンピュータ実装方法であって、
    集中サーバから病理画像を分類するように構成されたグローバルモデルを受信することと、
    染色された組織画像を受信することであって、前記染色された組織画像が画像パッチに分割される、染色された組織画像を受信することと、
    前記画像パッチに対して前記グローバルモデルを使用して画像分析を実行することと、
    画像パッチおよび少なくとも1つの対応するユーザ注釈を使用して前記グローバルモデルを訓練して、更新されたモデルを生成することであって、前記少なくとも1つの対応するユーザ注釈が、前記グローバルモデルによって生成された分類の補正を含む、更新されたモデルを生成することと、
    前記更新されたモデルを前記集中サーバに送信することと、
    更新されたグローバルモデルを受信することと、
    クライアント固有の検証データセットを使用して、前記更新されたグローバルの性能改善を検証することと、を含む、コンピュータ実装方法。
  8. 前記グローバルモデルによって生成された前記分類の前記補正が、細胞タイプ、組織タイプ、または組織境界のうちの少なくとも1つの再分類を含む、請求項7に記載のコンピュータ実装方法。
  9. 前記更新されたモデルが、個々の患者情報を含まない、請求項7に記載のコンピュータ実装方法。
  10. 前記複数の画像に関するメタデータを生成することと、
    前記メタデータを前記集中サーバに提供することと、をさらに含む、請求項7に記載のコンピュータ実装方法。
  11. 前記メタデータが、前記画像が対応するスライドまたは組織の領域、行われた染色の種類、染色の濃度、および染色またはスキャンに使用される機器のうちの少なくとも1つを含む、請求項10に記載のコンピュータ実装方法。
  12. 前記更新されたモデルを送信することが、閾値の後、反復回数、時間の長さ、または前記モデルが閾値量を超えて変更された後に実行される、請求項7に記載のコンピュータ実装方法。
  13. デジタル病理において連合学習分類器を使用するためのコンピュータ実装方法であって、
    集中サーバによって、グローバルモデルを複数のクライアント装置に配信することと、
    前記複数のクライアント装置からのクライアント装置によって、標本の複数の画像を使用して前記グローバルモデルを訓練して、少なくとも1つのさらなる訓練されたモデルを生成することであって、前記複数の画像のうちの1つ以上の画像が少なくとも1つの注釈を含む、モデルを生成することと、
    前記クライアント装置によって、前記集中サーバに前記さらなる訓練されたモデルを提供することと、
    前記集中サーバによって、前記グローバルモデルによって前記さらなる訓練されたモデルを集約して、更新されたグローバルモデルを生成することと、
    前記更新されたグローバルモデルを前記複数のクライアント装置に配信することと、を含む、コンピュータ実装方法。
  14. 前記クライアント装置によって、前記複数の画像に関連するメタデータを生成することと、
    前記クライアント装置によって、前記集中サーバに前記メタデータを提供することであって、前記集中サーバによって、前記グローバルモデルによって前記さらなる訓練されたモデルを集約して、更新されたグローバルモデルを生成することが、前記メタデータにしたがって前記さらなる訓練されたモデルを正規化することをさらに含む、メタデータを提供することとをさらに含む、請求項13に記載のコンピュータ実装方法。
  15. 前記メタデータが、前記画像が対応するスライドまたは組織の領域、行われた染色の種類、染色の濃度、および染色またはスキャンに使用される機器のうちの少なくとも1つを含む、請求項14に記載のコンピュータ実装方法。
  16. 前記集中サーバによって、検証データセットを使用して前記グローバルモデルに対する前記更新されたグローバルモデルの性能を検証することをさらに含む、請求項13に記載のコンピュータ実装方法。
  17. 前記更新されたグローバルモデルの前記性能が前記グローバルモデルよりも劣る場合に、前記更新を前記グローバルモデルにロールバックすることをさらに含む、請求項16に記載のコンピュータ実装方法。
  18. 前記更新されたモデルを前記グローバルモデルと集約して、更新されたグローバルモデルを生成することが、前記更新されたモデルの少なくとも1つの重みによって前記グローバルモデルの少なくとも1つの重みの平均化を実行することを含む、請求項13に記載のコンピュータ実装方法。
  19. 前記平均化を実行することが、前記更新されたモデルをさらに訓練するために使用される前記複数のスライド画像の数および前記グローバルモデルを訓練するために使用される画像の総数にしたがって、前記更新されたモデルの前記少なくとも1つの重みと前記グローバルモデルの前記少なくとも1つの重みとの加重平均を実行することを含む、請求項18に記載のコンピュータ実装方法。
  20. 前記更新されたモデルを送信することが、閾値の後、反復回数、時間の長さ、または前記モデルが閾値量を超えて変更された後に実行される、請求項14に記載のコンピュータ実装方法。
JP2022547853A 2020-02-11 2021-02-10 機械学習アルゴリズムを訓練し、患者のプライバシーを維持するための連合学習システム Pending JP2023512560A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202062975036P 2020-02-11 2020-02-11
US62/975,036 2020-02-11
PCT/US2021/017491 WO2021163213A1 (en) 2020-02-11 2021-02-10 Federated learning system for training machine learning algorithms and maintaining patient privacy

Publications (1)

Publication Number Publication Date
JP2023512560A true JP2023512560A (ja) 2023-03-27

Family

ID=74860426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022547853A Pending JP2023512560A (ja) 2020-02-11 2021-02-10 機械学習アルゴリズムを訓練し、患者のプライバシーを維持するための連合学習システム

Country Status (5)

Country Link
US (1) US20220351860A1 (ja)
EP (1) EP4104093A1 (ja)
JP (1) JP2023512560A (ja)
CN (1) CN115088022A (ja)
WO (1) WO2021163213A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102686297B1 (ko) * 2023-12-04 2024-07-22 (주)에이아이딥 개인 정보 탐지 및 인식 방법, 이를 수행하는 장치 및 컴퓨터 프로그램

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3143855A1 (en) * 2020-12-30 2022-06-30 Atb Financial Systems and methods for federated learning on blockchain
US20220300618A1 (en) * 2021-03-16 2022-09-22 Accenture Global Solutions Limited Privacy preserving cooperative learning in untrusted environments
US20230004872A1 (en) * 2021-07-01 2023-01-05 GE Precision Healthcare LLC System and method for deep learning techniques utilizing continuous federated learning with a distributed data generative model
CN113762525B (zh) * 2021-09-07 2024-04-05 桂林理工大学 一种具有差分隐私保护的联邦学习模型训练方法
CN113660080B (zh) * 2021-10-20 2021-12-14 北京金鸿睿信息科技有限公司 一种安全多方计算与联邦分析技术
US11778484B2 (en) * 2021-11-02 2023-10-03 Qualcomm Technologies, Inc. Mobility and zone management in zone-based federated learning
CN114612408B (zh) * 2022-03-04 2023-06-06 拓微摹心数据科技(南京)有限公司 一种基于联邦深度学习的心脏图像处理方法
CN115049522B (zh) * 2022-08-17 2022-11-25 南京邮电大学 一种面向电力物联网的电力终端多任务联邦学习方法
CN116384513A (zh) * 2023-05-30 2023-07-04 南京邮电大学 云边端协同学习系统及方法
CN117893532B (zh) * 2024-03-14 2024-05-24 山东神力索具有限公司 基于图像处理的模锻索具用模具裂纹缺陷检测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7760927B2 (en) 2003-09-10 2010-07-20 Bioimagene, Inc. Method and system for digital image based tissue independent simultaneous nucleus cytoplasm and membrane quantitation
ES2639559T3 (es) 2012-12-28 2017-10-27 Ventana Medical Systems, Inc. Análisis de imágenes para el pronóstico de cáncer de mama
CN105027165B (zh) 2013-03-15 2021-02-19 文塔纳医疗系统公司 用于数字完整载片的自动化评分的基于组织对象的机器学习系统
EP3053139B1 (en) 2013-10-01 2020-10-21 Ventana Medical Systems, Inc. Line-based image registration and cross-image annotation devices, systems and methods
JP6604960B2 (ja) 2014-02-21 2019-11-13 ベンタナ メディカル システムズ, インコーポレイテッド バイオマーカー陽性の腫瘍細胞を識別するための医用画像解析
EP3175389B1 (en) 2014-07-28 2024-05-15 Ventana Medical Systems, Inc. Automatic glandular and tubule detection in histological grading of breast cancer
WO2016120442A1 (en) 2015-01-30 2016-08-04 Ventana Medical Systems, Inc. Foreground segmentation and nucleus ranking for scoring dual ish images
EP3721406B1 (en) 2017-12-05 2024-01-24 Ventana Medical Systems, Inc. Method of computing tumor spatial and inter-marker heterogeneity
US11526745B2 (en) * 2018-02-08 2022-12-13 Intel Corporation Methods and apparatus for federated training of a neural network using trusted edge devices

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102686297B1 (ko) * 2023-12-04 2024-07-22 (주)에이아이딥 개인 정보 탐지 및 인식 방법, 이를 수행하는 장치 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
US20220351860A1 (en) 2022-11-03
WO2021163213A1 (en) 2021-08-19
EP4104093A1 (en) 2022-12-21
CN115088022A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
US11682192B2 (en) Deep-learning systems and methods for joint cell and region classification in biological images
US20220351860A1 (en) Federated learning system for training machine learning algorithms and maintaining patient privacy
JP7233506B2 (ja) 一次染色および免疫組織化学画像に基づくコンピュータ採点
US11922681B2 (en) Systems and methods for identifying cell clusters within images of stained biological samples
JP7231631B2 (ja) 腫瘍空間異質性およびインターマーカ異質性の計算方法
JP7422235B2 (ja) 腫瘍検出および分析を支援するための非腫瘍セグメンテーション
CN111448569B (zh) 存储和检索数字病理学分析结果的方法
US20230186659A1 (en) Machine learning models for cell localization and classification learned using repel coding
US11959848B2 (en) Method of storing and retrieving digital pathology analysis results
US20240079116A1 (en) Automated segmentation of artifacts in histopathology images
JP2024530388A (ja) 多重免疫蛍光イメージングを使用する組織学的染色のデジタル合成

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240208