JP7566638B2

JP7566638B2 - 人工知能ベースの配列決定

Info

Publication number: JP7566638B2
Application number: JP2020572706A
Authority: JP
Inventors: アニンディタ・ダッタ; ドルナ・カシフハギギ; アミラリ・キア; キショール・ジャガナサン; ジョン・ランドール・ゴベル
Original assignee: イルミナインコーポレイテッド
Priority date: 2019-03-21
Filing date: 2020-03-22
Publication date: 2024-10-15
Anticipated expiration: 2040-03-22
Also published as: US12119088B2; US20220147760A1; JP7608172B2; KR20210143100A; BR112020026433A2; AU2020256047A1; IL279525A; JP2022535306A; US11961593B2; CN112689875A; JP2022524562A; MX2020014288A; SG11202012461XA; CN112789680B; AU2020241586A1; IL281668A; IL279533A; IL279522A; US20200302223A1; MX2020014302A

Description

（優先権出願）
本出願は、以下の出願の優先権又は利益を主張する。

２０１９年３月２１日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国仮特許出願第６２／８２１，６０２号（代理人整理番号ＩＬＬＭ１００８－１／ＩＰ－１６９３－ＰＲＶ）、

２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＧｅｎｅｒａｔｉｏｎｏｆＳｅｑｕｅｎｃｉｎｇＭｅｔａｄａｔａ」と題する米国仮特許出願第６２／８２１，６１８号（代理人整理番号ＩＬＬＭ１００８－３／ＩＰ－１７４１－ＰＲＶ）、

２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国仮特許出願第６２／８２１，６８１号（代理人整理番号ＩＬＬＭ１００８－４／ＩＰ－１７４４－ＰＲＶ）、

２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する米国仮特許出願第６２／８２１，７２４号（代理人整理番号ＩＬＬＭ１００８－７／ＩＰ－１７４７－ＰＲＶ）、

２０１９年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国仮特許出願第６２／８２１，７６６号（代理人整理番号ＩＬＬＭ１００８－９／ＩＰ－１７５２－ＰＲＶ）、

２０１９年６月１４日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する蘭国特許出願第２０２３３１０号（代理人整理番号ＩＬＬＭ１００８－１１／ＩＰ－１６９３－ＮＬ）、

２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＧｅｎｅｒａｔｉｏｎｏｆＳｅｑｕｅｎｃｉｎｇＭｅｔａｄａｔａ」と題する蘭国特許出願第２０２３３１１号（代理人整理番号ＩＬＬＭ１００８－１２／ＩＰ－１７４１－ＮＬ）、

２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する蘭国特許出願第２０２３３１２号（代理人整理番号ＩＬＬＭ１００８－１３／ＩＰ－１７４４－ＮＬ）、

２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する蘭国特許出願第２０２３３１４号（代理人整理番号ＩＬＬＭ１００８－１４／ＩＰ－１７４７－ＮＬ）、及び

２０１９年６月１４日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する蘭国特許出願第２０２３３１６号（代理人整理番号ＩＬＬＭ１００８－１５／ＩＰ－１７５２－ＮＬ）。

２０２０年３月２０日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許出願第１６／８２５，９８７号（代理人整理番号ＩＬＬＭ１００８－１６／ＩＰ－１６９３－ＵＳ）、

２０２０年３月２０日に出願された「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許出願第１６／８２５，９９１号（代理人整理番号ＩＬＬＭ１００８－１７／ＩＰ－１７４１－ＵＳ）、

２０２０年３月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国特許出願第１６／８２６，１２６号（代理人整理番号ＩＬＬＭ１００８－１８／ＩＰ－１７４４－ＵＳ）、

２０２０年３月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題する米国特許出願第１６／８２６，１３４号（代理人整理番号第ＩＬＬＭ１００８－１９／ＩＰ－１７４７－ＵＳ）、

２０２０年３月２１日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国特許出願第１６／８２６，１６８号（代理人整理番号ＩＬＬＭ１００８－２０／ＩＰ－１７５２－ＰＲＶ）、

本願と同時に出願され、その後ＰＣＴ国際公開第ＷＯ＿＿＿＿＿＿＿＿＿＿＿＿号として公開されている「ＴｒａｉｎｉｎｇＤａｔａＧｅｎｅｒａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題するＰＣＴ特許出願第ＰＣＴ＿＿＿＿＿＿＿＿＿＿＿号（代理人整理番号ＩＬＬＭ１００８－２１／ＩＰ－１６９３－ＰＣＴ）、

本願と同時に出願され、その後、ＰＣＴ国際公開第ＷＯ＿＿＿＿＿＿＿＿＿＿＿＿号として公開されている「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＢａｓｅｄＧｅｎｅｒａｔｉｏｎｏｆＳｅｑｕｅｎｃｉｎｇＭｅｔａｄａｔａ」と題するＰＣＴ特許出願第ＰＣＴ＿＿＿＿＿＿＿＿＿＿号（代理人整理番号第ＩＬＬＭ１００８－２２／ＩＰ－１７４１－ＰＣＴ）、

本願と同時に出願され、その後ＰＣＴ国際公開第ＷＯ＿＿＿＿＿＿＿＿＿＿＿＿号として公開されている「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題するＰＣＴ特許出願第ＰＣＴ＿＿＿＿＿＿＿＿＿＿＿号（代理人整理番号第ＩＬＬＭ１００８－２３／ＩＰ－１７４４－ＰＣＴ）、及び

本願と同時に出願され、その後ＰＣＴ国際公開第ＷＯ＿＿＿＿＿＿＿＿＿＿＿＿号として公開されている「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＱｕａｌｉｔｙＳｃｏｒｉｎｇ」と題するＰＣＴ特許出願第ＰＣＴ＿＿＿＿＿＿＿＿＿＿号（代理人整理番号第ＩＬＬＭ１００８－２４／ＩＰ－１７４７－ＰＣＴ）。

優先権出願は、本明細書に完全に記載されているかのように、全ての目的のために参照により本明細書に組み込まれる。
（組み込み）

以下は、本明細書に完全に記載されているかのように、全ての目的のために参照により組み込まれる。

２０１９年５月１６日に出願された「ＳｙｓｔｅｍｓａｎｄＤｅｖｉｃｅｓｆｏｒＣｈａｒａｃｔｅｒｉｚａｔｉｏｎａｎｄＰｅｒｆｏｒｍａｎｃｅＡｎａｌｙｓｉｓｏｆＰｉｘｅｌ－ＢａｓｅｄＳｅｑｕｅｎｃｉｎｇ」と題する米国仮特許出願第６２／８４９，０９１号（代理人整理番号ＩＬＬＭ１０１１－１／ＩＰ－１７５０－ＰＲＶ）、

２０１９年５月１６日に出願された「ＢａｓｅＣａｌｌｉｎｇＵｓｉｎｇＣｏｎｖｏｌｕｔｉｏｎｓ」と題する米国特許仮出願第６２／８４９，１３２号（代理人整理番号ＩＬＬＭ１０１１－２／ＩＰ－１７５０－ＰＲ２）、

２０１９年５月１６日に出願された「ＢａｓｅＣａｌｌｉｎｇＵｓｉｎｇＣｏｍｐａｃｔＣｏｎｖｏｌｕｔｉｏｎｓ」と題する米国仮特許仮出願第６２／８４９，１３３号（代理人整理番号ＩＬＬＭ１０１１－３／ＩＰ－１７５０－ＰＲ３）、

２０２０年２月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇｏｆＩｎｄｅｘＳｅｑｕｅｎｃｅｓ」と題する米国仮特許出願第６２／９７９，３８４号（代理人整理番号ＩＬＬＭ１０１５－１／ＩＰ－１８５７－ＰＲＶ）、

２０２０年２月２０日に出願された「ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＭａｎｙ－Ｔｏ－ＭａｎｙＢａｓｅＣａｌｌｉｎｇ」と題する米国仮特許出願第６２／９７９，４１４号（代理人整理番号ＩＬＬＭ１０１６－１／ＩＰ－１８５８－ＰＲＶ）、

２０２０年２月２０日に出願された「ＫｎｏｗｌｅｄｇｅＤｉｓｔｉｌｌａｔｉｏｎ－ＢａｓｅｄＣｏｍｐｒｅｓｓｉｏｎｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｅｒ」と題する米国仮特許出願第６２／９７９，３８５号（代理人整理番号ＩＬＬＭ１０１７－１／ＩＰ－１８５９－ＰＲＶ）、

２０２０年２月２０日に出願された「Ｍｕｌｔｉ－ＣｙｃｌｅＣｌｕｓｔｅｒＢａｓｅｄＲｅａｌＴｉｍｅＡｎａｌｙｓｉｓＳｙｓｔｅｍ」と題する米国特許仮出願第６２／９７９，４１２号（代理人整理番号ＩＬＬＭ１０２０－１／ＩＰ－１８６６－ＰＲＶ）、

２０２０年２月２０日に出願された「ＤａｔａＣｏｍｐｒｅｓｓｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国仮特許出願第６２／９７９，４１１号（代理人整理番号ＩＬＬＭ１０２９－１／ＩＰ－１９６４－ＰＲＶ）、

２０２０年２月２０日に出願された「ＳｑｕｅｅｚｉｎｇＬａｙｅｒｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ－ＢａｓｅｄＢａｓｅＣａｌｌｉｎｇ」と題する米国仮特許出願第６２／９７９，３９９号（代理人整理番号ＩＬＬＭ１０３０－１／ＩＰ－１９８２－ＰＲＶ）、

ＬｉｕＰ，ＨｅｍａｎｉＡ，ＰａｕｌＫ，ＷｅｉｓＣ，ＪｕｎｇＭ，ＷｅｈｎＮ．３Ｄ－ＳｔａｃｋｅｄＭａｎｙ－ＣｏｒｅＡｒｃｈｉｔｅｃｔｕｒｅｆｏｒＢｉｏｌｏｇｉｃａｌＳｅｑｕｅｎｃｅＡｎａｌｙｓｉｓＰｒｏｂｌｅｍｓ．ＩｎｔＪＰａｒａｌｌｅｌＰｒｏｇ．２０１７、４５（６）：１４２０－６０、

Ｚ．Ｗｕ，Ｋ．Ｈａｍｍａｄ，Ｒ．Ｍｉｔｔｍａｎｎ，Ｓ．Ｍａｇｉｅｒｏｗｓｋｉ，Ｅ．Ｇｈａｆａｒ－Ｚａｄｅｈ、ａｎｄＸ．Ｚｈｏｎｇ、「ＦＰＧＡ－ＢａｓｅｄＤＮＡＢａｓｅｃａｌｌｉｎｇＨａｒｄｗａｒｅＡｃｃｅｌｅｒａｔｉｏｎ」、ｉｎＰｒｏｃ．ＩＥＥＥ６１ｓｔＩｎｔ．ＭｉｄｗｅｓｔＳｙｍｐ．ＣｉｒｃｕｉｔｓＳｙｓｔ．，Ａｕｇ．２０１８、ｐｐ．１０９８－１１０１、

Ｚ．Ｗｕ，Ｋ．Ｈａｍｍａｄ，Ｅ．Ｇｈａｆａｒ－Ｚａｄｅｈ，ａｎｄＳ．Ｍａｇｉｅｒｏｗｓｋｉ、「ＦＰＧＡ－Ａｃｃｅｌｅｒａｔｅｄ３ｒｄＧｅｎｅｒａｔｉｏｎＤＮＡＳｅｑｕｅｎｃｉｎｇ」、ｉｎＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＢｉｏｍｅｄｉｃａｌＣｉｒｃｕｉｔｓａｎｄＳｙｓｔｅｍｓ，Ｖｏｌｕｍｅ１４、Ｉｓｓｕｅ１，Ｆｅｂ．２０２０、ｐｐ．６５－７４、

Ｐｒａｂｈａｋａｒｅｔａｌ．、「Ｐｌａｓｔｉｃｉｎｅ：ＡＲｅｃｏｎｆｉｇｕｒａｂｌｅＡｒｃｈｉｔｅｃｔｕｒｅｆｏｒＰａｒａｌｌｅｌＰａｔｔｅｒｎｓ」、ＩＳＣＡ’１７，Ｊｕｎｅ２４－２８，２０１７，Ｔｏｒｏｎｔｏ，ＯＮ，Ｃａｎａｄａ、

Ｍ．Ｌｉｎ，Ｑ．Ｃｈｅｎ，ａｎｄＳ．Ｙａｎ、「ＮｅｔｗｏｒｋｉｎＮｅｔｗｏｒｋ」、ｉｎＰｒｏｃ．ｏｆＩＣＬＲ，２０１４、

Ｌ．Ｓｉｆｒｅ、「Ｒｉｇｉｄ－ｍｏｔｉｏｎＳｃａｔｔｅｒｉｎｇｆｏｒＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎ，Ｐｈ．Ｄ．ｔｈｅｓｉｓ，２０１４、

Ｌ．ＳｉｆｒｅａｎｄＳ．Ｍａｌｌａｔ、「Ｒｏｔａｔｉｏｎ，ＳｃａｌｉｎｇａｎｄＤｅｆｏｒｍａｔｉｏｎＩｎｖａｒｉａｎｔＳｃａｔｔｅｒｉｎｇｆｏｒＴｅｘｔｕｒｅＤｉｓｃｒｉｍｉｎａｔｉｏｎ」、ｉｎＰｒｏｃ．ｏｆＣＶＰＲ，２０１３、

Ｆ．Ｃｈｏｌｌｅｔ、「Ｘｃｅｐｔｉｏｎ：ＤｅｅｐＬｅａｒｎｉｎｇｗｉｔｈＤｅｐｔｈｗｉｓｅＳｅｐａｒａｂｌｅＣｏｎｖｏｌｕｔｉｏｎｓ」、ｉｎＰｒｏｃ．ｏｆＣＶＰＲ，２０１７、

Ｘ．Ｚｈａｎｇ，Ｘ．Ｚｈｏｕ，Ｍ．Ｌｉｎ，ａｎｄＪ．Ｓｕｎ、「ＳｈｕｆｆｌｅＮｅｔ：ＡｎＥｘｔｒｅｍｅｌｙＥｆｆｉｃｉｅｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｆｏｒＭｏｂｉｌｅＤｅｖｉｃｅｓ」、ｉｎａｒＸｉｖ：１７０７．０１０８３，２０１７、

Ｋ．Ｈｅ，Ｘ．Ｚｈａｎｇ，Ｓ．Ｒｅｎ，ａｎｄＪ．Ｓｕｎ、「ＤｅｅｐＲｅｓｉｄｕａｌＬｅａｒｎｉｎｇｆｏｒＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ」、ｉｎＰｒｏｃ．ｏｆＣＶＰＲ，２０１６、

Ｓ．Ｘｉｅ，Ｒ．Ｇｉｒｓｈｉｃｋ，Ｐ．Ｄｏｌｌａｒ，Ｚ．Ｔｕ，ａｎｄＫ．Ｈｅ、「ＡｇｇｒｅｇａｔｅｄＲｅｓｉｄｕａｌＴｒａｎｓｆｏｒｍａｔｉｏｎＦｏｒＤｅｅｐＮｅｕｒｏＮｅｔｗｏｒｋｓ」、Ｐｒｏｃ．ｏｆＣＶＰＲ，２０１７、

Ａ．Ｇ．Ｈｏｗａｒｄ，Ｍ．Ｚｈｕ，Ｂ．Ｃｈｅｎ，Ｄ．Ｋａｌｅｎｉｃｈｅｎｋｏ，Ｗ．Ｗａｎｇ，Ｔ．Ｗｅｙａｎｄ，Ｍ．Ａｎｄｒｅｅｔｔｏ，ａｎｄＨ．Ａｄａｍ、「Ｍｏｂｉｌｅｎｅｔｓ：ＥｆｆｉｃｉｅｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＭｏｂｉｌｅＶｉｓｉｏｎＡｐｐｌｉｃａｔｉｏｎｓ」、ｉｎａｒＸｉｖ：１７０４．０４８６１，２０１７、

Ｍ．Ｓａｎｄｌｅｒ，Ａ．Ｈｏｗａｒｄ，Ｍ．Ｚｈｕ，Ａ．Ｚｈｍｏｇｉｎｏｖ，ａｎｄＬ．Ｃｈｅｎ、「ＭｏｂｉｌｅＮｅｔＶ２：ＩｎｖｅｒｔｅｄＲｅｓｉｄｕａｌｓａｎｄＬｉｎｅａｒＢｏｔｔｌｅｎｅｃｋｓ」、ｉｎａｒＸｉｖ：１８０１．０４３８１ｖ３，２０１８、

Ｚ．Ｑｉｎ，Ｚ．Ｚｈａｎｇ，Ｘ．ＣｈｅｎａｎｄＹ．Ｐｅｎｇ、「ＦＤ－ＭｏｂｉｌｅＮｅｔ：ＩｍｐｒｏｖｅｄＭｏｂｉｌｅＮｅｔｗｉｔｈａＦａｓｔＤｏｗｎｓａｍｐｌｉｎｇＳｔｒａｔｅｇｙ」、ｉｎａｒＸｉｖ：１８０２．０３７５０，２０１８、

Ｌｉａｎｇ－ＣｈｉｅｈＣｈｅｎ，ＧｅｏｒｇｅＰａｐａｎｄｒｅｏｕ，ＦｌｏｒｉａｎＳｃｈｒｏｆｆ，ａｎｄＨａｒｔｗｉｇＡｄａｍ．Ｒｅｔｈｉｎｋｉｎｇａｔｒｏｕｓｃｏｎｖｏｌｕｔｉｏｎｆｏｒｓｅｍａｎｔｉｃｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ．ＣｏＲＲ、ａｂｓ／１７０６．０５５８８，２０１７、

Ｊ．Ｈｕａｎｇ，Ｖ．Ｒａｔｈｏｄ，Ｃ．Ｓｕｎ，Ｍ．Ｚｈｕ，Ａ．Ｋｏｒａｔｔｉｋａｒａ，Ａ．Ｆａｔｈｉ，Ｉ．Ｆｉｓｃｈｅｒ，Ｚ．Ｗｏｊｎａ，Ｙ．Ｓｏｎｇ，Ｓ．Ｇｕａｄａｒｒａｍａ，ｅｔａｌ．Ｓｐｅｅｄ／ａｃｃｕｒａｃｙｔｒａｄｅ－ｏｆｆｓｆｏｒｍｏｄｅｒｎｃｏｎｖｏｌｕｔｉｏｎａｌｏｂｊｅｃｔｄｅｔｅｃｔｏｒｓ．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６１１．１００１２，２０１６、

Ｓ．Ｄｉｅｌｅｍａｎ，Ｈ．Ｚｅｎ，Ｋ．Ｓｉｍｏｎｙａｎ，Ｏ．Ｖｉｎｙａｌｓ，Ａ．Ｇｒａｖｅｓ，Ｎ．Ｋａｌｃｈｂｒｅｎｎｅｒ，Ａ．Ｓｅｎｉｏｒ，ａｎｄＫ．Ｋａｖｕｋｃｕｏｇｌｕ、「ＷＡＶＥＮＥＴ：ＡＧＥＮＥＲＡＴＩＶＥＭＯＤＥＬＦＯＲＲＡＷＡＵＤＩＯ」、ａｒＸｉｖ：１６０９．０３４９９，２０１６、

Ｓ．Ｏ．Ａｒｉｋ，Ｍ．Ｃｈｒｚａｎｏｗｓｋｉ，Ａ．Ｃｏａｔｅｓ，Ｇ．Ｄｉａｍｏｓ，Ａ．Ｇｉｂｉａｎｓｋｙ，Ｙ．Ｋａｎｇ，Ｘ．Ｌｉ，Ｊ．Ｍｉｌｌｅｒ，Ａ．Ｎｇ，Ｊ．Ｒａｉｍａｎ，Ｓ．ＳｅｎｇｕｐｔａａｎｄＭ．Ｓｈｏｅｙｂｉ、「ＤＥＥＰＶＯＩＣＥ：ＲＥＡＬ－ＴＩＭＥＮＥＵＲＡＬＴＥＸＴ－ＴＯ－ＳＰＥＥＣＨ」、ａｒＸｉｖ：１７０２．０７８２５，２０１７、

Ｆ．ＹｕａｎｄＶ．Ｋｏｌｔｕｎ、「ＭＵＬＴＩ－ＳＣＡＬＥＣＯＮＴＥＸＴＡＧＧＲＥＧＡＴＩＯＮＢＹＤＩＬＡＴＥＤＣＯＮＶＯＬＵＴＩＯＮＳ」、ａｒＸｉｖ：１５１１．０７１２２，２０１６、

Ｋ．Ｈｅ，Ｘ．Ｚｈａｎｇ，Ｓ．Ｒｅｎ，ａｎｄＪ．Ｓｕｎ、「ＤＥＥＰＲＥＳＩＤＵＡＬＬＥＡＲＮＩＮＧＦＯＲＩＭＡＧＥＲＥＣＯＧＮＩＴＩＯＮ」、ａｒＸｉｖ：１５１２．０３３８５，２０１５、

Ｒ．Ｋ．Ｓｒｉｖａｓｔａｖａ，Ｋ．Ｇｒｅｆｆ，ａｎｄＪ．Ｓｃｈｍｉｄｈｕｂｅｒ、「ＨＩＧＨＷＡＹＮＥＴＷＯＲＫＳ」、ａｒＸｉｖ：１５０５．００３８７，２０１５、

Ｇ．Ｈｕａｎｇ，Ｚ．Ｌｉｕ，Ｌ．ｖａｎｄｅｒＭａａｔｅｎａｎｄＫ．Ｑ．Ｗｅｉｎｂｅｒｇｅｒ、「ＤＥＮＴＩＬＹＣＯＮＮＥＣＴＥＤＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＴＷＯＲＫＳ」、ａｒＸｉｖ：１６０８．０６９９３，２０１７、

Ｃ．Ｓｚｅｇｅｄｙ，Ｗ．Ｌｉｕ，Ｙ．Ｊｉａ，Ｐ．Ｓｅｒｍａｎｅｔ，Ｓ．Ｒｅｅｄ，Ｄ．Ａｎｇｕｅｌｏｖ，Ｄ．Ｅｒｈａｎ，Ｖ．Ｖａｎｈｏｕｃｋｅ，ａｎｄＡ．Ｒａｂｉｎｏｖｉｃｈ、「ＧＯＩＮＧＤＥＥＰＥＲＷＩＴＨＣＯＮＶＯＬＵＴＩＯＮＳ」、ａｒＸｉｖ：１４０９．４８４２，２０１４、

Ｓ．ＩｏｆｆｅａｎｄＣ．Ｓｚｅｇｅｄｙ、「ＢＡＴＣＨＮＯＲＭＡＬＩＺＡＴＩＯＮ：ＡＣＣＥＬＥＲＡＴＩＮＧＤＥＥＰＮＥＴＷＯＲＫＴＲＡＩＮＩＮＧＢＹＲＥＤＵＣＩＮＧＩＮＴＥＲＮＡＬＣＯＶＡＲＩＡＴＥＳＨＩＦＴ」、ａｒＸｉｖ：１５０２．０３１６７，２０１５、

Ｊ．Ｍ．Ｗｏｌｔｅｒｉｎｋ，Ｔ．Ｌｅｉｎｅｒ，Ｍ．Ａ．Ｖｉｅｒｇｅｖｅｒ，ａｎｄ１．Ｉｓｇｕｍ、「ＤＩＬＡＴＥＤＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳＦＯＲＣＡＲＤＩＯＶＡＳＣＵＬＡＲＭＲＳＥＧＭＥＮＴＡＴＩＯＮＩＮＣＯＮＧＥＮＩＴＡＬＨＥＡＲＴＤＩＳＥＡＳＥ」、ａｒＸｉｖ：１７０４．０３６６９，２０１７、

Ｌ．Ｃ．Ｐｉｑｕｅｒａｓ、「ＡＵＴＯＲＥＧＲＥＳＳＩＶＥＭＯＤＥＬＢＡＳＥＤＯＮＡＤＥＥＰＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＦＯＲＡＵＤＩＯＧＥＮＥＲＡＴＩＯＮ」、ＴａｍｐｅｒｅＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，２０１６、

Ｊ．Ｗｕ、「ＩｎｔｒｏｄｕｃｔｉｏｎｔｏＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ」、ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙ，２０１７、

「ＩｌｌｕｍｉｎａＣＭＯＳＣｈｉｐａｎｄＯｎｅ－ＣｈａｎｎｅｌＳＢＳＣｈｅｍｉｓｔｒｙ」、Ｉｌｌｕｍｉｎａ，Ｉｎｃ．２０１８，２ｐａｇｅｓ、

「ｓｋｉｋｉｔ－ｉｍａｇｅ／ｐｅａｋ．ｐｙａｔｍａｓｔｅｒ」、ＧｉｔＨｕｂ，５ｐａｇｅｓ，［２０１８－１１－１６に検索］。インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｓｃｉｋｉｔ－ｉｍａｇｅ／ｓｃｉｋｉｔ－ｉｍａｇｅ／ｂｌｏｂ／ｍａｓｔｅｒ／ｓｋｉｍａｇｅ／ｆｅａｔｕｒｅ／ｐｅａｋ．ｐｙ＃Ｌ２５＞から検索、

「３．３．９．１１．Ｗａｔｅｒｓｈｅｄａｎｄｒａｎｄｏｍｗａｌｋｅｒｆｏｒｓｅｇｍｅｎｔａｔｉｏｎ」、Ｓｃｉｐｙｌｅｃｔｕｒｅｎｏｔｅｓ，２ｐａｇｅｓ、［２０１８－１１－１３に検索］。インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｓｃｉｐｙ－ｌｅｃｔｕｒｅｓ．ｏｒｇ／ｐａｃｋａｇｅｓ／ｓｃｉｋｉｔ－ｉｍａｇｅ／ａｕｔｏ＿ｅｘａｍｐｌｅｓ／ｐｌｏｔ＿ｓｅｇｍｅｎｔａｔｉｏｎｓ．ｈｔｍｌ＞から検索、

Ｍｏｒｄｖｉｎｔｓｅｖ，ＡｌｅｘａｎｄｅｒａｎｄＲｅｖｉｓｉｏｎ、ＡｂｉｄＫ．、「ＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎｗｉｔｈＷａｔｅｒｓｈｅｄＡｌｇｏｒｉｔｈｍ」、Ｒｅｖｉｓｉｏｎ４３５３２８５６，２０１３，６ｐａｇｅｓ［２０１８－１１－１３に検索］。インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｏｐｅｎｃｖ－ｐｙｔｈｏｎ－ｔｕｔｒｏａｌｓ．ｒｅａｄｔｈｅｄｏｃｓ．ｉｏ／ｅｎ／ｌａｔｅｓｔ／ｐｙ＿ｔｕｔｏｒｉａｌｓ／ｐｙ＿ｉｍｇｐｒｏｃ／ｐｙ＿ｗａｔｅｒｓｈｅｄ／ｐｙ＿ｗａｔｅｒｓｈｅｄ．ｈｔｍｌ＞から検索、

Ｍｚｕｒ、「Ｗａｔｅｒｓｈｅｄ．ｐｙ」，２５Ｏｃｔｏｂｅｒ２０１７，３ｐａｇｅｓ，［２０１８－１１－１３に検索］。インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍｚｕｒ／ｗａｔｅｒｓｈｅｄ／ｂｌｏｂ／ｍａｓｔｅｒ／Ｗａｔｅｒｓｈｅｄ．ｐｙ＞から検索、

Ｔｈａｋｕｒ，Ｐｒａｔｉｂｈａ，ｅｔ．ａｌ．「ＡＳｕｒｖｅｙｏｆＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎＴｅｃｈｎｉｑｕｅｓ」、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＲｅｓｅａｒｃｈｉｎＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＲｏｂｏｔｉｃｓ，Ｖｏｌ．２，Ｉｓｓｕｅ．４，Ａｐｒｉｌ２０１４，Ｐｇ．：１５８－１６５、

Ｌｏｎｇ，Ｊｏｎａｔｈａｎ，ｅｔ．ａｌ．、「ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓｆｏｒＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ」、：ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，Ｖｏｌ３９，Ｉｓｓｕｅ４，１Ａｐｒｉｌ２０１７，１０ｐａｇｅｓ、

Ｒｏｎｎｅｂｅｒｇｅｒ，Ｏｌａｆ，ｅｔ．ａｌ．、「Ｕ－ｎｅｔ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｂｉｏｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ」．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｅｄｉｃａｌｉｍａｇｅｃｏｍｐｕｔｉｎｇａｎｄｃｏｍｐｕｔｅｒ－ａｓｓｉｓｔｅｄｉｎｔｅｒｖｅｎｔｉｏｎ，１８Ｍａｙ２０１５，８ｐａｇｅｓ、

Ｘｉｅ，Ｗ．，ｅｔ．ａｌ．、「Ｍｉｃｒｏｓｃｏｐｙｃｅｌｌｃｏｕｎｔｉｎｇａｎｄｄｅｔｅｃｔｉｏｎｗｉｔｈｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｒｅｇｒｅｓｓｉｏｎｎｅｔｗｏｒｋｓ」，Ｃｏｍｐｕｔｅｒｍｅｔｈｏｄｓｉｎｂｉｏｍｅｃｈａｎｉｃｓａｎｄｂｉｏｍｅｄｉｃａｌｅｎｇｉｎｅｅｒｉｎｇ：Ｉｍａｇｉｎｇ＆Ｖｉｓｕａｌｉｚａｔｉｏｎ，６（３），ｐｐ．２８３－２９２，２０１８、

Ｘｉｅ，Ｙｕａｎｐｕ，ｅｔａｌ．、「Ｂｅｙｏｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎ：ｓｔｒｕｃｔｕｒｅｄｒｅｇｒｅｓｓｉｏｎｆｏｒｒｏｂｕｓｔｃｅｌｌｄｅｔｅｃｔｉｏｎｕｓｉｎｇｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ」，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｅｄｉｃａｌＩｍａｇｅＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｐｕｔｅｒ－ＡｓｓｉｓｔｅｄＩｎｔｅｒｖｅｎｔｉｏｎ．Ｏｃｔｏｂｅｒ２０１５，１２ｐａｇｅｓ、

Ｓｎｕｖｅｒｉｎｋ，Ｉ．Ａ．Ｆ．、「ＤｅｅｐＬｅａｒｎｉｎｇｆｏｒＰｉｘｅｌｗｉｓｅＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＨｙｐｅｒｓｐｅｃｔｒａｌＩｍａｇｅｓ」、ＭａｓｔｅｒｏｆＳｃｉｅｎｃｅＴｈｅｓｉｓ，ＤｅｌｆｔＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，２３Ｎｏｖｅｍｂｅｒ２０１７、１９ｐａｇｅｓ、

Ｓｈｅｖｃｈｅｎｋｏ，Ａ．、「Ｋｅｒａｓｗｅｉｇｈｔｅｄｃａｔｅｇｏｒｉｃａｌ＿ｃｒｏｓｓｅｎｔｒｏｐｙ」，１ｐａｇｅ、［２０１９－０１－１５に検索］。インターネット＜ＵＲＬ：ｈｔｔｐｓ：／／ｇｉｓｔ．ｇｉｔｈｕｂ．ｃｏｍ／ｓｋｅｅｅｔ／ｃａｄ０６ｄ５８４５４８ｆｂ４５ｅｅｃｅ１ｄ４ｅ２８ｃｆａ９８ｂ＞から検索、

ｖａｎｄｅｎＡｓｓｅｍ，Ｄ．Ｃ．Ｆ．、「ＰｒｅｄｉｃｔｉｎｇｐｅｒｉｏｄｉｃＡｎｄｃｈａｏｔｉｃｓｉｇｎａｌｓｕｓｉｎｇＷａｖｅｎｅｔｓ」、ＭａｓｔｅｒｏｆＳｃｉｅｎｃｅＴｈｅｓｉｓ，ＤｅｌｆｔＵｎｉｖｅｒｓｉｔｙＯｆＴｅｃｈｎｏｌｏｇｙ，１８Ａｕｇｕｓｔ２０１７，Ｐａｇｅｓ３－３８、

Ｉ．Ｊ．Ｇｏｏｄｆｅｌｌｏｗ，Ｄ．Ｗａｒｄｅ－Ｆａｒｌｅｙ，Ｍ．Ｍｉｒｚａ，Ａ．Ｃｏｕｒｖｉｌｌｅ，ａｎｄＹ．Ｂｅｎｇｉｏ、「ＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＴＷＯＲＫＳ」、ＤｅｅｐＬｅａｒｎｉｎｇ，ＭＩＴＰｒｅｓｓ，２０１６、及び

Ｊ．Ｇｕ，Ｚ．Ｗａｎｇ，Ｊ．Ｋｕｅｎ，Ｌ．Ｍａ，Ａ．Ｓｈａｈｒｏｕｄｙ，Ｂ．Ｓｈｕａｉ，Ｔ．Ｌｉｕ，Ｘ．Ｗａｎｇ，ａｎｄＧ．Ｗａｎｇ、「ＲＥＣＥＮＴＡＤＶＡＮＣＥＳＩＮＣＯＮＶＯＬＵＴＩＯＮＡＬＮＥＵＲＡＬＮＥＴＷＯＲＫＳ」、ａｒＸｉｖ：１５１２．０７１０８，２０１７。

（発明の分野）
本開示の技術は、人工知能コンピュータ及びデジタルデータ処理システム、並びに、知能をエミュレーションするための対応するデータ処理方法及び製品（すなわち、知識ベースのシステム、推測システム及び知識取得システム）に関すると共に、不確実性（例えば、ファジー論理システム）、適応システム、機械学習システム、及び人工ニューラルネットワークを用いて推測するためのシステムを含む。具体的には、開示される技術は、データを分析するための深層畳み込みニューラルネットワークなどの深層ニューラルネットワークを使用することに関する。

このセクションで説明される主題は、単にこのセクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、このセクションで言及した問題、又は背景として提供された主題に関連する問題は、先行技術において以前に認識されていると想定されるべきではない。このセクションの主題は、単に、異なるアプローチを表し、それ自体はまた、特許請求される技術の実施に対応し得る。

深層ニューラルネットワークは、高レベル機能を連続的にモデル化するために、複数の非線形及び複雑な変換層を使用する、人工ニューラルネットワークの類である。深層ニューラルネットワークは、観測された出力と予測出力との間の差を伝達してパラメータを調整する逆伝搬を介してフィードバックを提供する。深層ニューラルネットワークは、大きな訓練データセットの利用可能性、並列分散コンピューティングの能力、及び高度な訓練アルゴリズムと共に進化している。深層ニューラルネットワークは、コンピュータビジョン、音声認識、及び自然言語処理などの多数のドメインにおける主な進歩を促進している。

畳み込みニューラルネットワーク（Convolutional neural network、ＣＮＮ）及び反復ニューラルネットワーク（Recurrent Neural Network、ＲＮＮ）は、深層ニューラルネットワークの構成要素である。畳み込みニューラルネットワークは、特に、畳み込み層、非線形層、及びプーリング層を含む構造で画像認識に成功してきた。反復ニューラルネットワークは、パーセプトロン、長い短期メモリユニット、及びゲートされた反復単位のような構成単位間の周期的接続を有する入力データの連続的な情報を利用するように設計される。加えて、多くの他の出現深層ニューラルネットワークが、深層時空間ニューラルネットワーク、多次元反復ニューラルネットワーク、及び畳み込み自動エンコーダなどの限定された状況に関して提案されてきた。

深層ニューラルネットワークの訓練の目標は、各層における重みパラメータの最適化であり、このことは、より好適な階層表現がデータから学習され得るように、より単純な特徴を複雑な特徴に徐々に組み合わせる。最適化プロセスの単一サイクルは、以下のように構成される。まず、訓練データセットと仮定すると、前方へのパスは、各層内の出力を順次計算し、ネットワークを通って機能信号を順方向に伝搬する。最終出力層において、客観的な損失関数は、推測された出力と所与のラベルとの間の誤差を測定する。訓練誤差を最小化するために、後方へのパスは、連鎖ルールを使用して、誤差信号を逆伝搬し、ニューラルネットワーク全体の全ての重みに対する勾配を計算する。最後に、確率勾配降下に基づいて最適化アルゴリズムを使用して確率パラメータが更新される。バッチ勾配降下が完全データセットごとにパラメータ更新するのに対し、確率的勾配降下は、データ例の各々の小さいセットについて更新を実行することによって確率的近似値を提供する。いくつかの最適化アルゴリズムは確率的勾配降下に由来する。例えば、ＡｄａｇｒａｄａｎｄＡｄａｍ訓練アルゴリズムは、それぞれ、各パラメータの更新頻度及び勾配のモーメントに基づいて学習率を適応的に修正しながら、確率的勾配降下を実行する。

深層ニューラルネットワークの訓練における別のコア要素は規則化であり、規則化は、過剰適合を回避し、したがって良好な一般化性能を達成することを意図する戦略を指す。例えば、重み減衰は、重みパラメータがより小さい絶対値に収束するように、客観的損失関数にペナルティ項を追加する。ドロップアウトは、訓練中にニューラルネットワークから隠れたユニットをランダムに除去し、可能なサブネットワークの集合体と見なすことができる。ドロップアウトの能力を向上させるために、新たな起動関数、ｍａｘｏｕｔ、及びｒｎｎＤｒｏｐと呼ばれる反復性ニューラルネットワークに対するドロップアウトのバリアントが提案されている。更に、バッチ正規化は、ミニバッチ内の各アクティブ化に関するスカラ特徴の正規化を介した新たな規則化方法を提供し、各々の平均及び分散をパラメータとして学習する。

配列データが多次元及び高次元であると仮定すると、深層ニューラルネットワークは、それらの広範な適用性及び強化された予測能力により、生物情報科学研究のためにかなり有望である。畳み込みニューラルネットワークは、モチーフ発見、病原性変異体識別、及び遺伝子発現推測などのゲノミクスにおける配列に基づく問題を解決するために採用されている。畳み込みニューラルネットワークは、ＤＮＡを研究するのに特に有用な重み共有戦略を使用するが、これは、短い配列モチーフを捕捉することができ、この配列モチーフは、有意な生物学的機能を有すると推定されるＤＮＡ中の局所的パターンを再現する。畳み込みニューラルネットワークの顕著な特徴は、畳み込みフィルタの使用である。

精巧に設計され、手動で巧妙に作り上げられた特徴に基づく従来の分類アプローチとは異なり、畳み込みフィルタは、知識の情報表現に生入力データをマッピングするプロセスに類似した特徴の適応学習を実行する。この意味では、畳み込みフィルタは、そのようなフィルタのセットが入力内の関連するパターンを認識し、訓練手順中にそれ自体を更新することができるため、一連のモチーフスキャナーとして機能する。反復ニューラルネットワークは、タンパク質又はＤＮＡ配列などの様々な長さの連続的データにおける長距離依存性を捉えることができる。

したがって、テンプレートの生成及びベースコールのための、理にかなった深層学習ベースの枠組みを使用する機会が生じる。

ハイスループット技術の時代では、努力ごとに最も低いコストで解釈可能なデータの最高収率を蓄積することは、重大な課題を残している。クラスター形成のためにブリッジ増幅を利用するものなどの核酸配列決定のクラスターベースの方法は、核酸配列決定のスループットを増加させる目的に有益な貢献をしている。これらのクラスターベースの方法は、固体支持体上に固定化された核酸の密集した集団を配列決定することに依存し、典型的には、固体支持体上の別個の場所に位置する複数のクラスターを同時に配列決定する過程で生成される光信号を抑制するための画像解析ソフトウェアの使用を伴う。

しかしながら、このような固相核酸クラスターベースの配列決定技術は、達成することができるスループットの量を制限する相当な障害に直面している。例えば、クラスターベースの配列決定方法では、空間的に分解されるには互いに物理的に近接し過ぎる、又は実際には、固体支持体上で物理的に重なり合う２つ又はそれ以上のクラスターの核酸配列を決定することは障害物をもたらす可能性がある。例えば、現在の画像解析ソフトウェアは、２つの重複クラスターのうちのどれから光信号が発せられたかを判定するための貴重な時間及び計算リソースを必要とする場合がある。結果として、得られ得る核酸配列情報の量及び／又は質に関して、様々な検出プラットフォームにとって妥協が不可避である。

高密度核酸凝集体ベースのゲノミクス法は、ゲノム分析の他の領域にも同様に延在する。例えば、核酸クラスターベースのゲノミクスは、配列決定用途、診断及びスクリーニング、遺伝子発現分析、エピジェネティクス分析、多型の遺伝分析などに使用することができる。これらの核酸クラスターベースのゲノミクス技術のそれぞれは、厳密に近接して又は空間的に重複する核酸クラスターから生成されたデータを分解する能力がない場合に制限される。

明らかに、ゲノミクス（例えば、任意の及び全ての動物、植物、微生物又は他の生物学的種又は集団のゲノム特性評価のための）、薬理ゲノミクス、トランスクリプトミクス、診断、予後、生物医学的リスク評価、臨床及び研究遺伝学、個人向け医療、薬物有効性及び薬物相互作用評価、獣医医学、農業、進化、及び生物学的研究、水性培養、林業、海洋調査、生態学的管理、及び環境管理、並びに他の目的を含む、様々な用途で迅速かつ費用効果の高い方法で取得できる核酸配列データの質と量を向上させる必要がある。

開示される技術は、ハイスループット核酸配列決定技術におけるスループットのレベルを増加させることを含めて、これら及び同様のニーズに対処するニューラルネットワークベースの方法及びシステムを提供すると共に、他の関連する利点を提供する。

特許又は出願ファイルは、カラーで創作された少なくとも１つの図面を含む。カラー図面（単数又は複数）を有するこの特許又は特許出願公開のコピーは、必要な料金の要求及び支払いの際に、庁によって提供される。カラー図面はまた、補足コンテンツタブを介してＰＡＩＲ（ｐａｔｅｎｔａｐｐｌｉｃａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ：特許出願情報検索）で利用可能であってもよい。

図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示された技術の原理を例示することを強調している。以下の説明では、開示される技術の様々な実施態様が、以下の図面を参照して説明される。

サブピクセルベースコールを使用してクラスターメタデータを決定する処理パイプラインの一実施態様を示す。そのタイル内にクラスターを含むフローセルの一実施態様を示す。８つのレーンを有するＩｌｌｕｍｉｎａＧＡ－ＩＩｘフローセルの一例を示す。４チャネル化学の配列決定画像の画像セットを描写しており、すなわち、画像セットは、ピクセルドメイン内の４つの異なる波長帯域（画像／撮像チャネル）を使用して捕捉された４つの配列決定画像を有する。配列決定画像をサブピクセル（又はサブピクセル領域）に分割する一実施態様である。サブピクセルベースコール中に、ベースコーラーによって識別されたクラスターの予備中心座標を示す。クラスターメタデータを含むいわゆる「クラスターマップ」を生成するために、複数の配列決定サイクルにわたって生成されたサブピクセルベースコールをマージする一実施態様を示す。サブピクセルベースコールのマージによって生成されたクラスターマップの一例を示す。サブピクセルベースコールの一実施態様を示す。クラスターメタデータを識別するクラスターマップの別の例を示す。クラスターマップ内の不連続領域の質量中心（Center Of Mass、ＣＯＭ）がどのように計算されるかを示す。不連続領域のサブピクセルから不連続領域のＣＯＭまでのユークリッド距離に基づく加重減衰係数の計算の一実施態様を示す。サブピクセルベースコールによって生成された例示的なクラスターマップから導出された、例示的なグラウンドトゥルース減衰マップの一実施態様を示す。クラスターマップから三元マップを導出する一実施態様を示す。クラスターマップからバイナリマップを導出する一実施態様を示す。ニューラルネットワークベースのテンプレート生成器及びニューラルネットワークベースのベースコーラーを訓練するために使用される訓練データを生成する一実施態様を示すブロック図である。ニューラルネットワークベースのテンプレート生成器及びニューラルネットワークベースのベースコーラーを訓練するために使用される、開示された訓練例の特性を示す。開示されたニューラルネットワークベースのテンプレート生成器を介して入力画像データを処理し、アレイ内の各ユニットの出力値を生成する一実施態様を示す。一実施態様では、アレイは減衰マップである。別の実施態様では、アレイは三元マップである。更に別の実施態様では、アレイはバイナリマップである。クラスター中心、クラスター形状、クラスターサイズ、クラスター背景、及び／又はクラスター境界を含むクラスターメタデータを導出するためにニューラルネットワークに基づくテンプレート生成器によって生成された、減衰マップ、三元マップ、又はバイナリマップに適用される後処理技術の一実施態様を示す。ピクセルドメイン内のクラスター強度を抽出する一実施態様を示す。サブピクセルドメイン内のクラスター強度を抽出する一実施態様を示す。ニューラルネットワークベースのテンプレート生成器の３つの異なる実施態様を示す。ニューラルネットワークベースのテンプレート生成器１５１２への入力として供給される入力画像データの一実施態様を示す。入力画像データは、配列決定動作の特定の数の初期配列サイクルの間に生成される配列決定画像を有する一連の画像セットを含む。入力画像データを形成する一連の「ダウンサイズの」画像セットを生成するために、図２１ｂの一連の画像セットからパッチを抽出する一実施態様を示す。入力画像データを形成する一連の「アップサンプリングされた」画像セットを生成するために、図２１ｂの一連の画像セットをアップサンプリングする一実施態様を示す。入力画像データを形成する一連の「アップサンプリング及びダウンサイズの」画像セットを生成するために、図２３の一連のアップサンプリングされた画像セットからパッチを抽出する一実施態様を示す。ニューラルネットワークベースのテンプレート生成器を訓練するためのグラウンドトゥルースデータを生成する、全体的な例示的プロセスの一実施態様を示す。回帰モデルの一実施態様を示す。クラスターマップからグラウンドトゥルース減衰マップを生成する一実施態様を示す。グラウンドトゥルース減衰マップは、回帰モデルを訓練するためのグラウンドトゥルースデータとして使用される。逆伝搬ベースの勾配更新技術を使用して回帰モデルを訓練する一実施態様である。推測中の回帰モデルによるテンプレート生成の一実施態様である。クラスターメタデータを識別するために、減衰マップを後処理に供する一実施態様を示す。クラスターを特徴付ける隣接するクラスター／クラスター内部サブピクセルの非重複グループを識別する、流域分割技術の一実施態様を示す。回帰モデルの例示的なＵ－Ｎｅｔ構造を示す表である。テンプレート画像内で識別されたクラスター形状情報を使用してクラスター強度を抽出する異なるアプローチを示す。回帰モデルの出力を使用したベースコールの異なるアプローチを示す。クラスター中心として非ＣＯＭ位置を使用することとは対照的に、ＲＴＡベースコーラーがクラスター中心としてグラウンドトゥルース質量中心（ＣＯＭ）位置を使用するときのベースコール性能の差を示す。結果は、ＣＯＭを使用することによりベースコールが改善されることを示す。左側に、回帰モデルを生成した減衰マップ例を示す。図３６はまた、右側に、訓練中に回帰モデルが近位になる、例示的なグラウンドトゥルース減衰マップを示す。ピークを検出することによって減衰マップ内のクラスター中心を識別するピークロケータの一実施態様を示す。回帰モデルによって生成された減衰マップ内のピークロケータによって検出されたピークを、対応するグラウンドトゥルース減衰マップ内のピークと比較する。適合率と再現率の統計を使用して回帰モデルの性能を示す。２０ｐＭのライブラリ濃度（通常動作）について、ＲＴＡベースコーラーと回帰モデルの性能とを比較する。３０ｐＭのライブラリ濃度（高密度動作）について、ＲＴＡベースコーラーと回帰モデルの性能とを比較する。重複していない適切なリード対の数、すなわち、どちらのリードも回帰モデルによって検出された妥当な距離内で内側に位置合わせされていない対のリードの数を、ＲＴＡベースコーラーによって検出されたものと比較する。回帰モデルによって生成された第１の減衰マップを右側に示す。左側では、図４３は、回帰モデルによって生成された第２の減衰マップを示す。４０ｐＭライブラリ濃度（高密度動作）について、ＲＴＡベースコーラーと回帰モデルの性能とを比較する。回帰モデルによって生成された第１の減衰マップを左側に示す。右側では、図４５は、第１の減衰マップに適用された閾値化、ピーク位置処理、及び流域分割技術の結果を示す。バイナリ分類モデルの一実施態様を示す。ソフトマックススコアを伴う逆伝搬ベースの勾配更新技術を使用してバイナリ分類モデルを訓練する一実施態様である。シグモイドスコアを伴う逆伝搬ベースの勾配更新技術を使用してバイナリ分類モデルを訓練する別の実施態様である。バイナリ分類モデルに供給された入力画像データ及びバイナリ分類モデルを訓練するために使用される対応するクラスラベルの別の実施態様を示す。推測中のバイナリ分類モデルによるテンプレート生成の一実施態様である。クラスター中心を識別するために、バイナリマップをピーク検出に供する一実施態様を示す。バイナリ分類モデルによって生成された例示的なバイナリマップを左側に示す。図５２ａはまた、右側に、訓練中にバイナリ分類モデルが近位になる、例示的なグラウンドトゥルースバイナリマップを示す。精度統計を使用してバイナリ分類モデルの性能を示す。バイナリ分類モデルの例示的な構造を示す表である。三元分類モデルの一実施態様を示す。逆伝搬ベースの勾配更新技術を使用して三元分類モデルを訓練する一実施態様である。三元分類モデルに供給された入力画像データ及び三元分類モデルを訓練するために使用される対応するクラスラベルの別の実施態様を示す。三元分類モデルの例示的な構造を示す表である。推測中の三元分類モデルによるテンプレート生成の一実施態様である。三元分類モデルによって生成された三元マップを示す。ユニットごとの出力値と共に三元分類モデル５４００によって生成されたユニット配列を示す。クラスター中心、クラスター背景、及びクラスター内部を識別するために、三元マップを後処理に供する一実施態様を示す。三元分類モデルの例示的予測を示す。三元分類モデルの他の例示的予測を示す。三元分類モデルの更に他の例示的予測を示す。図６２ａの三元分類モデルの出力からクラスター中心及びクラスター形状を導出する一実施態様を示す。バイナリ分類モデル、回帰モデル、及びＲＴＡベースコーラーのベースコール性能を比較する。３つの状況、５つの配列決定メトリック、及び２つの動作密度の下で、三元分類モデルの性能をＲＴＡベースコーラーの性能と比較する。図６５で考察される３つの状況、５つの配列決定メトリック、及び２つの動作密度の下で、回帰モデルの性能をＲＴＡベースコーラーの性能と比較する。ニューラルネットワークベースのテンプレート生成器の最後から２番目の層に焦点を当てている。ニューラルネットワークベースのテンプレート生成器の最後から２番目の層が、逆伝搬ベースの勾配更新訓練の結果として学習したものを可視化する。図示された実施態様は、図６７に示される最後から２番目の層の３２個の訓練された畳み込みフィルタから２４を可視化する。（青色での）バイナリ分類モデルのクラスター中心予測を、（ピンク色での）ＲＴＡベースコーラーに重ね合わせる。バイナリ分類モデルの最後から２番目の層の訓練された畳み込みフィルタの可視化上に、（ピンク色で）ＲＴＡベースのカラー（ピンク色で）によって作製されたクラスター中心予測を重ね合わせる。ニューラルネットワークベースのテンプレート生成器を訓練するために使用される訓練データの一実施態様を示す。ニューラルネットワークベースのテンプレート生成器のクラスター中心予測に基づいて画像位置合わせ用のビーズを使用する一実施態様である。ニューラルネットワークベースのテンプレート生成器によって識別されたクラスターのクラスター統計の一実施態様を示す。入力画像データが使用される初期配列決定サイクルの数が５から７に増加すると、ニューラルネットワークベースのテンプレート生成器が隣接するクラスター間を区別する能力がどのように改善されるかを示す。非ＣＯＭ位置がクラスター中心として使用されるときとは対照的に、ＲＴＡベースコーラーがクラスター中心としてグラウンドトゥルース質量中心（ＣＯＭ）位置を使用するときのベースコール性能の差を示す。追加で検出されたクラスターに関するニューラルネットワークベースのテンプレート生成器の性能を示す。ニューラルネットワークベースのテンプレート生成器を訓練するために使用される異なるデータセットを示す。一実施態様に係る、ベースコールのためにＲＴＡベースコーラーによって使用される処理段階を示す。開示されたニューラルネットワークベースのベースコーラーを使用するベースコールの一実施態様を示す。サブピクセルドメインからピクセルドメインに、ニューラルネットワークベースのテンプレート生成器の出力から識別されるクラスター中心の場所／位置情報を変換する一実施態様である。参照クラスター中心からいわゆる「変換されたクラスター中心」を導出するために、サイクル固有及び画像チャネル固有の変換を使用する一実施態様である。ニューラルネットワークベースのベースコーラーに供給される入力データの一部である画像パッチを示す。単一のターゲットクラスターが、ニューラルネットワークベースのベースコーラーによってベースコールされているときに、距離チャネルの距離値を決定する一実施態様を示す。ピクセルとターゲットクラスターとの間で計算される距離値を符号化するピクセルごとの一実施態様を示す。複数のターゲットクラスターが、ニューラルネットワークベースのベースコーラーによって同時にベースコールされているときに、距離チャネルの距離値を決定する一実施態様を示す。ターゲットクラスターの各々に対して、ピクセル中心に最も近いクラスター中心間距離に基づいて決定されるいくつかの最も近いピクセルを示す。ピクセルとクラスターのうちの最も近い１つとの間で計算される最小距離値を符号化するピクセルごとの一実施態様を示す。本明細書では「クラスター形状データ」と称される、ピクセルクラスター間の分類／属性／分類を使用する一実施態様を示す。クラスター形状データを使用して距離値を計算する一実施態様を示す。ピクセルと割り当てられたクラスターとの間で計算される距離値を符号化するピクセルごとの一実施態様を示す。異なる配列決定サイクルでデータの処理を分離するために使用されるニューラルネットワークベースのベースコーラーの専用構造の一実施態様を示す。分離された畳み込みの一実施態様を示す。組み合わせの畳み込みの一実施態様を示す。組み合わせの畳み込みの別の実施態様を示す。各畳み込み層が畳み込みフィルタのバンクを有する、ニューラルネットワークベースのベースコーラーの畳み込み層の一実施態様を示す。画像チャネルを補うスケーリングチャネルの２つの構成を示す。赤色画像及び緑色画像を生成する単一の配列決定サイクルの入力データの一実施態様を示す。画像チャネルから生成される特徴マップに組み込まれる加法バイアスを供給する距離チャネルの一実施態様を示す。単一のターゲットクラスターをベースコールする一実施態様を示す。単一のターゲットクラスターをベースコールする一実施態様を示す。単一のターゲットクラスターをベースコールする一実施態様を示す。複数のターゲットクラスターを同時にベースコールする一実施態様を示す。複数の連続する配列決定サイクルで複数のターゲットクラスターを同時にベースコールし、それによって、複数のターゲットクラスターの各々に対するベースコール配列を同時に生成する、一実施態様を示す。単一のクラスターベースコール実施態様のための次元性図を示す。複数のクラスターにおける次元性図、単一の配列決定サイクルベースコール実施態様を示す。複数のクラスターにおける次元性図、複数の配列決定サイクルベースコール実施態様を示す。多重サイクル入力データの例示的アレイ入力構成を示す。多重サイクル入力データの例示的スタック入力構成を示す。中心ピクセルでベースコールされているターゲットクラスターの中心を中心にするために画像パッチのピクセルを再構成する一実施態様を示す。（ｉ）中心ピクセルの中心がターゲットクラスターの中心と一致し、（ｉｉ）非中心ピクセルがターゲットクラスターの中心から等距離である、別の例示的再構成／シフトされた画像パッチを示す。標準的な畳み込みニューラルネットワーク及び再構成された入力を使用して、現在の配列決定サイクルで単一のターゲットクラスターをベースコールする一実施態様を示す。標準的な畳み込みニューラルネットワーク及び位置合わせされた入力を使用して、現在の配列決定サイクルで複数のターゲットクラスターをベースコールする一実施態様を示す。標準的な畳み込みニューラルネットワーク及び位置合わせされた入力を使用して、複数の配列決定サイクルで複数のターゲットクラスターをベースコールする一実装態様を示す。ニューラルネットワークベースのベースコーラーを訓練する一実施態様を示す。ニューラルネットワークベースのベースコーラーとして使用されるハイブリッドニューラルネットワークの一実施態様を示す。現在の隠れ状態表現を生成するためにハイブリッドニューラルネットワークの反復モジュールによって使用される３Ｄ畳み込みの一実施態様を示す。畳み込みモジュールの畳み込み層のカスケードを介して、ベースコールされる一連のｔ回の配列決定サイクル間の単一の配列決定サイクルのサイクルごとの入力データを処理する一実施態様を示す。単一の配列決定サイクルのサイクルごとの入力データを、畳み込みモジュールの畳み込み層のカスケードによって生成される、その対応する畳み込み表現と混合する一実施態様を示す。連続する配列決定サイクルの平坦化された混合表現をスタックとして配置する一実施態様を示す。図１１１のスタックに、前方及び後方の方向に３Ｄ畳み込みの反復適用を行い、一連のｔ回の配列決定サイクルの各々でクラスターの各々に対するベースコールを生成する一実施態様を示す。３Ｄ畳み込みを適用する長い短期メモリ（Long Short-Term Memory、ＬＳＴＭ）ネットワークの入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートを介して、平坦化された混合表現のグループを含む３Ｄ入力容積ｘ（ｔ）を処理する一実施態様を示す。ＬＳＴＭネットワークは、ハイブリッドニューラルネットワークの反復モジュールの一部である。ニューラルネットワークベースのベースコーラーを訓練するために使用される訓練データでのトリヌクレオチド（３量体）をバランスさせる一実施態様を示す。ニューラルネットワークベースのベースコーラーに対して、ＲＴＡベースコーラーのベースコール精度を比較する。ＲＴＡベースコーラーのタイル間の一般化を、同じタイル上のニューラルネットワークベースのベースコーラーのものと比較する。ＲＴＡベースコーラーのタイル間の一般化を、同じタイル上及び異なるタイル上のニューラルネットワークベースのベースコーラーのものと比較する。また、ＲＴＡベースコーラーのタイル間の一般化を異なるタイル上のニューラルネットワークベースのベースコーラーのものと比較する。ニューラルネットワークベースのベースコーラーへの入力として供給される画像パッチの異なるサイズが、どのようにベースコール精度をもたらすかを示す。Ａ．ｂａｕｍａｎｎｉ及びＥ．ｃｏｌｉからの訓練データにおけるニューラルネットワークベースのベースコーラーのレーン間の一般化を示す。Ａ．ｂａｕｍａｎｎｉ及びＥ．ｃｏｌｉからの訓練データにおけるニューラルネットワークベースのベースコーラーのレーン間の一般化を示す。Ａ．ｂａｕｍａｎｎｉ及びＥ．ｃｏｌｉからの訓練データにおけるニューラルネットワークベースのベースコーラーのレーン間の一般化を示す。Ａ．ｂａｕｍａｎｎｉ及びＥ．ｃｏｌｉからの訓練データにおけるニューラルネットワークベースのベースコーラーのレーン間の一般化を示す。図１１９、図１２０、図１２１、及び図１２２に関して上述したレーン間の一般化のための誤差プロファイルを示す。図１２３の誤差プロファイルによって検出される誤差のソースを、緑色チャネル内の低クラスター強度に属させる。２回の配列決定動作（リード１及びリード２）について、ＲＴＡベースコーラー及びニューラルネットワークベースのベースコーラーの誤差プロファイルを比較する。４つの異なる器具におけるニューラルネットワークベースのベースコーラーの動作間の一般化を示す。同じ器具上で実行される４つの異なる動作におけるニューラルネットワークベースのベースコーラーの動作間の一般化を示す。ニューラルネットワークベースのベースコーラーを訓練するために使用される訓練データのゲノム統計を示す。ニューラルネットワークベースのベースコーラーを訓練するために使用される訓練データのゲノムコンテキストを示す。長いリード（例えば、２×２５０）をベースコールする際のニューラルネットワークベースのベースコーラーのベースコール精度を示す。ニューラルネットワークベースのベースコーラーが、画像パッチにわたる中心クラスターピクセル（複数可）及びその隣接するピクセルにどのように対処するかの一実施態様を示す。一実施態様に係る、ニューラルネットワークベースのベースコーラーを訓練及び動作するために使用される様々なハードウェア構成要素及び構成を示す。他の実施態様では、異なるハードウェア構成要素及び構成が使用される。ニューラルネットワークベースのベースコーラーを使用して実行され得る様々な配列決定タスクを示す。ｔ分布型確率的近傍埋め込み（t-Distributed Stochastic Neighbor Embedding、ｔ－ＳＮＥ）によって可視化される散乱プロットであり、ニューラルネットワークベースのベースコーラーのベースコール結果を示す。品質スコアリングのためにニューラルネットワークベースのベースコーラーによって作成されるベースコール信頼性確率を選択する一実施態様を示す。ニューラルネットワークベースの品質スコアリングの一実施態様を示す。ニューラルネットワークベースのベースコーラーによって作成される、品質スコアとベースコール信頼性予測との間の対応の一実施態様を示す。ニューラルネットワークベースのベースコーラーによって作成される、品質スコアとベースコール信頼性予測との間の対応の一実施態様を示す。推測中にニューラルネットワークベースのベースコーラーによって作成されるベースコール信頼性予測から品質スコアを推測する一実施態様を示す。ニューラルネットワークベースの品質スコアラーを訓練して、配列決定画像から導出される入力データを処理し、品質指標を直接生成する、一実施態様を示す。推測中にニューラルネットワークベースの品質スコアラーの出力として品質指標を直接生成する一実施態様を示す。ニューラルネットワークベースのテンプレート生成器、ニューラルネットワークベースのベースコーラー、及びニューラルネットワークベースの品質スコアラーへの入力として供給され得る変換されたデータを生成するために、無損失変換を使用する一実施態様を示す。領域重み付け係数を使用して、ニューラルネットワークベースのテンプレート生成器をニューラルネットワークベースのベースコーラーと統合する一実施態様を示す。アップサンプリング及び背景マスキングを使用して、ニューラルネットワークベースのテンプレート生成器をニューラルネットワークベースのベースコーラーと統合する別の実施態様を示す。１ピクセル当たり単一のクラスターのみからの寄与に対する領域重み付け係数１４３００の一例を示す。１ピクセル当たり複数のクラスターからの寄与に対する領域重み付け係数の一例を示す。アップサンプリング及び背景マスキングのための補間を使用する一例を示す。アップサンプリング及び背景マスキングのためのサブピクセルカウント重み付けを使用する一例を示す。配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。ベースコールセンサー出力などの、配列決定システムからのセンサーデータの分析のためのシステムの簡略ブロック図である。ホストプロセッサによって実行される実行時プログラムの機能を含む、ベースコール動作の態様を示す簡略図である。図１４７Ｃに示されるものなどの構成可能プロセッサの構成の簡略図である。本明細書に開示される技術を実施するために、図１４７Ａの配列決定システムによって使用され得るコンピュータシステムである。データ正規化及びデータ増強を含み得る、データ前処理の異なる実施態様を示す。図１５０のデータ正規化技術（ＤｅｅｐＲＴＡ（ｎｏｒｍ））及びデータ増強技術（ＤｅｅｐＲＴＡ（ａｕｇｍｅｎｔ））が、ニューラルネットワークベースのベースコーラーが細菌データで訓練され、ヒトデータで試験されるときにベースコール誤差割合を低減し、細菌データ及びヒトデータが、同じアッセイを共有する（例えば、両方ともイントロンデータを含む）ことを示す。図１５１のデータ正規化技術（ＤｅｅｐＲＴＡ（ｎｏｒｍ））及びデータ増強技術（ＤｅｅｐＲＴＡ（ａｕｇｍｅｎｔ））が、ニューラルネットワークベースのベースコーラーが非エキソンデータ（例えば、イントロンデータ）で訓練され、エキソンデータで試験されるときにベースコール誤差割合を低減することを示す。

以下の説明は、開示された技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する様々な修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
（導入）

デジタル画像からのベースコールは、大規模に平行であり、計算的に集中的である。このことは、本発明者らの新規な技術を導入する前に識別する多数の技術的課題を提示する。

評価されている画像セットからの信号は、塩基の分類が周期的に、特に塩基のますます長いストランドにわたって進行するにつれて次第に微弱である。塩基分類がストランドの長さにわたって延在するにつれて、信号対雑音比は減少し、信頼性が低下する。信頼性の更新された推定値は、塩基分類の変化の推定された信頼性として予想される。

デジタル画像は、サンプルストランドの増幅されたクラスターから捕捉される。サンプルは、様々な物理的構造及び化学物質を使用して、ストランドを複製することにより増幅される。合成による配列決定中、タグは、サイクルで化学的に結合され、光るように刺激される。デジタルセンサーは、画像を生成するためにピクセルから読み出されるタグから光子を収集する。

塩基を分類するためにデジタル画像を解釈するには、位置不確実性を解消することが必要であり、限られた画像解像度により障害がある。ベースコール中に収集される解像度よりも高い解像度では、撮像されたクラスターは、不規則な形状を有し、中心位置を不確定に有することが明らかである。クラスター位置は機械的に制御されず、そのため、クラスター中心はピクセル中心と位置合わせされない。ピクセル中心は、ピクセルに割り当てられた整数座標であり得る。他の実施態様では、ピクセルの左上角であってもよい。更に他の実施態様では、ピクセルの重心又は質量中心とすることができる。増幅は、均一なクラスター形状を生成しない。したがって、デジタル画像内のクラスター信号の分布は、規則的なパターンではなく統計的分布である。本発明者らは、この位置の不確実性を求める。

信号クラスのうちの１つは、検出可能な信号を生成せず、「暗」信号に基づいて特定の位置に分類され得る。したがって、暗サイクル中に分類するためにテンプレートが必要である。テンプレートの生成は、暗信号の欠落を回避するために、複数の撮像サイクルを使用して初期位置不確実性を解消する。

画像センサーのサイズ、倍率、及びステッパデザインにおけるトレードオフは、センサーピクセル中心と一致するようにクラスター中心を処理するには大きすぎるピクセルサイズにつながる。本開示は、２つの感覚でピクセルを使用する。物理的センサーピクセルは、検出された光子を報告する光センサーの領域である。単にピクセルと呼ばれる論理ピクセルは、少なくとも１つの物理ピクセルに対応するデータであり、センサーピクセルから読み出されたデータである。ピクセルは、サブピクセル（例えば、４×４サブピクセル）に細分化されるか、又は「アップサンプリング」され得る。全ての光子が物理ピクセルの片側に当たって反対側ではない可能性を考慮するために、バイリニア補間又はエリア重み付けなどの補間によって、サブピクセルに値を割り当てることができる。ピクセルが物理ピクセルからデータにアフィン変換を適用することによって、ピクセルが再フレーミングされるときに、補間又は双線型補間も適用される。

より大きい物理ピクセルは、より小さいピクセルよりも微弱な信号に対してより感度が高い。デジタルセンサーは時間と共に改善されるが、集光器表面積の物理的制限は避けられない。設計トレードオフを考慮すると、レガシーシステムは、センサーピクセルの３×３つのパッチから画像データを収集及び解析するように設計されており、そのクラスターの中心は、パッチの中心ピクセルのどこにあるかを収集及び分析するように設計されている。

高解像度センサーは、一度に撮像された媒体の一部のみを捕捉する。センサーは、画像化された媒体の上にステップ付きで、全視野を覆う。１つの処理サイクル中に数千のデジタル画像を収集することができる。

センサー及び照明設計は、塩基を分類するために使用される少なくとも４つの照明応答値を区別するために組み合わされる。ベイヤーカラーフィルタアレイを有する従来のＲＧＢカメラを使用した場合、４つのセンサーピクセルが単一のＲＧＢ値に組み合わされる。これは、４倍の有効なセンサー分解能を低減するであろう。あるいは、画像化された媒体とセンサーとの間の位置に回転された異なる照明波長及び／又は異なるフィルタを使用して、単一の位置で収集することができる。４つの基本分類間を区別するために必要とされる画像の数は、システム間で異なる。いくつかのシステムは、異なるクラスの塩基に対して４つの強度レベルを有する１つの画像を使用する。他のシステムは、異なる照明波長（例えば、赤及び緑）を有する２つの画像、及び／又は塩基を分類するための一種の真理台を有するフィルタを使用する。システムはまた、特定の塩基クラスに調整された異なる照明波長及び／又はフィルタを有する４つの画像を使用することができる。

デジタル画像の非常に平行な処理は、実際には、３０～２０００塩基対程度の比較的短いストランドを、長さのより長い、潜在的に数百万、又は更には長さが数十億である配列に位置合わせする必要がある。画像化された媒体上では冗長サンプルが望ましいため、配列の一部は、多数のサンプルリードによって被覆されてもよい。数千個のサンプルクラスターが単一の画像化された培地から撮像される。そのような多くのクラスターの大規模な処理は、コストを減少させる一方で、配列決定容量が増加している。

配列決定の能力は、ムーアの法則を再現するペースで増加している。第１の配列決定コストは十億ドルであるが、Ｉｌｌｕｍｉｎａ（商標）などの２０１８年のサービスでは、（数）百ドルの結果を提供する。配列決定が主流に、かつ単価が降下するにつれて、分類のためにより少ないコンピューティング電力が利用可能であり、このことが、ほぼリアルタイム分類の課題を増加させる。これらの技術的課題を念頭に置いて、本発明者らは、開示された技術に転じる。

開示された技術は、位置不確実性を解消するためのテンプレート生成中、及び分解された位置におけるクラスターの塩基分類中の両方の処理を改善する。開示される技術を適用することは、機械のコストを低減するために、より安価なハードウェアを使用することができる。ほぼリアルタイムの分析は費用効率が高くなり、画像収集と塩基分類との間の遅れを低減することができる。

開示される技術は、センサーピクセルをサブピクセルに補間することによって生成されたアップサンプリングされた画像を使用し、次いで位置不確実性を解決するテンプレートを生成することができる。得られたサブピクセルは、そのサブピクセルがクラスターの中心にあるかのように、サブピクセルを処理する分類のためのベースコーラーに提出される。クラスターは、同じ塩基分類を繰り返し受信する隣接するサブピクセルのグループから特定される。この技術のこの態様は、既存のベースコール技術を活用して、クラスターの形状を特定し、クラスター中心をサブピクセル解像度で超検索することができる。

開示される技術の別の態様は、信頼できる特定されたクラスター中心及び／又はクラスター形状を有する画像をペアリングする、グラウンドトゥルースを作成することである。深層学習システム及び他の機械学習アプローチは、実質的な訓練セットを必要とする。人間がキュレートしたデータは、コンパイルに費用がかかる。開示された技術を使用して、非標準的な動作モードで、人のキュレーターの介入又は費用を伴わずに、機密に分類された訓練データの大きなセットを生成することができる。訓練データは、ＣＮＮベースの深層学習システムなどの非標準的な動作モードで、既存の分類子から入手可能なクラスター中心及び／又はクラスター形状を有する生画像を相関させる。１つの訓練画像を回転させ、反射させて、追加の等しく有効な実施例を生成することができる。訓練例は、全体画像内の所定のサイズの領域に焦点を合わせることができる。ベースコール中に評価されたコンテキストは、画像のサイズ又は画像化された媒体全体ではなく、例示的な訓練領域のサイズを決定する。

開示される技術は、訓練データとして、又は塩基分類のためのテンプレートとして使用可能な、異なる種類のマップを生成することができ、このマップは、クラスター中心及び／又はクラスター形状をデジタル画像と相関させる。第１に、サブピクセルはクラスター中心として分類することができ、それによって、物理的センサーピクセル内のクラスター中心を局所化することができる。第２に、クラスター中心は、クラスター形状の重心として計算することができる。この位置は、選択された数値精度で報告することができる。第３に、クラスター中心は、サブピクセル又はピクセル解像度のいずれかで、減衰マップ内の周囲のサブピクセルで報告することができる。減衰マップは、クラスター中心からの領域の分離が増加するにつれて、領域内で検出された光子に与えられる重みを低減し、より遠い位置からの信号を減衰させる。第４に、隣接領域のクラスター内のサブピクセル又はピクセルに、バイナリ又は三元分類を適用することができる。バイナリ分類では、領域は、クラスター中心に属するか、又は背景として分類される。三元分類では、第３のクラスタイプは、クラスター内部を含むがクラスター中心ではない領域に割り当てられる。クラスター中心位置のサブピクセル分類は、より大きい光学ピクセル内の実数値クラスター中心座標に対して置換され得る。

代替的なマップのスタイルは、最初に、グラウンドトゥルースデータセットとして生成することができ、又は訓練を行って、ニューラルネットワークを使用して生成することができる。例えば、クラスターは、適切な分類を有する隣接するサブピクセルの不連続領域として描写することができる。ニューラルネットワークからのマッピングされたクラスターの強度は、ピーク検出器フィルタによって後処理されて、中心が既に決定されていない場合、クラスター中心を計算することができる。いわゆる流域分析を適用することにより、隣接する領域を別個のクラスターに割り当てることができる。ニューラルネットワーク推測エンジンによって生成されるとき、マップは、デジタル画像の配列を評価し、ベースコールのサイクルにわたって塩基を分類するためのテンプレートとして使用することができる。

塩基がデジタル画像の配列に分類されるとき、ニューラルネットワークは、過去及び将来のサイクルの画像チャネルと共に、現在のサイクルで複数の画像チャネルを処理する。クラスターでは、ストランドの一部は、合成の主要な過程の前又は後で動作し得、位相ずれのタグ付けは、プレフェイジング又はフェイジングとして知られている。プレフェイジング及びポストフェイジングの低い速度が経験的に観察されると仮定すると、プレフェイジング及びポストフェイジングから生じる信号内のノイズのほとんど全ては、現在、過去及び将来のサイクルで３つのサイクルだけでデジタル画像を処理するニューラルネットワークによって取り扱われ得る。

現在のサイクル内のデジタル画像チャネル間で、サイクル内の画像を位置合わせするための念入りな位置合わせは、正確な塩基分類に強く寄与する。誤差の他のソースの中でもとりわけ、波長及び不一致照明源の組み合わせは、測定されたクラスター中心場所で、小さい修正可能な差を生成する。並進、回転、及びスケーリングを伴う一般的なアフィン変換は、画像タイルにわたるクラスター中心を正確に位置合わせするために使用され得る。アフィン変換は、画像データを再構成し、かつクラスター中心に対するオフセットを解消するために使用され得る。

画像データの再構成は、典型的には、アフィン変換を適用することによって、画像データを補間することを意味する。再構成は、ピクセルパッチの中心ピクセルの中央に対象のクラスター中心を置き得る。又は、それは、画像をテンプレートと位置合わせして、画像収集中にジッター及び他の不一致を克服し得る。再構成は、ピクセルパッチ内の全てのピクセルの強度値を調整することを含む。双１次及び双３次補間並びに重み付け領域調整は、代替戦略である。

いくつかの実施態様では、クラスター中心座標は、追加の画像チャネルとしてニューラルネットワークに供給され得る。

距離信号はまた、塩基分類に寄与し得る。いくつかのタイプの距離信号は、クラスター中心からの領域の分離を反映する。最も強い光信号は、クラスター中心と一致すると見なされる。クラスター周囲に沿った光信号は、時には、近くのクラスターからのストレイ信号を含む。分類は、信号成分の寄与がクラスター中心からのその分離に従って減衰されるとき、より正確であることが観察されている。作用する距離信号は、単一のクラスター距離チャネルと、マルチクラスター距離チャネルと、マルチクラスター形状ベースの距離チャネルと、を含む。単一のクラスター距離チャネルは、中心ピクセル内のクラスター中心を有するパッチに適用する。次いで、パッチ内の全ての領域の距離は、中心ピクセル内のクラスター中心からの距離である。中心ピクセルと同じクラスターに属しないピクセルは、所与の計算された距離の代わりに、背景としてフラグ付けされ得る。マルチクラスター距離チャネルは、最も近いクラスター中心に対する各領域の距離を事前計算する。これは、領域を誤ったクラスター中心に接続する可能性を有するが、その可能性は低い。マルチクラスター形状ベースの距離チャネルは、隣接する領域を介して領域（サブピクセル又はピクセル）を、同じ塩基分類を生成するピクセル中心に関連付ける。いくつかの計算コストで、これは、誤ったピクセルに対する距離を測定する可能性を回避する。マルチクラスター及び距離信号に対するマルチクラスター形状ベースのアプローチは、画像内の複数のクラスターでの事前計算及び使用が行われるという利点を有する。

信号対ノイズ比を改善するために、ノイズから信号を分離するように、ニューラルネットワークによって形状情報が使用され得る。上記の考察では、領域分類及び距離チャネル情報の供給に対するいくつかのアプローチが識別された。いずれのアプローチにおいても、クラスターエッジを画定するために、クラスターの一部としてではなく背景として、領域がマークされ得る。ニューラルネットワークは、不規則なクラスター形状に関する得られた情報を利用するように訓練され得る。距離情報及び背景分類は、組み合わされ得るか、又は別々に使用され得る。隣接するクラスターからの信号の分離は、クラスター密度が増加するにつれて、ますます重要になる。

並行処理のスケールを増加させるための１つの方向は、画像化された媒体上のクラスター密度を増加させることである。密度の増加は、隣接する隣接部を有するクラスターを読み取るとき、背景ノイズを増加させるダウンサイドを有する。任意の（例えば、３×３のピクセルの）パッチの代わりに、形状データを使用することは、例えば、クラスター密度が増加するにつれて信号分離を維持するのに役立つ。

開示される技術の一態様を適用して、塩基分類スコアはまた、品質を予測するために活用され得る。開示される技術は、直接又は予測モデルを介して、分類スコアを従来のＳａｎｇｅｒ又はＰｈｒｅｄクオリティＱ－スコアと相関させることを含む。Ｑ２０、Ｑ３０、又はＱ４０などのスコアは、Ｑ＝－１０ｌｏｇ_１０Ｐによって塩基分類誤差確率に対数的に関連する。クラススコアのＱスコアとの相関は、多出力ニューラルネットワーク又は多変量回帰分析を使用して実行され得る。品質スコアのリアルタイム計算の利点は、塩基分類中、不備のある配列決定動作が早期に終了され得ることである。出願人は、動作を終了させるための時折の（まれな）決定が、分析配列を介して８分の１～４分の１の所で行われ得ることを見出した。終了させるための決定は、５０サイクル後又は２５～７５サイクル後に行われ得る。そうではなく３００～１０００サイクルを動作する連続プロセスでは、早期の終了は、実質的なリソース節約をもたらす。

専用の畳み込みニューラルネットワーク（ＣＮＮ）構造は、複数サイクルにわたって塩基を分類するために使用され得る。１つの専門化は、処理の初期層中のデジタル画像チャネル間での分離を含む。畳み込みフィルタスタックは、サイクル間の処理を分離し、異なるサイクルからのデジタル画像セット間のクロストークを防止するように構造化され得る。サイクル間の処理の分離の動機は、異なるサイクルで撮られる画像が、残留位置合わせ誤差を有し、したがって位置合わせ不良であり、互いにランダムな並進オフセットを有することである。これは、センサーの運動段階の移動の有限精度に起因し、また、異なる周波数チャネルで撮られる画像が異なる光路及び波長を有するために生じる。

連続するサイクルから画像セットを使用する動機は、特定のサイクルでの信号へのプレフェイジング及びポストフェイジングの寄与が、２次の寄与であることである。画像収集サイクル間のデジタル画像セットの下位層の畳み込みを構造的に分離することが、畳み込みニューラルネットワークにとって有用であり得るということになる。

畳み込みニューラルネットワーク構造はまた、クラスタリングに関する情報を取り扱う際に専用化され得る。クラスター中心及び／又は形状についてのテンプレートは、畳み込みニューラルネットワークがデジタル画像データと組み合わせる追加の情報を提供する。クラスター中心分類及び距離データは、サイクルにわたって繰り返し適用され得る。

畳み込みニューラルネットワークは、画像フィールドで複数のクラスターを分類するように構造化され得る。複数のクラスターが分類されるとき、ピクセル又はサブピクセルについての距離チャネルは、ピクセル又はサブピクセルが属する最も近いクラスター中心又は隣接するクラスター中心のいずれかに対する距離情報をよりコンパクトに含み得る。代替的に、各ピクセル若しくはサブピクセルに対して、又は少なくとも、クラスター中心を含む各々のものに対して、大きい距離ベクトルが供給され得、それは、所与のピクセルについてのコンテキストである、クラスター中心から全ての他のピクセルまでの完全な距離情報を与える。

ベースコールでのテンプレート生成のいくつかの組み合わせは、距離チャネルに取って代わるために領域重み付けにおける変動を使用し得る。ここでの考察は、距離チャネルの代わりに、テンプレート生成器の出力がどのように直接使用され得るかについて説明する。

我々は、テンプレート画像をピクセル値修正に直接適用することに影響を及ぼす３つの検討事項、すなわち、画像セットがピクセル又はサブピクセルドメイン内で処理されるかどうか、いずれのドメインにおいても、どのように領域重みが計算されるか、及びサブピクセルドメインで、補間強度値を修正するためにマスクとしてテンプレート画像を適用することを説明する。

ピクセルドメインで塩基分類を実行することは、アップサンプリングから生じる、１６倍などの計算の増加を要求しないという利点を有する。ピクセルドメインでは、畳み込みの上部層でさえ、必要とされない計算をキャンセルするためのロジックを追加する代わりに、収集されない計算の実行を正当化するのに十分なクラスター密度を有し得る。我々は、距離チャネルなしでテンプレート画像データを直接使用する、ピクセルドメイン内の例から開始する。

いくつかの実施態様では、分類は、特定のクラスターに焦点を当てる。これらの例では、クラスターの周囲におけるピクセルは、どの隣接するクラスターが分類の焦点であるかに応じて、異なる修正強度値を有し得る。サブピクセルドメイン内のテンプレート画像は、重複ピクセルが強度値を２つの異なるクラスターに与えることを示し得る。我々は、２つ又はそれ以上の隣接の又は隣接するクラスターが両方ともピクセルと重複するとき、両方とも光学ピクセルからの強度読み取り値に寄与するとき、「重複ピクセル」として光学ピクセルを指す。隆起線での異なる流域内へのレインフローの分離から名付けられる流域分析は、更なる隣接するクラスターを分離するために適用され得る。クラスターごとの分類のためにデータが受信されるとき、テンプレート画像は、クラスターの周囲に沿って重複ピクセルについての強度データを修正するために使用され得る。重複ピクセルは、どのクラスターが分類の焦点であるかに応じて、異なる修正強度を有し得る。

ピクセルの修正強度は、アウェイクラスター（すなわち、ピクセルが強度放射を示す非ホームクラスター）とは対照的に、ホームクラスター（すなわち、ピクセルが属するクラスターか、又はピクセルが強度放射を主に示すクラスター）への、重複ピクセル内のサブピクセル寄与に基づいて低減され得る。５個のサブピクセルがホームクラスターの一部であり、２個のサブピクセルがアウェイクラスターの一部であると仮定する。次いで、７個のサブピクセルは、強度をホーム又はアウェイクラスターに与える。ホームクラスターに焦点を合わせている間、一実施態様では、１６個のサブピクセルのうちの７個が強度をホーム又はアウェイクラスターに与えるため、重複ピクセルは、強度を７／１６低減される。別の実施態様では、強度は、サブピクセルの総数によって分割されるホームクラスターに寄与するサブピクセルの領域に基づいて５／１６低減される。第３の実施態様では、強度は、寄与するサブピクセルの総領域によって分割されるホームクラスターに寄与するサブピクセルの領域に基づいて、５／７低減される。後者の２つの計算は、焦点がアウェイクラスターに変わるときに変化し、分子中に「２」を有する分数を生成する。

当然のことながら、距離チャネルがクラスター形状のサブピクセルマップと共に考慮されている場合、強度の更なる低減が適用され得る。

分類の焦点であるクラスターについてのピクセル強度がテンプレート画像を使用して修正されると、修正ピクセル値は、ニューラルネットワークベースの分類子の層を介して畳み込まれて、修正画像を生成する。修正画像は、連続する配列決定サイクルで塩基を分類するために使用される。

代替的に、ピクセルドメイン内の分類は、まとまった画像内の全てのピクセル又は全てのクラスターに対して並行して進行し得る。ピクセル値の１つの修正のみが、中間計算の再使用を確実にするために、このシナリオで適用され得る。上で与えられる分数のいずれもが、より小さい又はより大きい強度の減衰が望ましいかどうかに応じて、ピクセル強度を修正するために使用され得る。

まとまった画像についてのピクセル強度がテンプレート画像を使用して修正されると、ピクセル及び周囲のコンテキストは、ニューラルネットワークベースの分類子の層を介して畳み込まれて、修正画像を生成し得る。まとまった画像において畳み込みを実行することにより、コンテキストを共有したピクセル間での中間計算の再使用が可能になる。修正画像は、連続する配列決定サイクルで塩基を分類するために使用される。

この説明は、サブピクセルドメイン内の領域重みの適用のために並行にされ得る。並行は、重みが個々のサブピクセルについて計算され得ることである。重みは、光学ピクセルの異なるサブピクセル部分と同じであり得るが、そうする必要はない。ホーム及びアウェイクラスターの上記のシナリオを、それぞれ、重複ピクセルの５個及び２個のサブピクセルで繰り返し、ホームクラスターに属するサブピクセルへの強度の割り当ては、ピクセル強度の７／１６、５／１６、又は５／７であり得る。再び、距離チャネルがクラスター形状のサブピクセルマップと共に考慮されている場合、強度の更なる低減が適用され得る。

まとまった画像についてのピクセル強度がテンプレート画像を使用して修正されると、サブピクセル及び周囲のコンテキストは、ニューラルネットワークベースの分類子の層を介して畳み込まれて、修正画像を生成し得る。まとまった画像において畳み込みを実行することにより、コンテキストを共有したサブピクセル間での中間計算の再使用が可能になる。修正画像は、連続する配列決定サイクルで塩基を分類するために使用される。

別の代替案は、サブピクセルドメインで、バイナリマスクとしてテンプレート画像を、サブピクセルドメイン内に補間される画像データに適用することである。テンプレート画像は、クラスター間で背景ピクセルを必要とするように、又は異なるクラスターからのサブピクセルが隣接することを可能にするように配置され得る。テンプレート画像は、マスクとして適用され得る。マスクは、補間されたピクセルが補間によって割り当てられる値を維持するか、又はそれがテンプレート画像で背景として分類される場合、背景値（例えば、ゼロ）を受信するかどうかを決定する。

再び、まとまった画像についてのピクセル強度がテンプレート画像を使用してマスクされると、サブピクセル及び周囲のコンテキストは、ニューラルネットワークベースの分類子の層を介して畳み込まれて、修正画像を生成し得る。まとまった画像において畳み込みを実行することにより、コンテキストを共有したサブピクセル間での中間計算の再使用が可能になる。修正画像は、連続する配列決定サイクルで塩基を分類するために使用される。

開示される技術の特徴は、中間計算を再使用して、共有されたコンテキスト内で任意の数のクラスターを分類するように組み合わせ可能である。光学ピクセル解像度で、一実施態様では、ピクセルの約１０パーセントは、分類されるクラスター中心を保持する。レガシーシステムでは、不規則な形状のクラスターの観察を仮定すると、３×３の光学ピクセルは、クラスター中心についての潜在的な信号寄与因子として分析するためにグループ化された。上部畳み込み層から離れた１つの３×３フィルタでさえ、クラスター密度は、光学ピクセルの半分よりも実質的に多くの光信号をクラスター中心でのピクセル内にロールアップする可能性が高い。超サンプリング解像度でのみ、上部畳み込み層についてのクラスター中心密度は、１パーセント未満に低下する。

いくつかの実施態様では、共有コンテキストは実質的である。例えば、１５×１５の光学ピクセルコンテキストは、正確な塩基分類に寄与し得る。同等の４ｘアップサンプリングされたコンテキストは、６０×６０のサブピクセルである。このコンテキストの範囲は、撮像中に、ニューラルネットワークが不均一な照明及び背景の影響を認識するのに役立つ。

開示される技術は、デジタル画像入力で検出される境界を有するテンプレート入力内のクラスター境界を組み合わせるために、低畳み込み層で小さいフィルタを使用する。クラスター境界は、ニューラルネットワークが背景条件から信号を分離し、背景に対する画像処理を正規化するのに役立つ。

開示される技術は、中間計算を実質的に再使用する。２０～２５個のクラスター中心が、１５×１５の光学ピクセルのコンテキスト領域内に現れると仮定する。次いで、第１の層の畳み込みは、ブロックごとの畳み込みロールアップで２０～２５回再使用されることになる。再使用係数は、光学解像度での再使用係数が１ｘ未満に低下する最初の時間である最終層まで層ごとに低減される。

複数の畳み込み層からのブロックごとのロールアップ訓練及び推測は、連続するロールアップを、ピクセル又はサブピクセルのブロックに適用する。ブロック周囲で、第１のデータブロックのロールアップ中に使用されるデータがロールアップの第２のブロックと重複し、再使用され得る重複ゾーンが存在する。ロールアップされ得、かつ再使用され得る、ピクセル値及び中間計算は、重複ゾーンによって囲まれる中心領域でブロック内にある。重複ゾーンで、３×３フィルタの適用によって、例えば、１５×１５から１３×１３に、コンテキストフィールドのサイズを漸進的に低減する畳み込み結果は、ブロック内の基礎計算の再使用を損なうことなくメモリを保存して、畳み込まれる値を保持する同じメモリブロック内に書き込まれ得る。より大きいブロックで、重複ゾーン内の中間計算の共有は、より少ないリソースを必要とする。より小さいブロックで、重複ゾーン内の中間計算を共有するために、複数のブロックを並行して計算することが可能であり得る。

より大きいフィルタ及び拡張は、畳み込み層の数を低減し、それは、より低い畳み込み層がテンプレート及び／又はデジタル画像データでクラスター境界に反応した後の、分類を損なうことのない速度計算であり得る。

テンプレートデータについての入力チャネルは、デジタル画像フィールド内の複数のクラスター中心の分類と一致するテンプレート構造を作製するように選択され得る。上述の２つの代替案は、この一貫性基準、すなわち、全体のコンテキスト上の再構成及び距離マッピングを満たさない。再構成は、１つのクラスターだけの中心を光学ピクセルの中心に置く。クラスター中心を保持するとして分類されるピクセルに対する中心オフセットを供給することは、複数のクラスターを分類するためにより良好である。

距離マッピングは、提供される場合、全てのピクセルが全コンテキスト上でそれ自体の距離マップを有しない限り、全コンテキスト領域にわたって実行するのが困難である。より単純な距離マップは、デジタル画像入力ブロックから複数のクラスターを分類するための有用な一貫性を提供する。

ニューラルネットワークは、クラスターの境界でのピクセル又はサブピクセルのテンプレート内の分類から学習し得、そのため、距離チャネルは、クラスター中心オフセットチャネルを伴うバイナリ又は三元分類を供給するテンプレートによって取って代わり得る。使用されるとき、距離マップは、ピクセル（又はサブピクセル）が属するクラスター中心からのピクセルの距離を与え得る。又は、距離マップは、最も近いクラスター中心に対する距離を与え得る。距離マップは、背景ピクセルに割り当てられるフラグ値でバイナリ分類を符号化し得るか、又はそれは、ピクセル分類からの別個のチャネルであり得る。クラスター中心オフセットと組み合わされて、距離マップは、三元分類を符号化し得る。いくつかの実施態様では、特に１ビット又は２ビットでピクセル分類を符号化するものは、少なくとも開発中に、ピクセル分類及び距離についての別個のチャネルを使用することが望ましい場合がある。

開示される技術は、上部層内のいくつかの計算リソースを節約するための計算の低減を含み得る。クラスター中心オフセットチャネル又は三元分類マップは、ピクセル中心の最終分類に寄与しないピクセル畳み込みの中心を識別するために使用され得る。多くのハードウェア／ソフトウェアの実施態様では、推測中にルックアップを実行し、畳み込みロールアップをスキップすることは、９個の乗算及び８個の加算さえ実行して３×３フィルタを適用するよりも、上部層（複数可）でより効率的であり得る。並列実行のための計算をパイプライン処理するカスタムハードウェアでは、全てのピクセルは、パイプライン内で分類され得る。次いで、クラスター中心と一致するピクセルのみに対する結果を収集するために、クラスター中心マップは、最終分類がそれらのピクセルに対してのみ所望されるため、最終畳み込み後に使用され得る。再び、光学ピクセルドメインでは、現在観察されているクラスター密度で、ピクセルの約１０パーセントに対するロールアップ計算が収集される。４ｘアップサンプリングされたドメインでは、上部層内のサブピクセル分類の１パーセント未満が収集されるため、いくつかハードウェア上で、スキップされた畳み込みから、より多くの層が恩恵を受け得る。
（ニューラルネットワークに基づくテンプレート生成）

テンプレート生成の第１の工程は、クラスターメタデータを特定することである。クラスターメタデータは、それらの中心、形状、サイズ、背景、及び／又は境界を含むクラスターの空間分布を識別する。
（クラスターメタデータの特定）

図１は、サブピクセルベースコールを使用してクラスターメタデータを特定する処理パイプラインの一実施態様を示す。

図２は、そのタイル内にクラスターを含むフローセルの一実施態様を示す。フローセルは、レーンに分割される。レーンは、「タイル」と呼ばれる非重複領域に更に分割される。配列決定手順中、タイル上の集団及びそれらの周囲の背景が画像化される。

図３は、８つのレーンを有する例示的なＩｌｌｕｍｉｎａＧＡ－ＩＩｘ（商標）フローセルを示す。図３はまた、１つのタイル及びそのクラスター及びそれらの周囲の背景上の拡大も示す。

図４は、４チャネル化学の配列決定画像の画像セットを描写しており、すなわち、画像セットは、ピクセルドメイン内の４つの異なる波長帯域（画像／撮像チャネル）を使用して捕捉された４つの配列決定画像を有する。画像セット内の各画像は、フローセルのタイルを覆い、タイル上のクラスターの強度放射を示し、フローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで特定の画像チャネルのために捕捉された、それらの周囲の背景を示す。一実施態様では、各撮像チャネルは、複数のフィルタ波長帯域のうちの１つに対応する。別の実施態様では、各撮像チャネルは、配列決定サイクルで複数の撮像イベントのうちの１つに対応する。更に別の実施態様では、各撮像チャネルは、特定のレーザーを用いた照明と特定の光学フィルタを通した撮像との組み合わせに対応する。クラスターの強度放射は、検体に関連する塩基を分類するために使用され得る検体から検出された信号を含む。例えば、強度放射は、タグが刺激され、１つ又はそれ以上のデジタルセンサーによって検出され得る、サイクル中に検体に化学的に取り付けられたタグによって放出される光子を示す信号であってもよい。

図５は、配列決定画像をサブピクセル（又はサブピクセル領域）に分割する一実施態様である。図示の別の実施態様では、４分の１（０．２５）サブピクセルが使用され、これにより、配列決定画像内の各ピクセルが１６個のサブピクセルに分割される。図示した配列決定画像が、２０×２０ピクセル、すなわち、４００ピクセルの解像度を有することを前提として、分割は６４００サブピクセルを生成する。サブピクセルのそれぞれは、サブピクセルベースコールのための領域中心として、ベースコーラーによって処理される。いくつかの実施態様では、このベースコーラーは、ニューラルネットワークベースの処理を使用しない。他の実施態様では、このベースコーラーは、ニューラルネットワークベースのベースコーラーである。

所与の配列決定サイクル及び特定のサブピクセルに関して、ベースコーラーは、画像処理工程を実行し、配列決定サイクルの対応する画像セットからサブピクセルの強度データを抽出することによって、所与の配列決定サイクル特定のサブピクセルに対するベースコールを生成するように論理を用いて構成される。これは、サブピクセルのそれぞれ、及び複数の配列決定サイクルのそれぞれに対して行われる。また、ＩｌｌｕｍｉｎａＭｉＳｅｑシーケンサの１８００×１８００ピクセル解像度タイル画像の１／４サブピクセル分割を用いて実験を行った。サブピクセルベースコールを、５０回の配列決定サイクル及び１０タイルのレーンについて行った。

図６は、サブピクセルベースコール中に、ベースコーラーによって識別されたクラスターの予備中心座標を示す。図６はまた、予備中心座標を含む「原点サブピクセル」又は「中心サブピクセル」を示す。

図７は、クラスターメタデータを含むいわゆる「クラスターマップ」を生成するために、複数の配列決定サイクルにわたって生成されたサブピクセルベースコールをマージする一例を示す。図示した実施態様では、サブピクセルベースコールは、第１の検索アプローチを使用してマージされる。

図８ａは、サブピクセルベースコールのマージによって生成されたクラスターマップの一例を示す。図８ｂは、サブピクセルベースコールの一例を示す。図８ｂはまた、サブピクセルベースから生成されたサブピクセルごとのベースコール配列を分析してクラスターマップを生成する一実施態様を示す。
（配列決定画像）

クラスターメタデータ判定は、配列決定機器１０２（例えば、ＩｌｌｕｍｉｎａのｉＳｅｑ、ＨｉＳｅｑＸ、ＨｉＳｅｑ３０００、ＨｉＳｅｑ４０００、ＨｉＳｅｑ２５００、ＮｏｖａＳｅｑ６０００、ＮｅｘｔＳｅｑ、ＮｅｘｔＳｅｑＤｘ、ＭｉＳｅｑ及びＭｉＳｅｑＤｘ）によって生成された画像データを分析することを含む。以下の説明は、一実施態様に従って、画像データがどのように生成されるか、及びそれを描写するものを概説する。

ベースコールは、配列決定機器１０２の生信号、すなわち、画像から抽出された強度データがＤＮＡ配列及び品質スコアにデコードされるプロセスである。一実施態様では、Ｉｌｌｕｍｉｎａプラットフォームは、ベースコールのための環状可逆終端（Cyclic Reversible Termination、ＣＲＴ）化学を採用する。このプロセスは、新たに添加された各ヌクレオチドの放出信号を追跡しながら、改変されたヌクレオチドを有するテンプレートＤＮＡ鎖に相補的な成長した出現ＤＮＡ鎖上に依存する。修飾されたヌクレオチドは、ヌクレオチド型のフルオロフォアシグナルをアンカーする３’の取り外し可能なブロックを有する。

配列決定は繰り返しサイクルで行われ、それぞれは３つの工程、すなわち、（ａ）修飾されたヌクレオチドを追加することによって経鼻鎖を伸長する工程と、（ｂ）光学系１０４の１つ又はそれ以上のレーザーを使用して蛍光団を励起し、光学系１０４の異なるフィルタを通して画像化して、配列決定画像１０８を生成する工程と、（ｃ）蛍光団の開裂及び次の配列決定サイクルの準備における３’ブロックを除去する工程と、を含む。組み込み及び撮像サイクルを、指定された数の配列決定サイクルに繰り返し、全ての集団の読み取り長さを規定する。このアプローチを使用して、各サイクルはテンプレートストランドに沿って新しい位置を問い合わせる。

Ｉｌｌｕｍｉｎａプラットフォームのトレメントパワーは、ＣＲＴ反応を受ける数百万のクラスター又は更には数十億のクラスターを同時に実行及び感知する能力からステムを形成する。配列決定プロセスは、フローセル２０２において、配列決定プロセス中に入力ＤＮＡ断片を保持する小さなスライドガラスである。フローセル２０２は、顕微鏡画像、励起レーザー、及び蛍光フィルタを含むハイスループット光学システム１０４に接続される。フローセル２０２は、レーン２０４と呼ばれる複数のチャンバを含む。レーン２０４は、互いに物理的に分離され、異なるタグ付けされた配列決定ライブラリを含んでもよく、試料交差汚染なしで区別可能である。撮像装置１０６（例えば、電荷結合素子（Charge-Coupled Device、ＣＣＤ）又は相補的金属酸化物半導体（Complementary Metal-Oxide-Semiconductor、ＣＭＯＳ）センサーなどのソリッドステート撮像素子）は、タイル２０６と呼ばれる一連の非重複領域において、レーン２０４に沿った複数の場所でスナップショットを取る。

例えば、ＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒＩＩのレーン当たり１００タイル、及びＩｌｌｕｍｉｎａＨｉＳｅｑ２０００内のレーン当たり６４個のタイルが存在する。タイル２０６は数十万～数百万個のクラスターを保持する。明るいスポットとして示されるクラスターを有するタイルから生成された画像を２０８で示す。クラスター３０２は、テンプレート分子の約千個の同一のコピーを含むが、クラスターはサイズ及び形状が異なる。クラスターは、配列決定動作前に、入力ライブラリのブリッジ増幅によって、テンプレート分子から成長させる。増幅及びクラスター成長の目的は、撮像装置１０６が単一の蛍光団を確実に感知できないため、放出された信号の強度を増大させることである。しかしながら、クラスター３０２内のＤＮＡフラグメントの物理的距離は小さいため、撮像装置１０６は、単一のスポット３０２として断片のクラスターを知覚する。

配列決定動作の出力は、レーン、タイル、配列決定サイクル、及びフルオロフォア（２０８Ａ、２０８Ｃ、２０８Ｔ、２０８Ｇ）の特定の組み合わせのための、ピクセルドメイン内のタイル上のクラスターの強度放射を示す配列決定画像１０８である。

一実施態様では、バイオセンサーは、光センサーのアレイを備える。光センサーは、バイオセンサーの検出表面上の対応するピクセル領域（例えば、反応部位／ウェル／ナノセル）からの情報を感知するように構成されている。ピクセル領域内に配設された検体は、ピクセル領域、すなわち、関連する検体と関連付けられると言われる。配列決定サイクルでは、ピクセル領域に対応する光センサーは、関連する検体からの発光／光子を検出／捕捉／検知するように構成され、それに応じて、画像化されたチャネルごとにピクセル信号を生成するように構成される。一実施態様では、各撮像チャネルは、複数のフィルタ波長帯域のうちの１つに対応する。別の実施態様では、各撮像チャネルは、配列決定サイクルで複数の撮像イベントのうちの１つに対応する。更に別の実施態様では、各撮像チャネルは、特定のレーザーを用いた照明と特定の光学フィルタを通した撮像との組み合わせに対応する。

光センサーからのピクセル信号は、（例えば、通信ポートを介して）バイオセンサーに結合された信号プロセッサに伝達される。各配列決定サイクル及び各画像化チャネルについて、信号プロセッサは、ピクセルが対応する光センサーから得られるピクセル信号をそれぞれ描写／含有／示す／表す／特徴付ける画像を生成する。このようにして、画像内のピクセルは、（ｉ）ピクセルによって表されるピクセル信号を生成したバイオセンサーの光センサーと、（ｉｉ）対応する光センサーによって放射が検出され、ピクセル信号に変換された関連検体と、（ｉｉｉ）関連検体を保持するバイオセンサーの検出表面上のピクセル領域と、に対応する。

例えば、配列決定動作が２つの異なる画像化チャネル：赤色チャネル及び緑色チャネルを使用すると考える。次いで、各配列決定サイクルにおいて、信号プロセッサは、赤色画像及び緑色画像を生成する。このようにして、配列決定動作の一連のｋ配列決定サイクルについて、赤色画像及び緑色画像のｋ対を有する配列が出力として生成される。

赤色画像及び緑色画像（すなわち、異なる画像化チャネル）内のピクセルは、配列決定サイクル内で１対１の対応を有する。これは、一対の赤色画像及び緑色画像内の対応するピクセルが、異なる画像化チャネル内にある同じ関連する検体の強度データを示すことを意味する。同様に、赤色画像及び緑色画像の対にわたるピクセルは、配列決定サイクル間に１対１の対応を有する。これは、赤色画像及び緑色画像の異なるペア内の対応するピクセルが、配列決定動作の異なる獲得イベント／時間ステップ（配列決定サイクル）に関して、同じ関連する検体の強度データを示すことを意味する。

赤色画像及び緑色画像（すなわち、異なる画像化チャネル）内の対応するピクセルは、第１の赤色チャネル及び第２の緑チャネル内の強度データを表す、「サイクルごとの画像」のピクセルと見なすことができる。ピクセルがピクセルエリアのサブセットのピクセル信号、すなわち、バイオセンサーの検出面の領域（タイル）を描写するサイクルごとの画像は、「サイクルごとのタイル画像」と呼ばれる。サイクルごとのタイル画像から抽出されたパッチは、「サイクルごとの画像パッチ」と呼ばれる。一実施態様では、パッチ抽出は、入力準備者によって実行される。

画像データは、配列決定動作の一連のｋ配列決定サイクルのために生成された一連のサイクルごとの画像パッチを含む。サイクルごとの画像パッチ内のピクセルは、関連する検体のための強度データを含み、強度データは、関連付けられた検体からの排出を検出するように構成された対応する光センサーによって、１つ又はそれ以上の画像化チャネル（例えば、赤色チャネル及び緑色チャネル）のために取得される。一実施態様では、単一のターゲットクラスターがベースコールされる場合、サイクルごとの画像パッチは、標的関連検体及び非中心ピクセルに関する強度データを含む中心ピクセルで中心に置かれ、サイクルごとの画像パッチ内の非中心ピクセルは、標的関連検体に隣接する関連する検体の強度データを含む。一実施態様では、画像データは、入力準備者によって調製される。
（サブピクセルベースコール）

開示された技術は、配列決定動作中に生成された一連の画像セットにアクセスする。画像セットは、配列決定画像１０８を含む。配列決定動作のそれぞれの配列決定サイクル中にそれぞれ連続する画像セットが捕捉される。一連の画像（又は配列決定画像）は、フローセルのタイル及びそれらの周囲の背景上のクラスターを捕捉する。

一実施態様では、配列決定動作は４つのチャネル化学を利用し、各画像セットは４つの画像を有する。別の実施態様では、配列決定動作は２チャネル化学を利用し、各画像セットは２つの画像を有する。更に別の実施態様では、配列決定動作は、１チャネル化学を利用し、各画像セットは２つの画像を有する。更に他の実施態様では、各画像セットは１つの画像のみを有する。

ピクセル領域の配列決定画像１０８は、まずサブピクセルアドレス指定器１１０によってサブピクセルドメインに変換され、サブピクセルドメイン内に配列決定画像１１２が生成される。一実施態様では、配列決定画像１０８内の各ピクセルは、１６個のサブピクセル５０２に分割される。したがって、一実施態様では、サブピクセル５０２は、４分の１サブピクセルである。別の実施態様では、サブピクセル５０２は２分の１サブピクセルである。その結果、サブピクセルドメイン内の配列決定画像１１２のそれぞれは、複数のサブピクセル５０２を有する。

次いで、サブピクセルは、ベースコーラー１１４への入力として別々に供給されて、サブピクセルの各々を４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）のうちの１つと分類するベースコールをベースコーラー１１４から取得する。これにより、配列決定動作の複数の配列決定サイクルにわたって、サブピクセルのそれぞれについてのベースコール配列１１６を生成する。一実施態様では、サブピクセル５０２は、それらの整数又は非整数座標に基づいて、ベースコーラー１１４に識別される。複数の配列決定サイクル中に生成された画像セットにわたってサブピクセル５０２からの発光信号を追跡することにより、ベースコーラー１１４は、各サブピクセルの基礎ＤＮＡ配列を回復する。この例を図８ｂに示す。

他の実施態様では、開示される技術は、ベースコーラー１１４から、５つの塩基（Ａ、Ｃ、Ｔ、Ｇ、及びＮ）のうちの１つとして、サブピクセルのそれぞれを分類する。このような実施態様では、Ｎ個のベースコールは、通常、低いレベルの抽出された強度に起因する、決定されていないベースコールを示す。

ベースコーラー１１４のいくつかの例としては、非ニューラルネットワークベースのＩｌｌｕｍｉｎａｏｆｆｅｒｉｎｇｓ、例えば、リアルタイム分析（ＲｅａｌＴｉｍｅＡｎａｌｙｓｉｓ、ＲＴＡ）、ＧｅｎｏｍｅＡｎａｌｙｚｅｒＡｎａｌｙｓｉｓＰｉｐｅｌｉｎｅのＦｉｒｅｃｒｅｓｔプログラム、統合１次分析報告（ＩｎｔｅｇｒａｔｅｄＰｒｉｍａｒｙＡｎａｌｙｓｉｓａｎｄＲｅｐｏｒｔｉｎｇ、ＩＰＡＲ）マシン、及びオフラインベースコーラー（Ｏｆｆ－ＬｉｎｅＢａｓｅｃａｌｌｅｒ、ＯＬＢ）が挙げられる。例えば、ベースコーラー１１４は、最近傍強度抽出、ガウス系強度抽出、平均２×２サブピクセル領域に基づく強度抽出、２×２サブピクセル面積の最も明るい試験に基づく強度抽出、平均３×３サブピクセル面積、バイリニア強度抽出、双キュービック強度抽出、及び／又は加重面積被覆率に基づく強度抽出に基づく強度抽出のうちの少なくとも１つを含む、サブピクセルの強度を補間することによって、ベースコール配列を生成する。これらの技術は、「強度抽出方法」と題された付録に詳細に記載されている。

他の実施態様では、ベースコーラー１１４は、本明細書に開示されるニューラルネットワークベースのベースコーラー１５１４などのニューラルネットワークベースのベースコーラーであり得る。

次いで、サブピクセルごとのベースコール配列１１６は、入力として検索器１１８に供給される。検索器１１８は、連続するサブピクセルの基本的なベースコール配列を検索する。連続するサブピクセルのベースコール配列は、ベースコールの所定の部分が、序数の位置ごとの基準（例えば、＞＝４５サイクルにおける４１一致、＜＝４５サイクルにおける４不一致、＜＝５０サイクルにおける４不一致、又は＜＝３４サイクルにおける２不一致）と一致するとき、連続するサブピクセルのベースコール配列は「実質的に一致する」。

次いで、検索器１１８は、実質的に一致するベースコール配列を共有する隣接するサブピクセルの、例えば８０４ａ～ｄなどの、クラスターを識別するクラスターマップ８０２を生成する。本出願は、「不連続の」、「ばらばらな」、及び「非重複の」を互換的に使用する。検索は、クラスターの一部を含むサブピクセルをベースコールして、それらが実質的に一致するベースコール配列を共有する隣接するサブピクセルに、コールされたサブピクセルをリンクさせることを可能にすることを含む。いくつかの実施態様では、検索器１１８は、不連続領域の少なくとも一部が、クラスターとして処理される所定の最小数のサブピクセル（例えば、４、６、又は１０サブピクセルを超える）を有することを必要とする。

いくつかの実施態様では、ベースコーラー１１４はまた、クラスターの予備中心座標を識別する。予備中心座標を含むサブピクセルは、原点サブピクセルと呼ばれる。ベースコーラー１１４及び対応する原点サブピクセル（６０６ａ～ｃ）によって識別されたいくつかの例示的な予備中心座標（６０４ａ～ｃ）が図６に示されている。しかしながら、以下に説明するように、原点サブピクセル（クラスターの予備中心座標）の識別は必要ではない。いくつかの実施態様では、検索器１１８は、原点サブピクセル６０６ａ～ｃから始まり連続的に連続する非原点サブピクセル７０２ａ～ｃを継続して、サブピクセルの実質的に一致するベースコール配列を識別するための、第１の検索を使用する。これは、以下に説明するように、任意選択的である。
（クラスターマップ）

図８ａは、サブピクセルベースコールのマージによって生成されたクラスターマップ８０２の一例を示す。クラスターマップは、複数の不連続領域（図８ａにおいて様々な色で示される）を識別する。各不連続領域は、タイル上のそれぞれのクラスターを表す連続するサブピクセルの非重複グループ（その配列決定画像から、かつクラスターマップがサブピクセルベースコールを介して生成される）の非重複グループを含む。不連続領域間の領域は、タイル上の背景を表す。背景領域内のサブピクセルは、「背景サブピクセル」と呼ばれる。不連続領域内のサブピクセルは、「クラスターサブピクセル」又は「クラスター内部サブピクセル」と呼ばれる。この説明では、原点サブピクセルは、ＲＴＡ又は別のベースコーラーによって決定される予備的な中心クラスター座標が位置するサブピクセルである。

原点サブピクセルは、予備的な中心クラスター座標を含む。これは、原点サブピクセルによって覆われた領域が、予備的な中心クラスター座標位置と一致する座標位置を含むことを意味する。クラスターマップ８０２は論理サブピクセルの画像であるため、原点サブピクセルは、クラスターマップ内のサブピクセルの一部である。

サブピクセルの基本的に一致するベースコール配列を有するクラスターを識別するための検索は、全てのサブピクセルについて検索を行うことができ、任意のサブピクセル（例えば、０，０サブピクセル又は任意のランダムサブピクセル）から開始することができるため、原点サブピクセル（クラスターの予備的な中心座標）の識別から始める必要はない。したがって、各サブピクセルは、実質的に一致するベースコール配列を別の連続サブピクセルと共有するかどうかを判定するために評価されるため、検索は、原点サブピクセルに依存しないため、検索は任意のサブピクセルで開始することができる。

原点サブピクセルが使用されるか否かに関わらず、ベースコーラー１１４によって予測される原点サブピクセル（クラスターの初期中心座標）を含まない特定のクラスターが識別される。サブピクセルベースコールのマージによって識別され、原点サブピクセルを含まないクラスターのいくつかの例は、図８ａのクラスター８１２ａ、８１２ｂ、８１２ｃ、８１２ｄ及び８１２ｅである。したがって、開示される技術は、中心がベースコーラー１１４によって識別されていない場合がある追加の又は余分なクラスターを識別する。したがって、原点サブピクセル（クラスターの初期中心座標）を識別するためのベースコーラー１１４の使用は任意であり、連続するサブピクセルの実質的に一致するベースコール配列を検索するために必須ではない。

一実施態様では、最初に、ベースコーラー１１４によって識別された原点サブピクセル（クラスターの初期中心座標）を使用して、（連続するサブピクセルの実質的に一致するベースコール配列を識別することによって）第１のクラスターセットを識別する。次いで、第１のクラスターセットの一部ではないサブピクセルは、（連続するサブピクセルの実質的に一致するベースコール配列を識別することによって）第２のクラスターセットを識別するために使用される。これにより、中心がベースコーラー１１４によって識別されない追加の又は余分なクラスターを識別するために開示された技術が可能になる。最後に、クラスターの第１及び第２のセットの一部ではないサブピクセルが背景サブピクセルとして識別される。

図８ｂは、サブピクセルベースコールの一例を示す。図８ｂでは、各配列決定サイクルは、４つの異なる波長帯域（画像／撮像チャネル）及び４つの異なる蛍光染料（各塩基について１つ）を使用して捕捉された４つの異なる画像（すなわち、Ａ、Ｃ、Ｔ、Ｇ画像）を有する画像セットを有する。

この例では、画像内のピクセルを１６個のサブピクセルに分割する。次いで、サブピクセルは、ベースコーラー１１４によって各配列決定サイクルで別々にベースコールされる。特定の配列決定サイクルで所与のサブピクセルをベースコールするために、ベースコーラー１１４は、４つのＡ、Ｃ、Ｔ、Ｇ画像のそれぞれにおける所与のサブピクセルの強度を使用する。例えば、サイクル１の４つのＡ、Ｃ、Ｔ、Ｇ画像の各々の各々においてサブピクセル１でカバーされた画像領域の強度を用いて、サイクル１でサブピクセル１をベースコールする。サブピクセル１については、これらの画像領域は、サイクル１の４つのＡ、Ｃ、Ｔ、Ｇ画像のそれぞれにおける左上のピクセルの左上の１／１６領域を含む。同様に、サイクルｎの４つのＡ、Ｃ、Ｔ、Ｇ画像の各々の各々におけるサブピクセルｍでカバーされた画像領域の強度が、サイクルｎでサブピクセルｍをベースコールするために使用される。サブピクセルｍについては、これらの画像領域は、サイクル１の４つのＡ、Ｃ、Ｔ、Ｇ画像の各々におけるそれぞれの右下ピクセルの右下の１／１６領域を含む。

このプロセスは、複数の配列決定サイクルにわたってサブピクセルごとのベースコール配列１１６を生成する。次いで、検索器１１８は、連続するサブピクセルの対を評価して、それらが実質的に一致するベースコール配列を有するかどうかを判定する。はいの場合、一対のサブピクセルは、不連続領域内の同じクラスターに属するように、クラスターマップ８０２内に記憶される。いいえの場合、一対のサブピクセルは、同じ不連続領域に属しないように、クラスターマップ８０２内に記憶される。したがって、クラスターマップ８０２は、サブピクセルに対するベースコールが複数のサイクルにわたって実質的に一致するサブピクセルの連続セットを識別する。クラスターマップ８０２はしたがって、複数のクラスターからの情報を使用して、複数のクラスターを提供し、複数のクラスターの各クラスターは、単一のＤＮＡ鎖の配列データを提供することが高い信頼性を有する複数のクラスターを提供する。

次いで、クラスターメタデータ生成器１２２は、クラスターマップ８０２を処理して、クラスターメタデータを決定することであって、それらの中心（８１０ａ）、形状、サイズ、背景、及び／又は境界を含むクラスターの空間分布を決定することを含む処理を実行する（図９）。

いくつかの実施態様では、クラスターメタデータ生成器１２２は、クラスターマップ８０２内のサブピクセルを、非結合領域のいずれにも属さず、したがって、任意のクラスターに寄与しない、背景として識別する。このようなサブピクセルは、背景サブピクセル８０６ａ～ｃと呼ばれる。

いくつかの実施態様では、クラスターマップ８０２は、ベースコール配列が実質的に一致しない２つの連続するサブピクセル間のクラスター境界部分８０８ａ～ｃを識別する。

クラスターマップは、ニューラルネットワークベースのテンプレート生成器１５１２及びニューラルネットワークベースのベースコーラー１５１４などの分類子を訓練するためのグラウンドトゥルースとして使用するためのメモリ（例えば、クラスターマップデータストア１２０）に記憶される。クラスターメタデータはまた、メモリ（例えば、クラスターメタデータデータストア１２４）内に記憶され得る。

図９は、クラスターの空間分布、クラスターの中心、クラスター形状、クラスターサイズ、クラスター背景、及び／又はクラスター境界と共に、クラスターの空間分布を含むクラスターメタデータを識別するクラスターマップの別の例を示す。
（質量中心（ＣＯＭ））

図１０は、クラスターマップ内の不連続領域の質量中心（ＣＯＭ）がどのように計算されるかを示す。ＣＯＭは、下流処理における対応するクラスターの「修正された」又は「改善された」中心として使用することができる。

いくつかの実施態様では、クラスターごとに、質量中心計算器１００４により、クラスターマップの不連続領域の質量中心を、不連続領域を形成するそれぞれの連続するサブピクセルの座標の平均として計算することによって、クラスターの超配置中心座標１００６を決定する。次いで、分類子を訓練するためのグラウンドトゥルースとして使用するために、クラスター内のメモリ内のクラスターの超位置中心座標をクラスターごとに記憶する。

いくつかの実施態様では、サブピクセル分類部がクラスターごとにクラスターマップ８０２の不連続領域８０４ａ～ｄ内の質量中心サブピクセル１００８をクラスターの超配置中心座標１００６で識別する。

他の別の実施態様では、クラスターマップは、補間を使用してアップサンプリングされる。アップサンプリングされたクラスターマップは、分類子を訓練するためのグラウンドトゥルースとして使用するためにメモリに記憶される。
（減衰係数及び減衰マップ）

図１１は、サブピクセルからサブピクセルが属する不連続領域の質量（ＣＯＭ）の中心までのユークリッド距離に基づくサブピクセルに対する加重減衰係数の計算の一実施態様を示す。図示した別の実施態様では、加重減衰係数は、ＣＯＭを含むサブピクセルに最も高い値を与え、ＣＯＭから更に離れたサブピクセルについて減少する。加重減衰係数は、上述のサブピクセルベースコールから生成されたクラスターマップから、グラウンドトゥルース減衰マップ１２０４を導出するために使用される。グラウンドトゥルース減衰マップ１２０４は、ユニット配列を含み、配列内の各ユニットに少なくとも１つの出力値を割り当てる。いくつかの実施態様では、ユニットはサブピクセルであり、各サブピクセルは、加重減衰係数に基づいて出力値を割り当てられる。次いで、グラウンドトゥルース減衰マップ１２０４は、開示されたニューラルネットワークベースのテンプレート生成器１５１２を訓練するためのグラウンドトゥルースとして使用される。いくつかの実施態様では、グラウンドトゥルース減衰マップ１２０４からの情報もまた、開示されるニューラルネットワークベースのベースコーラー１５１４の入力を調製するためにも使用される。

図１２は、上述のようにサブピクセルベースコールによって生成された例示的なクラスターマップから導出された、例示的なグラウンドトゥルース減衰マップ１２０４の一実施態様を示す。いくつかの実施態様では、クラスターごとにアップサンプリングされたクラスターマップにおいて、隣接するサブピクセルが属する不連続領域内の質量中心サブピクセル１１０４からの隣接するサブピクセルの距離１１０６に比例する減衰係数１１０２に基づいて、不連続領域内の隣接する各サブピクセルに値が割り当てられる。

図１２は、グラウンドトゥルース減衰マップ１２０４を示す。一実施態様では、サブピクセル値は、ゼロと１との間で正規化された強度値である。別の実施態様では、アップサンプリングされたクラスターマップにおいて、背景として識別された全てのサブピクセルに同じ所定の値が割り当てられる。いくつかの実施態様では、所定の値はゼロ強度値である。

いくつかの実施態様では、グラウンドトゥルース減衰マップ１２０４は、不連続領域内の連続するサブピクセル、及びそれらの割り当てられた値に基づいて背景として識別されるサブピクセルを表すアップサンプリングされたクラスターマップから、グラウンドトゥルース減衰マップ生成器１２０２によって生成される。グラウンドトゥルース減衰マップ１２０４は、分類子を訓練するためにグラウンドトゥルースとして使用するためにメモリに記憶される。一実施態様では、グラウンドトゥルース減衰マップ１２０４内の各サブピクセルは、ゼロと１との間で正規化された値を有する。
（三元（３クラス）マップ）

図１３は、クラスターマップからグラウンドトゥルース三元マップ１３０４を導出する一実施態様を示す。グラウンドトゥルース三元マップ１３０４は、ユニット配列を含み、アレイ内の各ユニットに少なくとも１つの出力値を割り当てる。名前によって、グラウンドトゥルース三元マップ１３０４の三元マップ実施態様は、各ユニットについて、第１の出力値が背景クラスの分類ラベル又はスコアに対応するように、アレイ内の各ユニットに３つの出力値を割り当て、第２の出力値は、クラスター中心クラスの分類ラベル又はスコアに対応し、第３の出力値は、クラスター／クラスター内部クラスの分類ラベル又はスコアに対応する。グラウンドトゥルース三元マップ１３０４は、ニューラルネットワークベースのテンプレート生成器１５１２を訓練するためのグラウンドトゥルースデータとして使用される。いくつかの実施態様では、グラウンドトゥルース三元マップ１３０４からの情報もまた、ニューラルネットワークベースのベースコーラー１５１４の入力を調製するために使用される。

図１３は、例示的なグラウンドトゥルース三元マップ１３０４を示す。別の実施態様では、アップサンプリングされたクラスターマップでは、不連続領域内の連続するサブピクセルは、同じクラスターに属するクラスター内部サブピクセルとして、質量中心サブピクセルをクラスター中心サブピクセルとして、及び背景サブピクセルをどのクラスターにも属しないサブピクセルとして、グラウンドトゥルース三元マップ生成器１３０２によってクラスターごとに分類される。いくつかの実施態様では、分類は、グラウンドトゥルース三元マップ１３０４に記憶される。これらの分類及びグラウンドトゥルース三元マップ１３０４は、分類子を訓練するためのグラウンドトゥルースとして使用するためにメモリに記憶される。

他の別の実施態様では、クラスターごとに、クラスター内部サブピクセル、クラスター中心サブピクセル、及び背景サブピクセルの座標は、分類子を訓練するためのグラウンドトゥルースとして使用するためにメモリに記憶される。次いで、クラスターマップをアップサンプリングするために使用される因子によって座標をダウンスケールする。次いで、クラスターごとに、ダウンスケールされた座標は、分類子を訓練するためのグラウンドトゥルースとして使用するためにメモリに記憶される。

更に他の実施態様では、グラウンドトゥルース三元マップ生成器１３０２は、クラスターマップを使用して、アップサンプリングされたクラスターマップから三元グラウンドトゥルースデータ１３０４を生成する。三元グラウンドトゥルースデータ１３０４は、背景クラスに属する背景サブピクセルをラベルし、クラスター中心クラスに属するクラスター中心サブピクセル、及びクラスター内部クラスに属するクラスター内部サブピクセルをラベル付けする。いくつかの可視化の実施態様では、色符号化を使用して、異なるクラスラベルを描写し、区別することができる。三元グラウンドトゥルースデータ１３０４は、分類子を訓練するためにグラウンドトゥルースとして使用するためにメモリに記憶される。
（バイナリ（２クラス）マップ）

図１４は、クラスターマップから、グラウンドトゥルースバイナリマップ１４０４を導出する一実施態様を示す。バイナリマップ１４０４は、ユニット配列を含み、アレイ内の各ユニットに少なくとも１つの出力値を割り当てる。名前によって、バイナリマップは、各ユニットについて、第１の出力値がクラスター中心クラスの分類ラベル又はスコアに対応し、第２の出力値が非中心クラスの分類ラベル又はスコアに対応するように、２つの出力値をアレイ内の各ユニットに割り当てる。バイナリマップは、ニューラルネットワークベースのテンプレート生成器１５１２を訓練するためのグラウンドトゥルースデータとして使用される。いくつかの実施態様では、バイナリマップからの情報もまた、ニューラルネットワークベースのベースコーラー１５１４の入力を準備するために使用される。

図１４は、グラウンドトゥルースバイナリマップ１４０４を示す。グラウンドトゥルースバイナリマップ生成器１４０２は、クラスターマップ１２０を使用して、アップサンプリングされたクラスターマップからバイナリグラウンドトゥルースデータ１４０４を生成する。バイナリグラウンドトゥルースデータ１４０４は、クラスター中心サブピクセルをクラスター中心クラスに属するものとしてラベルし、他の全てのサブピクセルを非中心クラスに属するものとしてラベルする。バイナリグラウンドトゥルースデータ１４０４は、分類子を訓練するためにグラウンドトゥルースとして使用するためにメモリに記憶される。

いくつかの実施態様では、開示される技術は、フローセルの複数のタイルのクラスターマップ１２０を生成し、クラスターマップをメモリに記憶し、それらの形状及びサイズを含むクラスターマップ１２０に基づいて、タイル内のクラスターの空間分布を決定する。次いで、開示された技術は、タイル内のクラスターのアップサンプリングされたクラスターマップ１２０において、クラスターごとにサブピクセルをクラスターごとに分類し、同じクラスターに属するクラスター内部サブピクセル、クラスター中心サブピクセル、及び背景サブピクセルに分類する。次いで、開示された技術は、分類子を訓練するためのグラウンドトゥルースとして使用するためのメモリに分類を記憶し、クラスター内のクラスターごとに、クラスター内部サブピクセルの座標、クラスター中心サブピクセル、及び分類子を訓練するためのグラウンドトゥルースとして使用するためにメモリ内に背景サブピクセルを記憶する。次いで、開示された技術は、クラスターマップをアップサンプリングするために使用される係数によって座標をダウンスケールし、クラスターごとに、分類子を訓練するためのグラウンドトゥルースとして使用するために、メモリ内のダウンスケールされた座標を記憶する。

いくつかの実施態様では、フローセルは、クラスターを占有するウェルのアレイを有する、少なくとも１つのパターン化された表面を有する。そのような実施態様では、クラスターの決定された形状及びサイズに基づいて、開示される技術は、（１）ウェルのうちのどの１つが、少なくとも１つの群によって実質的に占有されているか、（２）ウェルのうちのどの１つが最小限に占有されているか、（３）ウェルのうちのどの１つが複数の集団によって共占有されているか、を特定する。これにより、同じウェル、すなわち、同じウェルを共有する２つ又はそれ以上のクラスターの中心、形状、及びサイズを共占する複数のクラスターのそれぞれのメタデータを決定することが可能になる。

いくつかの実施態様では、サンプルがクラスターに増幅される固体支持体は、パターン化された表面を含む。「パターン化された表面」は、固体支持体の露出層内又はその上の異なる領域の配置を指す。例えば、１つ又はそれ以上の領域は、１つ又はそれ以上の増幅プライマーが存在する特徴であり得る。この特徴は、増幅プライマーが存在しない間質領域によって分離され得る。いくつかの実施態様では、パターンは、行及び列にある特徴のｘ－ｙフォーマットであり得る。いくつかの実施態様では、パターンは、特徴及び／又は間質領域の反復配列であり得る。いくつかの実施態様では、パターンは、特徴及び／又は間質領域のランダム配列であり得る。本明細書に記載される方法及び組成物において使用することができる例示的なパターン化表面は、米国特許第８，７７８，８４９号明細書、米国特許第９，０７９，１４８号明細書、米国特許第８，７７８，８４８号明細書、及び米国特許出願公開第２０１４／０２４３２２４号明細書、に記載されており、それぞれ参照により本明細書に組み込まれる。

いくつかの実施態様では、固体支持体は、表面にウェル又は窪みのアレイを含む。これは、フォトリソグラフィー、スタンピング技術、成形技術、及びマイクロエッチング技術を含むがこれらに限定されない様々な技術を使用して、技術分野において一般的に知られているように製造することができる。技術分野において理解されるように、使用される技術は、アレイ基板の組成及び形状に依存する。

パターン付き表面内の特徴は、ガラス、シリコン、プラスチック、又はポリ（Ｎ－（５－アジドアセトアミルペンチル）アクリルアミド－ｃｏ－アクリルアミド）（ＰＡＺＡＭ、例えば、それぞれ、参照によりその全体が本明細書に組み込まれる米国特許出願公開第２０１３／１８４７９６号明細書、国際公開第２０１６／０６６５８６号及び同第２０１５－００２８１３号を参照されたい）などのパターン化された共有結合ゲルを有する他の好適な固体支持体上のウェル（例えば、マイクロウェル又はナノウェル）配列におけるウェルであってもよい。このプロセスは、配列決定のために使用されるゲルパッドを作成し、これは、多数のサイクルで配列決定動作にわたって安定であり得る。ポリマーをウェルに共有結合することは、様々な用途の間に、構造化基材の寿命全体にわたってゲルを構造化特徴部に維持するのに有用である。しかしながら、多くの実施態様では、ゲルは、ウェルに共有結合される必要はない。例えば、いくつかの条件では、構造化基材の任意の部分に共有結合していない、シラン遊離アクリルアミド（Silane Free Acrylamide、ＳＦＡ）（ＳＦＡ、例えば、参照によりその全体が本明細書に組み込まれる米国特許第８，５６３，４７７号明細書を参照されたい）、をゲル材料として使用することができる。

特定の別の実施態様では、構造化基材は、ウェル（例えば、マイクロウェル又はナノセル）を用いて固体支持材料をパターニングし、パターン化された支持体をゲル材料（例えば、ＰＡＺＡＭ、ＳＦＡ、又はその化学修飾された変異体）でコーティングすることによって作製することができ、ＳＦＡ（アジド－ＳＦＡ）のアジド化バージョンなど、及びゲルコーティングされた支持体を、例えば化学研磨又は機械研磨によって研磨し、それによって、ウェル内にゲルを保持するが、ウェル間の構造化基材の表面上の間隙領域から実質的に全てのゲルを除去又は不活性化する。ゲル材料にプライマー核酸を付着させることができる。次いで、標的核酸（例えば、断片化されたヒトゲノム）の溶液を、個々の標的核酸が、ゲル材料に結合したプライマーとの相互作用を介して個々のウェルを種にするように、研磨された基質と接触させることができるが、標的核酸は、ゲル材料の非活性又は非活性に起因して、介在領域を占有しない。標的核酸の増幅は、介在領域内のゲルの非存在又は非活性が、増殖する核酸コロニーの外向きの移動を防止するため、ウェルに限定されるであろう。プロセスは、好都合に製造可能であり、スケール変更可能であり、マイクロ又はナノ製造方法を利用する。

本明細書で使用するとき、用語「フローセル」は、１つ又はそれ以上の流体試薬を流通させることができる固体表面を含むチャンバを指す。本開示の方法において容易に使用することができるフローセル及び関連する流体システム及び検出プラットフォームの例は、例えば、それぞれ参照により本明細書に組み込まれるＢｅｎｔｌｅｙら、Ｎａｔｕｒｅ４５６：５３－５９（２００８）、国際公開第０４／０１８４９７号、米国特許第７，０５７，０２６号明細書、国際公開第９１／０６６７８号、同第０７／１２３７４４号、米国特許第７，３２９，４９２号明細書、同第７，２１１，４１４号明細書、同第７，３１５，０１９号明細書、同第７，４０５，２８１号明細書、及び同第２００８／０１０８０８２号明細書に記載されている。

本開示全体を通して、増幅プライマーを参照するとき、用語「Ｐ５」及び「Ｐ７」が使用される。本明細書に提示される方法において、任意の好適な増幅プライマーを使用することができ、Ｐ５及びＰ７の使用は例示的な実施のみであることが理解されるであろう。フローセル上でのＰ５及びＰ７などの増幅プライマーの使用は、その全体が参照により本明細書に組み込まれる国際公開第２００７／０１０２５１号、同第２００６／０６４１９９号、同第２００５／０６５８１４号、同第２０１５／１０６９４１号、同第１９９８／０４４１５１号及び同第２０００／０１８９５７号の開示によって例示されるように、技術分野において既知である。例えば、任意の好適な順方向増幅プライマーは、固定化されているか又は溶液中にあるかに関わらず、相補的配列及び配列の増幅のために本明細書に提示される方法において有用であり得る。同様に、任意の好適な逆増幅プライマーは、固定化されているか又は溶液中にあるかに関わらず、相補的配列及び配列の増幅のために本明細書に提示される方法において有用であり得る。当業者であれば、本明細書に提示される核酸の捕捉及び増幅に好適なプライマー配列の設計及び使用方法を理解するであろう。

いくつかの実施態様では、フローセルは、少なくとも１つのパターン化されていない表面を有し、クラスターは、非パターン化表面上で不均一に散乱される。

いくつかの実施態様では、クラスターの密度は、約１００，０００クラスター／ｍｍ^２～約１，０００，０００クラスター／ｍｍ^２の範囲である。他の実施態様では、クラスターの密度は、約１，０００，０００クラスター／ｍｍ^２～約１０，０００，０００クラスター／ｍｍ^２の範囲である。

一実施態様では、ベースコーラーによって決定されたクラスターの予備中心座標は、タイルのテンプレート画像内に定義される。いくつかの実施態様では、画像座標系のピクセル解像度、画像座標系、及び測定スケールは、テンプレート画像及び画像と同じである。

別の実施態様では、開示される技術は、フローセルのタイル上のクラスターに関するメタデータを決定することに関する。最初に、開示された技術は、（１）配列決定動作中に捕捉されたタイルの画像のセット、及び（２）ベースコーラーによって決定されたクラスターの予備中心座標にアクセスする。

次いで、各画像セットについて、本開示の技術は、４つの塩基のうちの１つとして、（１）予備中心座標を含む原点サブピクセルと、（２）原点サブピクセルのそれぞれに連続的に連続している連続するサブピクセルの所定の近傍を取得する。これにより、原点サブピクセルのそれぞれ、及び連続するサブピクセルの所定の近傍のそれぞれに対して、ベースコール配列を生成する。連続するサブピクセルの所定の近傍は、原点サブピクセルを含むサブピクセルを中心とするｍ×ｎサブピクセルパッチとすることができる。一実施態様では、サブピクセルパッチは、３×３サブピクセルである。他の実施態様では、その画像パッチは、５×５、１５×１５、２０×２０などの任意のサイズであり得る。他の実施態様では、連続するサブピクセルの所定の近傍は、原点サブピクセルを含むサブピクセルを中心とするｎ個の接続されたサブピクセル近傍であり得る。

一実施態様では、開示された技術は、非結合領域のいずれにも属しないクラスターマップ内のサブピクセルを背景として識別する。

次に、開示される技術は、隣接するサブピクセルの不連続領域としてクラスターを識別するクラスターマップを生成し、そのクラスターマップは、（ａ）原点サブピクセルのうちの対応する１つの少なくとも一部に連続的に連続しており、（ｂ）４つの塩基のうちの１つの実質的に一致するベースコール配列を、原点サブピクセルのうちの対応する１つの少なくとも一部と共有する。

開示された技術は、次いで、クラスターマップをメモリに記憶し、クラスターマップ内の不連続領域に基づいてクラスターの形状及びサイズを決定する。他の実施態様では、クラスターの中心も決定される。
（テンプレート生成器のための訓練データの生成）

図１５は、ニューラルネットワークベースのテンプレート生成器１５１２及びニューラルネットワークベースのベースコーラー１５１４を訓練するために使用される訓練データを生成する一実施態様を示すブロック図である。

図１６は、ニューラルネットワークベースのテンプレート生成器１５１２及びニューラルネットワークベースのベースコーラー１５１４を訓練するために使用される開示された訓練例の特性を示す。各訓練例はタイルに対応し、対応するグラウンドトゥルースデータ表現でラベル付けされる。いくつかの実施態様では、グラウンドトゥルースデータ表現は、グラウンドトゥルース減衰マップ１２０４、グラウンドトゥルース三元マップ１３０４、又はグラウンドトゥルースバイナリマップ１４０４の形態のグラウンドトゥルースクラスターメタデータを識別するグラウンドトゥルースマスク又はグラウンドトゥルースマップである。いくつかの実施態様では、複数の訓練例は、同じタイルに対応する。

一実施態様では、開示される技術は、ニューラルネットワークベースのテンプレート生成及びベースコールのための訓練データ１５０４を生成することに関する。最初に、開示された技術は、配列決定動作の複数のサイクルにわたって捕捉されたフローセル２０２の多数の画像１０８にアクセスする。フローセル２０２は、複数のタイルを有する。多数の画像１０８において、タイルのそれぞれは、複数のサイクルにわたって生成された一連の画像セットを有する。画像セット１０８の配列内の各画像は、特定の１つのサイクルにおける、タイルの特定の１つのクラスター３０２及びそれらの周囲の背景３０４の強度放射を示す。

次いで、訓練セットコンストラクタ１５０２は、複数の訓練例を有する訓練セット１５０４を構築する。図１６に示されるように、各訓練例は、タイルのうちの特定の１つに対応し、タイルのうちの特定の１つの画像セット１６０２の配列内の少なくとも一部の画像セットからの画像データを含む。一実施態様では、画像データは、タイルのうちの特定の１つの画像セット１６０２の配列内の少なくともいくつかの画像セット内の画像を含む。例えば、画像は、１８００×１８００の解像度を有し得る。他の実施態様形態では、１００×１００、３０００×３０００、１００００×１００００などの任意の解像度であり得る。更に他の実施態様では、画像データは、画像のそれぞれからの少なくとも１つの画像パッチを含む。一実施態様では、画像パッチは、タイルの特定の１つの部分を被覆する。一例では、画像パッチは、２０×２０の解像度を有し得る。他の実施態様形態では、画像パッチは、５０×５０、７０×７０、９０×９０、１００×１００、３０００×３０００、１００００×１００００などの任意の解像度を有することができる。

いくつかの実施態様では、画像データは、画像パッチのアップサンプリングされた表現を含む。アップサンプリングされた表現は、例えば、８０×８０の解像度を有することができる。他の実施例では、アップサンプリングされた表現は、５０×５０、７０×７０、９０×９０、１００×１００、３０００×３０００、１００００×１００００などの任意の解像度を有することができる。

いくつかの実施例では、複数の訓練例は、タイルのうちの同じ特定の１つに対応し、それぞれ、タイルのうちの同じ特定の１つの画像セット１６０２の配列内の少なくとも一部の画像セットのそれぞれの画像から異なる画像パッチをそれぞれ含む。このような実施態様では、異なる画像パッチのうちの少なくとも一部は、互いに重複する。

次いで、グラウンドトゥルース発生器１５０６は、訓練例のそれぞれに対して、少なくとも１つのグラウンドトゥルースデータ表現を生成する。グラウンドトゥルースデータ表現は、クラスターの空間分布、及びクラスターの形状、クラスターサイズ、及び／又はクラスター境界、及び／又はクラスターの中心のうちの少なくとも１つを含む、画像データによって表される、クラスターの空間分布及びそれらの周囲の背景のうちの少なくとも１つを識別する。

一実施態様では、グラウンドトゥルースデータ表現は、隣接するサブピクセルの不連続領域としてクラスターを識別し、クラスターの中心は、不連続領域のうちの対応する領域内の質量サブピクセルの中心としてのクラスターの中心、及びそれらの周囲の背景として、そのクラスターを識別する。

一実施態様では、グラウンドトゥルースデータ表現は、８０×８０のアップサンプリング解像度を有する。他の実施態様では、グラウンドトゥルースデータ表現は、５０×５０、７０×７０、９０×９０、１００×１００、３０００×３０００、１００００×１００００などの任意の解像度を有することができる。

一実施態様では、グラウンドトゥルースデータ表現は、クラスター中心又は非中心であるかのいずれかとして、各サブピクセルを識別する。別の実施態様では、グラウンドトゥルースデータ表現は、クラスター内部、クラスター中心、又は周囲背景であるかのいずれかとして、各サブピクセルを識別する。

いくつかの実施態様では、開示された技術は、ニューラルネットワークベースのテンプレート生成器１５１２及びニューラルネットワークベースのベースコーラー１５１４を訓練するための訓練データ１５０４として、訓練セット１５０４及び関連するグラウンドトゥルースデータ１５０８をメモリ内に記憶する。訓練は、訓練器１５１０によって操作される。

いくつかの実施態様では、開示される技術は、様々なフローセル、配列決定機器、配列決定プロトコル、配列決定ケミストリー、配列決定試薬、及びクラスター密度に関する訓練データを生成する。
（ニューラルネットワークベースのテンプレート生成器）

推測又は製造の実施態様において、開示される技術は、クラスターメタデータを決定するためにピーク検出及び分割を使用する。本開示の技術は、入力画像データ１７０２の代替表現１７０８を生成するために、ニューラルネットワーク１７０６を介して一連の画像セット１６０２から導出された入力画像データ１７０２を処理する。例えば、画像セットは特定の配列決定サイクル用であり、各画像チャネルＡ、Ｃ、Ｔ、及びＧに１つずつ、合計４つの画像を含めることができる。したがって、５０回の配列決定サイクルを有する配列決定動作の場合、そのような画像セットは５０個、つまり合計２００個の画像になる。時間的に配置されると、画像セット当たり４つの画像セットを有する画像セットが一連の画像セット１６０２を形成する。いくつかの実施態様では、特定のサイズの画像パッチが、５０枚の画像セット内の各画像から抽出され、画像パッチセット当たり４つの画像パッチセットを形成し、一実施態様では、これは入力画像データ１７０２である。他の実装態様では、入力画像データ１７０２は、５０回の配列決定サイクル未満、すなわち、１回、２回、３回、１５回、２０回の配列決定サイクルよりも少ない画像パッチセットに対して、画像パッチセットごとに４つの画像パッチを有する画像パッチセットを含む。

図１７は、ニューラルネットワークベースのテンプレート生成器１５１２を介して入力画像データ１７０２を処理し、アレイ内の各ユニットの出力値を生成する一実施態様を示す。一実施態様では、アレイは減衰マップ１７１６である。別の実施態様では、アレイは三元マップ１７１８である。更に別の実施態様では、アレイはバイナリマップ１７２０である。したがって、アレイは、入力画像データ１７０２内に表される複数の場所のそれぞれの１つ又はそれ以上の特性を表し得る。

グラウンドトゥルース減衰マップ１２０４、グラウンドトゥルース三元マップ１３０４、及びグラウンドトゥルースバイナリマップ１４０４を含む、先の図の構造を使用してテンプレート生成器を訓練することとは異なり、減衰マップ１７１６、三元マップ１７１８及び／又はバイナリマップ１７２０は、訓練されたニューラルネットワークベースのテンプレート生成器１５１２の前方伝搬によって生成される。前方伝搬は、訓練中又は推測中であり得る。訓練中、逆方向伝搬ベースの勾配更新により、減衰マップ１７１６、三元マップ１７１８及びバイナリマップ１７２０（すなわち、累積的に出力１７１４）は、グラウンドトゥルース減衰マップ１２０４、グラウンドトゥルース三元マップ１３０４、及びグラウンドトゥルースバイナリマップ１４０４にそれぞれ漸進的に一致又は接近する。

推測中に分析される画像アレイのサイズは、一実施態様によれば、入力画像データ１７０２のサイズに依存する（例えば、同じ又はアップスケールされた又はダウンスケールされたバージョンである）。各ユニットは、ピクセル、サブピクセル、又はスーパーピクセルを表すことができる。アレイの単位ごとの出力値は、減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０を特徴付ける／表す／示すことができる。いくつかの実施態様では、入力画像データ１７０２はまた、ピクセル解像度、サブピクセル解像度、又はスーパーピクセル解像度のユニット配列である。そのような別の実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２は、入力アレイ内の各ユニットの出力値を生成するために、意味的セグメンテーション技術を使用する。入力画像データ１７０２に関する更なる詳細は、図２１ｂ、２２、２３，及び２４及びそれらの考察において見出すことができる。

いくつかの実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２は、参照により本明細書に組み込まれる、Ｊ．Ｌｏｎｇ，Ｅ．Ｓｈｅｌｈａｍｅｒ，ａｎｄＴ．Ｄａｒｒｅｌｌ、「Ｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ」、ＣＶＰＲ、（２０１５）に記載されているものなどの完全な畳み込みネットワークである。他の実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２は、ｈｔｔｐ：／／ｌｉｎｋ．ｓｐｒｉｎｇｅｒ．ｃｏｍ／ｃｈａｐｔｅｒ／１０．１００７／９７８－３－３１９－２４５７４－４＿２８で入手可能であり、参照により本明細書に組み込まれる、ＲｏｎｎｅｂｅｒｇｅｒＯ，ＦｉｓｃｈｅｒＰ，ＢｒｏｘＴ．，「Ｕ－ｎｅｔ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｂｉｏｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ」Ｍｅｄ．ＩｍａｇｅＣｏｍｐｕｔ．Ｃｏｍｐｕｔ．Ａｓｓｉｓｔ．Ｉｎｔｅｒｖ．（２０１５）に記載されているものなど、デコーダとエンコーダとの間のデコーダとエンコーダとの間のスキップ接続を有するＵ－Ｎｅｔネットワークである。Ｕ－Ｎｅｔ構造は、以下の２つの主要なサブ構造を有する自動エンコーダに似ている。１）入力画像を取り込み、複数の畳み込み層を介してその空間解像度を低減して、符号化を生成するエンコーダと、を備える、システム。２）出力として再構成された画像を生成するために、空間解像度を符号化し、増大させる表現をとるデコーダ。Ｕ－Ｎｅｔは、この構造に２つの革新を導入する：最初に、目的関数は、損失関数を使用して分割マスクを再構成するように設定され、第２に、エンコーダの畳み込み層は、スキップ接続を使用して、デコーダ内の同じ解像度の対応する層に接続される。更に更なる実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２は、エンコーダサブネットワーク及び対応するデコーダネットワークを有する深層完全畳み込み分割ニューラルネットワークである。そのような別の実施態様では、エンコーダサブネットワークはエンコーダの階層を含み、デコーダサブネットワークは、低解像度エンコーダ特徴マップを完全入力解像度特徴マップにマッピングするデコーダの階層を含む。分割ネットワークに関する更なる詳細は、「ＳｅｇｍｅｎｔａｔｉｏｎＮｅｔｗｏｒｋｓ」と題された付録に見出すことができる。

一実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２は、畳み込みニューラルネットワークである。別の実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２は、反復ニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２は、残留ボック及び残留接続を有する残留ニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２は、畳み込みニューラルネットワークと反復ニューラルネットワークとの組み合わせである。

ニューラルネットワークベースのテンプレート生成器１５１２（すなわち、ニューラルネットワーク１７０６及び／又は出力層１７１０）は、様々なパディング及びストリディング構成を使用することができることを理解するであろう。それは、異なる出力機能（例えば、分類又は回帰）を使用することができ、１つ又はそれ以上の完全に接続された層を含んでも含まなくてもよい。それは、１Ｄ重畳、２Ｄ重畳、３Ｄ重畳、４Ｄ重畳、５Ｄ重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、１×１重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、及び逆重畳を使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はゲート反復ユニット（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、ＧＲＵ）など）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（Rectifying Linear Unit、ＲｅＬＵ）、漏れやすいＲｅＬＵ，指数関数的ライナーユニット（Exponential Liner Unit、ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。

いくつかの実施態様では、画像セット１６０２の配列内の各画像はタイルを覆い、タイル上のクラスターの強度放射を示し、フローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の撮像チャネルのために捕捉された、それらの周囲の背景を示す。一実施態様では、入力画像データ１７０２は、画像セット１６０２の配列内の画像のそれぞれからの少なくとも１つの画像パッチを含む。このような別の実施態様では、画像パッチはタイルの一部を覆う。一例では、画像パッチは、２０×２０の解像度を有する。他の場合には、画像パッチの解像度は、２０×２０から１００００×１００００の範囲であり得る。別の実施態様では、入力画像データ１７０２は、画像セット１６０２の配列内の画像のそれぞれからの画像パッチのアップサンプリングされたサブピクセル解像度表現を含む。一実施例では、アップサンプリングされたサブピクセル表現は、８０×８０の解像度を有する。他の場合には、アップサンプリングされたサブピクセル表現の解像度は、８０×８０から１００００×１００００の範囲であり得る。

入力画像データ１７０２は、クラスター及びそれらの周囲背景を描写する単位１７０４のアレイを有する。例えば、画像セットは特定の配列決定サイクル用であり、各画像チャネルＡ、Ｃ、Ｔ、及びＧに１つずつ、合計４つの画像を含めることができる。したがって、５０回の配列決定サイクルを有する配列決定動作の場合、そのような画像セットは５０個、つまり合計２００個の画像になる。時間的に配置されると、画像セット当たり４つの画像セットを有する画像セットが一連の画像セット１６０２を形成する。いくつかの実施態様では、特定のサイズの画像パッチが、５０枚の画像セット内の各画像から抽出され、画像パッチセット当たり４つの画像パッチセットを形成し、一実施態様では、これは入力画像データ１７０２である。他の実施例では、入力画像データ１７０２は、５０回の配列決定サイクル未満、すなわち、１回、２回、３回、１５回、２０回の配列決定サイクルよりも少ない画像パッチごと画像パッチセットを有する画像パッチセットを含む。代替表現は、特徴マップである。特徴マップは、ニューラルネットワークが畳み込みニューラルネットワークである場合、畳み込み特徴又は畳み込み表現であり得る。特徴マップは、ニューラルネットワークが反復ニューラルネットワークであるとき、隠れた状態特徴又は隠れた状態表現であり得る。

次に、開示された技術は、出力層１７１０を介して代替表現１７０８を処理して、アレイ１７０４内の各ユニットに対する出力値１７１２を有する出力１７１４を生成する。出力層は、単位ごとの出力値を生成するソフトマックス又はシグモイドなどの分類層であり得る。一実施態様では、出力層は、単位ごとの出力値を生成するＲｅＬＵ層又は任意の他の起動機能層である。

一実施態様では、入力画像データ１７０２内のユニットはピクセルであり、したがって、出力１７１４においてピクセルごとの出力値１７１２が生成される。別の実施態様では、入力画像データ１７０２内の単位はサブピクセルであり、したがって、サブピクセルごとの出力値１７１２が出力部１７１４において生成される。更に別の実施態様では、入力画像データ１７０２内のユニットはスーパーピクセルであり、したがってスーパーピクセルごとの出力値１７１２が出力部１７１４において生成される。
（減衰マップ、三元マップ及び／又はバイナリマップからのクラスターメタデータの導出）

図１８は、クラスター中心、クラスター形状、クラスターサイズ、クラスター背景、及び／又はクラスター境界を含むクラスターメタデータを導出するために、ニューラルネットワークベースのテンプレート生成器１５１２によって生成された減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０に適用される後処理技術の一実施態様を示す。いくつかの実施態様では、後処理技術は、閾値保持器１８０２、ピークロケータ１８０６、及びセグメント化器１８１０を更に含むポストプロセッサ１８１４によって適用される。

閾値化器１８０２への入力は、開示されるニューラルネットワークベースのテンプレート生成器などのテンプレート生成器１５１２によって生成される、減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０である。一実施態様では、閾値化器１８０２は、減衰マップ、三元マップ、又はバイナリマップ内の値に閾値を適用して、背景ユニット１８０４（すなわち、非クラスター背景を特徴付けるサブピクセル）、及び非背景ユニットを識別する。別の言い方をすれば、出力１７１４が生成されると、閾値化器１８０２は、ユニット１７１２の出力値に閾値を適用し、クラスターの周囲の背景を描写する「背景ユニット」１８０４及びクラスターに属する可能性のあるユニットを表す「非背景ユニット」。としてユニット１７１２の第１のサブセットを分類するか、又は再分類することができる。閾値化器１８０２によって適用される閾値は、予め設定され得る。

ピークロケータ１８０６への入力はまた、ニューラルネットワークベースのテンプレート生成器１５１２によって生成される、減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０である。一実施態様では、ピークロケータ１８０６は、減衰マップ１７１６内の値のピーク検出を、三元マップ１７１８、又はバイナリマップ１７２０に適用して、中心ユニット１８０８（すなわち、クラスター中心を特徴付ける中心サブピクセル）を識別する。言い換えれば、ピークロケータ１８０６は、出力１７１４内のユニット１７１２の出力値を処理し、クラスターの中心を含む「中心ユニット」１８０８としてユニット１７１２の第２のサブセットを分類する。いくつかの実施態様では、ピークロケータ１８０６によって検出されるクラスターの中心もまた、クラスターの質量中心である。次いで、中心ユニット１８０８は、セグメント化器１８１０に提供される。ピークロケータ１８０６に関する更なる詳細は、「ピーク検出」と題された付録に見出すことができる。

閾値及びピーク検出は、並行して、又は他方の後に行うことができる。すなわち、それらは互いに依存しない。

セグメント化器１８１０への入力はまた、ニューラルネットワークベースのテンプレート生成器１５１２によって生成される、減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０でもある。セグメント化器１８１０への追加の補足入力は、閾値化器１８０２によって識別された閾値化ユニット（背景、非背景）１８０４と、ピークロケータ１８０６によって識別された中心ユニット１８０８とを含む。セグメント化器１８１０は、背景、非背景１８０４、及び中心ユニット１８０８を使用して、不連続領域１８１２（すなわち、クラスターを特徴付ける隣接するクラスター／クラスター内部サブピクセルの非重複グループ）を識別する。言い換えれば、セグメント化器１８１０は、出力１７１４内のユニット１７１２の出力値を処理し、背景ユニット１８０４によって分離され、中心ユニット１８０８を中心とする連続ユニットの非重複領域としてクラスターの形状１８１２を決定するために、背景及び非背景ユニット１８０４、並びに中心ユニット１８０８を使用する。セグメント化器１８１０の出力は、クラスターメタデータ１８１２である。クラスターメタデータ１８１２は、クラスター中心、クラスター形状、クラスターサイズ、クラスター背景、及び／又はクラスター境界を識別する。

一実施態様では、セグメント化器１８１０は、中心ユニット１８０８から始まり、各中心ユニットに関して、質量中心が中心ユニットに含まれる同じクラスターを示す連続的に連続するユニット群を決定する。一実施態様では、セグメント化器１８１０は、いわゆる「流域」セグメント化技術を使用して、連続するクラスターを、強度の谷で複数の隣接するクラスターに細分化する。流域分割技術及び他の分割技術に関する更なる詳細は、「ＷａｔｅｒｓｈｅｄＳｅｇｍｅｎｔａｔｉｏｎ」と題された付録に見出すことができる。

一実施態様では、出力１７１４内のユニット１７１２の出力値は、グラウンドトゥルース減衰マップ１２０４内で符号化されたものなどの連続値である。別の実施態様では、出力値は、グラウンドトゥルース三元マップ１３０４及びグラウンドトゥルースバイナリマップ１４０４にコードされているものなどのソフトマックススコアである。一実施態様に係るグラウンドトゥルース減衰マップ１２０４では、非重複領域のうちの対応する領域内の連続単位は、隣接するユニットが属する非重複領域内の中心ユニットからの連続ユニットの距離に従って重み付けされた出力値を有する。そのような実施態様では、中心ユニットは、非重複領域のうちのそれぞれの領域内で最も高い出力値を有する。上述したように、訓練中、後方伝搬ベースの勾配更新により、減衰マップ１７１６、三元マップ１７１８及びバイナリマップ１７２０（すなわち、累積的に出力１７１４）は、グラウンドトゥルース減衰マップ１２０４のグラウンドトゥルース三元マップ１３０４とグラウンドトゥルースバイナリマップ１４０４とをそれぞれ漸進的に一致又は接近させる。
（ピクセルドメイン－規則的なクラスター形状からの強度抽出）

ここで説明は、開示された技術によって決定されたクラスター形状を、クラスターの強度を抽出するために使用することができるかについて説明する。クラスターは典型的に不規則な形状及び輪郭を有するため、開示される技術は、どのサブピクセルがクラスター形状を表す不規則な形状の不連続領域に寄与するかを識別するために使用することができる。

図１９は、ピクセルドメイン内のクラスター強度を抽出する一実施態様を示す。「テンプレート画像」又は「テンプレート」は、減衰マップ１７１６、三元マップ１７１８及び／又はバイナリマップ１７１８に由来するクラスターメタデータ１８１２を含むか、又は識別するデータ構造を指すことができる。クラスターメタデータ１８１２は、クラスター中心、クラスター形状、クラスターサイズ、クラスター背景、及び／又はクラスター境界を識別する。

いくつかの実施態様では、テンプレート画像は、アップサンプリングされたサブピクセルドメイン内にあり、クラスター境界を微細化レベルで区別する。しかしながら、クラスター及び背景強度データを含む配列決定画像１０８は、典型的には、ピクセルドメイン内にある。したがって、開示される技術は、アップサンプリングされたサブピクセル解像度内のテンプレート画像に符号化されたクラスター形状情報を使用して、光学的なピクセル解像度配列決定画像から不規則形状のクラスターの強度を抽出する２つの手法を提案している。図１９に示される第１のアプローチでは、テンプレート画像内で識別された連続するサブピクセルの非重複グループは、ピクセル解像度配列決定画像内に位置し、それらの強度は補間によって抽出される。この強度抽出技術に関する更なる詳細は、図３３及びその考察において見出すことができる。

一実施態様では、非重複領域が不規則な輪郭を有し、ユニットがサブピクセルである場合、所与のクラスターのクラスター強度１９１２は、以下のように強度抽出器１９０２によって決定される。

まず、サブピクセルロケータ１９０４は、所与のクラスターの形状を識別する隣接するサブピクセルの対応する非重複領域に基づいて、所与のクラスターのクラスター強度に寄与するサブピクセルを識別する。

次に、サブピクセルロケータ１９０４は、現在の配列決定サイクルで１つ又はそれ以上の撮像チャネルに対して生成された１つ又はそれ以上の光学ピクセル解像度画像１９１８内に識別されたサブピクセルを位置させる。一実施態様では、整数又は非整数座標（例えば、フローティングポイント）は、サブピクセルドメインを作成するために使用されるアップサンプリング係数に一致するダウンスケール係数に基づいてダウンスケールした後に、光学解像度画像、ピクセル解像度画像内に位置する。

次いで、処理された画像内の識別されたサブピクセルの補間器及びサブピクセル強度結合器１９０６は、補間強度を組み合わせ、組み合わされた補間強度を正規化して、画像のそれぞれにおける所与のクラスターのための画像ごとのクラスター強度を生成する。正規化は、正規化器１９０８によって実行され、正規化係数に基づく。一実施態様では、正規化係数は、識別されたサブピクセルの数である。これは、フローセル上のそれらの場所に応じてクラスターが受信する異なるクラスターサイズ及び不均一な照明を正規化／考慮するために行われる。

最後に、クロスチャネルサブピクセル強度累算器１９１０は、画像のそれぞれに関する画像ごとのクラスター強度を組み合わせて、現在の配列決定サイクルにおいて所与のクラスターのクラスター強度１９１２を決定する。

次いで、所与のクラスターは、本出願で論じられたベースコールのうちのいずれか１つによって現在の配列決定サイクルでクラスター強度１９１２に基づいてベースコールされ、ベースコール１９１６を生成する。

しかしながら、いくつかの実施態様では、クラスターサイズが十分に大きいとき、ニューラルネットワークベースのベースコーラー１５１４、すなわち、減衰マップ１７１６、三元マップ１７１８及びバイナリマップ１７２０の出力は、光学的ピクセルドメイン内にある。したがって、このような実施態様形態では、テンプレート画像はまた、光ピクセルドメイン内にある。
（サブピクセルドメイン－規則的なクラスター形状からの強度抽出）

図２０は、サブピクセルドメイン内のクラスター強度を抽出する第２のアプローチを示す。この第２のアプローチでは、光学的に配列決定画像、ピクセル解像度をサブピクセル解像度にアップサンプリングする。これにより、テンプレート画像内の「サブピクセルを描くクラスター形状」と、アップサンプリングされた配列決定画像における「サブピクセルを示すクラスター強度」との対応をもたらす。次いで、クラスター強度は、対応に基づいて抽出される。この強度抽出技術に関する更なる詳細は、図３３及びその考察において見出すことができる。

一実施態様では、非重複領域が不規則な輪郭を有し、ユニットがサブピクセルである場合、所与のクラスターのクラスター強度２０１２は、以下のように強度抽出器２００２によって決定される。

まず、サブピクセルロケータ２００４は、所与のクラスターの形状を識別する隣接するサブピクセルの対応する非重複領域に基づいて、所与のクラスターのクラスター強度に寄与するサブピクセルを識別する。

次いで、サブピクセルロケータ２００４は、現在の配列決定サイクルで１つ又はそれ以上の撮像チャネルのために生成された対応する光学的なピクセル解像度画像１９１８からアップサンプリングされた１つ又はそれ以上のサブピクセル解像度画像２０１８内に、識別されたサブピクセルを位置させる。アップサンプリングは、最近傍強度抽出、ガウス系強度抽出、平均２×２サブピクセル面積に基づく強度抽出、２×２サブピクセル面積の最も明るい試験に基づく強度抽出、平均３×３サブピクセル領域、バイリニア強度抽出、双次強度抽出、及び／又は加重領域被覆に基づく強度抽出により実行され得る。これらの技術は、「強度抽出方法」と題された付録に詳細に記載されている。テンプレート画像は、いくつかの実施態様では、強度抽出のためのマスクとして機能することができる。

次いで、アップサンプリングされた画像のそれぞれにおけるサブピクセル強度結合器２００６は、識別されたサブピクセルの強度を組み合わせ、組み合わされた強度を正規化して、アップサンプリングされた画像のそれぞれにおける所与のクラスターのための画像ごとのクラスター強度を生成する。正規化は、正規化器２００８によって実行され、正規化係数に基づく。一実施態様では、正規化係数は、識別されたサブピクセルの数である。これは、フローセル上のそれらの場所に応じてクラスターが受信する異なるクラスターサイズ及び不均一な照明を正規化／考慮するために行われる。

最後に、クロスチャネルサブピクセル強度累算器２０１０は、アップサンプリングされた画像のそれぞれについて、画像ごとのクラスター強度を組み合わせて、現在の配列決定サイクルにおいて所与のクラスターのクラスター強度２０１２を決定する。

次いで、所与のクラスターは、本出願で論じられたベースコールのうちのいずれか１つによって現在の配列決定サイクルでクラスター強度２０１２に基づいてベースコールされ、ベースコール２０１６を生成する。
（ニューラルネットワークベースのテンプレート生成器の種類）

ここでの考察は、ニューラルネットワークベースのテンプレート生成器１５１２の３つの異なる実施態様の詳細を説明する。図２１ａに示されており、（１）減衰マップベースのテンプレート生成器２６００（回帰モデルとも呼ばれる）、（２）バイナリマップベーステンプレート生成器４６００（バイナリ分類モデルとも呼ばれる）、及び（３）三元マップベースのテンプレート生成器５４００（三元分類モデルとも呼ばれる）と、を含む。

一実施態様では、回帰モデル２６００は完全な畳み込みネットワークである。別の実施態様では、回帰モデル２６００は、デコーダとエンコーダとの間のスキップ接続を有するＵ－Ｎｅｔネットワークである。一実施態様では、バイナリ分類モデル４６００は、完全な畳み込みネットワークである。別の実施態様では、バイナリ分類モデル４６００は、デコーダとエンコーダとの間のスキップ接続を有するＵ－Ｎｅｔネットワークである。一実施態様では、三元分類モデル５４００は完全な畳み込みネットワークである。別の実施態様では、三元分類モデル５４００は、デコーダとエンコーダとの間のスキップ接続を有するＵ－Ｎｅｔネットワークである。
（入力画像データ）

図２１ｂは、ニューラルネットワークベースのテンプレート生成器１５１２への入力として供給される入力画像データ１７０２の一実施態様を示す。入力画像データ１７０２は、配列決定動作（例えば、最初の２～７回の配列決定サイクル）の特定の数の初期配列決定サイクルの間に生成される配列決定画像１０８を有する一連の画像セット２１００を含む。

いくつかの実施態様では、配列決定画像１０８の強度は、背景について補正され、及び／又は親和性変換を用いて互いに整列される。一実施態様では、配列決定動作は４つのチャネル化学を利用し、各画像セットは４つの画像を有する。別の実施態様では、配列決定動作は２チャネル化学を利用し、各画像セットは２つの画像を有する。更に別の実施態様では、配列決定動作は、１チャネル化学を利用し、各画像セットは２つの画像を有する。更に他の実施態様では、各画像セットは１つの画像のみを有する。これら及び他の異なる実施態様は、付録６及び９に記載されている。

一連の画像セット２１００内の各画像２１１６は、フローセル２１０２のタイル２１０４を覆い、タイル２１０４上のクラスター２１０６の強度放射、及び配列決定動作の複数の配列決定サイクルのうちの特定の１つで特定の画像チャネルのために捕捉されたそれらの周囲の背景を示す。一実施例では、サイクルｔ１に関して、画像セットは、対応する蛍光染料で標識化され、対応する波長帯（画像／撮像チャネル）で撮像された各塩基Ａ、Ｃ、Ｔ、及びＧ用の１つの画像を含む、４つの画像２１１２Ａ、２１１２Ｃ、２１１２Ｔ、２１１２Ｇを含む。

例示目的のために、画像２１１２Ｇでは、図２１ｂは、２１０８としてのクラスター強度放射及び２１１０としての背景強度放射を示す。別の実施例では、サイクルｔｎに関して、画像セットはまた、対応する蛍光染料で標識化され、対応する波長帯（画像／撮像チャネル）で撮像された各塩基Ａ、Ｃ、Ｔ、及びＧ用の１つの画像を含む、４つの画像２１１４Ａ、２１１４Ｃ、２１１４Ｔ、２１１４Ｇを含む。また、例示目的のために、画像２１１４Ａにおいて、図２１ｂは、２１１８としてクラスター強度放射を示し、画像２１１４Ｔでは、背景強度放射を２１２０として示す。
（非画像データ）

入力画像データ１７０２は、強度チャネル（撮像チャネルとも呼ばれる）を使用して符号化される。特定の配列決定サイクルのためにシーケンサから取得されたｃ画像のそれぞれについて、別個の画像化チャネルを使用して、その強度信号データを符号化する。例えば、配列決定動作が、各配列決定サイクルにおいて赤色画像及び緑色画像を生成する２チャネル化学を使用すると考える。そのような場合、入力データ２６３２は、（ｉ）赤色画像内に捕捉された１つ又はそれ以上のクラスター及びそれらの周囲の背景の強度放射を示す、ｗ×ｈピクセルを有する第１の赤色画像化チャネルと、（ｉｉ）１つ又はそれ以上のクラスターの強度放射及び緑色画像内に捕捉されたそれらの周囲背景の強度放射を示す、ｗ×ｈピクセルを有する第２の緑色画像化チャネルと、を含む。

別の実施態様では、画像データは、ニューラルネットワークベースのテンプレート生成器１５１２又はニューラルネットワークベースのベースコーラー１５１４への入力として使用されない。その代わりに、ニューラルネットワークベースのテンプレート生成器１５１２及びニューラルネットワークベースのベースコーラー１５１４への入力は、分子延長中の水素イオンの放出によって誘発されるｐＨ変化に基づく。ｐＨ変化は検出され、組み込まれた塩基の数に比例する電圧変化に変換される（例えば、ＩｏｎＴｏｒｒｅｎｔの場合）。

更に別の実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２及びニューラルネットワークベースのベースコーラー１５１４への入力は、塩基の同一性を決定しながら、バイオセンサーを使用して、検体がナノ細孔を通過するとき、又はその開口部付近を通過する際に、電流の破壊を測定するためにバイオセンサーを使用するナノ細孔検知から構築される。例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ（ＯＮＴ）配列決定は、以下の概念に基づく：ナノ細孔を介して膜を介してＤＮＡ（又はＲＮＡ）の単一鎖を通過させ、膜にわたって電位差を印加する。細孔内に存在するヌクレオチドは、細孔の電気抵抗に影響を及ぼし、そのため、経時的な電流測定は、細孔を通過するＤＮＡ塩基の配列を示すことができる。この電流信号（プロットされたときにその外観に起因する「押しつぶし」）は、ＯＮＴシーケンサによって収集された生データである。これらの測定値は、４ｋＨｚ周波数（例えば）で取られた１６ビットの整数データ取得（Data Acquisition、ＤＡＣ）値として記憶される。１秒当たり～４５０塩基対のＤＮＡ鎖速度を用いて、これは、平均して、塩基当たり約９つの生観察を与える。次いで、この信号を処理して、個々の読み取りに対応する開孔信号の破断を識別する。これらの生信号の伸長は、ベースコールされ、ＤＡＣ値をＤＮＡ塩基の配列に変換するプロセスである。いくつかの実施態様では、入力データ２６３２は、正規化又はスケーリングされたＤＡＣ値を含む。
（パッチ抽出）

図２２は、入力画像データ１７０２を形成する一連の「ダウンサイズの」画像セットを生成するために、図２１ｂの一連の画像セット２１００からパッチを抽出する一実施態様を示す。図示の別の実施態様では、一連の画像セット２１００内の配列決定画像１０８は、サイズＬ×Ｌ（例えば、２０００×２０００）である。他の実施態様では、Ｌは、１から１０，０００の範囲の任意の数である。

一実施態様では、パッチ抽出器２２０２は、一連の画像セット２１００内の配列決定画像１０８からパッチを抽出し、一連のダウンサイズの画像セット２２０６、２２０８、２２１０及び２２１２を生成する。一連のダウンサイズ画像セット内の各画像は、一連の画像セット２１００内の対応する配列決定画像から抽出されるサイズＭｘＭ（例えば、２０ｘ２０）のパッチである。パッチのサイズは予め設定することができる。他の別の実施態様では、Ｍは１～１０００の範囲の任意の数である。

図２２では、４つの例示的な一連のダウンサイズ画像セットが示されている。第１の例示的な一連のダウンサイズ画像セット２２０６は、一連の画像セット２１００内の配列決定画像１０８内の座標０，０～２０，２０から抽出される。第２の例示的な一連のダウンサイズ画像セット２２０８は、一連の画像セット２１００内の配列決定画像１０８内の座標２０，２０～４０，４０から抽出される。第３の例示的な一連のダウンサイズ画像セット２２１０は、一連の画像セット２１００内の配列決定画像１０８内の座標４０，４０～６０，６０から抽出される。第４の例示的な一連のダウンサイズ画像セット２２１２は、一連の画像セット２１００内の配列決定画像１０８内の座標６０，６０～８０，８０から抽出される。

いくつかの実施態様では、一連のダウンサイズの画像セットは、ニューラルネットワークベースのテンプレート生成器１５１２に入力として供給される入力画像データ１７０２を形成する。複数の一連のダウンサイズの画像セットを入力バッチとして同時に供給することができ、入力バッチ内の各シリーズに対して別個の出力を生成することができる。
（アップサンプリング）

図２３は、入力画像データ１７０２を形成する一連の「アップサンプリング」画像セット２３００を生成するために、図２１ｂの一連の画像セット２１００をアップサンプリングする一実施態様を示す。

一実施態様では、アップサンプラー２３０２は、一連の画像セット２１００内の配列決定画像１０８をアップサンプリング係数（例えば、４ｘ）及び一連のアップサンプリングされた画像セット２３００によってアップサンプリングする。

図示の別の実施態様では、一連の画像セット２１００内の配列決定画像１０８は、サイズＬ×Ｌ（例えば、２０００×２０００）であり、アップサンプリング係数４によってアップサンプリングされて、一連のアップサンプリングされた画像セット２３００内のサイズＵ×Ｕ（例えば、８０００×８０００）のアップサンプリングされた画像を生成する。

一実施態様では、一連の画像セット２１００内の配列決定画像１０８は、ニューラルネットワークベースのテンプレート生成器１５１２に直接供給され、アップサンプリングは、ニューラルネットワークベースのテンプレート生成器１５１２の初期層によって実行される。すなわち、アップサンプラー２３０２は、ニューラルネットワークベースのテンプレート生成器１５１２の一部であり、一連の画像セット２１００内の配列決定画像１０８をアップサンプリングし、一連のアップサンプリングされた画像セット２３００を生成する第１の層として動作する。

いくつかの実施態様では、一連のアップサンプリングされた画像セット２３００は、ニューラルネットワークベースのテンプレート生成器１５１２に入力として供給される入力画像データ１７０２を形成する。

図２４は、図２３の一連のアップサンプリングされた画像セット２３００からパッチを抽出して、入力画像データ１７０２を形成する一連の「アップサンプリング及びダウンサイズの」画像セット２４０６、２４０８、２４１０及び２４１２を生成する一実施態様を示す。

一実施態様では、パッチ抽出器２２０２は、一連のアップサンプリングされた画像セット２３００内のアップサンプリングされた画像からパッチを抽出し、一連のアップサンプリングされた画像セット２４０６、２４０８、２４１０及びダウンサイズの画像セット２４１２を生成する。一連のアップサンプリングされた画像セット及びダウンサイズの画像セット内のそれぞれのアップサンプリングされた画像は、一連のアップサンプリングされた画像セット２３００内の対応するアップサンプリングされた画像から抽出されるサイズＭ×Ｍ（例えば、８０×８０）のパッチである。パッチのサイズは予め設定することができる。他の別の実施態様では、Ｍは１～１０００の範囲の任意の数である。

図２４では、アップサンプリングされた及び小型化された画像セットの４つの例示的な一連が示されている。アップサンプリングされ、ダウンサイズの画像セット２４０６の第１の例の一連は、一連のアップサンプリングされた画像セット２３００内のアップサンプリングされた画像内の座標０，０～８０，８０から抽出される。アップサンプリングされ、ダウンサイズの画像セット２４０８の第２の例示的な一連は、一連のアップサンプリングされた画像セット２３００内のアップサンプリングされた画像内の座標８０，８０～１６０，１６０から抽出される。アップサンプリングされ、ダウンサイズされた画像セット２４１０の第３の一連の例は、一連のアップサンプリングされた画像セット２３００内のアップサンプリングされた画像内の座標１６０，１６０～２４０，２４０から抽出される。アップサンプリングされ、ダウンサイズされた画像セット２４１２の第４の一連の例は、一連のアップサンプリングされた画像セット２３００内のアップサンプリングされた画像内の座標２４０，２４０～３２０，３２０から抽出される。

いくつかの実施態様では、一連のアップサンプリング及びダウンサイズの画像セットは、ニューラルネットワークベースのテンプレート生成器１５１２に入力として供給される入力画像データ１７０２を形成する。複数の一連のアップサンプリングされた画像セット及びダウンサイズの画像セットは、入力バッチとして同時に供給され得、入力バッチ内の各シリーズに対して別個の出力を生成することができる。
（出力）

３つのモデルは、異なる出力を生成するように訓練される。これは、異なるタイプのグラウンドトゥルースデータ表現を訓練ラベルとして使用することによって達成される。回帰モデル２６００は、いわゆる「減衰マップ」１７１６を特徴付ける／表す出力を生成するように訓練される。バイナリ分類モデル４６００は、いわゆる「バイナリマップ」１７２０を特徴付ける／表す／表す出力を生成するよう訓練される。三元分類モデル５４００は、いわゆる「三元マップ」１７１８を特徴付ける／表す出力を生成するように訓練される。

各タイプのモデルの出力１７１４は、ユニット配列１７１２を含む。ユニット１７１２は、ピクセル、サブピクセル、又はスーパーピクセルであり得る。各タイプのモデルの出力は、ユニット配列の出力値が、回帰モデル２６００の場合の減衰マップ１７１６と、バイナリ分類モデル４６００の場合のバイナリマップ１７２０と、三元分類モデル５４００の場合の三元マップ１７１８とを一緒に特徴付ける／表す／表すように、ユニットごとの出力値を含む。以下の詳細がある。
（グラウンドトゥルースデータ生成）

図２５は、ニューラルネットワークベースのテンプレート生成器１５１２を訓練するためのグラウンドトゥルースデータを生成する、全体的な例示的プロセスの一実施態様を示す。回帰モデル２６００に関して、グラウンドトゥルースデータは、減衰マップ１２０４とすることができる。バイナリ分類モデル４６００では、グラウンドトゥルースデータは、バイナリマップ１４０４であり得る。三元分類モデル５４００では、グラウンドトゥルースデータは三元マップ１３０４とすることができる。グラウンドトゥルースデータは、クラスターメタデータから生成される。クラスターメタデータは、クラスターメタデータ生成器１２２によって生成される。グラウンドトゥルースデータは、グラウンドトゥルースデータ生成器１５０６によって生成される。

図示の別の実施態様では、グラウンドトゥルースデータは、フローセルＡのレーンＡ上にあるタイルＡのために生成される。グラウンドトゥルースデータは、配列決定動作Ａ中に捕捉されたタイルＡの配列決定画像１０８から生成される。タイルＡの配列決定画像１０８は、ピクセル領域にある。配列決定サイクルごとに４つの配列決定画像を生成する４チャネル化学を伴う一例では、５０個の配列決定サイクルのための２００個の配列決定画像１０８がアクセスされる。２００個の配列決定画像１０８のそれぞれは、特定の配列決定サイクルで特定の画像チャネル内に捕捉されたタイルＡ及びそれらの周囲の背景上のクラスターの強度放射を示す。

サブピクセルアドレス指定器１１０は、配列決定画像１０８をサブピクセルドメインに変換し（例えば、各ピクセルを複数のサブピクセルに分割することによって）サブピクセルドメインに変換し、サブピクセルドメイン内に配列決定画像１１２を生成する。

次いで、ベースコーラー１１４（例えば、ＲＴＡ）は、サブピクセルドメイン内の配列決定画像１１２を処理し、各サブピクセル及び５０個の配列決定サイクルのそれぞれについて、ベースコールを生成する。これは、本明細書では「サブピクセルベースコール」と称される。

次いで、サブピクセルベースコール１１６をマージして、各サブピクセルに対して、５０回の配列決定サイクルにわたってベースコール配列を生成する。各サブピクセルのベースコール配列は、５０個のベースコール、すなわち、５０個の配列決定サイクルのそれぞれに対する１つのベースコールを有する。

検索器１１８は、ペアワイズベースで連続するサブピクセルのベースコール配列を評価する。検索は、それぞれのサブピクセルを評価して、その連続するサブピクセルのうちのどのサブピクセルを、実質的に一致するベースコール配列を共有することを含む。ベースコールの所定の部分が、序数の位置ごとの基準（例えば、＞＝４５サイクルにおける４１一致、＜＝４５サイクルにおける４不一致、＜＝５０サイクルにおける４不一致、又は＜＝３４サイクルにおける２不一致）と一致するとき、連続するサブピクセルのベースコール配列は、「実質的に一致する」。

いくつかの実施態様では、ベースコーラー１１４はまた、クラスターの予備中心座標を識別する。予備中心座標を含むサブピクセルは、中心又は原点サブピクセルと呼ばれる。ベースコーラー１１４及び対応する原点サブピクセル（６０６ａ～ｃ）によって識別されたいくつかの例示的な予備中心座標（６０４ａ～ｃ）が図６に示されている。しかしながら、以下に説明するように、原点サブピクセル（クラスターの予備中心座標）の識別は必要ではない。いくつかの実施態様では、検索器１１８は、原点サブピクセル６０６ａ～ｃから始まり連続的に連続する非原点サブピクセル７０２ａ～ｃを継続して、サブピクセルの実質的に一致するベースコール配列を識別するための、第１の検索を使用する。これは、以下に説明するように、任意選択的である。

サブピクセルの基本的に一致するベースコール配列の検索は、全てのサブピクセルについて検索を行うことができ、その検索は、原点サブピクセルから開始する必要がなく、その代わりに、任意のサブピクセル（例えば、０，０サブピクセル又は任意のランダムサブピクセル）から開始することができないため、原点サブピクセル（クラスターの初期中心座標）の識別を必要としない。したがって、各サブピクセルは、実質的に一致するベースコール配列を別の連続サブピクセルと共有するかどうかを判定するために評価されるため、検索は、原点サブピクセルを利用する必要はなく、任意のサブピクセルで開始することができる。

原点サブピクセルが使用されるか否かに関わらず、ベースコーラー１１４によって予測される原点サブピクセル（クラスターの初期中心座標）を含まない特定のクラスターが識別される。サブピクセルベースコールのマージによって識別され、原点サブピクセルを含まないクラスターのいくつかの例は、図８ａのクラスター８１２ａ、８１２ｂ、８１２ｃ、８１２ｄ及び８１２ｅである。したがって、原点サブピクセル（クラスターの初期中心座標）を識別するためのベースコーラー１１４の使用は任意であり、サブピクセルの実質的に一致するベースコール配列の検索には必須ではない。

検索器１１８：（１）いわゆる「不連続領域」として、実質的に一致するベースコール配列を有する連続するサブピクセルを識別し、（２）更に、（１）で既に識別されている非接合領域のいずれにも属しない、これらのサブピクセルのベースコール配列を更に評価し、追加の不連続領域を取得し、（３）次に、（１）及び（２）で既に識別されている不連続領域のいずれにも属しないサブピクセルとして背景サブピクセルを識別する。アクション（２）は、中心がベースコーラー１１４によって識別されない追加又は追加のクラスターを識別するために開示された技術を可能にする。

検索器１１８の結果は、タイルＡのいわゆる「クラスターマップ」で符号化され、クラスターマップデータストア１２０内に記憶される。クラスターマップでは、タイルＡ上のクラスターのそれぞれは、隣接するサブピクセルのそれぞれの不連続領域によって識別され、背景サブピクセルは、分離された領域を分離して、タイルＡ上の周囲の背景を識別する。

質量中心（ＣＯＭ）計算機１００４は、不連続領域を形成するそれぞれの連続するサブピクセルの座標の平均として、不連続領域のそれぞれのＣＯＭを計算することによって、タイルＡ上のクラスターのそれぞれの中心を決定する。クラスターの質量中心は、ＣＯＭデータ２５０２として記憶される。

サブピクセル分類部２５０４は、クラスターマップ及びＣＯＭデータ２５０２を使用してサブピクセル分類２５０６を生成する。サブピクセル分類２５０６は、（１）背景サブピクセル、（２）ＣＯＭサブピクセル（それぞれの不連続領域のＣＯＭを含む各不連続領域に関する１つのＣＯＭサブピクセル）、及び（３）それぞれの不連続領域を形成するクラスター／クラスター内部サブピクセルと、を分類する。すなわち、クラスターマップ内の各サブピクセルには、３つのカテゴリのうちの１つが割り当てられる。

一部の実施態様におけるサブピクセル分類２５０６に基づいて、（ｉ）グラウンドトゥルース減衰マップ１２０４は、グラウンドトゥルース減衰マップ生成器１２０２によって生成され、（ｉｉ）グラウンドトゥルースバイナリマップ１３０４は、グラウンドトゥルースバイナリマップ生成器１３０２によって生成され、（ｉｉｉ）グラウンドトゥルース三元マップ１４０４は、グラウンドトゥルース三元マップ生成器１４０２によって生成される。
１．（回帰モデル）

図２６は、回帰モデル２６００の一実施例を示す。図示の別の実施態様では、回帰モデル２６００は、入力画像データ１７０２をエンコーダサブネットワーク及び対応するデコーダサブネットワークを介して処理する完全畳み込みネットワーク２６０２である。エンコーダサブネットワークは、エンコーダの階層を含む。デコーダサブネットワークは、低解像度のエンコーダ機能マップを完全入力解像度減衰マップ１７１６にマッピングするデコーダの階層を含む。別の実施態様では、回帰モデル２６００は、デコーダとエンコーダとの間のスキップ接続を有するＵ－Ｎｅｔネットワーク２６０４である。分割ネットワークに関する更なる詳細は、「ＳｅｇｍｅｎｔａｔｉｏｎＮｅｔｗｏｒｋｓ」と題された付録に見出すことができる。
（減衰マップ）

図２７は、クラスターマップ２７０２からのグラウンドトゥルース減衰マップ１２０４を生成する一実施態様を示す。グラウンドトゥルース減衰マップ１２０４は、回帰モデル２６００を訓練するためのグラウンドトゥルースデータとして使用される。グラウンドトゥルース減衰マップ１２０４では、グラウンドトゥルース減衰マップ生成器１２０２は、加重減衰係数に基づいて、各隣接するサブピクセルに加重減衰値を割り当てる。重み付け減衰値は、隣接するサブピクセルが属する不連続領域内の質量（ＣＯＭ）サブピクセルの中心からの隣接するサブピクセルのユークリッド距離に比例し、これにより、重み付き減衰値は、ＣＯＭサブピクセルに対して最も高く（例えば、１又は１００）、ＣＯＭサブピクセルから更に離れたサブピクセルについて減少する。いくつかの実施態様では、加重減衰値は、１００などの事前設定された係数で乗算される。

更に、グラウンドトゥルース減衰マップ生成器１２０２は、全ての背景サブピクセルに同じ事前決定値（例えば、最小の背景値）を割り当てる。

グラウンドトゥルース減衰マップ１２０４は、割り当てられた値に基づいて、不連続領域及び背景サブピクセル内の連続するサブピクセルを表している。グラウンドトゥルース減衰マップ１２０４はまた、割り当てられた値をユニット配列に記憶し、アレイ内の各ユニットは、入力内の対応するサブピクセルを表す。
（訓練）

図２８は、訓練２８００中の訓練出力として回帰モデル２６００によって生成された減衰マップ１７１６が地面のグラウンドトゥルース減衰マップ１２０４に漸進的に接近又は適合するまで回帰モデル２６００のパラメータを修正する、逆伝搬ベースの勾配更新技術を使用した回帰モデル２６００の訓練２８００の一実施である。

訓練２８００は、減衰マップ１７１６とグラウンドトゥルース減衰マップ１２０４との間の誤差２８０６を最小化し、誤差２８０６に基づいて回帰モデル２６００のパラメータを更新することを反復的に最適化することを含む。一実施態様では、損失関数は平均二乗誤差であり、減衰マップ１７１６及びグラウンドトゥルース減衰マップ１２０４における対応するサブピクセルの加重減衰値の間のサブピクセルごとに最小化される。

訓練２８００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬２８０８及び後方伝搬２８１０を含む。訓練データ１５０４は、入力画像データ１７０２として、一連のアップサンプリング及びダウンサイズの画像セットを含む。訓練データ１５０４は、アノテーター２８０６によって、グラウンドトゥルースラベルで注釈付けされる。訓練２８００は、アダムなどの確率的勾配更新アルゴリズムを使用して、訓練器１５１０によって操作可能である。
（推測）

図２９は、推測２９００中の推測出力として回帰モデル２６００によって減衰マップ１７１６が生成される推測２９００の間の回帰モデル２６００によるテンプレート生成の一実施態様である。減衰マップ１７１６の一例は、「Ｒｅｇｒｅｓｓｉｏｎ＿Ｍｏｄｅｌ＿Ｏｕｐｕｔ」という名称の付録に開示されている。付録は、減衰マップ１７１６を共に表す単位加重減衰出力値２９１０を含む。

推測２９００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬２９０４を含む。推測２９００は、入力画像データ１７０２として、一連のアップサンプリングされた画像セット及びダウンサイズの画像セットを含む推測データ２９０８に対して実行される。推測２９００は、テスタ２９０６によって動作可能である。
（流域分離）

図３０は、減衰マップ１７１６を（ｉ）クラスター背景を特徴付ける背景サブピクセルを識別するように閾値化することと、（ｉｉ）クラスター中心を特徴付ける中心サブピクセルを識別するピーク検出と、を含む。閾値保持は、２値化された出力を生成するために、局所閾値バイナリを使用する閾値保持器１８０２によって実行される。ピーク検出は、クラスター中心を識別するためにピークロケータ１８０６によって実行される。ピークロケータに関する更なる詳細は、「ピーク検出」と題された付録に見出すことができる。

図３１は、背景サブピクセル及びそれぞれ閾値化器１８０２によって識別される中心サブピクセルを入力として取り、ピークロケータ１８０６が、隣接するクラスター間の強度の谷部を見つけ、クラスターを特徴付ける隣接するクラスター／クラスター内部サブピクセルの非重複グループを出力する、流域分割技術の一実施態様を示す。撥水分割技術に関する更なる詳細は、「ＷａｔｅｒｓｈｅｄＳｅｇｍｅｎｔａｔｉｏｎ」と題された付録に見出すことができる。

一実施態様では、流域分割３１０２は、入力（１）減衰マップ１７１６、（２）の無効化された出力値１８０２、及び（３）ピークロケータ１８０６によって識別されたクラスター中心を入力（１）マイナス出力値２９１０として取り込む。次いで、入力に基づいて、流域分割３１０２は出力部３１０４を生成する。出力３１０４では、各クラスター中心は、クラスター中心に属するサブピクセルの固有のセット／グループとして識別される（サブピクセルがバイナリ出力で「１」である限り、すなわち、背景サブピクセルではない）として識別される。更に、クラスターは、少なくとも４つのサブピクセルを含むことに基づいてフィルタリングされる。流域分割３１０２は、セグメント化器１８１０の一部であり得、セグメント化器１８１０は、次いで、ポストプロセッサ１８１４の一部である。
（ネットワーク構造）

図３２は、回帰モデル２６００の例示的なＵ－Ｎｅｔ構造を、回帰モデル２６００の層の詳細、層の出力の次元性、モデルパラメータの大きさ、及び層間の相互接続の詳細を示す表である。同様の詳細は、本願に付録として提出された「Ｒｅｇｒｅｓｓｉｏｎ＿Ｍｏｄｅｌ＿Ｅｘａｍｐｌｅ＿Ａｒｃｈｉｔｅｃｔｕｒｅ」と題されたファイルに開示されている。
（クラスター強度抽出）

図３３は、テンプレート画像内で識別されたクラスター形状情報を使用してクラスター強度を抽出する異なるアプローチを示す。上述のように、テンプレート画像は、アップサンプリングされたサブピクセル解像度内のクラスター形状情報を識別する。しかしながら、クラスター強度情報は、典型的には光学解像度である配列決定画像１０８にある。

第１の手法によれば、サブピクセルの座標は、配列決定画像１０８内に位置し、それらのそれぞれの強度は、双線形補間を使用して抽出され、クラスターに寄与するサブピクセルのカウントに基づいて正規化される。

第２の手法は、ピクセルに寄与するサブピクセルの数に従ってピクセルの強度を変調するために、重み付けエリアカバー技術を使用する。ここでも、変調ピクセル強度は、サブピクセルカウントパラメータによって正規化される。

第３の手法は、二次補間を使用して、配列決定画像をサブピクセルドメインにアップサンプルし、クラスターに属するアップサンプリングされたピクセルの強度を合計し、クラスターに属するアップサンプリングされたピクセルのカウントに基づいて合計された強度を正規化する。
（実験結果及び考察）

図３４は、回帰モデル２６００の出力を使用したベースコールの異なるアプローチを示す。第１のアプローチでは、テンプレート画像内のニューラルネットワークベースのテンプレート生成器１５１２の出力から識別されたクラスター中心は、ベースコールのためのベースコール用のベースコーラー（例えば、本明細書では「ＲＴＡベースコール」と称されるＩｌｌｕｍｉｎａ’ｓＴｉｍｅＡｎａｌｙｓｉｓソフトウェア）に供給される。

第２のアプローチでは、クラスターの中心の代わりに、テンプレート画像内のクラスター形状情報に基づいて、配列決定画像から抽出されたクラスター強度は、ベースコールのために、ＲＴＡベースコーラーに供給される。

図３５は、クラスター中心として非ＣＯＭ位置を使用することとは対照的に、ＲＴＡベースコールがクラスター中心として質量（ＣＯＭ）位置のグラウンドトゥルース中心を使用するときのベースコール性能の差を示す。結果は、ＣＯＭを使用してベースコールを改善することを示す。
（モデル出力の実施例）

図３６は、回帰モデル２６００によって生成された例示的な減衰マップ１７１６を左に示す。図３６はまた、右側に、回帰モデル２６００が訓練中に近似する、例示的なグラウンドトゥルース減衰マップ１２０４を示す。

減衰マップ１７１６及びグラウンドトゥルース減衰マップ１２０４の両方は、隣接するサブピクセルの不連続領域としてクラスターを描写し、クラスターの中心は、不連続領域のうちの対応する領域の質量中心で中心サブピクセルとしてのクラスターの中心、及びそれらの周囲の背景としてのクラスターを示す。

また、不連続領域のうちの対応する領域内の連続するサブピクセルは、隣接するサブピクセルが属する不連続領域内の中心サブピクセルからの連続サブピクセルの距離に応じて重み付けされた値を有する。一実施態様では、中心サブピクセルは、不連続領域のうちの対応する領域内で最も高い値を有する。一実施態様では、背景サブピクセルは全て、減衰マップ内で同じ最小の背景値を有する。

図３７は、ピーク３７０２を検出することによって、減衰マップ内のクラスター中心を識別するピークロケータ１８０６の一実施態様を示す。ピークロケータに関する更なる詳細は、「ピーク検出」と題された付録に見出すことができる。

図３８は、回帰モデル２６００によって生成された減衰マップ１７１６内のピークロケータ１８０６によって検出されたピークを、対応するグラウンドトゥルース減衰マップ１２０４内のピークと比較する。赤色マーカーは、クラスター中心として回帰モデル２６００によって予測されるピークであり、緑色マーカーは、クラスターの塊のグラウンドトゥルース中心である。
（更なる実験結果及び考察）

図３９は、精度及び再較正統計を使用した回帰モデル２６００の性能を示す。精度及び再較正統計は、回帰モデル２６００が、全ての識別されたクラスター中心を回復するのに良好であることを実証する。

図４０は、２０ｐＭのライブラリ濃度（通常動作）に対する、ＲＴＡベースコーラーを用いた回帰モデル２６００の性能を比較する。ＲＴＡベースコーラーを実行することで、回帰モデル２６００は、より高いクラスター密度環境（すなわち、９８８，８８４クラスター）内の３４、３２３（４．４６％）のクラスターを識別する。

図４０はまた、チェスチティフィルタ（「％ＰＦ」（パスフィルタ））を通過するクラスターの数、位置合わせされたリードの数（「配列された％」）、重複するリードの数（「％」）、「複製」）、参照配列に位置合わせされた全てのリード（「％不一致」）、品質スコア３０及び上記（「％Ｑ３０塩基」）と呼ばれる塩基などについて、参照配列を一致させないリードの数などの他の配列決定メトリックの結果を示す。

図４１は、３０ｐＭライブラリ濃度（高密度動作）に関する、ＲＴＡベースコーラーを用いた回帰モデル２６００の性能を比較する。ＲＴＡベースコーラーを実行することで、回帰モデル２６００は、３４、３２３（６．２７％）より多くのクラスターを、遙かに高いクラスター密度環境（すなわち、１，３５１，５８８クラスター）で識別する。

図４１はまた、チェスチティフィルタ（「％ＰＦ」（パスフィルタ））を通過するクラスターの数、位置合わせされたリードの数（「配列された％」）、重複するリードの数（「％」）、「複製」）、参照配列に位置合わせされた全てのリード（「％不一致」）、品質スコア３０及び上記（「％Ｑ３０塩基」）と呼ばれる塩基などについて、参照配列を一致させないリードの数などの他の配列決定メトリックの結果を示す。

図４２は、非重複（固有又は重複複製）の適切な読み取り対の数、すなわち、両方の読み取りが、回帰モデル２６００によって検出された妥当な距離内で内側に位置合わせされた対のリードの数と、ＲＴＡベースコーラーによって検出されたものと比較したものである。比較は、２０ｐＭの通常動作及び３０ｐＭの高密度動作の両方で行われる。

より重要なことに、図４２は、開示されたニューラルネットワークベースのテンプレート生成器が、テンプレート生成に対する入力のより少ない配列決定サイクルにおいて、より多くのクラスターを検出することができることを示す。ただ４回の配列決定サイクルでは、回帰モデル２６００は、２０ｐＭの通常動作中のＲＴＡベースコーラーよりも、１１％多く重複していない適切な読み取り対を識別し、３０ｐＭの高密度動作中のＲＴＡベースコーラーよりも３３％多く重複していない適切な読み取り対を識別する。７回の配列決定サイクルでは、回帰モデル２６００は、２０ｐＭの通常動作中のＲＴＡベースコーラーよりも、４．５％多く重複していない適切な読み取り対を識別し、３０ｐＭの高密度動作中のＲＴＡベースコーラーよりも６．３％多く重複していない適切な読み取り対を識別する。

図４３は、回帰モデル２６００によって生成された第１の減衰マップを右側に示す。第１の減衰マップは、クラスターの形状、クラスターサイズ、及びクラスター中心を示すそれらの空間分布と共に、２０ｐＭの通常動作中に撮像されたクラスター及びそれらの周囲の背景を識別する。

左側では、図４３は、回帰モデル２６００によって生成された第２の減衰マップを示す。第２減衰マップは、３０ｐＭ高密度動作中に撮像されたクラスター及びそれらの周囲の背景を、クラスター形状、クラスターサイズ、及びクラスター中心を示すそれらの空間分布と共に識別する。

図４４は、４０ｐＭのライブラリ濃度（高密度動作）について、ＲＴＡベースコーラーを用いた回帰モデル２６００の性能を比較する。回帰モデル２６００は、遥かに高いクラスター密度環境（すなわち、１，５０９，３９５クラスター）において、ＲＴＡベースコーラーよりも８９，４４１，６８８のより整列した塩基を生成した。

図４４はまた、チェスチティフィルタ（「％ＰＦ」（パスフィルタ））を通過するクラスターの数、位置合わせされたリードの数（「配列された％」）、重複するリードの数（「％」）、「複製」）、参照配列に位置合わせされた全てのリード（「％不一致」）、品質スコア３０及び上記（「％Ｑ３０塩基」）と呼ばれる塩基などについて参照配列を不一致させるリードの数などの他の配列決定メトリックの結果を示す。
（モデル出力の更なる実施例）

図４５は、回帰モデル２６００によって生成された第１の減衰マップを左に示す。第１の減衰マップは、４０ｐＭの通常動作中に画像化されたクラスター及びそれらの周囲の背景を、クラスター形状、クラスターサイズ、及びクラスター中心を示すそれらの空間分布と共に識別する。

右上では、図４５は、閾値及び第１の減衰マップに適用されたピーク位置の結果を示して、それぞれのクラスターを互いから及び背景から区別し、それらのそれぞれのクラスター中心を識別する結果を示す。いくつかの実施態様では、それぞれのクラスターの強度が識別され、不整合率を低減するために適用されるシャーシフィルタ（又は通過フィルタ）が特定される。
２．（バイナリ分類モデル）

図４６は、バイナリ分類モデル４６００の一実施例を示す。図示の別の実施態様では、バイナリ分類モデル４６００は、入力画像データ１７０２をエンコーダサブネットワーク及び対応するデコーダサブネットワークを介して処理する、ディープフル畳み込みセグメンテーションニューラルネットワークである。エンコーダサブネットワークは、エンコーダの階層を含む。デコーダサブネットワークは、低解像度のエンコーダ特徴部マップを完全入力解像度バイナリマップ１７２０にマッピングするデコーダの階層を含む。別の実施態様では、バイナリ分類モデル４６００は、デコーダとエンコーダとの間のスキップ接続を有するＵ－Ｎｅｔネットワークである。分割ネットワークに関する更なる詳細は、「ＳｅｇｍｅｎｔａｔｉｏｎＮｅｔｗｏｒｋｓ」と題された付録に見出すことができる。
（バイナリマップ）

バイナリ分類モデル４６００の最終出力層は、出力アレイ内の単位ごとに分類ラベルを生成する単位ごとの分類層である。いくつかの実施態様では、単位ごと区分層は、２つのクラスにわたってバイナリマップ１７２０内の各サブピクセルについて、ソフトマックス分類スコア分布を生成するサブピクセルごとの分類層であり、すなわち、クラスター中心クラス及び非クラスタークラス、及び所与のサブピクセルの分類ラベルは、対応するソフトマックス分類スコア分布から決定される。

他の別の実施態様では、単位ごとの分類層は、単位の活性化が、単位が第１のクラスに属する確率として解釈されるように、バイナリマップ１７２０内の各サブピクセルについてのシグモイド分類スコアを生成するサブピクセルごとの分類層であり、逆に、１つからの１つのマイナスは、第２のクラスに属する確率を与える。

バイナリマップ１７２０は、予測される分類スコアに基づいて、各サブピクセルを表している。バイナリマップ１７２０はまた、ユニット配列内に予測値分類スコアを記憶し、アレイ内の各ユニットは、入力内の対応するサブピクセルを表す。
（訓練）

図４７は、バイナリ分類モデル４６００のバイナリマップ１７２０が、グラウンドトゥルースバイナリマップ１４０４に漸進的に接近又は一致するまで、バイナリ分類モデル４６００のパラメータを修正する逆伝搬ベースの勾配更新技術を使用したバイナリ分類モデル４６００の訓練４７００の一実施態様である。

図示した実施態様では、バイナリ分類モデル４６００の最終出力層は、ソフトマックスベースのサブピクセルごとの分類層である。ソフトマックス別の実施態様では、グラウンドトゥルースバイナリマップ生成器１４０２は、（ｉ）クラスター中心値対（例えば、［１、０］）又は（ｉｉ）非中心値対（例えば、［０、１］）のいずれかの各グラウンドトゥルースサブピクセルを割り当てる。

クラスター中心値対［１、０］において、第１の値［１］はクラスター中心クラスラベルを表し、第２の値［０］は、非中心クラスラベルを表す。非中心値対［０，１］において、第１の値［０］はクラスター中心クラスラベルを表し、第２の値［１］は、非中心クラスラベルを表す。

グラウンドトゥルースバイナリマップ１４０４は、割り当てられた値対／値に基づいて、各サブピクセルを表している。グラウンドトゥルースバイナリマップ１４０４はまた、割り当てられた値対／値をユニット配列に記憶し、アレイ内の各ユニットは、入力内の対応するサブピクセルを表す。

訓練は、バイナリマップ１７２０とグラウンドトゥルースバイナリマップ１４０４との間の誤差４７０６（例えば、ソフトマックス誤差）を最小化する損失関数を反復的に最適化することと、誤差４７０６に基づいてバイナリ分類モデル４６００のパラメータを更新することと、を含む。

一実施態様では、損失関数は、カスタム重み付け二値クロスエントロピー損失であり、エラー４７０６は、図４７に示されるように、予測される分類スコア（例えば、ソフトマックススコア）と標識されたクラススコア（例えば、ソフトマックススコア）との間のサブピクセルごとに最小化され、バイナリマップ１７２０及びグラウンドトゥルースバイナリマップ１４０４内の対応するサブピクセルの標識されたクラススコア（例えば、ソフトマックススコア）との間で最小化される。

カスタム加重損失関数は、ＣＯＭサブピクセルが誤分類されるたびに、褒賞（又はペナルティ）マトリックスで指定された対応する褒賞（又はペナルティ）重みを乗じて、ＣＯＭサブピクセルに、より多くの重みを与える。カスタム加重損失関数に関する更なる詳細は、「Ｃｕｓｔｏｍ－ＷｅｉｇｈｔｅｄＬｏｓｓＦｕｎｃｔｉｏｎ」と題された付録に見出すことができる。

訓練４７００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬４７０８及び後方伝搬４７１０を含む。訓練データ１５０４は、入力画像データ１７０２として、一連のアップサンプリング及びダウンサイズの画像セットを含む。訓練データ１５０４は、アノテーター２８０６によって、グラウンドトゥルースラベルで注釈付けされる。訓練２８００は、アダムなどの確率的勾配更新アルゴリズムを使用して、訓練器１５１０によって操作可能である。

図４８は、バイナリ分類モデル４６００の最終出力層がシグモイドベースのサブピクセルごとの分類層である、バイナリ分類モデル４６００の訓練４８００の別の実施態様である。

シグモイド別の実施態様では、グラウンドトゥルースバイナリマップ生成器１３０２は、（ｉ）クラスター中心値（例えば、［１］）又は（ｉｉ）非中心値（例えば、［０］）のいずれかの各グラウンドトゥルースサブピクセルを割り当てる。ＣＯＭサブピクセルには、クラスター中心値ペア／値が割り当てられ、他の全てのサブピクセルには、非中心値対／値が割り当てられる。

クラスター中心値では、０～１の間の閾値中間値（例えば、０．５を超える値）の値は、中心クラスラベルを表す。非中心値では、０～１の閾値中間値（例えば、０．５未満の値）を下回る値は、非中心クラスラベルを表す。

訓練は、バイナリマップ１７２０とグラウンドトゥルースバイナリマップ１４０４との間の誤差４８０６（例えば、シグモイド誤差）を最小化する損失関数を反復的に最適化することと、誤差４８０６に基づいてバイナリ分類モデル４６００のパラメータを更新することと、を含む。

一実施態様では、損失関数は、カスタム重み付け二値クロスエントロピー損失であり、誤差４８０６は、図４８に示されるように、バイナリマップ１７２０及びグラウンドトゥルースバイナリマップ１４０４内の対応するサブピクセルの予測スコア（例えば、シグモイドスコア）との間のサブピクセルごとに最小化され、図４８に示されるように、二値マップ１７２０及びグラウンドトゥルースバイナリマップ１４０４における対応するサブピクセルの標識されたスコア（例えば、シグモイドスコア）で最小化される。

訓練４８００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬４８０８及び後方伝搬４８１０を含む。訓練データ１５０４は、入力画像データ１７０２として、一連のアップサンプリング及びダウンサイズの画像セットを含む。訓練データ１５０４は、アノテーター２８０６によって、グラウンドトゥルースラベルで注釈付けされる。訓練２８００は、アダムなどの確率的勾配更新アルゴリズムを使用して、訓練器１５１０によって操作可能である。

図４９は、バイナリ分類モデル４６００に供給された入力画像データ１７０２、及びバイナリ分類モデル４６００を訓練するために使用される対応するクラスラベル４９０４の別の実施を示す。

図示の別の実施態様では、入力画像データ１７０２は、一連でアップサンプリングされ、ダウンサイズの画像セット４９０２を含む。クラスラベル４９０４は、２つのクラスを含む。（１）「クラスター中心なし」及び（２）「クラスター中心」は、異なる出力値を使用して区別される。すなわち、（１）光緑色単位／サブピクセル４９０６は、クラスター中心を含まないバイナリ分類モデル４６００によって予測されるサブピクセルを表し、（２）暗緑色サブピクセル４９０８は、クラスター中心を含むとバイナリ分類モデル４６００によって予測される単位／サブピクセルを表す。
（推測）

図５０は、推測５０００中の推測出力としてバイナリマップ１７２０がバイナリ分類モデル４６００によって生成される推測５０００の間のバイナリ分類モデル４６００によるテンプレート生成の一実施態様である。バイナリマップ１７２０の一例は、バイナリマップ１７２０を一緒に表す単位ごとのバイナリ分類スコア５０１０を含む。ソフトマックスアプリケーションでは、バイナリマップ１７２０は、非中心クラスの単位ごとの分類スコアの第１のアレイ５００２ａと、クラスター中心クラスの単位ごとの分類スコアの第２のアレイ５００２ｂとを有する。

推測５０００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬５００４を含む。推測５０００は、入力画像データ１７０２として、一連のアップサンプリングされた画像セット及びダウンサイズの画像セットを含む推測データ２９０８に対して実行される。推測５０００は、テスタ２９０６によって動作可能である。

いくつかの実施態様では、バイナリマップ１７２０は、クラスターメタデータを生成するために、閾値保持、ピーク検出、及び／又はウォータージェット分割などの、上述の後処理技術に供される。
（ピーク検出）

図５１は、クラスター中心を識別するために、バイナリマップ１７２０をピーク検出に供する一実施態様を示す。上述のように、バイナリマップ１７２０は、予測された分類スコアに基づいて各サブピクセルを分類するユニット配列であり、アレイ内の各ユニットは、入力内の対応するサブピクセルを表す。分類スコアは、ソフトマックススコア又はシグモイドスコアであり得る。

ソフトマックス用途では、バイナリマップ１７２０は、２つのアレイを含む。（１）非中心クラスの単位ごとの分類スコアの第１のアレイ５００２ａと、（２）クラスター中心クラスの単位ごとの分類スコアの第２のアレイ５００２ｂと、を含む。アレイの両方において、各ユニットは、入力内の対応するサブピクセルを表す。

入力内のどのサブピクセルがクラスター中心を含み、クラスター中心を含まないかを判定するために、ピークロケータ１８０６は、バイナリマップ１７２０内のユニット上にピーク検出を適用する。ピーク検出は、事前設定された閾値を上回る分類スコア（例えば、ソフトマックス／シグモイドスコア）を有する単位を識別する。識別されたユニットは、クラスター中心として推測され、入力内のそれらの対応するサブピクセルは、クラスター中心を含み、サブピクセル分類データストア５１０２内のクラスター中心サブピクセルとして記憶されると判定される。ピークロケータ１８０６に関する更なる詳細は、「ピーク検出」と題された付録に見出すことができる。

入力内の残りのユニット及びそれらの対応するサブピクセルは、クラスター中心を含まず、サブピクセル分類データストア５１０２内の非中心サブピクセルとして記憶される。

いくつかの実施態様では、ピーク検出を適用する前に、特定の背景閾値（例えば、０．３）を下回る分類スコアを有するユニットは、ゼロに設定される。いくつかの実施態様では、入力内のそのようなユニット及びそれらの対応するサブピクセルは、クラスターを取り囲む背景を示すように推測され、サブピクセル分類データストア５１０２内の背景サブピクセルとして記憶される。他の実施態様では、このようなユニットは、ノイズと見なされ、無視することができる。
（モデル出力の実施例）

図５２ａは、バイナリ分類モデル４６００によって生成された例示的なバイナリマップを左側に示す。図５２ａはまた、右側に、バイナリ分類モデル４６００が訓練中に近似する、例示的なグラウンドトゥルースバイナリマップを示す。バイナリマップは、複数のサブピクセルを有し、クラスター中心又は非中心のいずれかとして各サブピクセルを分類する。同様に、グラウンドトゥルースバイナリマップは、複数のサブピクセルを有し、クラスター中心又は非中心のいずれかとして各サブピクセルを分類する。
（実験結果及び考察）

図５２ｂは、再較正及び精密統計を使用したバイナリ分類モデル４６００の性能を示す。これらの統計値を適用することにより、バイナリ分類モデル４６００は、ＲＴＡベースコーラーを実行する。
（ネットワーク構造）

図５３は、バイナリ分類モデル４６００の層の詳細、層の出力の次元性、モデルパラメータの大きさ、及び層間の相互接続の詳細と共に、バイナリ分類モデル４６００の例示的な構造を示す表である。同様の詳細は、「Ｂｉｎａｒｙ＿Ｃｌａｓｓｉｆｉｃａｔｉｏｎ＿Ｍｏｄｅｌ＿Ｅｘａｍｐｌｅ＿Ａｒｃｈｉｔｅｃｔｕｒｅ」という名称の付録に開示されている。
３．三元（３クラス）分類モデル

図５４は、三元分類モデル５４００の一実施態様を示す。図示の別の実施態様では、三元分類モデル５４００は、入力画像データ１７０２をエンコーダサブネットワーク及び対応するデコーダサブネットワークを介して処理する、深層完全畳み込みセグメンテーションニューラルネットワークである。エンコーダサブネットワークは、エンコーダの階層を含む。デコーダサブネットワークは、低解像度のエンコーダ特徴部マップを完全入力解像度の三元マップ１７１８にマッピングするデコーダの階層を含む。別の実施態様では、三元分類モデル５４００は、デコーダとエンコーダとの間のスキップ接続を有するＵ－Ｎｅｔネットワークである。分割ネットワークに関する更なる詳細は、「ＳｅｇｍｅｎｔａｔｉｏｎＮｅｔｗｏｒｋｓ」と題された付録に見出すことができる。
（三元マップ）

三元分類モデル５４００の最終出力層は、出力アレイ内の単位ごとに分類ラベルを生成する単位ごとの分類層である。いくつかの実施態様では、単位ごと区分層は、３つのクラスにわたって三元マップ１７１８内の各サブピクセルについて、ソフトマックス分類スコア分布を生成するサブピクセルごとの分類層であり、すなわち、背景クラス、クラスター中心クラス、及びクラスター／クラスター内部クラス、及び所与のサブピクセルの分類ラベルは、対応するソフトマックス分類スコア分布から決定される。

三元マップ１７１８は、予測される分類スコアに基づいて、各サブピクセルを表している。三元マップ１７１８はまた、ユニット配列内に予測値分類スコアを記憶し、アレイ内の各ユニットは、入力内の対応するサブピクセルを表す。
（訓練）

図５５は、三元分類モデル５４００の三元マップ１７１８が、訓練用グラウンドトゥルース三元マップ１３０４に漸進的に接近又は適合するまで、三元分類モデル５４００のパラメータを修正する、逆伝搬ベースの勾配更新技術を使用して、三元分類モデル５４００を訓練５５００する一実施態様である。

図示した実施態様では、三元分類モデル５４００の最終出力層は、ソフトマックスベースのサブピクセルごとの分類層である。ソフトマックス別の実施態様では、グラウンドトゥルースの三元マップ生成器１４０２は、（ｉ）背景値トリプレット（例えば、［１、０、０］）、（ｉｉ）クラスター中心値トリプレット（例えば、［０、１、０］）、又は（ｉｉｉ）クラスター／クラスター内部値トリプレット（例えば、［０、０、１］）のいずれかを割り当てる。

背景サブピクセルに背景値トリプレットが割り当てられる。質量（ＣＯＭ）サブピクセルの中心には、クラスター中心値トリプレットが割り当てられる。クラスター／クラスター内部サブピクセルには、クラスター／クラスター内部値トリプレットが割り当てられる。

背景値トリプレット［１、０、０］において、第１の値［１］は背景クラスラベルを表し、第２の値［０］はクラスター中心ラベルを表し、第３の値［０］はクラスター／クラスター内部クラスラベルを表す。

クラスター中心値トリプレット［０、１、０］において、第１の値［０］は、背景クラスラベルを表し、第２の値［１］はクラスター中心ラベルを表し、第３の値［０］はクラスター／クラスター内部クラスラベルを表す。

クラスター／クラスター内部値トリプレット［０、０、１］において、第１の値［０］は、背景クラスラベルを表し、第２の値［０］はクラスター中心ラベルを表し、第３の値［１］はクラスター／クラスター内部クラスラベルを表す。

グラウンドトゥルース三元マップ１３０４は、割り当てられた値トリプレットに基づいて、各サブピクセルを表している。グラウンドトゥルース三元マップ１３０４はまた、割り当てられたトリプレットをユニット配列に記憶し、アレイ内の各ユニットは、入力内の対応するサブピクセルを表す。

訓練は、三元マップ１７１８とグラウンドトゥルース三元マップ１３０４との間の誤差５５０６（例えば、ソフトマックス誤差）を最小化する損失関数を反復的に最適化することと、誤差５５０６に基づいて三元分類モデル５４００のパラメータを更新することと、を含む。

一実施態様では、損失関数は、カスタム重み付けカテゴリ化クロスエントロピー損失であり、エラー５５０６は、図５４に示されるように、予測分類スコア（例えば、ソフトマックススコア）と標識されたクラススコア（例えば、ソフトマックススコア）との間のサブピクセルごとに最小化され、三元マップ１７１８及びグラウンドトゥルース三元マップ１３０４内の対応するサブピクセルの標識されたクラススコア（例えば、ソフトマックススコア）との間で最小化される。

訓練５５００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬５５０８及び後方伝搬５５１０を含む。訓練データ１５０４は、入力画像データ１７０２として、一連のアップサンプリング及びダウンサイズの画像セットを含む。訓練データ１５０４は、アノテーター２８０６によって、グラウンドトゥルースラベルで注釈付けされる。訓練５５００は、アダムなどの確率的勾配更新アルゴリズムを使用して、訓練器１５１０によって操作可能である。

図５６は、三元分類モデル５４００に供給された入力画像データ１７０２、及び三元分類モデル５４００を訓練するために使用される対応するクラスラベルの一実施態様を示す。

図示の別の実施態様では、入力画像データ１７０２は、一連でアップサンプリングされ、ダウンサイズの画像セット５６０２を含む。クラスラベル５６０４は、３つのクラスを含む。（１）「背景クラス」、（２）「クラスター中心クラス」、及び（３）「クラスター内部クラス」は、異なる出力値を使用して区別される。例えば、これらの異なる出力値の一部は、以下のように視覚的に表すことができる。（１）グレーユニット／サブピクセル５６０６は、背景であると三元分類モデル５４００によって予測されるサブピクセルを表し、（２）暗緑色単位／サブピクセル５６０８は、クラスター中心を含有するために三元分類モデル５４００によって予測されるサブピクセルを表し、及び（３）光緑色サブピクセル５６１０は、クラスターの内部を収容するために、三元分類モデル５４００によって予測されるサブピクセルを表す。
（ネットワーク構造）

図５７は、三元分類モデル５４００の層の詳細、層の出力の次元性、モデルパラメータの大きさ、及び層間の相互接続の詳細と共に、三元分類モデル５４００の例示的な構造を示す表である。同様の詳細は、「Ｔｅｒｎａｒｙ＿Ｃｌａｓｓｉｆｉｃａｔｉｏｎ＿Ｍｏｄｅｌ＿Ｅｘａｍｐｌｅ＿Ａｒｃｈｉｔｅｃｔｕｒｅ」という名称の付録に開示されている。
（推測）

図５８は、推測５８００中の推測出力として三元マップ１７１８が三元分類モデル５４００によって生成される推測５８００中における三元分類モデル５４００によるテンプレート生成の一実施態様である。三元マップ１７１８の一例は、「Ｔｅｒｎａｒｙ＿Ｃｌａｓｓｉｆｉｃａｔｉｏｎ＿Ｍｏｄｅｌ＿Ｏｕｐｕｔ」と題された付録に開示されている。付録は、共に三元マップ１７１８を表す単位ごとのバイナリ分類スコア５８１０を含む。ソフトマックスアプリケーションでは、付録は、背景クラスの単位ごとの分類スコアの第１のアレイ５８０２ａと、クラスター中心クラスの単位ごと分類スコアの第２のアレイ５８０２ｂと、クラスター／クラスター内部クラスの単位ごとの分類スコアの第３のアレイ５８０２ｃとを有する。

推測５８００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬５８０４を含む。推測５８００は、入力画像データ１７０２として、一連のアップサンプリングされた画像セット及びダウンサイズの画像セットを含む推測データ２９０８に対して実行される。推測５０００は、テスタ２９０６によって動作可能である。

いくつかの実施態様では、三元マップ１７１８は、閾値化、ピーク検出、及び／又はウォータージェット分割などの、上述の後処理技術を使用して、三元分類モデル５４００によって生成される。

図５９は、３つの対応するクラス、すなわち、背景クラス５９０６のクラスター中心クラス５９０２及びクラスター／クラスター内部クラス５９０４の三元ソフトマックス分類スコア分布をそれぞれ有する三元分類モデル５４００によって生成された三元マップ１７１８をグラフで示す。

図６０は、単位ごとの出力値と共に三元分類モデル５４００によって生成されたユニット配列を示す。図示のように、各ユニットは、３つの対応するクラス、すなわち、背景クラス５９０６のクラスター中心クラス５９０２及びクラスター／クラスター内部クラス５９０４の３つの出力値を有する。各分類（列方向）について、各単位は、各単位の括弧内のクラスによって示されるように、最も高い出力値を有するクラスを割り当てられる。いくつかの実施態様では、出力値６００２、６００４，及び６００６は、それぞれのクラス５９０６、５９０２，及び５９０４（行ごと）のそれぞれについて分析される。
（ピーク検出及び流域分割）

図６１は、クラスター中心、クラスター背景、及びクラスター内部を識別するために、三元マップ１７１８を後処理に供する一実施態様を示す。上述のように、三元マップ１７１８は、予測された分類スコアに基づいて各サブピクセルを分類するユニット配列であり、アレイ内の各ユニットは、入力内の対応するサブピクセルを表す。分類スコアは、ソフトマックススコアであり得る。

ソフトマックス用途では、三元マップ１７１８は、３つのアレイを含む。（１）背景クラスの単位ごとの分類スコアの第１のアレイ５８０２ａ、（２）クラスター中心クラスの単位ごと分類スコアの第２のアレイ５８０２ｂ、及び（３）クラスター内部クラスに関する単位ごと分類スコアの第３のアレイ５８０２ｃと、を含む。全ての３つのアレイにおいて、各ユニットは、入力内の対応するサブピクセルを表す。

入力内のどのサブピクセルがクラスターの内部を含有し、かつ背景を含むクラスター中心を含むかを判定するために、ピークロケータ１８０６は、クラスター中心クラス５８０２ｂの三元マップ１７１８内のソフトマックス値にピーク検出を適用する。ピーク検出は、事前設定された閾値を上回る分類スコア（例えば、ソフトマックススコア）を有するユニットを識別する。識別されたユニットは、クラスター中心として推測され、入力内のそれらの対応するサブピクセルは、クラスター中心を含み、サブピクセル分類及びセグメント化データストア６１０２内のクラスター中心サブピクセルとして記憶されると判定される。ピークロケータ１８０６に関する更なる詳細は、「ピーク検出」と題された付録に見出すことができる。

いくつかの実施態様では、ピーク検出を適用する前に、特定のノイズ閾値（例えば、０．３）を下回る分類スコアを有するユニットは、ゼロに設定される。このようなユニットは、ノイズと見なすことができ、無視することができる。

また、特定の背景閾値（例えば、０．５以上）を上回る背景クラス５８０２ａの分類スコアを有し、入力内のそれらの対応するサブピクセルは、クラスターを取り囲む背景を示すように推測され、サブピクセル分類及びセグメント化データストア６１０２内の背景サブピクセルとして記憶される背景サブピクセルとして記憶される。

次いで、流域セグメント３１０２によって操作される流域分割アルゴリズムが、クラスターの形状を決定するために使用される。いくつかの実施態様では、背景ユニット／サブピクセルは、流域分割アルゴリズムによってマスクとして使用される。クラスター中心及びクラスター内部として推測される単位／サブピクセルの分類スコアは、いわゆる「クラスターラベル」を生成するために合計される。クラスター中心は、流域分割アルゴリズムによる強度谷部による分離のために、流域マーカーとして使用される。

一実施態様では、負極化されたクラスターラベルは、セグメンテーションを実行し、背景サブピクセルによって分離された隣接するクラスター内部サブピクセルの不連続領域としてクラスター形状を生成する、流域セグメンター３１０２への入力画像として提供される。更に、各不連続領域は、対応するクラスター中心サブピクセルを含む。いくつかの実施態様では、対応するクラスター中心サブピクセルは、それが属する領域の中心である。他の実施態様では、不連続領域の質量（ＣＯＭ）の中心は、下にある位置座標に基づいて計算され、クラスターの新たな中心として記憶される。

流域分割３１０２の出力は、サブピクセル分類及びセグメント化データストア６１０２に記憶される。流域分割アルゴリズム及び他の分割アルゴリズムに関する更なる詳細は、「ＷａｔｅｒｓｈｅｄＳｅｇｍｅｎｔａｔｉｏｎ」と題された付録に見出すことができる。

ピークロケータ１８０６及び流域分割３１０２の出力例が図６２ａ、６２ｂ、６３、及び６４に示されている。
（モデル出力の実施例）

図６２ａは、三元分類モデル５４００の例示的予測を示す。図６２ａは、４つのマップを示し、各マップはユニット配列を有する。第１のマップ６２０２（左端の）は、クラスター中心クラス５８０２ｂの各ユニットの出力値を示す。第２のマップ６２０４は、クラスター／クラスター内部クラス５８０２ｃの各ユニットの出力値を示す。第３のマップ６２０６（右端）は、背景クラス５８０２ａの各ユニットの出力値を示す。第４のマップ６２０８（底部）は、最も高い出力値を有するクラスラベルを各ユニットに割り当てる、グラウンドトゥルース三元マップ６００８のバイナリマスクである。

図６２ｂは、三元分類モデル５４００の他の例示的予測を示す。図６２ｂは、４つのマップを示し、各マップはユニット配列を有する。第１のマップ６２１２（最下部）は、クラスター／クラスター内部クラスの各ユニットの出力値を示す。第２のマップ６２１４は、クラスター中心クラスのそれぞれの単位の出力値を示す。第３のマップ６２１６（最も右の）は、背景クラスのそれぞれの単位の出力値を示す。第４のマップ（上部）６２１０は、最も高い出力値を有するクラスラベルを各ユニットに割り当てる、グラウンドトゥルース三元マップである。

図６２ｃは、三元分類モデル５４００の更に他の例示的予測を示す。図６４は、４つのマップを示し、各マップはユニット配列を有する。第１のマップ６２２０（最下部）は、クラスター／クラスター内部クラスの各ユニットの出力値を示す。第２のマップ６２２２は、クラスター中心クラスのそれぞれの単位の出力値を示す。第３のマップ６２２４（最も右の）は、背景クラスのそれぞれの単位の出力値を示す。第４のマップ６２１８（上部）は、最も高い出力値を有するクラスラベルを各ユニットに割り当てる、グラウンドトゥルース三元マップである。

図６３は、出力を後処理に供することによって、図６２ａの三元分類モデル５４００の出力からクラスター中心及びクラスター形状を導出する一実施態様を示す。後処理（例えば、ピーク位置、ウォッシュセグメンテーション）は、クラスター形状データ及びクラスターマップ６３１０内で識別される他のメタデータを生成する。
（実験結果及び考察）

図６４は、バイナリ分類モデル４６００、回帰モデル２６００及びＲＴＡベースコーラーの性能を比較する。性能は、様々な配列決定メトリックを使用して評価される。１つの指標は、検出されるクラスターの総数（「＃クラスター」）であり、これは検出される固有のクラスター中心の数によって測定することができる。別のメトリックは、チェーチティフィルタ（「％ＰＦ」（パスフィルタ））を通過する検出されたクラスターの数である。配列決定動作のサイクル１－２５の間、チェーチティフィルタは、画像抽出結果から少なくとも信頼性の高いクラスターを除去する。クラスターは、１つ以下のベースコールが、第１の２５サイクルにおいて０．６未満のチェシティ値を有する場合には、「フィルタを通過する」。買い物客は、最も明るい塩基強度の比を、最も明るい試験と第２の最も明るい塩基強度との合計で割ったものとして定義される。この指標は、検出されたクラスターの量を超えており、また、その品質、すなわち、検出されたクラスターのうちのどれだけが、変異型コーリング及び変異型病原性アノテーションなどの正確なベースコール及び下流の二次及び三元分析のために使用され得る。

検出されたクラスターが下流分析のためにどれくらい良好かを測定する他のメトリックとしては、検出されたクラスターから生成された整列されたリードの数（「配列された％」）、検出されたクラスターから生成された複製リードの数（「％Ｄｕｐｌｉｃａｔｅ」）、検出されたクラスターから生成されたリードの数は、参照配列に位置合わせされた全てのリードについて参照配列を不一致させる（「不一致」）、検出されたクラスターから生成されたリードの数は、その部分がいずれかの側の基準配列に十分に一致しないため、位置合わせ（「軟クリップの％」）について無視され、検出されたクラスターについて呼ばれる塩基の数は、品質スコア３０を有し、上にある（「％」）。Ｑ３０塩基」）、検出されたクラスターから生成された対のリードの数は、妥当な距離（「全適切な読み取り対」）内で内側に位置合わせされたリードと、検出されたクラスターから生成されたユニークな又は重複した適切な読み取りペアの数（「非重複の正しい読み取り対」）。

図６４に示されるように、バイナリ分類モデル４６００及び回帰モデル２６００の両方は、測定基準の大部分でのテンプレート生成において、ＲＴＡベースコーラーを実行する。

図６５は、３つの状況、５つの配列決定メトリック、及び２つの動作密度下での、三元分類モデル５４００の性能をＲＴＡベースコーラーの性能と比較する。

「ＲＴＡ」と呼ばれる第１の状況では、クラスター中心は、ＲＴＡベースコーラーによって検出され、クラスターからの強度抽出は、ＲＴＡベースコーラーによって行われ、クラスターはまた、ＲＴＡベースコーラーを使用してベースコールされる。「ＲＴＡＩＥ」と呼ばれる第２の状況では、クラスター中心は、三元分類モデル５４００によって検出されるが、クラスターからの強度抽出は、ＲＴＡベースコーラーによって行われ、クラスターもまた、ＲＴＡベースコーラーを使用してベースコールされる。「ＳｅｌｆＩＥ」と呼ばれる第３の状況において、クラスター中心は、三元分類モデル５４００によって検出され、クラスターからの強度抽出は、本明細書に開示されるクラスター形状ベースの強度抽出技術を使用して行われる（クラスター形状情報が三元分類モデル５４００によって生成されることに留意されたい）。ただし、クラスターは、ＲＴＡベースコーラーを使用してベースコールされる。

性能は、三元分類モデル５４００と、以下の５つの測定基準に沿ったＲＴＡベースコーラーとの間で比較される。（１）検出されたクラスターの総数（「＃クラスター」）、（２）チェスチティフィルタ（「＃ＰＦ」）を通過する検出されたクラスターの数、（３）検出されたクラスターから生成された固有の又は重複した適切なリード対の数（「＃不重複適切な読み出しペア」）、（４）検出されたクラスターから生成された配列リードと、アライメント後の参照配列（「不一致率」）、及び（５）品質スコア３０を有する検出されたクラスターと（「％Ｑ３０」）との間の不一致の割合。

３つの状況下の三元分類モデル５４００とＲＴＡベースコーラーとの間で性能を比較し、２種類の配列決定動作について５つのメトリックを比較する。（１）２０ｐＭライブラリ濃度を有する通常動作、及び（２）３０ｐＭライブラリ濃度を有する高密度動作。

図６５に示されるように、三元分類モデル５４００は、全ての測定基準に対して、ＲＴＡベースコーラーを実行する。

図６６は、同じ３つの状況下で、５つの測定基準、及び２つの動作密度の下で、回帰モデル２６００が全ての測定基準に対してＲＴＡベースコーラーを実行することを示す。

図６７は、ニューラルネットワークベースのテンプレート生成器１５１２の最終層６７０２に焦点を当てる。

図６８は、ニューラルネットワークベースのテンプレート生成器１５１２の最終層６７０２が、逆伝搬ベースの勾配更新訓練の結果として学習したものを可視化する。図示された実施態様は、グラウンドトゥルースクラスター形状に重ねられた最終層６７０２の３２つの畳み込みフィルタから２４を可視化する。図６８に示されるように、最終層６７０２は、クラスター中心、クラスター形状、クラスターサイズ、クラスター背景、及びクラスター境界などのクラスターの空間分布を含むクラスターメタデータを学習している。

図６９は、（青色での）バイナリ分類モデル４６００のクラスター中心予測を、（ピンク色で）ＲＴＡベースコーラーのものに重ね合わせる。予測は、ＩｌｌｕｍｉｎａＮｅｘｔＳｅｑシーケンサからの画像データを配列決定するために行われる。

図７０は、バイナリ分類モデル４６００の最終層の訓練された畳み込みフィルタの可視化上に、（ピンク色で）ＲＴＡベースコーラー（ピンク色で）によって作成されたクラスター中心予測を重ね合わせる。これらの畳み込みフィルタは、ＩｌｌｕｍｉｎａＮｅｘｔＳｅｑシーケンサからの画像データの配列決定の結果として学習される。

図７１は、ニューラルネットワークベースのテンプレート生成器１５１２を訓練するために使用される訓練データの一実施態様を示す。この別の実施態様では、訓練データは、ストームプローブ画像を用いてデータを生成する高密度フローセルから取得される。別の実施態様では、訓練データは、より少ないブリッジ増幅サイクルでデータを生成する高密度フローセルから得られる。

図７２は、ニューラルネットワークベースのテンプレート生成器１５１２のクラスター中心予測に基づいて画像位置合わせ用のビーズを使用する一実施例である。

図７３は、ニューラルネットワークベースのテンプレート生成器１５１２によって識別されたクラスターのクラスター統計の一実施態様を示す。クラスター統計は、寄与するサブピクセル数及びＧＣ含有量に基づくクラスターサイズを含む。

図７４は、入力画像データ１７０２が使用される初期配列決定サイクルの数が５～７増加すると、ニューラルネットワークベースのテンプレート生成器１５１２が隣接するクラスター間を区別する能力がどのように改善されるかを示す。５つの配列決定サイクルに関して、単一のクラスターは、連続するサブピクセルの単一の不連続領域によって識別される。７つの配列決定サイクルに関して、単一クラスターは、隣接するサブピクセルの独自の不連続領域をそれぞれ有する２つの隣接するクラスターに分割される。

図７５は、非ＣＯＭ位置がクラスター中心として使用されるときとは対照的に、ＲＴＡベースコーラーがクラスター中心として質量（ＣＯＭ）位置のグラウンドトゥルースを使用するときのベースコール性能の差を示す。

図７６は、追加の検出されたクラスター上のニューラルネットワークベースのテンプレート生成器１５１２の性能を示す。

図７７は、ニューラルネットワークベースのテンプレート生成器１５１２を訓練するために使用される異なるデータセットを示す。

図７８は、一実施態様に係る、ベースコールのためにＲＴＡベースコーラーによって使用される処理段階を示す。図７８はまた、２つの実施態様に係る、ベースコールのために、開示されたニューラルネットワークベースのベースコーラーによって使用される処理段階を示す。図７８に示されるように、ニューラルネットワークベースのベースコーラー１５１４は、ＲＴＡベースコーラーによって使用される処理段階の多くを除去することによって、ベースコールプロセスを合理化し得る。合理化は、ベースコール精度及びスケールを改善する。ニューラルネットワークベースのベースコーラー１５１４の第１の実施態様では、それは、ニューラルネットワークベースのテンプレート生成器１５１２の出力から識別されるクラスター中心の場所／位置情報を使用してベースコールを実行する。第２の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、ベースコールのためにクラスター中心の場所／位置情報を使用しない。第２の実施態様は、パターン化されたフローセル設計がクラスター生成のために使用されるときに使用される。パターン化されたフローセルは、既知の基準場所に対して正確に配置されており、かつパターン化されたフローセル上に事前配置されたクラスター分布を提供する、ナノウェルを含む。他の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、ランダムフローセル上で生成されるクラスターをベースコールする。
（ニューラルネットワークベースのベースコール）

ここでの考察は、ニューラルネットワークが訓練されて、配列決定画像をベースコールにマッピングするニューラルネットワークベースのベースコールについて説明する。考察は、以下のように構成される。最初に、ニューラルネットワークへの入力が説明される。次に、ニューラルネットワークの構造及び形態が説明される。最後に、ニューラルネットワークの出力が説明される。
入力

図７９は、ニューラルネットワーク７９０６を使用するベースコールの一実施態様を示す。
主入力：画像チャネル

ニューラルネットワーク７９０６への主入力は、画像データ７９０２である。画像データ７９０２は、配列決定動作中にシーケンサ１０２によって生成される配列決定画像１０８から導出される。一実施態様では、画像データ７９０２は、配列決定画像１０２から抽出されるｎ×ｎの画像パッチを含み、ｎは、１～１０，０００の範囲の任意の数である。配列決定動作は、対応するｍ個の画像チャネルに対して配列決定サイクルごとにｍ個の画像（複数可）を生成し、画像パッチは、ｍ個の画像（複数可）の各々から抽出されて、特定の配列決定サイクルで画像データを調製する。４－、２－、及び１－チャネル化学などの異なる実施態様では、ｍは、４又は２である。他の実施態様では、ｍは、１、３、又は４よりも大きい。画像データ７９０２は、いくつかの実施態様では、光学ピクセルドメイン内にあり、他の実施態様では、アップサンプリングされたサブピクセルドメイン内にある。

画像データ７９０２は、複数の配列決定サイクル（例えば、現在の配列決定サイクル、１つ又はそれ以上の先行する配列決定サイクル、及び１つ又はそれ以上の連続する配列決定サイクル）のデータを含む。一実施態様では、画像データ７９０２は、３回の配列決定サイクルのデータを含み、そのため、ベースコールされる現在の（時間ｔ）配列決定サイクルのデータは、（ｉ）左側のフランキング／コンテキスト／以前の／先行する／前の（時間ｔ－１）配列決定サイクルのデータ、及び（ｉｉ）右側のフランキング／コンテキスト／次の／連続する／後続の（時間ｔ＋１）配列決定サイクルのデータを伴う。他の実施態様では、画像データ７９０２は、単一の配列決定サイクルのデータを含む。

画像データ７９０２は、１つ又はそれ以上のクラスター及びそれらの周囲の背景の強度放射を示す。一実施態様では、単一のターゲットクラスターがベースコールされるとき、画像パッチは、各画像パッチがその中心ピクセル内にターゲットクラスターの中心を含むような方法で、配列決定画像１０８から抽出され、概念は、本明細書で「ターゲットクラスター中心のパッチ抽出」と称される。

画像データ７９０２は、強度チャネル（画像チャネルとも呼ばれる）を使用して入力データ７９０４で符号化される。特定の配列決定サイクルのためにシーケンサ１０２から取得されたｍ個の画像の各々に対して、別個の画像チャネルを使用して、その強度データを符号化する。例えば、配列決定動作が、各配列決定サイクルで赤色画像及び緑色画像を生成する２－チャネル化学を使用すると考え、次いで、入力データ７９０４は、（ｉ）赤色画像内に捕捉される１つ又はそれ以上のクラスター及びそれらの周囲の背景の強度放射を示す、ｎｘｎのピクセルを有する第１の赤色画像チャネルと、（ｉｉ）緑色画像内に捕捉される１つ又はそれ以上のクラスター及びそれらの周囲の背景の強度放射を示す、ｎｘｎのピクセルを有する第２の緑色画像チャネルと、を含む。
補足入力：距離チャネル

画像データ７９０２は、補足距離データ（距離チャネルとも呼ばれる）を伴う。距離チャネルは、画像チャネルから生成される特徴マップに組み込まれる加法バイアスを供給する。この加法バイアスは、距離チャネルでピクセルごとに符号化されるピクセル中心クラスター中心（複数可）間距離に基づくため、ベースコール精度に寄与する。

「単一のターゲットクラスター」ベースコール実施態様では、入力データ７９０４内の各画像チャネル（画像パッチ）に対して、補足距離チャネルは、その中心ピクセルを含むターゲットクラスターの中心からのそのピクセルの中心の距離を識別し、ベースコールされる。それによって、距離チャネルは、画像パッチの中心ピクセルからの画像パッチのピクセルのそれぞれの距離を示す。

「マルチクラスター」ベースコール実施態様では、入力データ７９０４内の各画像チャネル（画像パッチ）に対して、補足距離チャネルは、ピクセルとクラスターの各々との間の中心間距離に基づいて選択されるクラスターのうちの最も近い１つから、各ピクセルの中心間距離を識別する。

「マルチクラスター形状ベースの」ベースコール実施態様では、入力データ７９０４内の各画像チャネル（画像パッチ）に対して、補足距離チャネルは、各クラスターピクセルを１つのクラスターのみに分類することに基づいて選択される、割り当てられたクラスターから、各クラスターピクセルの中心間距離を識別する。
補足入力：スケーリングチャネル

画像データ７９０２は、異なるクラスターサイズ及び不均一な照明条件を考慮する、補足スケーリングデータ（スケーリングチャネルとも呼ばれる）を伴う。スケーリングチャネルはまた、画像チャネルから生成される特徴マップに組み込まれる加法バイアスを供給する。この加法バイアスは、スケーリングチャネルでピクセルごとに符号化される中心クラスターピクセル（複数可）の平均強度に基づくため、ベースコール精度に寄与する。
補足入力：クラスター中心座標

いくつかの実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２の出力から識別されるクラスター中心（複数可）の場所／位置情報７９１６（例えば、ｘ－ｙ座標）は、ニューラルネットワーク７９０６への補足入力として供給される。
補足入力：クラスター属性情報

いくつかの実施態様では、ニューラルネットワーク７９０６は、どのピクセル又はサブピクセルが、同じクラスターを示し／同じクラスターに寄与し／同じクラスターに属する、背景ピクセル又はサブピクセル、クラスター中心ピクセル又はサブピクセル、及びクラスター／クラスター内部ピクセル又はサブピクセルであるかを分類する、クラスター属性情報を補足入力として受信する。他の実施態様では、減衰マップ、バイナリマップ、及び／若しくは三元マップ、又はそれらの変動は、ニューラルネットワーク７９０６への補足入力として供給される。
前処理：強度修正

いくつかの実施態様では、入力データ７９０４は、距離チャネルを含まないが、代わりにニューラルネットワーク７９０６は、ニューラルネットワークベースのテンプレート生成器１５１２の出力、すなわち、減衰マップ、バイナリマップ、及び／又は三元マップの出力に基づいて修正される、修正画像データを入力として受信する。そのような実施態様では、画像データ７９０２の強度は、非存在距離チャネルを考慮するように修正される。

他の実施態様では、画像データ７９０２は、１つ又はそれ以上の無損失変換動作（例えば、畳み込み、逆畳み込み、フーリエ変換）に供され、得られた修正画像データは、ニューラルネットワーク７９０６への入力として供給される。
ネットワーク構造及び形態

ニューラルネットワーク７９０６はまた、本明細書で「ニューラルネットワークベースのベースコーラー」１５１４と称される。一実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、多層パーセプトロン（Multilayer Perceptron、ＭＬＰ）である。別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、フィードフォワードニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、完全に接続されたニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、完全畳み込みニューラルネットワークである。更に更なる実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、セマンティックセグメンテーションニューラルネットワークである。

一実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、複数の畳み込み層を有する畳み込みニューラルネットワーク（ＣＮＮ）である。別の実施態様では、それは、長い短期メモリネットワーク（ＬＳＴＭ）、双方向ＬＳＴＭ（Bi-directional LSTM、Ｂｉ－ＬＳＴＭ）、又はゲートされた反復単位（ＧＲＵ）などの反復ニューラルネットワーク（ＲＮＮ）である。更に別の実施態様では、それは、ＣＮＮ及びＲＮＮの両方を含む。

更に他の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、１Ｄ畳み込み、２Ｄ畳み込み、３Ｄ畳み込み、４Ｄ畳み込み、５Ｄ畳み込み、拡張又は膨張畳み込み、転置畳み込み、奥行分離可能な畳み込み、ｐｏｉｎｔｗｉｓｅ畳み込み、１×１畳み込み、グループ畳み込み、扁平畳み込み、空間及びクロスチャネルの畳み込み、シャッフルされたグループ化畳み込み、空間的な分離可能な畳み込み、並びに逆畳み込みを使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ，指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。

ニューラルネットワークベースのベースコーラー１５１４は、入力データ７９０４を処理し、入力データ７９０４の代替表現７９０８を生成する。代替表現７９０８は、いくつかの実施態様では畳み込み表現であり、他の実施態様では隠れ表現である。次いで、代替表現７９０８は、出力層７９１０によって処理されて、出力７９１２を生成する。出力７９１２は、以下で説明するように、ベースコール（複数可）を生成するために使用される。
（出力）

一実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、特定の配列決定サイクルで単一のターゲットクラスターのためのベースコールを出力する。別の実施態様では、それは、特定の配列決定サイクルで複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールを出力する。更に別の実施態様では、それは、複数の配列決定サイクル内の各配列決定サイクルで複数のターゲットクラスター内の各ターゲットクラスターのためのベースコールを出力し、それによって、各ターゲットクラスターのためのベースコール配列を生成する。
距離チャネル計算

ここでの考察は、距離チャネルの距離値を計算する際に使用するために、クラスター中心（複数可）の適切な場所／位置情報（例えば、ｘ－ｙ座標）がどのように取得されるかについて説明する。
座標のダウンスケール

図８０は、サブピクセルドメインからピクセルドメインに、ニューラルネットワークベースのテンプレート生成器１５１２の出力から識別されるクラスター中心の場所／位置情報を変換する一実施態様である。

クラスター中心場所／位置情報は、少なくとも、（ｉ）中心ピクセルでベースコールされるターゲットクラスターの中心を含む配列決定画像１０８から画像パッチを抽出することによって入力データを構築するために、（ｉｉ）中心ピクセルが含まれるターゲットクラスターの中心からの画像パッチのピクセルの中心の距離を識別する距離チャネルを構築するために、及び／又は（ｉｉｉ）ニューラルネットワークベースのベースコーラー１５１４への補足入力７９１６として、ニューラルネットワークベースのベースコールのために使用される。

いくつかの実施態様では、クラスター中心場所／位置情報は、アップサンプリングされたサブピクセル解像度内のニューラルネットワークベースのテンプレート生成器１５１２の出力から識別される。しかしながら、いくつかの実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、光学ピクセル解像度内である画像データ上で動作する。したがって、一実施態様では、クラスター中心場所／位置情報は、ニューラルネットワークベースのテンプレート生成器１５１２への入力として供給される画像データをアップサンプリングするために使用される同じアップサンプリング係数によって、クラスター中心の座標をダウンスケールすることによって、ピクセルドメインに変換される。

例えば、ニューラルネットワークベースのテンプレート生成器１５１２への入力として供給される画像パッチデータが、アップサンプリング係数ｆによって、いくつかの初期配列決定サイクルから配列決定画像１０８をアップサンプリングすることによって導出されると考える。次いで、一実施態様では、ポストプロセッサ１８１４によってニューラルネットワークベースのテンプレート生成器１５１２によって生成され、テンプレート／テンプレート画像８００４内に記憶される、クラスター中心８００２の座標は、ｆ（除数）で除算される。これらのダウンスケールされたクラスター中心座標は、本明細書で「参照クラスター中心」８００８と称され、テンプレート／テンプレート画像８００４内に記憶される。一実施態様では、ダウンスケールは、ダウンスケーラ８００６によって実行される。
座標の変換

図８１は、参照クラスター中心８００８からいわゆる「変換されたクラスター中心」８１０４を導出するために、サイクル固有及び画像チャネル固有の変換を使用する一実施態様である。そのようにする動機は、最初に説明される。

異なる配列決定サイクルで撮られる配列決定画像は、位置合わせ不良であり、互いにランダムな並進オフセットを有する。これは、センサーの運動段階の移動の有限精度に起因し、また、異なる画像／周波数チャネルで撮られる画像が異なる光路及び波長を有するために生じる。その結果、参照クラスター中心と、配列決定画像内のクラスター中心の場所／位置との間にオフセットが存在する。このオフセットは、異なる配列決定サイクルで捕捉される画像間、及び異なる画像チャネル内の同じ配列決定サイクルで捕捉される画像内で変化する。

このオフセットを考慮するために、サイクル固有及び画像チャネル固有の変換が、参照クラスター中心に適用されて、各配列決定サイクルの画像パッチに対するそれぞれの変換されたクラスター中心を生成する。サイクル固有及び画像チャネル固有の変換は、画像相関を使用して、完全な６パラメータのアフィン変換（例えば、並進、回転、スケーリング、剪断、右鏡映、左鏡映）又はプロクラステス変換（例えば、並進、回転、スケーリング、任意選択的にアスペクト比への拡張）を決定する画像位置合わせプロセスによって導出され、その追加の詳細は、付録１、２、３、及び４で見出され得る。

例えば、４つのクラスター中心に対する参照クラスター中心は、（ｘ_１，ｙ_１）；（ｘ_２，ｙ_２）；（ｘ_３，ｙ_３）；（ｘ_４，ｙ_４）であり、配列決定動作は、赤色画像及び緑色画像が各配列決定サイクルで生成される２－チャネル化学を使用すると考える。次いで、例えば、配列決定サイクル３、サイクル固有及び画像チャネル固有の変換は、赤色画像に対して

であり、緑色画像に対して

である。

同様に、例えば、配列決定サイクル９、サイクル固有及び画像チャネル固有の変換は、赤色画像に対して

であり、緑色画像に対して

である。

次いで、配列決定サイクル３

の赤色画像に対する変換されたクラスター中心は、変換

を参照クラスター中心（ｘ_１，ｙ_１）；（ｘ_２，ｙ_２）；（ｘ_３，ｙ_３）；（ｘ_４，ｙ_４）に適用することによって導出され、配列決定サイクル３

の緑色画像に対する変換されたクラスター中心は、変換

を参照クラスター中心（ｘ_１，ｙ_１）；（ｘ_２，ｙ_２）；（ｘ_３，ｙ_３）；（ｘ_４，ｙ_４）に適用することによって導出される。

同様に、配列決定サイクル９

の赤色画像に対する変換されたクラスター中心は、変換

を参照クラスター中心（ｘ_１，ｙ_１）；（ｘ_２，ｙ_２）；（ｘ_３，ｙ_３）；（ｘ_４，ｙ_４）に適用することによって導出され、配列決定サイクル９

の緑色画像に対する変換されたクラスター中心は、変換

一実施態様では、変換は、変換器８１０２によって実行される。

変換されたクラスター中心８１０４は、テンプレート／テンプレート画像８００４内に記憶され、（ｉ）（例えば、パッチ抽出器８１０６によって）対応する配列決定画像１０８からパッチ抽出を行うために、（ｉｉ）距離式

で、対応する画像パッチに対する距離チャネルを計算するために、かつ（ｉｉｉ）ベースコールされている対応する配列決定サイクルに対するニューラルネットワークベースのベースコーラー１５１４への補足入力として、それぞれ使用される。他の実施態様では、距離２乗、ｅ＾－距離、及びｅ＾－距離２乗などの異なる距離式が使用され得る。
画像パッチ

図８２は、ニューラルネットワークベースのベースコーラー１５１４に供給される入力データの一部である画像パッチ８２０２を示す。入力データは、配列決定動作の一連の配列決定サイクルのために生成されるサイクルごとの画像パッチセットの配列を含む。配列内のサイクルごとの各画像パッチセットは、１つ又はそれ以上の画像チャネルのうちのそれぞれの１つに対する画像パッチを有する。

例えば、配列決定動作は、各配列決定サイクルで赤色画像及び緑色画像を生成する２－チャネル化学を使用し、入力データは、配列決定動作の一連の３回の配列決定サイクル、すなわち、ベースコールされる現在の（時間ｔ）配列決定サイクル、以前の（時間ｔ－１）配列決定サイクル、及び次の（時間ｔ＋１）配列決定サイクルに及ぶデータを含むと考える。

次いで、入力データは、サイクルごとの画像パッチセットの以下の配列、すなわち、現在の配列決定サイクルで捕捉される赤色及び緑色配列決定画像からそれぞれ抽出される、現在の赤色画像パッチ及び現在の緑色画像パッチを有する現在のサイクル画像パッチセット、以前の配列決定サイクルで捕捉される赤色及び緑色配列決定画像からそれぞれ抽出される、以前の赤色画像パッチ及び以前の緑色画像パッチを有する以前のサイクル画像パッチセット、並びに次の配列決定サイクルで捕捉される赤色及び緑色配列決定画像からそれぞれ抽出される、次の赤色画像パッチ及び次の緑色画像パッチを有する次のサイクル画像パッチセットを含む。

各画像パッチのサイズは、ｎ×ｎであり得、ｎは、１～１０，０００の範囲の任意の数であり得る。各画像パッチは、光学ピクセルドメイン、又はアップサンプリングされたサブピクセルドメイン内にあり得る。図８２に示される実施態様では、抽出された画像ページ８２０２は、複数のクラスター１－ｍ及びそれらの周囲の背景をカバーし／示すピクセルに対するピクセル強度データを有する。また、図示された実施態様では、画像パッチ８２０２は、その中心ピクセル内に含まれ、ターゲットクラスターの中心がベースコールされているような方法で抽出される。

図８２では、ピクセル中心は、黒い矩形によって示されており、整数場所／位置座標を有し、クラスター中心は、紫色の円によって示されており、フローティングポイント場所／位置座標を有する。
（単一のターゲットクラスターに対する距離計算）

図８３は、単一のターゲットクラスターが、ニューラルネットワークベースのベースコーラー１５１４によってベースコールされているときに、距離チャネルの距離値８３０２を決定する一実施態様を示す。ターゲットクラスターの中心は、ニューラルネットワークベースのベースコーラー１５１４への入力として供給される画像パッチの中心ピクセルに含まれる。距離値は、ピクセルごとに計算され、そのため、各ピクセルに対して、その中心とターゲットクラスターの中心との間の距離が決定される。したがって、入力データの一部である画像パッチの各々における各ピクセルに対して、距離値が計算される。

図８３は、特定の画像パッチに対する３つの距離値ｄ１、ｄｃ、及びｄｎを示す。一実施態様では、距離値８３０２は、以下の距離式を使用して計算される。すなわち、

で、変換されたクラスター中心８１０４で動作する。他の実施態様では、距離２乗、ｅ＾－距離、及びｅ＾－距離２乗などの異なる距離式が使用され得る。

他の実施態様では、画像パッチがアップサンプリングされたサブピクセル解像度内であるとき、距離値８３０２は、サブピクセルドメイン内で計算される。

したがって、単一のターゲットクラスターベースコール実施態様では、距離チャネルは、ベースコールされているターゲットクラスターに関してのみ計算される。

図８４は、ピクセルとターゲットクラスターとの間で計算される距離値８３０２を符号化８４０２するピクセルごとの一実施態様を示す。一実施態様では、入力データで、距離チャネルの一部としての距離値８３０２は、対応する各画像チャネル（画像パッチ）を「ピクセル距離データ」として補う。配列決定サイクルごとに生成されている赤色画像及び緑色画像の例に戻って、入力データは、赤色画像チャネル及び緑色画像チャネルをピクセル距離データとしてそれぞれ補う、赤色距離チャネル及び緑色距離チャネルを含む。

他の実施態様では、画像パッチがアップサンプリングされたサブピクセル解像度内であるとき、距離チャネルは、サブピクセルごとに符号化される。
（複数のターゲットクラスターに対する距離計算）

図８５ａは、複数のターゲットクラスター１－ｍが、ニューラルネットワークベースのベースコーラー１５１４によって同時にベースコールされているときに、距離チャネルの距離値８５０２を決定する一実施態様を示す。距離値は、ピクセルごとに計算され、そのため、各ピクセルに対して、その中心と複数のクラスター１－ｍの各々のそれぞれの中心との間の距離が決定され、（赤色での）最小距離値がピクセルに割り当てられる。

したがって、距離チャネルは、ピクセルとクラスターの各々との間の中心間距離に基づいて選択されるクラスターのうちの最も近い１つから、各ピクセルの中心間距離を識別する。図示された実施態様では、図８５ａは、２つのピクセル及び４つのクラスター中心に対するピクセル中心クラスター中心間距離を示す。ピクセル１は、クラスター１に最も近く、ピクセルｎは、クラスター３に最も近い。

一実施態様では、距離値８５０２は、以下の距離式を使用して計算される。

他の実施態様では、画像パッチがアップサンプリングされたサブピクセル解像度内であるとき、距離値８５０２は、サブピクセルドメイン内で計算される。

したがって、マルチクラスターベースコール実施態様では、距離チャネルは、複数のクラスターの中から最も近いクラスターに関して計算される。

図８５ｂは、ターゲットクラスター１－ｍの各々に対して、ピクセル中心最も近いクラスター中心間距離８５０４（ｄ１、ｄ２、ｄ２３、ｄ２９、ｄ２４、ｄ３２、ｄｎ、ｄ１３、ｄ１４など）に基づいて決定される、いくつかの最も近いピクセルを示す。

図８６は、ピクセルとクラスターのうちの最も近い１つとの間で計算される最小距離値を符号化８６０２するピクセルごとの一実施態様を示す。他の実施態様では、画像パッチがアップサンプリングされたサブピクセル解像度内であるとき、距離チャネルは、サブピクセルごとに符号化される。
（クラスター形状に基づく複数のターゲットクラスターに対する距離計算）

図８７は、本明細書で「クラスター形状データ」又は「クラスター形状情報」と称される、ピクセルクラスター間の分類／属性／分類８７０２を使用して、複数のターゲットクラスター１－ｍが、ニューラルネットワークベースのベースコーラー１５１４によって同時にベースコールされているときに、距離チャネルのクラスター距離値８８０２を決定する、一実施態様を示す。最初に、以下のことは、クラスター形状データがどのように生成されるかについての簡単な検討である。

上述のように、ニューラルネットワークベースのテンプレート生成器１５１２の出力は、同じクラスターを示し／同じクラスターに寄与し／同じクラスターに属する、背景ピクセル、中心ピクセル、及びクラスター／クラスター内部ピクセルとしてピクセルを分類するために使用される。このピクセルクラスター間分類情報は、ピクセル中心とクラスター中心との間の距離に関わらず、各ピクセルを１つのクラスターのみに属させるために使用され、クラスター形状データとして記憶される。

図８７に示される実施態様では、背景ピクセルは、グレーで着色され、クラスター１に属するピクセルは、黄色（クラスター１ピクセル）で着色され、クラスター２に属するピクセルは、緑色（クラスター２ピクセル）で着色され、クラスター３に属するピクセルは、赤色（クラスター３ピクセル）で着色され、クラスターｍに属するピクセルは、青色（クラスターｍピクセル）で着色される。

図８８は、クラスター形状データを使用して距離値８８０２を計算する一実施態様を示す。最初に、我々は、クラスター形状を考慮することなく計算される距離情報がなぜ誤差を生じやすいかを説明する。次いで、我々は、クラスター形状データがこの制限をどのように克服するかを説明する。

クラスター形状データを使用しない「マルチクラスター」ベースコール実施態様では（図８５ａ－ｂ及び図８６）、ピクセルの中心間距離値は、複数のクラスターの中から最も近いクラスターに関して計算される。ここで、クラスターＡに属するピクセルが、クラスターＡの中心から更に離れているが、クラスターＢの中心により近いときのシナリオを考える。そのような場合、クラスター形状データなしで、ピクセルは、（真に属する）クラスターＡに向かい合って距離値を割り当てられる代わりに、（属していない）クラスターＢに関して計算される距離値を割り当てられる。

「マルチクラスター形状ベースの」ベースコール実施態様は、生画像データ内で定義され、かつニューラルネットワークベースのテンプレート生成器１５１２によって生成されるように、真のピクセルクラスター間マッピングを使用することによって、これを回避する。

２つの実施態様間のコントラストは、ピクセル３４及び３５に関して見られ得る。図８５ｂでは、ピクセル３４及び３５の距離値は、クラスター形状データを考慮することなく、クラスター３の最も近い中心に関して計算される。しかしながら、図８８では、クラスター形状データに基づいて、ピクセル３４及び３５の距離値８８０２は、（それらが実際に属する）クラスター２に関して計算される。

図８８では、クラスターピクセルは、クラスター強度を示し、背景ピクセルは、背景強度を示す。クラスター距離値は、クラスターのうちの１つのみに各クラスターピクセルを分類することに基づいて選択されるクラスターのうちの割り当てられた１つから、各クラスターピクセルの中心間距離を識別する。いくつかの実施態様では、背景ピクセルは、０若しくは０．１、又はいくつかの他の最小値などの所定の背景距離値を割り当てられる。

一実施態様では、上述のように、クラスター距離値８８０２は、以下の距離式を使用して計算される。

他の実施態様では、画像パッチがアップサンプリングされたサブピクセル解像度内であるとき、クラスター距離値８８０２は、サブピクセルドメイン内で計算され、クラスター及び背景属性８７０２は、サブピクセルごとに生じる。

したがって、マルチクラスター形状ベースのベースコール実施態様では、距離チャネルは、複数のクラスターの中から割り当てられたクラスターに関して計算される。割り当てられたクラスターは、生画像データ内で定義される真のピクセルクラスター間マッピングに従ってクラスターのうちの１つのみに各クラスターピクセルを分類することに基づいて選択される。

図８９は、ピクセルと割り当てられたクラスターとの間で計算される距離値８７０２を符号化するピクセルごとの一実施態様を示す。他の実施態様では、画像パッチがアップサンプリングされたサブピクセル解像度内であるとき、距離チャネルは、サブピクセルごとに符号化される。

深層学習は、多層ニューラルネットワークを使用する強力な機械学習技術である。コンピュータビジョン及び画像処理ドメイン内の１つの特に成功したネットワーク構造は、畳み込みニューラルネットワーク（ＣＮＮ）であり、各層は、入力テンソル（画像状、多次元高密度アレイ）から異なる形状の出力テンソルへのフィードフォーワード畳み込み変換を実行する。ＣＮＮは、最大３－又は４－Ｄのアレイ上で訓練を高速にする、画像の空間コヒーレンス及び汎用グラフィック処理ユニット（Graphics Processing Unit、ＧＰＵ）の出現に起因する画像状入力に特に適する。これらの画像状特性を活用することは、サポートベクトルマシン（Support Vector Machine、ＳＶＭ）又は多層パーセプトロン（ＭＬＰ）などの他の学習方法と比較して、優れた経験的性能につながる。

我々は、画像データ並びに補足距離及びスケーリングデータの両方を取り扱うために標準的なＣＮＮを増強する専用構造を導入する。以下の詳細がある。
（専用構造）

図９０は、異なる配列決定サイクルでデータの処理を分離するために使用されるニューラルネットワークベースのベースコーラー１５１４の専用構造の一実施態様を示す。専用構造を使用する動機は、最初に説明される。

上述のように、ニューラルネットワークベースのベースコーラー１５１４は、現在の配列決定サイクル、１つ又はそれ以上の先行する配列決定サイクル、及び１つ又はそれ以上の連続する配列決定サイクルでデータを処理する。追加の配列決定サイクルに対するデータは、配列固有のコンテキストを提供する。ニューラルネットワークベースのベースコーラー１５１４は、訓練中に配列固有のコンテキストを学習し、それらをベースコールする。更に、事前及び事後配列決定サイクルに対するデータは、プレフェイジング及びフェイジング信号の２次の寄与を現在の配列決定サイクルに提供する。
（空間畳み込み層）

しかしながら、上述のように、異なる配列決定サイクルで、及び異なる画像チャネル内に捕捉される画像は、位置合わせ不良であり、互いに残留位置合わせ誤差を有する。この位置合わせ不良を考慮するために、専用構造は、配列決定サイクル間で情報を混合せず、配列決定サイクル内で情報を混合するだけである、空間畳み込み層を含む。

空間畳み込み層は、畳み込みの「専用の非共有」配列を介して複数の配列決定サイクルの各々に対して独立してデータを処理することによって分離を操作する、いわゆる「分離された畳み込み」を使用する。分離された畳み込みは、任意の他の配列決定サイクルのデータ及び得られた特徴マップ上で畳み込むことなく、所与の配列決定サイクル、すなわち、サイクル内のみのデータ及び得られた特徴マップ上で畳み込む。

例えば、入力データが、（ｉ）ベースコールされる現在の（時間ｔ）配列決定サイクルに対する現在のデータと、（ｉｉ）以前の（時間ｔ－１）配列決定サイクルに対する以前のデータと、（ｉｉｉ）次の（時間ｔ＋１）配列決定サイクルに対する次のデータと、を含むと考える。次いで、専用構造は、３つの別個のデータ処理パイプライン（又は畳み込みパイプライン）、すなわち、現在のデータ処理パイプライン、以前のデータ処理パイプライン、及び次のデータ処理パイプラインを開始する。現在のデータ処理パイプラインは、現在の（時間ｔ）配列決定サイクルに対する現在のデータを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「現在の空間畳み込み表現」を生成する。以前のデータ処理パイプラインは、以前の（時間ｔ－１）配列決定サイクルに対する以前のデータを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「以前の空間畳み込み表現」を生成する。次のデータ処理パイプラインは、次の（時間ｔ＋１）配列決定サイクルに対する次のデータを入力として受信し、複数の空間畳み込み層を介して独立してそれを処理して、最終空間畳み込み層の出力としていわゆる「次の空間畳み込み表現」を生成する。

いくつかの実施態様では、現在、以前、及び次の処理パイプラインは、並行して実行される。

いくつかの実施態様では、空間畳み込み層は、専用構造内の空間畳み込みネットワーク（又はサブネットワーク）の一部である。
（時間的畳み込み層）

ニューラルネットワークベースのベースコーラー１５１４は、配列決定サイクル間、すなわち、サイクル間で情報を混合する時間的畳み込み層を更に含む。時間的畳み込み層は、空間畳み込みネットワークからそれらの入力を受信し、それぞれのデータ処理パイプラインに対して最終空間畳み込み層によって生成される空間畳み込み表現で動作する。

時間的畳み込み層のサイクル間動作性自由度は、空間畳み込みネットワークへの入力として供給される画像データ内に存在する位置合わせ不良特性が、空間畳み込み層の配列によって実行される、分離された畳み込みのカスケードによって空間畳み込み表現からパージされるという事実から生じる。

時間的畳み込み層は、スライディングウィンドウベースでの連続する入力で入力チャネル上でグループごとに畳み込む、いわゆる「組み合わせの畳み込み」を使用する。一実施態様では、連続する入力は、以前の空間畳み込み層又は以前の時間的畳み込み層によって生成される連続する出力である。

いくつかの実施態様では、時間的畳み込み層は、専用構造内の時間的畳み込みネットワーク（又はサブネットワーク）の一部である。時間的畳み込みネットワークは、空間畳み込みネットワークからその入力を受信する。一実施態様では、時間的畳み込みネットワークの第１の時間的畳み込み層は、配列決定サイクル間の空間畳み込み表現をグループごとに組み合わせる。別の実施態様では、時間的畳み込みネットワークの後続の時間的畳み込み層は、以前の時間的畳み込み層の連続する出力を組み合わせる。

最終時間的畳み込み層の出力は、出力を生成する出力層に供給される。出力は、１つ又はそれ以上の配列決定サイクルで１つ又はそれ以上のクラスターをベースコールするために使用される。

以下のことは、分離された及び組み合わせの畳み込みのより詳細な考察である。
（分離された畳み込み）

前方伝搬の間、専用構造は、２つの段階で複数の入力からの情報を処理する。第１の段階では、分離畳み込みは、入力間の情報の混合を防止するために使用される。第２の段階では、組み合わせの畳み込みは、入力間の情報を混合するために使用される。第２の段階からの結果は、複数の入力に対して単一の推測を行うために使用される。

これは、バッチモード技術とは異なり、畳み込み層は、バッチ内の複数の入力を同時に処理し、バッチ内の各入力に対して対応する推測を行う。対照的に、専用構造は、複数の入力を単一の推測にマッピングする。単一の推測は、４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）の各々に対する分類スコアなどの２つ又はそれ以上の予測を含み得る。

一実施態様では、入力は、各入力が異なる時間ステップで生成され、かつ複数の入力チャネルを有するように、時間的順序付けを有する。例えば、複数の入力は、以下の３つの入力、すなわち：時間ステップ（ｔ）で現在の配列決定サイクルによって生成される現在の入力と、時間ステップ（ｔ－１）で以前の配列決定サイクルによって生成される以前の入力と、時間ステップ（ｔ＋１）で次の配列決定サイクルによって生成される次の入力と、を含み得る。別の実施態様では、各入力は、１つ又はそれ以上の以前の畳み込み層によって現在の、以前の、及び次の入力からそれぞれ導出され、ｋ個の特徴マップを含む。

一実施態様では、各入力は、以下の５つの入力チャネル、すなわち、赤色画像チャネル（赤色）と、赤色距離チャネル（黄色）と、緑色画像チャネル（緑色）と、緑色距離チャネル（紫色）と、スケーリングチャネル（青色）と、を含み得る。別の実施態様では、各入力は、以前の畳み込み層によって生成されるｋ個の特徴マップを含み得、各特徴マップは、入力チャネルとして処理される。

図９１は、分離された畳み込みの一実施態様を示す。分離された畳み込みは、畳み込みフィルタを各入力に並行して適用することによって、複数の入力を一度に処理する。分離された畳み込みでは、畳み込みフィルタは、同じ入力内で入力チャネルを組み合わせ、異なる入力内で入力チャネルを組み合わせない。一実施態様では、同じ畳み込みフィルタは、各入力に並行して適用される。別の実施態様では、異なる畳み込みフィルタは、各入力に並行して適用される。いくつかの実施態様では、各空間畳み込み層は、ｋ個の畳み込みフィルタのバンクを含み、その各々は、各入力に並行して適用される。
（組み合わせの畳み込み）

組み合わせの畳み込みは、異なる入力の対応する入力チャネルをグループ化し、畳み込みフィルタを各グループに適用することによって、異なる入力間で情報を混合する。対応する入力チャネルのグループ化及び畳み込みフィルタの適用は、スライディングウィンドウベースで生じる。このコンテキストでは、ウィンドウは、例えば、２つの連続する配列決定サイクルに対する出力を表す、２つ又はそれ以上の連続する入力チャネルに及ぶ。ウィンドウがスライドウィンドウであるため、最も多くの入力チャネルは、２つ又はそれ以上のウィンドウで使用される。

いくつかの実施態様では、異なる入力は、先行する空間又は時間的畳み込み層によって生成される出力配列から生じる。出力配列では、異なる入力は、連続する出力として配置され、したがって、連続する入力として次の時間的畳み込み層によって観察される。次いで、次の時間的畳み込み層では、組み合わせの畳み込みは、連続する入力内の対応する入力チャネルのグループに畳み込みフィルタを適用する。

一実施態様では、連続する入力は、現在の入力が：時間ステップ（ｔ）で現在の配列決定サイクルによって生成され、以前の入力が時間ステップ（ｔ－１）で以前の配列決定サイクルによって生成され、次の入力が時間ステップ（ｔ＋１）で次の配列決定サイクルによって生成されるように、時間的順序付けを有する。別の実施態様では、各連続する入力は、１つ又はそれ以上の以前の畳み込み層によって現在の、以前の、及び次の入力からそれぞれ導出され、ｋ個の特徴マップを含む。

畳み込みフィルタの深さＢは、対応する入力チャネルがスライディングウィンドウベースで畳み込みフィルタによってグループごとに畳み込まれる、連続する入力の数に依存する。言い換えると、深さＢは、各スライディングウィンドウ及びグループサイズ内の連続する入力の数と等しい。

図９２ａでは、２つの連続する入力からの対応する入力チャネルは、各スライディングウィンドウ内で組み合わされ、したがってＢ＝２である。図９２ｂでは、３つの連続する入力からの対応する入力チャネルは、各スライディングウィンドウ内で組み合わされ、したがってＢ＝３である。

一実施態様では、スライディングウィンドウは、同じ畳み込みフィルタを共有する。別の実施態様では、異なる畳み込みフィルタが、各スライディングウィンドウに対して使用される。いくつかの実施態様では、各時間的畳み込み層は、ｋ個の畳み込みフィルタのバンクを含み、その各々は、スライディングウィンドウベースの連続する入力に適用される。
（フィルタバンク）

図９３は、各畳み込み層が畳み込みフィルタのバンクを有する、ニューラルネットワークベースのベースコーラー１５１４の畳み込み層の一実施態様を示す。図９３では、５個の畳み込み層が示されており、その各々は、６４個の畳み込みフィルタのバンクを有する。いくつかの実施態様では、各空間畳み込み層は、ｋ個の畳み込みフィルタのバンクを有し、ｋは、１、２、８、６４、１２８、２５６などの任意の数であり得る。いくつかの実施態様では、各時間的畳み込み層は、ｋ個の畳み込みフィルタのバンクを有し、ｋは、１、２、８、６４、１２８、２５６などの任意の数であり得る。

ここでの考察は、補足スケーリングチャネル及びどのようにそれが計算されるかについて説明する。
（スケーリングチャネル）

図９４は、画像チャネルを補うスケーリングチャネルの２つの構成を示す。スケーリングチャネルは、ニューラルネットワークベースのベースコーラー１５１４に供給される入力データでピクセルごとに符号化される。異なるクラスターサイズ及び不均一な照明条件は、抽出されている広範囲のクラスター強度をもたらす。スケーリングチャネルによって供給される加法バイアスは、クラスターにわたってクラスター強度を同等にする。他の実施態様では、画像パッチがアップサンプリングされたサブピクセル解像度内であるとき、スケーリングチャネルは、サブピクセルごとに符号化される。

単一のターゲットクラスターがベースコールされているとき、スケーリングチャネルは、同じスケーリング値を全てのピクセルに割り当てる。複数のターゲットクラスターが同時にベースコールされているとき、スケーリングチャネルは、クラスター形状データに基づいて、異なるスケーリング値をピクセルのグループに割り当てる。

スケーリングチャネル９４１０は、全てのピクセルに対して同じスケーリング値（ｓ１）を有する。スケーリング値（ｓ１）は、ターゲットクラスターの中心を含む中心ピクセルの平均強度に基づく。一実施態様では、平均強度は、ターゲットクラスターに対してＡ及びＴベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に中心ピクセル観察の強度値を平均することによって計算される。

スケーリングチャネル９４０８は、クラスター形状データに基づいて、対応するクラスターに属するそれぞれのピクセルグループの異なるスケーリング値（ｓ１、ｓ２、ｓ３、ｓｍ）を有する。各ピクセルグループは、対応するクラスターの中心を含む中心クラスターピクセルを含む。特定のピクセルグループのスケーリング値は、その中心クラスターピクセルの平均強度に基づく。一実施態様では、平均強度は、対応するクラスターに対してＡ及びＴベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に中心クラスターピクセル観察の強度値を平均することによって計算される。

いくつかの実施態様では、背景ピクセルは、０若しくは０．１、又はいくつかの他の最小値であり得る、背景スケーリング値（ｓｂ）を割り当てられる。

一実施態様では、スケーリングチャネル９４０６及びそれらのスケーリング値は、強度スケーラ９４０４によって決定される。強度スケーラ９４０４は、平均強度を計算するために、先行する配列決定サイクルからクラスター強度データ９４０２を使用する。

他の実施態様では、補足スケーリングチャネルは、ニューラルネットワークベースのベースコーラー１５１４の最後の層の前又はそこへ、ニューラルネットワークベースのベースコーラー１５１４の１つ又はそれ以上の中間層の前又はそこへ、及び画像サイズに一致するようにピクセルごとにそれを符号化する代わりに単一の値としてなど、異なる方法での入力として提供され得る。

ここでの考察は、ニューラルネットワークベースのベースコーラー１５１４に供給される入力データについて説明する。
入力データ：画像チャネル、距離チャネル、及びスケーリングチャネル

図９５ａは、赤色画像及び緑色画像を生成する単一の配列決定サイクルの入力データ９５００の一実施態様を示す。入力データ９５００は、以下を含む。
・赤色画像から抽出される画像パッチ内のピクセルに対する赤色強度データ９５０２（赤色）。赤色強度データ９５０２は、赤色画像チャネルで符号化される。
・赤色強度データ９５０２をピクセルごとに補う赤色距離データ９５０４（黄色）。赤色距離データ９５０４は、赤色距離チャネルで符号化される。
・緑色画像から抽出される画像パッチ内のピクセルに対する緑色強度データ９５０６（緑色）。緑色強度データ９５０６は、緑色画像チャネルで符号化される。
・緑色強度データ９５０６をピクセルごとに補う緑色距離データ９５０８（紫色）。緑色距離データ９５０８は、緑色距離チャネルで符号化される。
・赤色強度データ９５０２及び緑色強度データ９５０６をピクセルごとに補うスケーリングデータ９５１０（青色）。スケーリングデータ９５１０は、スケーリングチャネルで符号化されている。

他の実施態様では、入力データは、より少ない又はより多くの数の画像チャネル及び補足距離チャネルを含み得る。一例では、４－チャネル化学を使用する配列決定動作に対して、入力データは、各配列決定サイクル及び４つの補足距離チャネルに対して４つの画像チャネルを含む。

ここでの考察は、距離チャネル及びスケーリングチャネルがベースコール精度にどのように寄与するかについて説明する。
（加法バイアス）

図９５ｂは、画像チャネルから生成される特徴マップに組み込まれる加法バイアスを供給する距離チャネルの一実施態様を示す。この加法バイアスは、距離チャネルでピクセルごとに符号化されるピクセル中心クラスター中心（複数可）間距離に基づくため、ベースコール精度に寄与する。

平均して、約３×３のピクセルは、１つのクラスターを含む。クラスターの中心での密度は、クラスターが実質的に中心場所から外向きに成長するため、周囲よりも高いと予想される。周囲クラスターピクセルは、近くのクラスターからの競合する信号を含み得る。したがって、中心クラスターピクセルは、最大強度領域と見なされ、クラスターを確実に識別するビーコンとして機能する。

画像パッチのピクセルは、複数のクラスター（例えば、１０～２００クラスター）及びそれらの周囲の背景の強度放射を示す。追加のクラスターは、より広い半径からの情報を組み込み、強度放射が画像パッチで示される、基礎塩基を識別することによって、ベースコール予測に寄与する。言い換えると、クラスターのグループからの強度放射は、別個の塩基（Ａ、Ｃ、Ｔ、又はＧ）に割り当てられ得る強度パターンを累積的に生成する。

我々は、補足距離チャネル内のクラスター中心（複数可）から各ピクセルの畳み込みフィルタ距離に明示的に通信することが、より高いベースコール精度をもたらすことを観察する。距離チャネルは、どのピクセルがクラスター中心を含み、どのピクセルがクラスター中心からより離れているかを畳み込みフィルタに伝える。畳み込みフィルタは、（ｂ）周囲クラスターピクセル、背景ピクセル、及びそれらから導出される特徴マップよりも多くの、（ａ）中心クラスターピクセル、それらの隣接するピクセル、及びそれらから導出される特徴マップに対処することによって、配列決定信号をその適切なソースクラスターに割り当てるために、この情報を使用する。対処の一例では、距離チャネルは、（ａ）から生じる特徴マップに組み込まれる正の加法バイアスを供給するが、（ｂ）から生じる特徴マップに組み込まれる負の加法バイアスを供給する。

距離チャネルは、画像チャネルと同じ次元性を有する。これにより、畳み込みフィルタが、局所的な受容フィールド内の画像チャネル及び距離チャネルを別々に評価し、評価をコヒーレントに組み合わせることが可能になる。

単一のターゲットクラスターがベースコールされているとき、距離チャネルは、画像パッチの中心で１つの中心クラスターピクセルのみを識別する。複数のターゲットクラスターが同時にベースコールされているとき、距離チャネルは、画像パッチにわたって分布する複数の中心クラスターピクセルを識別する。

「単一のクラスター」距離チャネルは、その中心ピクセルでベースコールされる単一のターゲットクラスターの中心を含む画像パッチに適用される。単一のクラスター距離チャネルは、単一のターゲットクラスターに対する画像パッチ内の各ピクセルの中心間距離を含む。この実施態様では、画像パッチはまた、単一のターゲットクラスターに隣接する追加のクラスターを含むが、追加のクラスターはベースコールされない。

「マルチクラスター」距離チャネルは、そのそれぞれの中心クラスターピクセルでベースコールされる複数のターゲットクラスターの中心を含む画像パッチに適用される。マルチクラスター距離チャネルは、複数のターゲットクラスターの中から最も近いクラスターに対する画像パッチ内の各ピクセルの中心間距離を含む。これは、誤ったクラスターに対する中心間距離を測定する可能性を有するが、その可能性は低い。

「マルチクラスター形状ベースの」距離チャネルは、そのそれぞれの中心クラスターピクセルでベースコールされる複数のターゲットクラスターの中心を含み、ピクセルクラスター間属性情報が知られている、画像パッチに適用される。マルチクラスター距離チャネルは、それが属するか、又は複数のターゲットクラスターの中から属するクラスターに対する画像パッチ内の各クラスターピクセルの中心間距離を含む。背景ピクセルは、所与の計算された距離の代わりに、背景としてフラグ付けされ得る。

図９５ｂはまた、画像チャネルから生成される特徴マップに組み込まれる加法バイアスを供給するスケーリングチャネルの一実施態様を示す。この加法バイアスは、スケーリングチャネルでピクセルごとに符号化される中心クラスターピクセル（複数可）の平均強度に基づくため、ベースコール精度に寄与する。距離チャネルのコンテキスト内の加法バイアスに関する考察は、スケーリングチャネルに類似して適用される。
（加法バイアスの例）

図９５ｂは、どのように、加法バイアスが距離及びスケーリングチャネルから導出され、画像チャネルから生成される特徴マップに組み込まれるかの例を更に示す。

図９５ｂ，では、畳み込みフィルタｉ９５１４は、２つの画像チャネル９５０２及び９５０６、２つの距離チャネル９５０４及び９５０８、並びにスケーリングチャネル９５１０にわたって局所的な受容フィールド９５１２（マゼンタ）を評価する。距離及びスケーリングチャネルが別々に符号化されるため、加法バイアスは、チャネル固有の畳み込みカーネル（又は特徴検出器）９５１６ａ～ｅ（更にバイアス９５１６ｆ）の各々の中間出力９５１６ａ～ｅが、局所的な受容フィールド９５１２に対する最終出力／特徴マップ要素９５２０としてチャネルごとに蓄積９５１８されるときに生じる。この例では、２つの距離チャネル９５０４及び９５０８によって供給される加法バイアスはそれぞれ、中間出力９５１６ｂ及び９５１６ｄである。スケーリングチャネル９５１０によって供給される加法バイアスは、中間出力９５１６ｅである。

加法バイアスは、ベースコールのためにより重要で信頼性が高いと見なされる画像チャネル内のそれらの特徴、すなわち、中心クラスターピクセル及びそれらの隣接するピクセルのピクセル強度をより重視することによって、特徴マップコンパイルプロセスをガイドする。訓練中に、グラウンドトゥルースベースコールとの比較から計算される勾配の逆伝搬は、畳み込みカーネルの重みを更新して、中心クラスターピクセル及びそれらの隣接するピクセルに対するより強い活性化を生成する。

例えば、局所的な受容フィールド９５１２によってカバーされる隣接するピクセルのグループ内のピクセルが、クラスター中心を含み、次いで、距離チャネル９５０４及び９５０８が、クラスター中心に対するピクセルの近接を反映すると考える。その結果、強度中間出力９５１６ａ及び９５１６ｃがチャネルごとの蓄積９５１８で距離チャネル加法バイアス９５１６ｂ及び９５１６ｄとマージされるとき、その結果は、ピクセルの正にバイアスされた畳み込み表現９５２０である。

対照的に、局所的な受容フィールド９５１２によってカバーされるピクセルがクラスター中心の近くにない場合、距離チャネル９５０４及び９５０８は、クラスター中心からのそれらの分離を反映する。その結果、強度中間出力９５１６ａ及び９５１６ｃがチャネルごとの蓄積９５１８で距離チャネル加法バイアス９５１６ｂ及び９５１６ｄとマージされるとき、その結果は、ピクセルの負にバイアスされた畳み込み表現９５２０である。

同様に、スケーリングチャネル９５１０から導出されるスケーリングチャネル加法バイアス９５１６ｅは、ピクセルの畳み込み表現９５２０を正に又は負にバイアスし得る。

明確さのために、図９５ｂは、単一の配列決定サイクルで入力データ９５００に対する単一の畳み込みフィルタｉ９５１４の適用を示す。当業者は、考察が、複数の畳み込みフィルタ（例えば、ｋフィルタのフィルタバンク、ｋは、８、１６、３２、６４、１２８、２５６などであり得る）まで、複数の畳み込み層（例えば、複数の空間及び時間的畳み込み層）、及び複数の配列決定サイクル（例えば、ｔ、ｔ＋１、ｔ－１）まで拡張され得ることを理解するであろう。

他の実施態様では、距離及びスケーリングチャネル並びに画像チャネルが同じ次元性を有するため、距離及びスケーリングチャネルは、別々に符号化される代わりに、画像チャネルに直接適用されて、変調ピクセル乗算）を生成する。更なる実施態様では、畳み込みカーネルの重みは、要素ごとの乗算中に画像チャネルで最も重要な特徴を検出するように、距離及び画像チャネルに基づいて決定される。更に他の実施態様では、第１の層に供給される代わりに、距離及びスケーリングチャネルは、下流層及び／又はネットワーク（例えば、完全に接続されたネットワーク又は分類層）への補助入力として提供される。更に更なる実施態様では、距離及びスケーリングチャネルは、第１の層に供給され、下流層及び／又はネットワークに（例えば、残留接続を介して）再供給される。

上記の考察は、ｋ個の入力チャネルを有する２Ｄ入力データに対するものである。３Ｄ入力までの拡張は、当業者によって理解されるであろう。簡潔には、容積入力は、大きさｋ×ｌ×ｗ×ｈを有する４Ｄテンソルであり、ｌは、追加の大きさ、長さである。各個々のカーネルは、４Ｄテンソルでスイープされた４Ｄテンソルであり、３Ｄテンソル（チャネル次元は、全体にわたってスイープされないためにくずれる）をもたらす。

他の実施態様では、入力データ９５００がアップサンプリングされたサブピクセル解像度内であるとき、距離及びスケーリングチャネルは、サブピクセルごとに別々に符号化され、加法バイアスは、サブピクセルレベルで生じる。
（専用構造及び入力データを使用するベースコール）

ここでの考察は、専用構造及び入力データがニューラルネットワークベースのベースコールのためにどのように使用されるかについて説明する。
（単一のクラスターベースコール）

図９６ａ、図９６ｂ、及び図９６ｃは、単一のターゲットクラスターをベースコールする一実施態様を示す。専用構造は、３回の配列決定サイクル、すなわち、ベースコールされる現在の（時間ｔ）配列決定サイクル、以前の（時間ｔ－１）配列決定サイクル、及び次の（時間ｔ＋１）配列決定サイクルに対する入力データを処理し、現在の（時間ｔ）配列決定サイクルで単一のターゲットクラスターに対するベースコールを生成する。

図９６ａ及び図９６ｂは、空間畳み込み層を示す。図９６ｃは、いくつかの他の非畳み込み層と共に、時間的畳み込み層を示す。図９６ａ及び図９６ｂでは、垂直の点線は、特徴マップからの空間畳み込み層の境界を定め、水平の点鎖線は、３回の配列決定サイクルに対応する３つの畳み込みパイプラインの境界を定める。

各配列決定サイクルに対して、入力データは、次元性のテンソルｎ×ｎ×ｍ（例えば、図９５ａでの入力テンソル９５００）を含み、ｎは、正方形テンソルの幅及び高さを表し、ｍは、入力チャネルの数を表し、３回のサイクルｎ×ｎ×ｍ×ｔに対する入力データの次元性を作成する。

ここで、サイクルごとの各テンソルは、その画像チャネルの中心ピクセルで、単一のターゲットクラスターの中心を含む。それはまた、いくつかの隣接するクラスターの、及び特定の配列決定サイクルで画像チャネルの各々で捕捉されるそれらの周囲の背景の、単一のターゲットクラスターの強度放射を示す。図９６ａでは、２つの例示的画像チャネル、すなわち、赤色画像チャネル及び緑色画像チャネルが示されている。

サイクルごとの各テンソルはまた、対応する画像チャネル（例えば、赤色距離チャネル及び緑色距離チャネル）を補う距離チャネルを含む。距離チャネルは、単一のターゲットクラスターに対する、対応する画像チャネル内の各ピクセルの中心間距離を識別する。サイクルごとの各テンソルは、画像チャネルの各々で強度値をピクセルごとにスケールするスケーリングチャネルを更に含む。

専用構造は、５つの空間畳み込み層と、２つの時間的畳み込み層と、を有する。各空間畳み込み層は、次元性ｊ×ｊ×∂のｋ個の畳み込みフィルタのバンクを使用する分離された畳み込みを適用し、ｊは、正方形フィルタの幅及び高さを表し、∂はその深さを表す。各時間的畳み込み層は、次元性ｊ×ｊ×αのｋ個の畳み込みフィルタのバンクを使用する組み合わせの畳み込みを適用し、ｊは、正方形フィルタの幅及び高さを表し、αはその深さを表す。

専用構造は、事前分類層（例えば、平坦化層及び高密度層）と、出力層（例えば、ソフトマックス分類層）と、を有する。事前分類層は、出力層に対する入力を調製する。出力層は、現在の（時間ｔ）配列決定サイクルで、単一のターゲットクラスターに対するベースコールを生成する。
（空間次元性の一貫した低減）

図９６ａ、図９６ｂ、及び図９６ｃはまた、畳み込みフィルタによって生成される、得られた特徴マップ（畳み込み表現若しくは中間畳み込み表現若しくは畳み込み特徴又は活性化マップ）を示す。サイクルごとのテンソルから開始して、得られた特徴マップの空間次元性は、１つの畳み込み層から次まで一定のステップサイズによって低減し、概念は、本明細書で「空間次元性の一貫した低減」と称される。図９６ａ、図９６ｂ、及び図９６ｃでは、空間次元性の一貫した低減のために、２の例示的一定のステップサイズが使用される。

空間次元性の一貫した低減は、以下の式によって表現される。「現在の特徴マップ空間次元性＝以前の特徴マップ空間次元性－畳み込みフィルタ空間次元性＋１」空間次元性の一貫した低減により、畳み込みフィルタは、中心クラスターピクセル及びそれらの隣接するピクセルに対する注目の焦点を漸進的に狭め、中心クラスターピクセル及びそれらの隣接するピクセル間の局所的な依存性を捕捉する特徴を有する特徴マップを生成する。これは、次に、中心が中心クラスターピクセルに含まれるクラスターを正確にベースコールするのに役立つ。

５つの空間畳み込み層の分離された畳み込みは、３つの配列決定サイクル間の情報の混合を防止し、３つの別個の畳み込みパイプラインを維持する。

２つの時間的畳み込み層の組み合わせの畳み込みは、３つの配列決定サイクル間で情報を混合する。第１の時間的畳み込み層は、最終空間畳み込み層によって次及び現在の配列決定サイクルに対してそれぞれ生成される、次及び現在の空間畳み込み表現上で畳み込む。これは、第１の時間的出力をもたらす。第１の時間的畳み込み層はまた、最終空間畳み込み層によって現在及び以前の配列決定サイクルに対してそれぞれ生成される、現在及び以前の空間畳み込み表現上で畳み込む。これは、第２の時間的出力をもたらす。第２の時間的畳み込み層は、第１及び第２の時間的出力上で畳み込み、最終時間的出力を生成する。

いくつかの実施態様では、最終時間的出力は、平坦化層に供給されて、平坦化された出力を生成する。次いで、平坦化された出力は、高密度層に供給されて、高密度の出力を生成する。高密度出力は、出力層によって処理されて、現在の（時間ｔ）配列決定サイクルで、単一のターゲットクラスターに対するベースコールを生成する。

いくつかの実施態様では、出力層は、現在の配列決定サイクルで単一のターゲットクラスターに組み込まれる塩基がＡ、Ｃ、Ｔ、及びＧである尤度（分類スコア）を生成し、尤度に基づいてＡ、Ｃ、Ｔ、又はＧとして塩基を分類する（例えば、図９６ａでの塩基Ａのような、最大尤度を有する塩基が選択される）。そのような実施態様では、尤度は、ソフトマックス分類層によって生成される、指数関数的に正規化されたスコアであり、１になる。

いくつかの実施態様では、出力層は、単一のターゲットクラスターに対する出力ペアを導出する。出力ペアは、現在の配列決定サイクルで単一のターゲットクラスターに組み込まれる塩基がＡ、Ｃ、Ｔ、又はＧであるクラスラベルを識別し、クラスラベルに基づいて、単一のターゲットクラスターをベースコールする。一実施態様では、１、０のクラスラベルは、Ａ塩基を識別し、０、１のクラスラベルは、Ｃ塩基を識別し、１、１のクラスラベルは、Ｔ塩基を識別し、０、０のクラスラベルは、Ｇ塩基を識別する。別の実施態様では、１、１のクラスラベルは、Ａ塩基を識別し、０、１のクラスラベルは、Ｃ塩基を識別し、０．５、０．５のクラスラベルは、Ｔ塩基を識別し、０、０のクラスラベルは、Ｇ塩基を識別する。更に別の実施態様では、１、０のクラスラベルは、Ａ塩基を識別し、０、１のクラスラベルは、Ｃ塩基を識別し、０．５、０．５のクラスラベルは、Ｔ塩基を識別し、０、０のクラスラベルは、Ｇ塩基を識別する。更に更なる実施態様では、１、２のクラスラベルは、Ａ塩基を識別し、０、１のクラスラベルは、Ｃ塩基を識別し、１、１のクラスラベルは、Ｔ塩基を識別し、０、０のクラスラベルは、Ｇ塩基を識別する。

いくつかの実施態様では、出力層は、現在の配列決定サイクルで単一のターゲットクラスターに組み込まれる塩基がＡ、Ｃ、Ｔ、又はＧであることを識別する、単一のターゲットクラスターに対するクラスラベルを導出し、クラスラベルに基づいて、単一のターゲットクラスターをベースコールする。一実施態様では、０．３３のクラスラベルは、Ａ塩基を識別し、０．６６のクラスラベルは、Ｃ塩基を識別し、１のクラスラベルは、Ｔ塩基を識別し、０のクラスラベルは、Ｇ塩基を識別する。別の実施態様では、０．５０のクラスラベルは、Ａ塩基を識別し、０．７５のクラスラベルは、Ｃ塩基を識別し、１のクラスラベルは、Ｔ塩基を識別し、０．２５のクラスラベルは、Ｇ塩基を識別する。

いくつかの実施態様では、出力層は、単一の出力値を導出し、塩基Ａ、Ｃ、Ｔ、及びＧに対応するクラス値範囲に対して単一の出力値を比較し、比較に基づいて、単一の出力値を特定のクラス値範囲に割り当て、割り当てに基づいて、単一のターゲットクラスターをベースコールする。一実施態様では、単一の出力値は、シグモイド関数を使用して導出され、単一の出力値は、０～１の範囲である。別の実施態様では、０～０．２５のクラス値範囲は、Ａ塩基を表し、０．２５～０．５０のクラス値範囲は、Ｃ塩基を表し、０．５０～０．７５のクラス値範囲は、Ｔ塩基を表し、０．７５～１のクラス値範囲は、Ｇ塩基を表す。

当業者は、他の実施態様では、専用構造が、より少ない又はより多くの数の配列決定サイクルに対する入力データを処理し得、より少ない又はより多くの数の空間及び時間的畳み込み層を含み得ることを理解するであろう。また、入力データの次元性、入力データ内のサイクルごとのテンソル、畳み込みフィルタ、得られた特徴マップ、及び出力は異なり得る。また、畳み込み層内の畳み込みフィルタの数は異なり得る。それは、異なるパディング及びストリディング構成を使用し得る。それは、異なる分類機能（例えば、シグモイド又は回帰）を使用し得、完全に接続された層を含んでも含まなくてもよい。それは、１Ｄ重畳、２Ｄ重畳、３Ｄ重畳、４Ｄ重畳、５Ｄ重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、１×１重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、及び逆重畳を使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ，指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。

単一のクラスターベースコールを説明してきたが、ここでの考察は、複数のクラスターベースコールについて説明する。
（複数のクラスターベースコール）

入力データのサイズ及びフローセル上のクラスター密度に応じて、１０～３０万個のクラスターのいずれかは、入力ごとにニューラルネットワークベースのベースコーラー１５１４によって同時にベースコールされる。これを、並列プロセッサ上で実装されるデータ並列及び／又はモデル並列戦略に拡張し、バッチ又はサイズ１０のミニバッチを使用することは、１００～３００万個のクラスターがバッチ又はミニバッチごとに同時にベースコールされることをもたらす。

配列決定構成（例えば、クラスター密度、フローセル上のタイルの数）に応じて、タイルは、２万～３０万個のクラスターを含む。別の実施態様では、ＩｌｌｕｍｉｎａのＮｏｖａＳｅｑシーケンサは、タイル当たり最大４００万個のクラスターを有する。したがって、タイル（タイル画像）の配列決定画像は、２万～３０万個のクラスター及びそれらの周囲の背景からの強度放射を示し得る。そのため、一実施態様では、全体のタイル画像を含む入力データを使用することは、３０万個のクラスターが入力ごとに同時にベースコールされることをもたらす。別の実施態様では、入力データ内のサイズ１５×１５のピクセルの画像パッチを使用することは、１００個未満のクラスターが入力ごとに同時にベースコールされることをもたらす。当業者は、これらの数が、配列決定構成、並列戦略、（例えば、最適構造ハイパーパラメータに基づく）構造の詳細、及び利用可能な計算に応じて変化し得ることを理解するであろう。

図９７は、複数のターゲットクラスターを同時にベースコールする一実施態様を示す。入力データは、上述の３つの配列決定サイクルに対する３つのテンソルを有する。サイクルごとの各テンソル（例えば、図９５ａでの入力テンソル９５００）は、ベースコールされる複数のターゲットクラスター、及び特定の配列決定サイクルで画像チャネルの各々で捕捉されるそれらの周囲の背景の強度放射を示す。他の実施態様では、ベースコールされないいくつかの追加の隣接するクラスターはまた、コンテキストに含まれる。

マルチクラスターベースコール実施態様では、サイクルごとの各テンソルは、対応する画像チャネル（例えば、赤色距離チャネル及び緑色距離チャネル）を補う距離チャネルを含む。距離チャネルは、複数のターゲットクラスターの中から最も近いクラスターに対する、対応する画像チャネル内の各ピクセルの中心間距離を識別する。

マルチクラスター形状ベースのベースコール実施態様では、サイクルごとの各テンソルは、対応する画像チャネル（例えば、赤色距離チャネル及び緑色距離チャネル）を補う距離チャネルを含む。距離チャネルは、それが属するか、又は複数のターゲットクラスターの中から属するクラスターに対する、対応する画像チャネル内の各クラスターピクセルの中心間距離を識別する。

サイクルごとの各テンソルは、画像チャネルの各々で強度値をピクセルごとにスケールするスケーリングチャネルを更に含む。

図９７では、サイクルごとの各テンソルの空間次元性は、図９６ａに示されるものよりも大きい。すなわち、図９６ａでの単一のターゲットクラスターベースコール実施態様では、サイクルごとの各テンソルの空間次元性は、１５×１５であるのに対し、図９７での複数のクラスターベースコール実施態様では、サイクルごとの各テンソルの空間次元性は、１１４×１１４である。いくつかの実施態様によれば、追加のクラスターの強度放射を示すピクセル化データの量を多く有することにより、複数のクラスターに対して同時に予測されるベースコールの精度が改善する。
（冗長な畳み込みの回避）

更に、サイクルごとの各テンソル内の画像チャネルは、配列決定画像から抽出される画像パッチから取得される。いくつかの実施態様では、空間的に連続（例えば、左、右、上、及び底で連続）している、抽出された画像パッチ間に重複ピクセルが存在する。したがって、一実施態様では、重複ピクセルは、冗長な畳み込みを受けず、前の畳み込みからの結果は、重複ピクセルが後続の入力の一部であるとき、後続のインスタンスで再使用される。

例えば、サイズｎ×ｎのピクセルの第１の画像パッチは、配列決定画像から抽出され、サイズｍ×ｍのピクセルの第２の画像パッチはまた、同じ配列決定画像から抽出され、そのため、第１及び第２の画像パッチは、空間的に連続しており、ｏ×ｏのピクセルの重複領域を共有すると考える。更に、ｏ×ｏのピクセルは、第１の画像パッチの一部として畳み込まれて、メモリ内に記憶される第１の畳み込み表現を生成すると考える。次いで、第２の画像パッチが畳み込まれるとき、ｏ×ｏのピクセルは、再び畳み込みされず、その代わりに、第１の畳み込み表現は、メモリから取得され、再使用される。いくつかの実施態様では、ｎ＝ｍである。他の実施態様では、それらは等しくない。

次いで、入力データは、専用構造の空間及び時間的畳み込み層を介して処理されて、次元性ｗ×ｗ×ｋの最終時間的出力を生成する。ここでも、空間次元性事象の一貫した低減の下、空間次元性は、各畳み込み層で２の一定のステップサイズによって低減される。すなわち、入力データのｎ×ｎの空間次元性で開始して、最終時間的出力のｗ×ｗの空間次元性が導出される。

次いで、空間次元性ｗ×ｗの最終時間的出力に基づいて、出力層は、ユニットのｗ×ｗのセット内の各ユニットに対するベースコールを生成する。一実施態様では、出力層は、ユニットごとに４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）に対する４つの分類スコアを生成するソフトマックス層である。すなわち、ユニットのｗ×ｗのセット内の各ユニットは、図９７に示されるように、対応するソフトマックスクォドルプルでの最大分類スコアに基づいて、ベースコールを割り当てられる。いくつかの実施態様では、ユニットのｗ×ｗのセットは、平坦化層及び高密度層を介して最終時間的出力を処理する結果として導出されて、平坦化された出力及び高密度出力をそれぞれ生成する。そのような実施態様では、平坦化された出力は、ｗ×ｗ×ｋの要素を有し、高密度出力は、ユニットのｗ×ｗのセットを形成するｗ×ｗの要素を有する。

複数のターゲットクラスターに対するベースコールは、ユニットのｗ×ｗのセット内のベースコールされたユニットのうちのどれが、中心クラスターピクセル、すなわち、複数のターゲットクラスターのそれぞれの中心を含む入力データ内のピクセルと一致するか、又はそれに対応するかを識別することによって取得される。所与のターゲットクラスターは、所与のターゲットクラスターの中心を含むピクセルと一致するか、又はそれに対応する、ユニットのベースコールを割り当てられる。言い換えると、中心クラスターピクセルと一致しないか、又はそれに対応しないユニットのベースコールは、フィルタリングされる。この機能は、いくつかの実施態様では専用構造の一部であるか、又は他の実施態様では後処理モジュールとして実装される、ベースコールフィルタリング層によって操作される。

他の実施態様では、複数のターゲットクラスターに対するベースコールは、ユニットのｗ×ｗのセット内のベースコールされたユニットのどのグループが同じクラスターをカバーするかを識別することによって、すなわち、同じクラスターを示す入力データ内のピクセルグループを識別することによって取得される。次いで、各クラスター及びその対応するピクセルグループに対して、それぞれの４つの塩基クラス（Ａ、Ｃ、Ｔ、及びＧ）の分類スコア（ソフトマックス確率）の平均は、ピクセルグループ内のピクセルにわたって計算され、最も高い平均分類スコアを有する塩基クラスは、クラスターをベースコールするために選択される。

訓練中に、いくつかの実施態様では、グラウンドトゥルース比較及び誤差計算は、中心クラスターピクセルと一致するか、又はそれに対応するそれらのユニットに対してのみ生じ、そのため、それらの予測されたベースコールは、グラウンドトゥルースラベルとして識別される正しいベースコールに対して評価される。

複数のクラスターベースコールを説明してきたが、ここでの考察は、複数のクラスター及び複数のサイクルベースコールについて説明する。
（複数のクラスター及び複数のサイクルベースコール）

図９８は、複数の連続する配列決定サイクルで複数のターゲットクラスターを同時にベースコールし、それによって、複数のターゲットクラスターの各々に対するベースコール配列を同時に生成する、一実施態様を示す。

上述の単一及び複数のベースコール実施態様では、１回の配列決定サイクル（現在の（時間ｔ）配列決定サイクル）でのベースコールは、３回の配列決定サイクル（現在の（時間ｔ）、以前の／左側のフランキング（時間ｔ－１）、及び次の／右側のフランキング（時間ｔ＋１）配列決定サイクル）に対するデータを使用して予測され、右側及び左側のフランキング配列決定サイクルは、塩基トリプレットモチーフに対する配列固有のコンテキスト、並びにプレフェイジング及びフェイジング信号の２次の寄与を提供する。この関係は、以下の式によって表現される。「どのデータが入力データ（ｔ）に含まれるかに対する配列決定サイクルの数＝ベースコールされている配列決定サイクルの数（ｙ）＋右側及び左側のフランキング配列決定サイクルの数（ｘ）」。

図９８では、入力データは、ｔ回の配列決定サイクルに対するｔ個のサイクルごとのテンソルを含み、その次元性ｎ×ｎ×ｍ×ｔを作成し、ｎ＝１１４であり、ｍ＝５であり、ｔ＝１５である。他の実施態様では、これらの次元性は異なる。ｔ回の配列決定サイクルのうち、第ｔ^番目の配列決定サイクル及び第１の配列決定サイクルは、右側及び左側のフランキングコンテキストｘとして機能し、それらの間のｙ回の配列決定サイクルは、ベースコールされる。したがって、ｙ＝１３、ｘ＝２、及びｔ＝ｙ＋ｘである。サイクルごとの各テンソルは、図９５ａでの入力テンソル９５００などの、画像チャネル、対応する距離チャネル、及びスケーリングチャネルを含む。

次いで、ｔ個のサイクルごとのテンソルを有する入力データは、専用構造の空間及び時間的畳み込み層を介して処理されて、ｙ個の最終時間的出力を生成し、その各々は、ベースコールされているｙ回の配列決定サイクルのうちのそれぞれの１つに対応する。ｙ個の最終時間的出力の各々は、ｗ×ｗ×ｋの次元性を有する。ここでも、空間次元性事象の一貫した低減の下、空間次元性は、各畳み込み層で２の一定のステップサイズによって低減される。すなわち、入力データのｎ×ｎの空間次元性で開始して、ｙ個の最終時間的出力の各々のｗ×ｗの空間次元性が導出される。

次いで、ｙ個の最終時間的出力の各々は、出力層によって並行して処理される。ｙ個の最終時間的出力の各々に対して、出力層は、ユニットのｗ×ｗのセット内の各ユニットに対するベースコールを生成する。一実施態様では、出力層は、ユニットごとに４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）に対する４つの分類スコアを生成するソフトマックス層である。すなわち、ユニットのｗ×ｗのセット内の各ユニットは、図９７に示されるように、対応するソフトマックスクォドルプルでの最大分類スコアに基づいて、ベースコールを割り当てられる。いくつかの実施態様では、ユニットのｗ×ｗのセットは、平坦化層及び高密度層を介して後にそれぞれ処理する結果として、ｙ個の最終時間的出力の各々に対して導出されて、対応する平坦化された出力及び高密度出力を生成する。そのような実施態様では、平坦化された各出力は、ｗ×ｗ×ｋの要素を有し、各高密度出力は、ユニットのｗ×ｗのセットを形成するｗ×ｗの要素を有する。

ｙ回の配列決定サイクルの各々に対して、複数のターゲットクラスターに対するベースコールは、ユニットの対応するｗ×ｗのセット内のベースコールされたユニットのうちのどれが、中心クラスターピクセル、すなわち、複数のターゲットクラスターのそれぞれの中心を含む入力データ内のピクセルと一致するか、又はそれに対応するかを識別することによって取得される。所与のターゲットクラスターは、所与のターゲットクラスターの中心を含むピクセルと一致するか、又はそれに対応する、ユニットのベースコールを割り当てられる。言い換えると、中心クラスターピクセルと一致しないか、又はそれに対応しないユニットのベースコールは、フィルタリングされる。この機能は、いくつかの実施態様では専用構造の一部であるか、又は他の実施態様では後処理モジュールとして実装される、ベースコールフィルタリング層によって操作される。

入力ごとに、その結果は、ｙ回の配列決定サイクルの各々での複数のターゲットクラスターの各々に対するベースコール、すなわち、複数のターゲットクラスターの各々に対する長さｙのベースコール配列である。他の実施態様では、ｙは、２０、３０、５０、１５０、３００などである。当業者は、これらの数が、配列決定構成、並列戦略、（例えば、最適構造ハイパーパラメータに基づく）構造の詳細、及び利用可能な計算に応じて変化し得ることを理解するであろう。
（エンドツーエンド次元性図）

以下の説明は、上記データ次元性変化を実現するデータオペレータの次元性と共に、画像データからのベースコールの生成に関与する基礎データ次元性変化の異なる実施態様を示すために、次元性図を使用する。

図９９、図１００、及び図１０１では、矩形は、空間及び時間的畳み込み層並びにソフトマックス分類層のようなデータオペレータを表し、角が丸みを帯びた矩形は、データオペレータによって生成されるデータ（例えば、特徴マップ）を表す。

図９９は、単一のクラスターベースコール実施態様に対する次元性図９９００を示す。入力の「サイクル次元」は３であり、第１の時間的畳み込み層まで、得られた特徴マップに対するものであり続けることに留意されたい。３のサイクル次元は、３回の配列決定サイクルを表し、その連続性は、３回の配列決定サイクルに対する特徴マップが別々に生成され畳み込まれ、３回の配列決定サイクルの間に特徴が混合されないことを表す。分離された畳み込みパイプラインは、空間畳み込み層の深さごとの分離された畳み込みフィルタによって実現される。空間畳み込み層の深さごとの分離された畳み込みフィルタの「深さ次元性」は、１であることに留意されたい。これは、深さごとの分離された畳み込みフィルタが、所与の配列決定サイクル、すなわち、サイクル内のみのデータ及び得られた特徴マップ上で畳み込むことを可能にし、それらが任意の他の配列決定サイクルのデータ及び得られた特徴マップ上で畳み込むことを防止するものである。

対照的に、時間的畳み込み層の深さごとの組み合わせの畳み込みフィルタの深さ次元性は、２であることに留意されたい。これは、深さごとの組み合わせの畳み込みフィルタが、複数の配列決定サイクルから得られた特徴マップ上でグループごとに畳み込み、かつ配列決定サイクル間の特徴を混合することを可能にするものである。

また、２の一定のステップサイズによる「空間次元性」での一貫した低減に留意されたい。

更に、４つの要素を有するベクトルは、ソフトマックス層によって指数関数的に正規化されて、４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）に対する分類スコア（すなわち、信頼スコア、確率、尤度、ソフトマックススコア）を生成する。最も高い（最大）ソフトマックススコアを有する塩基は、現在の配列決定サイクルでベースコールされている単一のターゲットクラスターを割り当てられる。

当業者は、他の実施態様では、示された次元性が、配列決定構成、並列戦略、（例えば、最適構造ハイパーパラメータに基づく）構造の詳細、及び利用可能な計算に応じて変化し得ることを理解するであろう。

図１００は、複数のクラスターにおける次元性図１００００、単一の配列決定サイクルベースコール実施態様を示す。単一のクラスターベースコールに関するサイクル、深さ、及び空間次元性に関する上記の考察は、この実施態様に適用される。

ここで、ソフトマックス層は、１０，０００ユニットの各々に対して独立して動作し、１０，０００ユニットの各々に対するソフトマックススコアのそれぞれのクォドルプルを生成する。クォドルプルは、４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）に対応する。いくつかの実施態様では、１０，０００ユニットは、６４，００００平坦化ユニットの１０，０００高密度ユニットへの変換から導出される。

次いで、１０，０００ユニットの各々のソフトマックススコアクォドルプルから、各クォドルプルでの最も高いソフトマックススコアを有する塩基は、１０，０００ユニットのうちのそれぞれの１つに割り当てられる。

次いで、１０，０００ユニットのうち、現在の配列決定サイクルで同時にベースコールされている、２，５００個のターゲットクラスターのそれぞれの中心を含む２，５００個の中心クラスターピクセルに対応する２，５００ユニットが選択される。選択された２，５００ユニットに割り当てられる塩基は、次に、２，５００個のターゲットクラスターのうちの対応するものに割り当てられる。

図１０１は、複数のクラスターにおける次元性図１０１００、複数の配列決定サイクルベースコール実施態様を示す。単一のクラスターベースコールに関するサイクル、深さ、及び空間次元性に関する上記の考察は、この実施態様に適用される。

更に、複数のクラスターベースコールに関する、ソフトマックスベースのベースコール分類に関する上記の考察は、ここでも適用される。しかしながら、ここで、２，５００個のターゲットクラスターのソフトマックスベースのベースコール分類は、ベースコールされる１３個の配列決定サイクルの各々に対して並行して生じ、それによって、２，５００個のターゲットクラスターの各々に対する１３個のベースコールを同時に生成する。

当業者は、他の実施態様では、示された次元性が、配列決定構成、並列戦略、（例えば、最適構造ハイパーパラメータに基づく）構造の詳細、及び利用可能な計算に応じて変化し得ることを理解するであろう。
（アレイ入力ｖ／ｓスタック入力）

ここでの考察は、ニューラルネットワークベースのコーラーへのマルチサイクル入力データが配置され得る２つの構成について説明する。第１の構成は、「アレイ入力」と呼ばれ、第２の構成は、「スタック入力」と呼ばれる。アレイ入力は、図１０２ａに示され、図９６ａ～図１０１に関して上述されている。アレイ入力は、サイクルごとの入力での画像パッチが、残留位置合わせ誤差に起因して互いに位置合わせ不良であるため、別個の列／ブロックで各配列決定サイクルの入力を符号化する。専用構造は、別個の列／ブロックの各々の処理を分離するために、配列された入力で使用される。また、距離チャネルは、変換されたクラスター中心を使用して計算されて、サイクル内の画像パッチ間及びサイクルにわたる画像パッチ間の位置合わせ不良を考慮する。

対照的に、図１０２ｂに示されるスタック入力は、単一の列／ブロックで異なる配列決定サイクルからの入力を符号化する。一実施態様では、これは、スタック入力内の画像パッチが、サイクル間及びサイクル内残留位置合わせ誤差を排除する、アフィン変換及び強度補間を介して互いに位置合わせされるため、専用構造を使用する必要性を除去する。いくつかの実施態様では、スタック入力は、全ての入力に対して共通のスケーリングチャネルを有する。

別の実施態様では、各画像パッチの中心ピクセルの中心が、ベースコールされている単一のターゲットクラスターの中心と一致するように、画像パッチを再構成又はシフトするために強度補間が使用される。これは、全ての非中心ピクセルが単一のターゲットクラスターの中心から等距離であるため、補足距離チャネルを使用する必要性を除去する。距離チャネルなしのスタック入力は、本明細書で「再構成された入力」と称され、図１０４に示される。

しかしながら、そこで画像パッチが、ベースコールされる複数の中心クラスターピクセルを含むため、再構成は、複数のクラスターを伴うベースコール実施態様で実現可能でない場合がある。距離チャネルなしかつ再構成なしのスタック入力は、本明細書で「位置合わせされた入力」と称され、図１０５及び図１０６に示される。距離チャネルの計算が所望されないとき（例えば、計算制限に起因して）、位置合わせされた入力が使用され得、再構成は、実現可能でない。

以下のセクションは、専用構造及び補足距離チャネルを使用せず、その代わりに、標準的な畳み込み層及びフィルタを使用する、様々なベースコール実施態様を説明する。
再構成された入力：距離チャネルなしの位置合わせされた画像パッチ

図１０３ａは、中心ピクセルでベースコールされているターゲットクラスターの中心を中心にするために画像パッチ１０３０２のピクセルを再構成１０３００ａする一実施態様を示す。図１０３００ａに示されるように、ターゲットクラスターの中心（紫色）は、画像パッチ１０３０２の中心ピクセル内にあるが、中心ピクセルの中心からのオフセット（赤色）にある。

オフセットを排除するために、リフレーマ１０３０４は、ピクセルの強度を補間することによって画像パッチ１０３０２をシフトさせて、再構成を補償し、再構成／シフトされた画像パッチ１０３０６を生成する。シフトされた画像パッチ１０３０６では、中心ピクセルの中心は、ターゲットクラスターの中心と一致する。また、非中心ピクセルは、ターゲットクラスターの中心から等距離である。補間は、最近傍強度抽出、ガウス系強度抽出、平均２×２のサブピクセル領域に基づく強度抽出、最も明るい２×２のサブピクセル領域に基づく強度抽出、平均３×３のサブピクセル領域に基づく強度抽出、バイリニア強度抽出、双次強度抽出、及び／又は重み付け領域被覆に基づく強度抽出により実行され得る。これらの技術は、「強度抽出方法」と題された付録に詳細に記載されている。

図１０３ｂは、（ｉ）中心ピクセルの中心がターゲットクラスターの中心と一致し、（ｉｉ）非中心ピクセルがターゲットクラスターの中心から等距離である、別の例示的再構成／シフトされた画像パッチ１０３００ｂを示す。これらの２つの因子は、全ての非中心ピクセルがターゲットクラスターの中心に対して同じ程度の近接度を有するため、補足距離チャネルを提供する必要性を除去する。

図１０４は、標準的な畳み込みニューラルネットワーク及び再構成された入力を使用して、現在の配列決定サイクルで単一のターゲットクラスターをベースコールする一実施態様を示す。図示された実施態様では、再構成された入力は、ベースコールされている現在の（ｔ）配列決定サイクルに対する現在の画像パッチセットと、以前の（ｔ－１）配列決定サイクルに対する以前の画像パッチセットと、次の（ｔ＋１）配列決定サイクルに対する次の画像パッチセットと、を含む。各画像パッチセットは、１つ又はそれ以上の画像チャネルのうちのそれぞれの１つに対する画像パッチを有する。図１０４は、２つの画像チャネル、赤色チャネル及び緑色チャネルを示す。各画像パッチは、ベースコールされているターゲットクラスター、いくつかの隣接するクラスター、及びそれらの周囲の背景をカバーするピクセルに対するピクセル強度データを有する。再構成された入力はまた、共通のスケーリングチャネルを含む。

図１０３ａ～図１０３ｂに関して上で説明されるように、画像パッチが、中心でターゲットクラスターを中心にするように再構成又はシフトされるため、再構成された入力は、任意の距離チャネルを含まない。また、画像パッチは、サイクル間及びサイクル内残留位置合わせ誤差を除去するように互いに位置合わせされる。一実施態様では、これは、アフィン変換及び強度補間を使用して行われ、その追加の詳細は、付録１、２、３、及び４で見出され得る。これらの因子は、専用構造を使用する必要性を除去し、その代わりに、標準的な畳み込みニューラルネットワークが、再構成された入力で使用される。

図示された実施態様では、標準的な畳み込みニューラルネットワーク１０４００は、標準的な畳み込みフィルタを使用する７個の標準的な畳み込み層を含む。これは、（データが位置合わせされ、混合され得るため）配列決定サイクル間のデータの混合を防止するための分離された畳み込みパイプラインが存在しないことを意味する。いくつかの実施態様では、空間次元性事象の一貫した低減は、標準的な畳み込みフィルタを、中心クラスター中心及び他のピクセルよりも多くのその隣接するピクセルに対処するように教示するために使用される。

次いで、再構成された入力は、標準的な畳み込み層を介して処理されて、最終畳み込み表現を生成する。最終畳み込み表現に基づいて、現在の配列決定サイクルでのターゲットクラスターに対するベースコールは、図９６ｃに関して上述したように、平坦化、高密度、及び分類層を使用して同様の様式で取得される。

いくつかの実施態様では、プロセスは、複数の配列決定サイクルで反復されて、ターゲットクラスターに対するベースコールの配列を生成する。

他の実施態様では、プロセスは、複数のターゲットクラスターに対する複数の配列決定サイクルで反復されて、複数のターゲットクラスター内の各ターゲットクラスターに対するベースコールの配列を生成する。
位置合わせされた入力：距離チャネルなしの位置合わせされた画像パッチ及び再構成

図１０５は、標準的な畳み込みニューラルネットワーク及び位置合わせされた入力を使用して、現在の配列決定サイクルで複数のターゲットクラスターをベースコールする一実施態様を示す。ここで、画像パッチが、ベースコールされている複数の中心クラスターピクセルを含むため、再構成は実現可能でない。その結果、位置合わせされた入力内の画像パッチは、再構成されない。更に、一実施態様によれば、補足距離チャネルは、計算検討事項に起因して含まれない。

次いで、位置合わせされた入力は、標準的な畳み込み層を介して処理されて、最終畳み込み表現を生成する。最終畳み込み表現に基づいて、ターゲットクラスターの各々に対するベースコールは、図９７に関して上述したように、平坦化（任意選択）、高密度（任意選択）、分類、及びベースコールフィルタリング層を使用して、同様の様式で現在の配列決定サイクルで取得される。

図１０６は、標準的な畳み込みニューラルネットワーク及び位置合わせされた入力を使用して、複数の配列決定サイクルで複数のターゲットクラスターをベースコールする一実装態様を示す。位置合わせされた入力は、標準的な畳み込み層を介して処理されて、ベースコールされているｙ回の配列決定サイクルの各々に対して最終畳み込み表現を生成する。ｙ回の最終畳み込み表現に基づいて、ターゲットクラスターの各々に対するベースコールは、図９８に関して上述したように、平坦化（任意選択）、高密度（任意選択）、分類、及びベースコールフィルタリング層を使用して、同様の様式でベースコールされているｙ回の配列決定サイクルの各々に対して取得される。

当業者は、他の実施態様では、標準的な畳み込みニューラルネットワークは、より少ない又はより多くの数の配列決定サイクルに対する再構成された入力を処理し得、より少ない又はより多くの数の標準的な畳み込み層を含み得ることを理解するであろう。また、再構成された入力の次元性、再構成された入力内のサイクルごとのテンソル、畳み込みフィルタ、得られた特徴マップ、及び出力は異なり得る。また、畳み込み層内の畳み込みフィルタの数は異なり得る。それは、１Ｄ重畳、２Ｄ重畳、３Ｄ重畳、４Ｄ重畳、５Ｄ重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、１×１重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、及び逆重畳を使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ，指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。
（訓練）

図１０７は、ニューラルネットワークベースのベースコーラー１５１４を訓練１０７００する一実施態様を示す。専用構造及び標準的な構造の両方で、ニューラルネットワークベースのベースコーラー１５１４は、正しいベースコール１０７０８に対して、予測されたベースコール１０７０４を比較し、比較に基づいて誤差１０７０６を計算する、逆伝搬ベースの勾配更新技術を使用して訓練される。次いで、誤差１０７０６が、後方伝搬１０７１０中にニューラルネットワークベースのベースコーラー１５１４の重み及びパラメータに適用される勾配を計算するために使用される。訓練１０７００は、アダムなどの確率的勾配更新アルゴリズムを使用して、訓練器１５１０によって操作可能である。

訓練器１５１０は、（配列決定画像１０８から導出される）訓練データ１０７０２を使用して、予測されたベースコール１０７０４を生成する前方伝搬１０７１２、及び誤差１０７０６に基づいて重み及びパラメータを更新する後方伝搬１０７１０の数千及び数百万回の反復でニューラルネットワークベースのベースコーラー１５１４を訓練する。訓練１０７００に関する追加の詳細は、「ＤｅｅｐＬｅａｒｎｉｎｇＴｏｏｌｓ」と題する付録で見出され得る。
ＣＮＮ－ＲＮＮベースのベースコーラー
ハイブリッドニューラルネットワーク

図１０８ａは、ニューラルネットワークベースのベースコーラー１５１４として使用されるハイブリッドニューラルネットワーク１０８００ａの一実施態様を示す。ハイブリッドニューラルネットワーク１０８００ａは、少なくとも１つの畳み込みモジュール１０８０４（又は畳み込みニューラルネットワーク（ＣＮＮ））と、少なくとも１つの反復モジュール１０８０８（又は反復ニューラルネットワーク（ＲＮＮ））と、を含む。反復モジュール１０８０８は、畳み込みモジュール１０８０４から入力を使用及び／又は受信する。

畳み込みモジュール１０８０４は、１つ又はそれ以上の畳み込み層を介して入力データ１０８０２を処理し、畳み込み出力１０８０６を生成する。一実施態様では、入力データ１０８０２は、「入力」と題するセクションで上述したように、主入力として画像チャネル又は画像データのみを含む。ハイブリッドニューラルネットワーク１０８００ａに供給される画像データは、上述の画像データ７９０２と同じであり得る。

別の実施態様では、画像チャネル又は画像データに加えて、入力データ１０８０２はまた、「入力」と題するセクションで上述したように、距離チャネル、スケーリングチャネル、クラスター中心座標、及び／又はクラスター属性情報などの補足チャネルを含む。

画像データ（すなわち、入力データ１０８０２）は、１つ又はそれ以上のクラスター及びそれらの周囲の背景の強度放射を）示す。畳み込みモジュール１０８０４は、畳み込み層を介して、配列決定動作の一連の配列決定サイクルに対する画像データを処理し、画像データの１つ又はそれ以上の畳み込み表現（すなわち、畳み込み出力１０８０６）を生成する。

一連の配列決定サイクルは、ベースコールされているｔ回の配列決定サイクルに対する画像データを含み得、ｔは、１～１０００の任意の数である。ｔが１５～２１であるとき、我々は、正確なベースコール結果を観察する。

反復モジュール１０８１０は、畳み込み出力１０８０６を畳み込み、反復出力１０８１０を生成する。特に、反復モジュール１０８１０は、畳み込み表現及び以前の隠れ状態表現を畳み込むことに基づいて、現在の隠れ状態表現（すなわち、反復出力１０８１０）を生成する。

一実施態様では、反復モジュール１０８１０は、３次元（３Ｄ）畳み込みを畳み込み表現及び以前の隠れ状態表現に適用し、以下のように数学的に定式化される、現在の隠れ状態表現を生成する。
ｈ_ｔ＝Ｗ１_{３ＤＣＯＮＶ}Ｖ_ｔ＋Ｗ２_{３ＤＣＯＮＶ}ｈ_ｔ－１
であり、ｈ_ｔは、現在の時間ステップｔで生成される現在の隠れ状態表現を表し、
Ｖ_ｔは、現在の時間ステップｔで現在のスライディングウィンドウにおける入力容積を形成する、畳み込み表現のセット又はグループを表し、
Ｗ１_{３ＤＣＯＮＶ}は、Ｖ_ｔに適用される第１の３Ｄ畳み込みフィルタの重みを表し、
ｈ_ｔ－１は、以前の時間ステップｔ－１で生成される以前の隠れ状態表現を表し、
Ｗ２_{３ＤＣＯＮＶ}は、ｈ_ｔ－１に適用される第２の３Ｄ畳み込みフィルタの重みを表す。

いくつかの実施態様では、Ｗ１_{３ＤＣＯＮＶ}及びＷ２_{３ＤＣＯＮＶ}は、重みが共有されるため同じである。

次いで、出力モジュール１０８１２は、反復出力１０８１０に基づいて、ベースコール１０８１４を生成する。いくつかの実施態様では、出力モジュール１０８１２は、１つ又はそれ以上の完全に接続された層と、分類層（例えば、ソフトマックス）と、を含む。そのような実施態様では、現在の隠れ状態表現は、完全に接続された層を介して処理され、完全に接続された層の出力は、分類層を介して処理されて、ベースコール１０８１４を生成する。

ベースコール１０８１４は、クラスターのうちの少なくとも１つ、及び配列決定サイクルのうちの少なくとも１つに対するベースコールを含む。いくつかの実施態様では、ベースコール１０８１４は、クラスターの各々及び配列決定サイクルの各々に対するベースコールを含む。そのため、例えば、入力データ１０８０２が２５個のクラスター及び１５回の配列決定サイクルに対する画像データを含むとき、ベースコール１０８０２は、２５個のクラスターの各々に対する１５個のベースコールのベースコール配列を含む。
（３Ｄ畳み込み）

図１０８ｂは、現在の隠れ状態表現を生成するためにハイブリッドニューラルネットワーク１０８００ｂの反復モジュール１０８１０によって使用される３Ｄ畳み込み１０８００ｂの一実施態様を示す。

３Ｄ畳み込みは、入力容積内に存在する各ボクセルが、畳み込みカーネルの同等の位置でのボクセルによって乗算される数学的動作である。最後に、結果の合計は、出力容積に追加される。図１０８ｂでは、３Ｄ畳み込み動作の表現を観察することが可能であり、入力１０８１６で強調されるボクセル１０８１６ａは、カーネル１０８１８内のそれらのそれぞれのボクセルで乗算される。これらの計算の後、それらの合計１０８２０ａは、出力１０８２０に追加される。

入力容積の座標が（ｘ、ｙ、ｚ）によって与えられ、畳み込みカーネルが、サイズ（Ｐ、Ｑ、Ｒ）を有するため、３Ｄ畳み込み動作は、以下のように数学的に定義され得る。

Ｏは、畳み込みの結果であり、
Ｉは、入力容積であり、
Ｋは、畳み込みカーネルであり、
（ｐ，ｑ，ｒ）は、Ｋの座標である。

バイアス項は、明確さを改善するために、上記の式から省略される。

２Ｄ畳み込みのようなマトリックスから空間情報を抽出することに加えて、３Ｄ畳み込みは、連続するマトリックス間に存在する情報を抽出する。これにより、それらが３Ｄオブジェクトの空間情報及び配列決定画像のセットの時間的情報の両方をマッピングすることが可能になる。
（畳み込みモジュール）

図１０９は、畳み込みモジュール１０８０４の畳み込み層１０９００のカスケードを介して、ベースコールされる一連のｔ回の配列決定サイクル間の単一の配列決定サイクルのサイクルごとの入力データ１０９０２を処理する一実施態様を示す。

畳み込みモジュール１０８０４は、畳み込み層１０９００のカスケードを介して、サイクルごとの入力データの配列内のサイクルごとの各入力データを別々に処理する。サイクルごとの入力データの配列は、ベースコールされている配列決定動作の一連の配列決定サイクルｔに対して生成され、ｔは、１～１０００の任意の数である。そのため、例えば、シリーズが１５回の配列決定サイクルを含むとき、サイクルごとの入力データの配列は、１５個の異なるサイクルごとの入力データを含む。

一実施態様では、サイクルごとの各入力データは、画像チャネル（例えば、赤色チャネル及び緑色チャネル）又は画像データ（例えば、上述の画像データ７９０２）のみを含む。画像チャネル又は画像データは、一連のそれぞれの配列決定サイクルで捕捉される、１つ又はそれ以上のクラスター及びそれらの周囲の背景の強度放射を示す。別の実施態様では、画像チャネル又は画像データに加えて、サイクルごとの各入力データはまた、距離チャネル及びスケーリングチャネル（例えば、上述の入力データ９５００）などの補足チャネルを含む。

図示された実施態様では、サイクルごとの入力データ１０９０２は、ベースコールされる一連のｔ回の配列決定サイクル間の単一の配列決定サイクルに対して、２つの画像チャネル、すなわち、赤色チャネル及び緑色チャネルを含む。各画像チャネルは、サイズ１５×１５の画像パッチで符号化される。畳み込みモジュール１０８０４は、５個の畳み込み層を含む。各畳み込み層は、サイズ３×３の２５個の畳み込みフィルタのバンクを有する。更に、畳み込みフィルタは、入力画像又はテンソルの高さ及び幅を保存する、いわゆる同じパディングを使用する。同じパディングで、出力特徴マップが入力特徴と同じサイズを有するように、入力特徴にパディングが追加される。対照的に、いわゆる有効なパディングは、パディングがないことを意味する。

第１の畳み込み層１０９０４は、サイクルごとの入力データ１０９０２を処理し、サイズ１５×１５×２５の第１の畳み込み表現１０９０６を生成する。第２の畳み込み層１０９０８は、第１の畳み込み表現１０９０６を処理し、サイズ１５×１５×２５の第２の畳み込み表現１０９１０を生成する。第３の畳み込み層１０９１２は、第２の畳み込み表現１０９１０を処理し、サイズ１５×１５×２５の第３の畳み込み表現１０９１４を生成する。第４の畳み込み層１０９１６は、第３の畳み込み表現１０９１４を処理し、サイズ１５×１５×２５の第４の畳み込み表現１０９１８を生成する。第５の畳み込み層１０９２０は、第４の畳み込み表現１０９１８を処理し、サイズ１５×１５×２５の第５の畳み込み表現１０９２２を生成する。同じパディングは、得られた畳み込み表現（例えば、１５×１５）の空間次元を保存することに留意されたい。いくつかの実施態様では、畳み込み層内の畳み込みフィルタの数は、２、４、１６、３２、６４、１２８、２５６、５１２、及び１０２４などの２の累乗である。

畳み込みがより深くなるにつれて、情報が失われ得る。これを考慮するために、いくつかの実施態様では、我々は、（１）最初のサイクルごとの入力データを再導入するために、及び（２）後の畳み込み層によって抽出される高レベルの空間特徴と、先の畳み込み層によって抽出される低レベルの空間特徴を組み合わせるために、スキップ接続を使用する。我々は、これがベースコール精度を改善することを観察している。

図１１０は、畳み込みモジュール１０８０４の畳み込み層１０９００のカスケードによって生成される、その対応する畳み込み表現１０９０６、１０９１０、１０９１４、１０９１８、及び１０９２２と、単一の配列決定サイクルのサイクルごとの入力データ１０９０２を混合１１０００する一実施態様を示す。畳み込み表現１０９０６、１０９１０、１０９１４、１０９１８、及び１０９２２は、畳み込み表現１１００４の配列を形成するように連結されて、それは、次に、サイクルごとの入力データ１０９０２と連結されて、混合表現１１００６を生成する。他の実施態様では、連結の代わりに積算が使用される。また、混合１１０００は、ミキサー１１００２によって動作可能である。

次いで、平坦化器１１００８は、混合表現１１００６を平坦化し、サイクルごとの平坦化された混合表現１１０１０を生成する。いくつかの実施態様では、平坦化された混合表現１１０１０は、サイクルごとの入力データ１０９０２、並びに畳み込み表現１０９０６、１０９１０、１０９１４、１０９１８、及び１０９２２（例えば、１５×１９０５、すなわち、同じ行ごとの次元）と少なくとも１次元サイズを共有する、高次元ベクトル又は２次元（２Ｄ）アレイである。これは、下流３Ｄ畳み込みでの特徴抽出を容易にするデータでの対称性を誘発する。

図１０９及び図１１０は、ベースコールされる一連のｔ回の配列決定サイクル間の単一の配列決定サイクルに対するサイクルごとの画像データ１０９０２の処理を示す。畳み込みモジュール１０８０４は、ｔ回の配列決定サイクルの各々に対してそれぞれのサイクルごとの画像データを別々に処理し、ｔ回の配列決定サイクルの各々に対して、それぞれのサイクルごとの平坦化された混合提示を生成する。
（スタック）

図１１１は、連続する配列決定サイクルの平坦化された混合表現をスタック１１１００として配置する一実施態様を示す。図示された実施態様では、１５回の配列決定サイクルに対する１５個の平坦化された混合表現１０９０４ａ～１０９０４ｏは、スタック１１１００内にスタックされる。スタック１１１００は、３Ｄ畳み込みフィルタの同じ受容フィールドで、空間及び時間的次元（すなわち、複数の配列決定サイクル）の両方から利用可能な特徴を形成する３Ｄ入力容積である。スタックは、スタッカー１１１０２によって動作可能である。他の実施態様では、スタック１１１００は、任意の次元性（例えば、１Ｄ、２Ｄ、４Ｄ、５Ｄなど）のテンソルであり得る。
（反復モジュール）

我々は、配列決定データでの長期依存性を捕捉するために、特に、プレフェイジング及びフェイジングからのクロスサイクル配列決定画像での２次の寄与を考慮するために、反復処理を使用する。反復処理は、時間ステップの使用のために、連続データの分析に使用される。現在の時間ステップでの現在の隠れ状態表現は、（ｉ）以前の時間ステップからの以前の隠れ状態表現、及び（ｉｉ）現在の時間ステップでの現在の入力の関数である。

反復モジュール１０８０８は、スタック１１１００に、前方及び後方の方向に３Ｄ畳み込みの反復適用（すなわち、反復処理１１２００）を行い、一連のｔ回の配列決定サイクルの各々でクラスターの各々に対するベースコールを生成する。スライディングウィンドウベースでスタック１１１００内の平坦化された混合表現のサブセットから空間－時間的特徴を抽出するために、３Ｄ畳み込みが使用される。各スライディングウィンドウ（ｗ）は、それぞれの配列決定サイクルに対応し、図１１２ａでオレンジ色で強調される。いくつかの実施態様では、ｗは、同時にベースコールされている配列決定サイクルの総数に応じて、１、２、３、５、７、９、１５、２１などにパラメータ化される。一実施態様では、ｗは、同時にベースコールされている配列決定サイクルの総数の分数である。

そのため、例えば、各スライディングウィンドウが、１５個の平坦化された混合表現１０９０４ａ～１０９０４ｏを含むスタック１１１００からの３つの連続する平坦化された混合表現を含むと考える。次いで、第１のスライディングウィンドウ内の最初の３個の平坦化された混合表現１０９０４ａ～１０９０４ｃは、第１の配列決定サイクルに対応し、第２のスライディングウィンドウ内の次の３つの平坦化された混合表現１０９０４ｂ～１０９０４ｄは、第２の配列決定サイクルに対応するなどである。いくつかの実施態様では、最終の平坦化された混合表現１０９０４ｏで開始して、最終の配列決定サイクルに対応する最終のスライディングウィンドウ内の適切な数の平坦化された混合表現を符号化するために、パディングが使用される。

各時間ステップで、反復モジュール１０８０８は、（１）現在の入力ｘ（ｔ）及び（２）以前の隠れ状態表現ｈ（ｔ－１）を受け入れ、現在の隠れ状態表現ｈ（ｔ）を計算する。現在の入力ｘ（ｔ）は、現在のスライディングウィンドウ（（ｗ）、オレンジ色）内にあるスタック１１１００からの平坦化された混合表現のサブセットのみを含む。したがって、各時間ステップで、現在の各入力ｘ（ｔ）は、複数の平坦化された混合表現（例えば、ｗに応じた１、２、３、５、７、９、１５、又は２１個の平坦化された混合表現）の３Ｄ容積である。例えば、（ｉ）単一の平坦化された混合表現が大きさ１５×１９０５を有する２次元（２Ｄ）であり、（ｉｉ）ｗが７であるとき、各時間ステップで、現在の各入力ｘ（ｔ）は、大きさ１５×１９０５×７を有する３Ｄ容積である。

反復モジュール１０８０８は、第１の３Ｄ畳み込み（Ｗ１_{３ＤＣＯＮＶ}）を現在の入力ｘ（ｔ）に、第２の３Ｄ畳み込（Ｗ２_{３ＤＣＯＮＶ}）みを以前の隠れ状態表現ｈ（ｔ－１）に適用して、現在の隠れ状態表現ｈ（ｔ）を生成する。いくつかの実施態様では、Ｗ１_{３ＤＣＯＮＶ}及びＷ２_{３ＤＣＯＮＶ}は、重みが共有されるため同じである。
（ゲート処理）

一実施態様では、反復モジュール１０８０８は、長い短期メモリ（ＬＳＴＭ）ネットワーク又はゲートされた反復単位（ＧＲＵ）ネットワークなどのゲートされたネットワークを介して、現在の入力ｘ（ｔ）及び以前の隠れ状態表現ｈ（ｔ－１）を処理する。例えば、ＬＳＴＭ実施態様では、現在の入力ｘ（ｔ）は、以前の隠れ状態表現ｈ（ｔ－１）と共に、ＬＳＴＭユニットの４つのゲート、すなわち、入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートの各々を介して処理される。これは、３Ｄ畳み込みを現在の入力ｘ（ｔ）及び以前の隠れ状態表現ｈ（ｔ－１）に適用して、現在の隠れ状態表現ｈ（ｔ）を出力として生成するＬＳＴＭユニットを介して、現在の入力ｘ（ｔ）及び以前の隠れ状態表現ｈ（ｔ－１）を処理１１２００ｂする、一実施態様を示す、図１１２ｂに示される。そのような実施態様では、入力、活性化、忘却、及び出力ゲートの重みは、３Ｄ畳み込みを適用する。

いくつかの実施態様では、ゲートされたユニット（ＬＳＴＭ又はＧＲＵ）は、双曲線正接及びシグモイドのような非線形／スカッシング関数を使用しない。

一実施態様では、現在の入力ｘ（ｔ）、以前の隠れ状態表現ｈ（ｔ－１）、及び現在の隠れ状態表現ｈ（ｔ）は全て、同じ次元性を有する３Ｄ容積であり、３Ｄ容積として入力、活性化、忘却、及び出力ゲートを介して処理されるか、又はそれによって生成される。

一実施態様では、反復モジュール１０８０８の３Ｄ畳み込みは、同じパディングと共に、サイズ３×３の２５個の畳み込みフィルタのバンクを使用する。いくつかの実施態様では、畳み込みフィルタのサイズは、５×５である。いくつかの実施態様では、反復モジュール１０８０８によって使用される畳み込みフィルタの数は、２、４、１６、３２、６４、１２８、２５６、５１２、及び１０２４などの２の累乗によって因数分解される。
（双方向処理）

反復モジュール１０８０８は、最初に、スライディングウィンドウベースで始めから終わりまで（上から下に）スタック１１１００を処理し、前方横断

に対する現在の隠れ状態表現（ベクトル）の配列を生成する。

次いで、反復モジュール１０８０８は、スライディングウィンドウベースで終わりから始めまで（下から上に）スタック１１１００を処理し、後方／逆の横断

いくつかの実施態様では、両方の方向に対して各時間ステップで、処理は、ＬＳＴＭ又はＧＲＵのゲートを使用する。例えば、各時間ステップで、前方の現在の入力ｘ（ｔ）は、ＬＳＴＭユニットの入力、活性化、忘却、及び出力ゲートを介して処理されて、前方の現在の隠れ状態表現

を生成し、後方の現在の入力ｘ（ｔ）は、別のＬＳＴＭユニットの入力、活性化、忘却、及び出力ゲートを介して処理されて、後方の現在の隠れ状態表現

を生成する。

次いで、各時間ステップ／スライディングウィンドウ／配列決定サイクルに対して、反復モジュール１０８０８は、対応する前方及び後方の現在の隠れ状態表現を組み合わせ（連結若しくは合計又は平均し）、組み合わされた隠れ状態表現

を生成する。

次いで、組み合わされた隠れ表現

は、１つ又はそれ以上の完全に接続されたネットワークを介して処理されて、高密度表現を生成する。次いで、高密度表現は、ソフトマックス層を介して処理されて、所与の配列決定サイクルでクラスターの各々に組み込まれる塩基がＡ、Ｃ、Ｔ、及びＧである尤度を生成する。塩基は、尤度に基づいて、Ａ、Ｃ、Ｔ、又はＧとして分類される。これは、並行又は連続して、一連のｔ回の配列決定サイクルの各々（又は各時間ステップ／スライディングウィンドウ）に対して行われる。

当業者は、他の実施態様では、ハイブリッド構造が、より少ない又はより多くの数の配列決定サイクルに対する入力データを処理し得、より少ない又はより多くの数の畳み込み及び反復層を含み得ることを理解するであろう。また、入力データの次元性、現在及び以前の隠れ状態表現、畳み込みフィルタ、得られた特徴マップ、並びに出力は異なり得る。また、畳み込み層内の畳み込みフィルタの数は異なり得る。それは、異なるパディング及びストリディング構成を使用し得る。それは、異なる分類機能（例えば、シグモイド又は回帰）を使用し得、完全に接続された層を含んでも含まなくてもよい。それは、１Ｄ重畳、２Ｄ重畳、３Ｄ重畳、４Ｄ重畳、５Ｄ重畳、拡張又は無性重畳、転置重畳、奥行分離可能な重畳、１×１重畳、グループ重畳、扁平重畳、空間及びクロスチャネルの重畳、シャッフルされたグループ化重畳、空間的な分離可能な重畳、及び逆重畳を使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ，指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。
（実験結果及び考察）

図１１３は、ニューラルネットワークベースのベースコーラー１５１４を訓練するために使用される訓練データでのトリヌクレオチド（３量体）をバランスさせる一実施態様を示す。バランスは、訓練データ内のゲノムに関する統計の非常に少ない学習をもたらし、次に、一般化を改善する。熱マップ１１３０２は、「Ａ．ｂａｕｍａｎｎｉ」と呼ばれる第１の生物に対する訓練データでのバランスされた３量体を示す。熱マップ１１３０４は、「Ｅ．ｃｏｌｉ」と呼ばれる第２の生物に対する訓練データでのバランスされた３量体を示す。

図１１４は、ニューラルネットワークベースのベースコーラー１５１４に対して、ＲＴＡベースコーラーのベースコール精度を比較する。図１１４に図示されているように、ＲＴＡベースコーラーは、２回の配列決定動作（リード１及びリード２）でより高い誤差割合を有する。すなわち、ニューラルネットワークベースのベースコーラー１５１４は、両方の配列決定動作で、ＲＴＡベースコーラーを実行する。

図１１５は、ＲＴＡベースコーラーのタイル間の一般化を、同じタイル上のニューラルネットワークベースのベースコーラー１５１４のものと比較する。すなわち、ニューラルネットワークベースのベースコーラー１５１４で、データが訓練で使用される同じタイルに対するデータに対して推測（試験）が実行される。

図１１６は、ＲＴＡベースコーラーのタイル間の一般化を、同じタイル上及び異なるタイル上のニューラルネットワークベースのベースコーラー１５１４のものと比較する。すなわち、ニューラルネットワークベースのベースコーラー１５１４は、第１のタイル上のクラスターに対するデータに対して訓練されるが、第２のタイル上のクラスターからのデータに対して推測を実行する。同じタイル実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、タイル５上のクラスターからのデータに対して訓練され、タイル５上のクラスターからのデータに対して試験される。異なるタイル実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、タイル１０上のクラスターからのデータに対して訓練され、タイル５上のクラスターからのデータに対して試験される。

図１１７はまた、ＲＴＡベースコーラーのタイル間の一般化を異なるタイル上のニューラルネットワークベースのベースコーラー１５１４のものと比較する。異なるタイル実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、タイル１０上のクラスターからのデータに対して訓練され、タイル５上のクラスターからのデータに対して試験されると、タイル２０上のクラスターからのデータに対して訓練され、タイル５上のクラスターからのデータに対して試験される。

図１１８は、ニューラルネットワークベースのベースコーラー１５１４への入力として供給される画像パッチの異なるサイズが、どのようにベースコール精度をもたらすかを示す。両方の配列決定動作（リード１及びリード２）では、パッチサイズが３×３～１１×１１に増加するにつれて、誤差割合は減少する。すなわち、ニューラルネットワークベースのベースコーラー１５１４は、より大きい画像パッチを有するより正確なベースコールを生成する。いくつかの実施態様では、ベースコール精度は、１００×１００のピクセル以下である画像パッチを使用することによって、計算効率に対してバランスされる。他の実施態様では、３０００×３０００のピクセル（及びより大きいピクセル）の大きさの画像パッチが使用される。

図１１９、図１２０、図１２１、及び図１２２は、Ａ．ｂａｕｍａｎｎｉ及びＥ．ｃｏｌｉからの訓練データにおけるニューラルネットワークベースのベースコーラー１５１４のレーン間の一般化を示す。

図１２０に戻って、一実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、フローセルの第１及び第２のレーンの両方のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第１及び第２のレーンの両方のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、第１及び第２のレーンの両方のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。更に更なる実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第１及び第２のレーンの両方のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。

一実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、フローセルの第１及び第２のレーンの両方のクラスターからのＥ．ｃｏｌｉデータに対して試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第１及び第２のレーンの両方のクラスターからのＥ．ｃｏｌｉデータに対して試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して試験される。更に更なる実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第１及び第２のレーンの両方のクラスターからのＥ．ｃｏｌｉデータに対して試験される。

図１２０では、（誤差割合によって測定される）ベースコール精度は、２回の配列決定動作（例えば、リード１及びリード２）に対するこれらの実施態様の各々に対して示される。

図１２１に戻って、一実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。更に更なる実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。

一実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して試験される。更に更なる実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して試験される。

図１２１では、（誤差割合によって測定される）ベースコール精度は、２回の配列決定動作（例えば、リード１及びリード２）に対するこれらの実施態様の各々に対して示される。図１２０を図１２１と比較して、後のものによってカバーされる実施態様は、５０～８０パーセントの誤差低減をもたらすことが見られ得る。

図１２２に戻って、一実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。第２の第１のレーンにおいて。更に更なる実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して試験される。

一実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、フローセルの第１のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して試験される。別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第１のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して試験される。更に別の実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して訓練され、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して試験される。更に更なる実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、第２のレーン上のクラスターからのＡ．ｂａｕｍａｎｎｉデータに対して訓練され、第２のレーン上のクラスターからのＥ．ｃｏｌｉデータに対して試験される。

図１２２では、（誤差割合によって測定される）ベースコール精度は、２回の配列決定動作（例えば、リード１及びリード２）に対するこれらの実施態様の各々に対して示される。図１２０を図１２２と比較して、後のものによってカバーされる実施態様は、５０～８０パーセントの誤差低減をもたらすことが見られ得る。

図１２３は、図１１９、図１２０、図１２１、及び図１２２に関して上述したレーン間の一般化のための誤差プロファイルを示す。一実装態様では、誤差プロファイルは、緑色チャネル内のＡ及びＴ塩基をベースコールする際の誤差を検出する。

図１２４は、図１２３の誤差プロファイルによって検出される誤差のソースを、緑色チャネル内の低クラスター強度に属させる。

図１２５は、２回の配列決定動作（リード１及びリード２）について、ＲＴＡベースコーラー及びニューラルネットワークベースのベースコーラー１５１４の誤差プロファイルを比較する。比較は、ニューラルネットワークベースのベースコーラー１５１４の優れたベースコール精度を確認する。

図１２６ａは、４つの異なる器具におけるニューラルネットワークベースのベースコーラー１５１４の動作間の一般化を示す。

図１２６ｂは、同じ器具上で実行される４つの異なる動作におけるニューラルネットワークベースのベースコーラー１５１４の動作間の一般化を示す。

図１２７は、ニューラルネットワークベースのベースコーラー１５１４を訓練するために使用される訓練データのゲノム統計を示す。

図１２８は、ニューラルネットワークベースのベースコーラー１５１４を訓練するために使用される訓練データのゲノムコンテキストを示す。

図１２９は、長いリード（例えば、２×２５０）をベースコールする際のニューラルネットワークベースのベースコーラー１５１４のベースコール精度を示す。

図１３０は、ニューラルネットワークベースのベースコーラー１５１４が、画像パッチにわたる中心クラスターピクセル（複数可）及びその隣接するピクセルにどのように対処するかの一実施態様を示す。

図１３１は、一実施態様に係る、ニューラルネットワークベースのベースコーラー１５１４を訓練及び動作するために使用される様々なハードウェア構成要素及び構成を示す。他の実施態様では、異なるハードウェア構成要素及び構成が使用される。

図１３２は、ニューラルネットワークベースのベースコーラー１５１４を使用して実行され得る様々な配列決定タスクを示す。いくつかの例は、品質スコアリング（Ｑスコアリング）と、変異体分類と、を含む。図１３２はまた、ニューラルネットワークベースのベースコーラー１５１４がベースコールを実行する、いくつかの例示的配列決定器具をリストする。

図１３３は、ｔ分布型確率的近傍埋め込み（ｔ－ＳＮＥ）によって可視化される散乱プロット１３３００であり、ニューラルネットワークベースのベースコーラー１５１４のベースコール結果を示す。散乱プロット１３３００は、ベースコール結果が６４（４^３）個のグループにクラスタリングされ、各グループが、主として、特定の入力３量体（トリヌクレオチド繰り返しパターン）に対応することを示す。これは、ニューラルネットワークベースのベースコーラー１５１４が、少なくとも３つの配列決定サイクルに対する入力データを処理し、配列固有のモチーフを学習して、以前の連続するベースコールに基づいて現在のベースコールを生成するための場合である。
（品質スコアリング）

品質スコアリングは、品質スコアを各ベースコールに割り当てるプロセスを指す。品質スコアは、品質表に基づいて、配列決定トレースの予測特徴の値を確率に変換するＰｈｒｅｄフレームワークに従って定義される。品質表は、較正データセットに対して訓練することによって取得され、配列決定プラットフォームの特性が変化するときに更新される。品質スコアの確率的な解釈は、変異体コール及び配列アセンブリなどの下流分析での異なる配列決定リードの公平な統合を可能にする。したがって、品質スコアを定義するための有効なモデルは、任意のベースコーラーにとって不可欠である。

我々は、品質スコアが何かを最初に説明する。品質スコアは、ベースコールでの配列決定誤差の確率の尺度である。高品質スコアは、ベースコールがより信頼性が高く、不正確である可能性がより低いことを意味する。例えば、塩基の品質スコアがＱ３０である場合、この塩基が不正確にコールされる確率は０．００１である。これはまた、ベースコール精度が９９．９％であることを示す。

以下の表は、ベースコール品質スコア及びそれらの対応する誤差確率、ベースコール精度率、並びにベースコール誤差率間の関係を示す。

ここで、我々は、品質スコアがどのように生成されるかを説明する。配列決定動作中、品質スコアは、全ての配列決定サイクルに対して、全てのタイルで、全てのクラスターに対する各ベースコールに割り当てられる。Ｉｌｌｕｍｉｎａ品質スコアは、２ステッププロセスで各ベースコールに対して計算される。各ベースコールに対して、品質予測値の数が計算される。品質予測値は、ベースコールが抽出されるクラスターの観察可能な特性である。これらは、強度プロファイル及び信号対ノイズ比などの特性を含み、ベースコール信頼性の様々な態様を測定する。それらは、ベースコールの品質と相関するように経験的に決定されている。

品質表又はＱ表としても知られる、品質モデルは、品質予測値の組み合わせをリストし、対応する品質スコアにそれらを関連付ける。この関係は、経験的データを使用して較正プロセスによって決定される。新しい品質スコアを推定するために、品質予測値は、新しいベースコールに対して計算され、事前較正された品質表内の値と比較される。

ここで、我々は、品質表がどのように較正されるかを説明する。較正は、統計的品質表が、多数の器具上で配列決定される、様々な十分に特徴付けられたヒト及び非ヒトサンプルを含む経験的データから導出される、プロセスである。Ｐｈｒｅｄアルゴリズムの修正バージョンを使用して、リードを適切な参照に位置合わせすることによって決定される生信号及び誤差率の特性を使用して品質表が開発及び改良される。

ここで、我々は、品質表が時々変化する理由を説明する。品質表は、特定の器具構成及び化学のバージョンによって生成される動作に対して品質スコアを提供する。新しいハードウェア、ソフトウェア、又は化学バージョンなどの配列決定プラットフォームの有意な特性が変化するとき、品質モデルは、再較正を必要とする。例えば、配列決定化学の改善は、実質的な量の処理時間及び計算リソースを消費する新しいデータを正確にスコアリングするように品質表再較正を必要とする。
（ニューラルネットワークベースの品質スコアリング）

我々は、品質予測値又は品質表を使用せず、その代わりに、十分に較正されたニューラルネットワークの予測における信頼性から品質スコアを推測する、品質スコアリングのためのニューラルネットワークベースの技術を開示する。ニューラルネットワークのコンテキストでは、「較正」は、主観的な予測と経験的な長い動作周波数との間の一貫性又は相関を指す。これは、確実性の頻度論者の概念であり、時間の９０％で特定のラベルが正しいラベルであることをニューラルネットワークが主張する場合、評価中、確率９０％が正しいものであると与えられる全てのラベルの９０％が、正しいラベルであるべきである。較正は、精度に対する直交する懸念事項であることに留意されたい。ニューラルネットワークの予測は、正確であり得るが、誤って較正され得る。

開示されたニューラルネットワークは、現実世界の配列決定動作のベースコールドメインを適切にモデル化する多様な配列決定特性を有する大規模な訓練セットで訓練されるため、十分に較正される。特に、様々な配列決定プラットフォーム、配列決定器具、配列決定プロトコル、配列決定化学、配列決定試薬、クラスター密度、及びフローセルから取得される配列決定画像は、ニューラルネットワークを訓練するための訓練例として使用される。他の実施態様では、異なるベースコール及び品質スコアリングモデルはそれぞれ、異なる配列決定プラットフォーム、配列決定器具、配列決定プロトコル、配列決定化学、配列決定試薬、クラスター密度、及び／又はフローセルのために使用される。

４つのベースコールクラス（Ａ、Ｃ、Ｔ、及びＧ）の各々に対して、多数の配列決定画像は、広範囲の配列決定条件の下で、それぞれのベースコールクラスを表す強度パターンを識別する訓練例として使用される。これは、次に、ニューラルネットワークの分類能力を訓練中に存在しない新しいクラスに拡張する必要性を除去する。更に、各訓練例は、適切な参照に対するリードの位置合わせに基づいて、対応するグラウンドトゥルースで正確にラベル付けされる。その結果は、予測における信頼性が、以下で数学的に表現される品質スコアリングに対する確実性尺度として解釈され得る、十分に較正されたニューラルネットワークである。

Ｙ＝｛Ａ，Ｃ，Ｔ，Ｇ｝が、ベースコールクラスＡ、Ｃ、Ｔ、及びＧに対するクラスラベルのセットを示し、Ｘが入力の空間を示すと仮定する。Ｎ_θ（ｙ｜ｘ）が、開示されたニューラルネットワークのうちの１つが入ｘ∈Ｘ力で予測する確率分布を示し、θが、ニューラルネットワークのパラメータを示すと仮定する。正しいラベルｙ_ｉを有する訓練例ｘ_ｉに対して、ニューラルネットワークは、ラベル

を予測する。予測は、

及び０の場合、正確性スコアｃ_ｉ＝１を得て、そうでない場合、信頼性スコア

を得る。

ニューラルネットワークＮ_θ（ｙ｜ｘ）は、全体的に、（ｘ_ｉ，ｙ_ｉ）∈Ｄ及びｒ_ｉ＝αで、ｃ_ｉ＝１はαである確率のために、データ分布Ｄにおいて十分に較正される。例えば、１００の予測を仮定すると、Ｄからのサンプルから、信頼性０．８、８０を有する各々は、ニューラルネットワークＮ_θ（ｙ｜ｘ）によって正確に分類される。より正式には、Ｐ_θ，Ｄ（ｒ，ｃ）は、ＤにおけるニューラルネットワークＮ_θ（ｙ｜ｘ）の予測のｒ及びｃ値における分布を表し、

と表現され、I_αは、α周囲の小さい非ゼロ間隔を表す。

十分に較正されたニューラルネットワークが、品質予測値又は品質表とは異なり、多様な訓練セットで訓練されるため、それらは、器具構成及び化学バージョンに固有でない。これは、２つの利点を有する。最初に、異なるタイプの配列決定器具に対して、十分に較正されたニューラルネットワークは、別個の較正プロセスから異なる品質表を導出する必要性を除去する。次に、同じ配列決定器具に対して、それらは、配列決定器具の特性が変化するとき、再較正の必要性を除去する。以下の詳細がある。
（ソフトマックス信頼性確率からの品質スコアの推測）

第１の十分に較正されたニューラルネットワークは、配列決定画像１０８から導出される入力データを処理し、塩基がＡ、Ｃ、Ｔ、及びＧであるベースコール信頼性確率を生成する、ニューラルネットワークベースのベースコーラー１５１４である。ベースコール信頼性確率はまた、尤度又は分類スコアと見なされ得る。一実施態様では、ニューラルネットワークベースのベースコーラー１５１４は、ソフトマックス関数を使用して、ソフトマックススコアとしてベースコール信頼性確率を生成する。

ソフトマックススコアが較正され（すなわち、それらがグラウンドトゥルース正確性尤度を表し）、したがって、品質スコアに当然対応するため、品質スコアは、ニューラルネットワークベースのベースコーラー１５１４のソフトマックス関数によって生成されるベースコール信頼性確率から推測される。

我々は、訓練中にニューラルネットワークベースのベースコーラー１５１４によって生成されるベースコール信頼性確率のセットを選択し、それらのベースコール誤差率（又はベースコール精度率）を決定することによって、ベースコール信頼性確率と品質スコアとの間の対応を実証する。

そのため、例えば、我々は、ニューラルネットワークベースのベースコーラー１５１４によって生成されるベースコール信頼性確率「０．９０」を選択する。我々は、ニューラルネットワークベースのベースコーラー１５１４が０．９０のソフトマックススコアでベースコール予測を行ったとき、多数の（例えば、１００００～１００００００の範囲の）インスタンスを取る。多数のインスタンスは、検証セット又は試験セットのいずれかから取得され得る。次いで、我々は、多数のインスタンスのうちのそれぞれの１つに関連付けられる、対応するグラウンドトゥルースベースコールとの比較に基づいて、多数のインスタンスのうちのどれだけが、ベースコール予測が正しかったかを決定する。

我々は、ベースコールが、１０パーセントのミスコールで、多数のインスタンスの９０パーセントで正確に予測されたことを観察している。これは、０．９０のソフトマックススコアに対して、ベースコール誤差率が１０％であり、ベースコール精度率が９０％であり、それは次に、品質スコアＱ１０に対応する（上記表を参照）ことを意味する。同様に、０．９９、０．９９９、０．９９９９、０．９９９９９、及び０．９９９９９９のような他のソフトマックススコアに対して、我々は、それぞれ、品質スコアＱ２０、Ｑ３０、Ｑ４０、Ｑ５０、及びＱ６０との対応を観察している。これは、図１３６ａに示される。他の実施態様では、我々は、Ｑ９、Ｑ１１、Ｑ１２、Ｑ２３、Ｑ２５、Ｑ２９、Ｑ３７、及びＱ３９などのソフトマックススコアと品質スコアとの間の対応を観察している。

我々はまた、ビニング品質スコアとの対応を観察している。例えば、０．８０のソフトマックススコアは、ビニング品質スコアＱ０６に対応し、０．９５のソフトマックススコアは、ビニング品質スコアＱ１５に対応し、０．９９３のソフトマックススコアは、ビニング品質スコアＱ２２に対応し、０．９９７のソフトマックススコアは、ビニング品質スコアＱ２７に対応し、０．９９９１のソフトマックススコアは、ビニング品質スコアＱ３３に対応し、０．９９９５のソフトマックススコアは、ビニング品質スコアＱ３７に対応し、０．９９９９のソフトマックススコアは、ビニング品質スコアＱ４０に対応する。これは、図１３６ｂに示される。

本明細書で使用されるサンプルサイズは、小さいサンプル問題を回避するように大きく、例えば、１００００～１００００００の範囲であり得る。いくつかの実施態様では、ベースコール誤差率（又はベースコール精度率）を決定するために使用されるインスタンスのサンプルサイズは、評価されているソフトマックススコアに基づいて選択される。例えば、０．９９のソフトマックススコアに対して、サンプルは、１００個のインスタンスを含み、０．９９９のソフトマックススコアに対して、サンプルは、１０００個のインスタンスを含み、０．９９９９のソフトマックススコアに対して、サンプルは、１万個のインスタンスを含み、０．９９９９９のソフトマックススコアに対して、サンプルは、１０万個のインスタンスを含み、０．９９９９９９のソフトマックススコアに対して、サンプルは、１００万個のインスタンスを含む。

ソフトマックスに関して、ソフトマックスは、マルチクラス分類のための出力活性化機能である。形式的には、いわゆるソフトマックス分類子を訓練することは、クラスではなくむしろ各クラスの尤度の信頼性予測を返すため、真の分類子よりもむしろクラス確率への回帰である。ソフトマックス関数は、値のクラスを取り、１になる確率にそれらを変換する。ソフトマックス関数は、任意の実数値のｋ次元ベクトルを、ゼロ～１の範囲内の実数値のｋ次元ベクトルにスカッシュする。したがって、ソフトマックス関数を使用することは、出力が有効で指数関数的に正規化された確率質量関数（非負及び１になる）であることを確実にする。

がベクトル

の第ｉ番目の要素であると考える。

は、長さｎのベクトルであり、ｎは、分類内のクラスの数である。これらの要素は、ゼロ～１の値を有し、それらが有効な確率分布を表すように１になる。

例示的ソフトマックス活性化関数１３４０６は、図１３４に示される。ソフトマックス１３４０６は、

として３つのクラスに適用される。３つの出力は常に、１になることに留意されたい。したがって、それらは、離散確率質量関数を定義する。

分類のために使用されるとき、

は、クラスｉ内にある確率を与える。

「ソフトマックス」という名称は、幾分混乱し得る。関数は、マックス関数よりも、ａｒｇｍａｘ関数に対してより密に関連付けられる。「ソフト」という用語は、ソフトマックス関数が連続的であり区別可能であるという事実に由来する。ａｒｇｍａｘ関数は、その結果がワンホットベクトルとして表され、連続的ではなく、又は区別可能でない。したがって、ソフトマックス関数は、ａｒｇｍａｘの「軟化した」バージョンを提供する。おそらく、ソフトマックス関数「ｓｏｆｔａｒｇｍａｘ」をコールすることがより良好であるが、現在の名称は、定着した慣習である。

図１３４は、品質スコアリングのためにニューラルネットワークベースのベースコーラー１５１４のベースコール信頼性確率１０７０４を選択１３４００する一実施態様を示す。ニューラルネットワークベースのベースコーラー１５１４のベースコール信頼性確率１０７０４は、分類スコア（例えば、ソフトマックススコア若しくはシグモイドスコア）又は回帰スコアであり得る。一実施態様では、ベースコール信頼性確率１０７０４は、訓練１０７００中に生成される。

いくつかの実施態様では、選択１３４００は、量子化に基づいて行われ、それは、ベースコール信頼性確率１０７０４にアクセスし、かつ量子化分類スコア１３４０４を生成する量子化器１３４０２によって実行される。量子化分類スコア１３４０４は、任意の実数であり得る。一実施態様では、量子化分類スコア１３４０４は、

と定義される選択式に基づいて選択される。別の実施態様では、量子化分類スコア１３４０４は、

と定義される選択式に基づいて選択される。

図１３５は、ニューラルネットワークベースの品質スコアリング１３５００の一実施態様を示す。量子化分類スコア１３４０４の各々に対して、ベースコール誤差率１３５０８及び／又はベースコール精度率１３５１０は、対応するグラウンドトゥルースベースコール１０７０８に対して（例えば、様々なサンプルサイズを有するバッチにおいて）そのベースコール予測１０７０４を比較することによって決定される。比較は、比較器１３５０２，によって実行され、それは次に、ベースコール誤差率判定器１３５０４と、ベースコール精度率判定器１３５０６と、を含む。

次いで、量子化分類スコア１３４０４と品質スコアとの間の対応を確立するために、適合判定器１３５１２によって、量子化分類スコア１３４０４とそれらのベースコール誤差率１３５０８（及び／又はそれらのベースコール精度率１３５１０）との間で適合が決定される。一実施態様では、適合判定器１３５１２は、回帰モデルである。

適合に基づいて、品質スコアは、相関器１３５１４よって、量子化分類スコア１３４０４と相関する。

図１３６ａ～図１３６ｂは、ニューラルネットワークベースのベースコーラー１５１４によって作成される、品質スコアとベースコール信頼性予測との間の対応１３６００の一実施態様を示す。ニューラルネットワークベースのベースコーラー１５１４のベースコール信頼性確率は、分類スコア（例えば、ソフトマックススコア若しくはシグモイドスコア）又は回帰スコアであり得る。図１３６ａは、品質スコアに対する品質スコア対応スキーム１３６００ａである。図１３６ｂは、ビニング品質スコアに対する品質スコア対応スキーム１３６００ａである。
（推測）

図１３７は、推測１３７００中にニューラルネットワークベースのベースコーラー１５１４によって作成されるベースコール信頼性予測から品質スコアを推測する一実施態様を示す。ニューラルネットワークベースのベースコーラー１５１４のベースコール信頼性確率は、分類スコア（例えば、ソフトマックススコア若しくはシグモイドスコア）又は回帰スコアであり得る。

推測１３７００中、予測されたベースコール１３７０６は、そのベースコール信頼性確率（すなわち、最も高いソフトマックススコア（赤色））が最も対応する品質スコア１３７０８を割り当てられる。いくつかの実施態様では、品質スコア対応１３６００は、品質スコア対応スキーム１３６００ａ～１３６００ｂを探すことによって作成され、品質スコア推測器１３７１２によって動作可能である。

いくつかの実施態様では、チャスティティフィルタ１３７１０は、そのコールされた塩基に割り当てられる品質スコア１３７０８、又は連続するベースコールサイクルにおける平均品質スコアが予め設定された閾値を下回るとき、所与のクラスターのベースコールを終了する。

推測１３７００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬１３７１４を含む。推測１３７００は、（配列決定画像１０８及び／又は補足チャネル（例えば、距離チャネル、スケーリングチャネル）から導出される画像チャネルを有する）入力データを含む、推測データ１３７０２上で実行される。推測１３７００は、テスタ１３７０４によって動作可能である。
（ベースコール品質の直接の予測）

第２の十分に較正されたニューラルネットワークは、配列決定画像１０８から導出される入力データを処理し、品質指標を直接生成する、ニューラルネットワークベースの品質スコアラー１３８０２である。

一実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、多層パーセプトロン（ＭＬＰ）である。別の実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、フィードフォワードニューラルネットワークである。更に別の実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、完全に接続されたニューラルネットワークである。更なる実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、完全畳み込みニューラルネットワークである。更に更なる実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、セマンティックセグメンテーションニューラルネットワークである。

一実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、複数の畳み込み層を有する畳み込みニューラルネットワーク（ＣＮＮ）である。別の実施態様では、それは、長い短期メモリネットワーク（ＬＳＴＭ）、双方向ＬＳＴＭ（Ｂｉ－ＬＳＴＭ）、又はゲートされた反復単位（ＧＲＵ）などの反復ニューラルネットワーク（ＲＮＮ）である。更に別の実施態様では、それは、ＣＮＮ及びＲＮＮの両方を含む。

更に他の実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、１Ｄ畳み込み、２Ｄ畳み込み、３Ｄ畳み込み、４Ｄ畳み込み、５Ｄ畳み込み、拡張又は膨張畳み込み、転置畳み込み、奥行分離可能な畳み込み、ｐｏｉｎｔｗｉｓｅ畳み込み、１×１畳み込み、グループ畳み込み、扁平畳み込み、空間及びクロスチャネルの畳み込み、シャッフルされたグループ化畳み込み、空間的な分離可能な畳み込み、並びに逆畳み込みを使用することができる。それは、ロジスティック回帰／対数損失、多クラスクロスエントロピー／ソフトマックス損失、二値クロスエントロピー損失、平均二乗誤差損失、Ｌ１損失、Ｌ２損失、平滑Ｌ１損失、及びＨｕｂｅｒ損失などの１つ又はそれ以上の損失機能を使用することができる。それは、ＴＦＲｅｃｏｒｄ、圧縮符号化（例えば、ＰＮＧ）、シャープ化、マップ変換に対する平行コール、バッチング、プリフェッチ、モデル並列、データ並列、及び同期／非同期ＳＧＤのような、任意の並列、効率、及び圧縮方式を使用することができる。これは、アップサンプリング層、ダウンサンプリング層、反復接続、ゲート及びゲートされたメモリユニット（ＬＳＴＭ又はＧＲＵなど）、残留ブロック、残留接続、ハイウェイ接続、スキップ接続、ペエホル接続、アクティブ化機能（例えば、非線形変換関数は、整流線形ユニット（ＲｅＬＵ）、漏れやすいＲｅＬＵ，指数関数的ライナーユニット（ＥＬＵ）、シグモイド及び双曲線正接（ｔａｎｈ））、バッチ正規化層、規則化層、ドロップアウト、プール層（例えば、最大又は平均プール）、グローバル平均プール層、及び注意機構のような非線形変換機能を含む。

いくつかの実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、ニューラルネットワークベースのベースコーラー１５１４と同じ構造を有する。

入力データは、配列決定画像１０８及び／又は補足チャネル（例えば、距離チャネル、スケーリングチャネル）から導出される画像チャネルを含み得る。ニューラルネットワークベースの品質スコアラー１３８０２は、入力データを処理し、入力データの代替表現を生成する。代替表現は、いくつかの実施態様では畳み込み表現であり、他の実施態様では隠れ表現である。次いで、代替表現は、出力層によって処理されて、出力を生成する。出力は、品質指標を生成するために使用される。

一実施態様では、同じ入力データが、ニューラルネットワークベースのベースコーラー１５１４及びニューラルネットワークベースの品質スコアラー１３８０２に供給されて、（ｉ）ニューラルネットワークベースのベースコーラー１５１４からベースコールを生成し、（ｉｉ）ニューラルネットワークベースの品質スコアラー１３８０２から対応する品質指標を生成する。いくつかの実施態様では、ニューラルネットワークベースのベースコーラー１５１４及びニューラルネットワークベースの品質スコアラー１３８０２は、エンドツーエンド逆伝搬と共同で訓練される。

一実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、特定の配列決定サイクルで単一のターゲットクラスターのための品質指標を出力する。別の実施態様では、それは、特定の配列決定サイクルで複数のターゲットクラスター内の各ターゲットクラスターのための品質指標を出力する。更に別の実施態様では、それは、複数の配列決定サイクル内の各配列決定サイクルで複数のターゲットクラスター内の各ターゲットクラスターのための品質指標を出力し、それによって、各ターゲットクラスターのための品質指標配列を生成する。

一実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、配列決定画像１０８からのデータを含み、ベースコール品質グラウンドトゥルースでラベル付けされる訓練例で訓練される畳み込みニューラルネットワークである。ニューラルネットワークベースの品質スコアラー１３８０２は、畳み込みニューラルネットワーク１３８０２のベースコール品質予測１３８０４をベースコール品質グラウンドトゥルース１３８０８と漸進的に一致させる、逆伝搬ベースの勾配更新技術を使用して訓練される。いくつかの実施態様では、我々は、誤ったベースコールであった場合、塩基を０とラベル付けし、そうでない場合、塩基を１とラベル付けする。その結果、出力は、誤差の確率に対応する。一実施態様では、これは、入力特徴として配列コンテキストを使用する必要性を除去する。

畳み込みニューラルネットワーク１３８０２の入力モジュールは、１つ又はそれ以上のクラスターに対してコールされる１つ又はそれ以上の塩基の品質を決定するために、１つ又はそれ以上の配列決定サイクルで補足される配列決定画像１０８からのデータを畳み込みニューラルネットワーク１３８０２に供給する。

畳み込みニューラルネットワーク１３８０２の出力モジュールは、畳み込みニューラルネットワーク１３８０２による分析を、１つ又はそれ以上のクラスターに対してコールされる１つ又はそれ以上の塩基の品質を識別する出力１３９０２に変換する。

一実施態様では、出力モジュールは、高品質、中品質（任意選択的に、点線で示されるように）、及び低品質である品質状態に対する尤度を生成するソフトマックス分類層を更に備える。別の実施態様では、出力モジュールは、高品質及び低品質である品質状態に対する尤度を生成するソフトマックス分類層を更に備える。当業者は、異なって識別可能に品質スコアを汲み取る他のクラスが使用され得ることを理解するであろう。ソフトマックス分類層は、複数の品質スコアを割り当てられている品質に対する尤度を生成する。尤度に基づいて、品質は、複数の品質スコアのうちの１つから品質スコアを割り当てられる。品質スコアは、ベースコール誤差確率に対数的に基づく。複数の品質スコアは、Ｑ６、Ｑ１０、Ｑ１５、Ｑ２０、Ｑ２２、Ｑ２７、Ｑ３０、Ｑ３３、Ｑ３７、Ｑ４０、及びＱ５０を含む。別の実施態様では、出力モジュールは、品質を識別する連続値を生成する回帰層を更に含む。

いくつかの実施態様では、ニューラルネットワークベースの品質スコアラー１３８０２は、配列決定画像１０８からのデータを、コールされる塩基に対する品質予測値で補い、配列決定画像からのデータと共に、品質予測値を畳み込みニューラルネットワーク１３８０２に供給する、補足入力モジュールを更に含む。

いくつかの実施態様では、品質予測値は、オンライン重複、純度、フェイジング、ｓｔａｒｔ５、６量体スコア、モチーフ蓄積、ｅｎｄｉｎｅｓｓ、近似ホモポリマー、強度減衰、最終チャスティティ、背景を有する信号重複（Signal Overlap With Background、ＳＯＷＢ）、及び／又はシフトされた純度Ｇ調整を含む。他の実施態様では、品質予測値は、ピーク高さ、ピーク幅、ピーク場所、相対的なピーク場所、ピーク高さ割り当て、ピーク間隔割り当て、及び／又はピーク対応を含む。品質予測値に関する追加の詳細は、参照により本明細書に完全に記載されているかのように組み込まれる、米国特許公開第２０１８／０２７４０２３号及び第２０１２／００２０５３７号で見出され得る。
（訓練）

図１３８は、ニューラルネットワークベースの品質スコアラー１３８０２を訓練１３８００して、配列決定画像１０８から導出される入力データを処理し、品質指標を直接生成する、一実施態様を示す。ニューラルネットワークベースの品質スコアラー１３８０２は、正しい品質指標１３８０８に対して、予測された品質指標１３８０４を比較し、比較に基づいて誤差１３８０６を計算する、逆伝搬ベースの勾配更新技術を使用して訓練される。次いで、誤差１３８０６が、後方伝搬１３８１０中にニューラルネットワークベースの品質スコアラー１３８０２の重み及びパラメータに適用される勾配を計算するために使用される。訓練１３８００は、アダムなどの確率的勾配更新アルゴリズムを使用して、訓練器１５１０によって操作可能である。

訓練器１５１０は、（配列決定画像１０８から導出される）訓練データ１３８１２を使用して、予測された品質指標を生成する前方伝搬１３８１６、及び誤差１３８０６に基づいて重み及びパラメータを更新する後方伝搬１３８１０の数千及び数百万回の反復でニューラルネットワークベースの品質スコアラー１３８０２を訓練する。いくつかの実施態様では、訓練データ１３８１２は、品質予測値１３８１４に補われる。訓練１３８００に関する追加の詳細は、「ＤｅｅｐＬｅａｒｎｉｎｇＴｏｏｌｓ」と題する付録で見出され得る。
（推測）

図１３９は、推測１３９００中にニューラルネットワークベースの品質スコアラー１３８０２の出力として品質指標を直接生成する一実施態様を示す。推測１３９００は、バッチングなどの平行四辺形技術を含む、数百、数千、及び／又は数百万回の前方伝搬１３９０８を含む。推測１３９００は、（配列決定画像１０８及び／又は補足チャネル（例えば、距離チャネル、スケーリングチャネル）から導出される画像チャネルを有する）入力データを含む、推測データ１３９０４上で実行される。いくつかの実施態様では、推測データ１３９０４は、品質予測値１３９０６に補われる。推測１３９００は、テスタ１３９１０によって動作可能である。
（無損失変換）

図１４０は、ニューラルネットワークベースのテンプレート生成器１５１２、ニューラルネットワークベースのベースコーラー１５１４、及びニューラルネットワークベースの品質スコアラー１３８０２への入力として供給され得る変換されたデータ１４００４を生成するために、無損失変換１４００を使用する一実施態様を示す。無損失変換１４００のいくつかの例は、畳み込み、逆畳み込み、及びフーリエ変換を含む。

無損失変換１４００は、複数のフィルタ１－ｎ（例えば、畳み込みカーネルを有する畳み込みフィルタ）を含む無損失変換器１４００２によって適用され得る。無損失変換１４００は、入力データ９５００及び／又は入力画像データ１７０２に適用されて、変換されたデータ１４００４を生成し得る。

変換されたデータ１４００４は、ニューラルネットワークベースのテンプレート生成器１５１２への入力として供給されてクラスターメタデータを生成し、ニューラルネットワークベースのベースコーラー１５１４への入力として供給されてベースコールを生成し、及び／又はニューラルネットワークベースの品質スコアラー１３８０２への入力として供給されて、品質スコアを生成し得る。

いくつかの実施態様では、変換されたデータ１４００４は、逆畳み込み層１４００６によって逆畳み込みされて、入力データ９５００及び／又は入力画像データ１７０２の必須特徴を再構成する。逆畳み込み層１４００６は、ニューラルネットワークベースのテンプレート生成器１５１２、ニューラルネットワークベースのベースコーラー１５１４、及び／又はニューラルネットワークベースの品質スコアラー１３８０２の初期層であり得る。
（強度修正を伴うエンドツーエンド統合）

ここでの考察は、ニューラルネットワークベースのテンプレート生成器１５１２が、強度修正技術を使用してニューラルネットワークベースのベースコーラー１５１４とどのように統合されるかについて説明する。

上述のベースコール実施態様の多くでは、ニューラルネットワークベースのベースコーラー１５１４への入力として供給される入力データ９５００は、（ｉ）配列決定画像１０８から導出される画像データ７９０２（画像チャネル）と、（ｉｉ）ニューラルネットワークベースのテンプレート生成器１５１２の出力１７１４（例えば、減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０）から導出される補足距離データ（距離チャネル）と、（ｉｉｉ）補足スケーリングデータ（スケーリングチャネル）と、を含む。これらの実施態様では、画像データ７９０２内の強度値は、修正されるのではなく、むしろ、画像データ７９０２内のどのピクセルがクラスター中心を含み、画像データ７９０２内のどのピクセルがクラスター中心からより離れているかを伝えることによって、クラスター形状情報を通信する距離値に補われる。

ここで、我々は、クラスター形状情報を組み込むように画像データ７９０２を修正し、したがって、補足距離チャネルを計算及び使用する必要性を除去する、ベースコール実施態様を開示する。画像データ７９０２は、減衰マップ１７１６、三元マップ１７１８、及びバイナリマップ１７２０，に基づいて修正され、それは次に、ニューラルネットワークベースのテンプレート生成器１５１２の出力１７１４である。したがって、このコンテキストでは、「統合」は、ニューラルネットワークベースのテンプレート生成器１５１２（例えば、減衰マップ１７１６、三元マップ１７１８、及びバイナリマップ１７２０）によって生成される情報に基づいて、ニューラルネットワークベースのベースコーラー１５１４によって処理されるデータを修正すること（前者を後者に補うのとは対照的）を指す。

減衰及び三元マップの両方は、以下のようなサブピクセルを識別するクラスター形状情報を含む。（１）背景サブピクセル、（２）クラスター中心サブピクセル、及び（３）同じクラスターに属するクラスター又はクラスター内部サブピクセル。クラスター形状情報は、アップサンプリングされたサブピクセルドメイン内のテンプレート画像に含まれて、クラスター境界を微細化レベルで区別する。しかしながら、クラスター及び背景強度を含む画像データ７９０２は、典型的には、光学ピクセルドメイン内にある。

テンプレート画像及び画像データ７９０２は、異なるドメイン内にあるが、それらは、同じ画像化領域を表す。テンプレート画像は、配列決定動作の特定の数の初期配列決定サイクルに対する入力画像データ１７０２の処理、及び減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０の後処理から導出される。対照的に、クラスター形状情報組み込みに対する修正は、初期配列決定サイクルに対する画像データ７９０２に限定されないが、その代わりに、ベースコールされる各配列決定サイクルに対して画像データ７９０２に適用される。

しかしながら、いくつかの実施態様では、クラスターサイズが十分に大きいとき、ニューラルネットワークベースのベースコーラー１５１４、すなわち、減衰マップ１７１６、三元マップ１７１８及びバイナリマップ１７２０の出力は、光学的ピクセルドメイン内にある。したがって、このような実施態様形態では、テンプレート画像はまた、光ピクセルドメイン内にある。

そのため、例えば、配列決定動作は、ベースコールされる３００回の配列決定サイクルを含むと考える。次いで、テンプレート画像は、ニューラルネットワークベースのテンプレート生成器１５１２を介した第１の２～７回の配列決定サイクルに対する入力画像データ１７０２の処理、及び出力としてニューラルネットワークベースのテンプレート生成器１５１２によって生成される、減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０の後処理から導出される。一方、３００回の配列決定サイクルの各々に対する画像データ７９０２は、クラスター形状情報のために修正され、次いで、ニューラルネットワークベースのベースコーラー１５１４を介して処理されて、３００回の配列決定サイクルの各々に対してベースコールを生成する。

我々は、ニューラルネットワークベースのベースコーラー１５１４によるベースコールのために、画像データ７９０２にクラスター形状情報を組み込む、強度修正技術を開示する。以下の詳細がある。
（領域重み付け係数（Area Weighting Factoring、ＡＷＦ））

第１のタイプの強度修正技術は、強度修正が、光学ピクセルドメイン内の画像データ７９０２内のピクセルに適用される、領域重み付け係数技術である。

テンプレート画像及び画像データ７９０２が同じ画像化領域を表すため、テンプレート画像内のサブピクセルブロックと画像データ７９０２内のそれぞれのピクセルとの間には、多対１の対応が存在する。例えば、テンプレート画像内の１６個のサブピクセルの第１のブロックは、画像データ７９０２内の第１のピクセルに対応し、テンプレート画像内の１６個のサブピクセルの第２のブロックは、画像データ７９０２，内の第２のピクセルに対応するなどである。

ベースコールされる所与のクラスターに対して、我々は、テンプレート画像からそのクラスター形状情報にアクセスし、画像データ７９０２内のどのピクセルが所与のクラスターの一部を含むか、すなわち、画像データ７９０２内のどのピクセルが所与のクラスターをカバーするか、又は所与のクラスターからの強度放射を示すかを識別する。

次いで、画像データ７９０２内の識別された各ピクセルに対して、我々は、画像データ７９０２内の識別されたピクセルに対応するテンプレート画像内のどれくらい多くのサブピクセルが、所与のクラスターの一部を含むか、すなわち、画像データ７９０２内の識別されたピクセルに対応するテンプレート画像内のどれくらい多くのサブピクセルが所与のクラスターをカバーするか、又は所与のクラスターからの強度放射を示すかを決定する。次いで、決定されたサブピクセルカウントに基づいて、我々は、画像データ７９０２内の識別された各ピクセルに領域重み付け係数（ＡＷＦ）を割り当てる。
（１ピクセル当たり単一のクラスターの係数）

単一のピクセルｉに対するＡＷＦは、以下のように計算される。

上記ＡＷＦ計算は、サブピクセルカウントから以下を除外する。（ｉ）背景サブピクセル、及び（ｉｉ）任意の他のクラスターの一部を含むサブピクセル（すなわち、所与のクラスター以外のクラスターを示すサブピクセル）。この例は、図１４３に示される。

次いで、我々は、そのＡＷＦに基づいて、識別された各ピクセルの強度値を修正する。これは、所与のクラスターをベースコールするためのニューラルネットワークベースのベースコーラー１５１４によって処理される画像データ７９０２の修正バージョンをもたらす。

ピクセルｉの修正強度値（Modified Intensity Value、ＭＩＶ）は、以下のように計算される。
ピクセルｉのＭＩＶ＝ピクセルｉのＡＷＦＸ（画像データ７９０２内の）ピクセルｉの光学強度値

図１４３は、１ピクセル当たり単一のクラスターのみからの寄与に対する領域重み付け係数１４３００の一例を示す。図１４３では、画像データ７９０２の配列決定画像１４３０４内のピクセルの強度が修正される。配列決定画像１４３０４は、強度１００、１４０、１６０、及び３２０をそれぞれ有する４つのピクセルを含む。

テンプレート画像１４３０２は、配列決定画像１４３０４に対するクラスター形状情報を含む。テンプレート画像１４３０２は、配列決定画像１４３０４内の４つのピクセルにそれぞれ対応する４つのサブピクセルブロック（すなわち、配列決定画像１４３０４内の１ピクセル当たりのテンプレート画像１４３０２内の１６個のサブピクセル）を含む。テンプレート画像１４３０２はまた、３つのクラスターＡ、Ｂ、及びＣに対する背景サブピクセル及びクラスターサブピクセルを識別する。

次いで、配列決定画像１４３０４内の４つのピクセルの各々に対するＡＷＦは、１ピクセル当たりのクラスターＡのみを考慮するために計算され、テンプレート画像１４３０２内のＡＷＦ１４３０６として記憶される。第２及び第３のピクセルに対するＡＷＦはそれぞれ、７／１６及び８／１６であることに留意されたい。第２のピクセルが２つのクラスターＡ及びＣからの寄与を受信したとしても、そのＡＷＦは、クラスターＡ（赤色）をカバーする７個のサブピクセルのみを考慮し、クラスターＣ（オレンジ色）をカバーする４個のサブピクセルを無視する。同様に、第３のピクセルが２つのクラスターＡ及びＢからの寄与を受信したとしても、そのＡＷＦは、クラスターＡ（赤色）をカバーする８個のサブピクセルのみを考慮し、クラスターＢ（緑色）をカバーする４個のサブピクセルを無視する。背景サブピクセルは、カウントされない。

ＡＷＦ１４３０６は、４つのピクセルの各々の強度を修正し、修正された配列決定画像１４３０８を生成するために更に使用される。修正された配列決定画像１４３０８は、ベースコールのためのニューラルネットワークベースのベースコーラー１５１４によって処理される。
（１ピクセル当たり複数のクラスターの係数）

いくつかの実施態様では、我々は、複数のクラスターから画像データ７９０２内の単一のピクセルへの寄与を考慮する。複数のクラスターからの寄与を受信する単一のピクセルｉに対するＡＷＦは、以下のように計算される。

上記ＡＷＦ計算は、サブピクセルカウントから背景サブピクセルを除外するが、他のクラスターの一部を含むサブピクセル（すなわち、所与のクラスター以外のクラスターを示すサブピクセル）をサブピクセルカウントに含む。この例は、図１４４に示される。

図１４４は、１ピクセル当たり複数のクラスターからの寄与に対する領域重み付け係数１４４００の一例を示す。図１４４では、画像データ７９０２の配列決定画像１４４０４内のピクセルの強度が修正される。配列決定画像１４４０４は、強度１００、１４０、１６０、及び３２０をそれぞれ有する４つのピクセルを含む。

テンプレート画像１４４０２は、配列決定画像１４４０４に対するクラスター形状情報を含む。テンプレート画像１４４０２は、配列決定画像１４４０４内の４つのピクセルにそれぞれ対応する４つのサブピクセルブロック（すなわち、配列決定画像１４４０４内の１ピクセル当たりのテンプレート画像１４３０２内の１６個のサブピクセル）を含む。テンプレート画像１４４０２はまた、３つのクラスターＡ、Ｂ、及びＣに対する背景サブピクセル及びクラスターサブピクセルを識別する。

次いで、配列決定画像１４４０４内の４つのピクセルの各々に対するＡＷＦは、１ピクセル当たり全ての３つのクラスターＡ、Ｂ、及びＣを考慮するために計算され、テンプレート画像１４４０２内のＡＷＦ１４４０６として記憶される。第２及び第３のピクセルに対するＡＷＦはそれぞれ、１１／１６及び１２／１６であることに留意されたい。第２のピクセルが２つのクラスターＡ及びＣからの寄与を受信するため、そのＡＷＦは、クラスターＡ（赤色）をカバーする７個のサブピクセルを考慮し、クラスターＣ（オレンジ色）をカバーする４個のサブピクセルも考慮する。同様に、第３のピクセルが２つのクラスターＡ及びＢからの寄与を受信するため、そのＡＷＦは、クラスターＡ（赤色）をカバーする８個のサブピクセルを考慮し、クラスターＢ（緑色）をカバーする４個のサブピクセルも考慮する。背景サブピクセルは、カウントされない。

ＡＷＦ１４４０６は、４つのピクセルの各々の強度を修正し、修正された配列決定画像１４４０８を生成するために更に使用される。修正された配列決定画像１４４０８は、ベースコールのためのニューラルネットワークベースのベースコーラー１５１４によって処理される。

上述の領域重み付け係数技術は、単一のターゲットクラスターをベースコールするために使用され得、複数のターゲットクラスターを同時にベースコールするためにも使用され得る。
（アップサンプリング及び背景マスキング）

第２のタイプの強度修正技術は、画像データ７９０２が、テンプレート画像と同じアップサンプリングされたサブピクセルドメイン内にあるように最初にアップサンプリングされて、次いで、強度修正が、画像データ７９０２のアップサンプリングされたバージョンでのサブピクセルに適用される、アップサンプリング及び背景マスキングである。

テンプレート画像及び画像データ７９０２が同じ画像化領域を表すため、テンプレート画像内のサブピクセルと画像データ７９０２のアップサンプリングされたバージョンでのそれぞれのサブピクセルとの間には、１対１の対応が存在する。例えば、テンプレート画像内の第１のサブピクセルは、画像データ７９０２のアップサンプリングされたバージョンでの第１のサブピクセルに対応し、テンプレート画像内の第２のサブピクセルは、画像データ７９０２のアップサンプリングされたバージョンでの第２のサブピクセルに対応するなどである。

しかしながら、いくつかの実施態様では、クラスターサイズが十分に大きいとき、ニューラルネットワークベースのベースコーラー１５１４、すなわち、減衰マップ１７１６、三元マップ１７１８及びバイナリマップ１７２０の出力は、光学的ピクセルドメイン内にある。したがって、このような実施態様形態では、テンプレート画像はまた、光ピクセルドメイン内にある。
（補間）

テンプレート画像内のクラスター形状情報を使用して、我々は、画像データ７９０２内のピクセルにブロックごとに対応するテンプレート画像内のサブピクセル間で、テンプレート画像内のどのサブピクセルが、任意のクラスターからの／それをカバーする強度放射に寄与しない／それを示す背景サブピクセルであるか、及びどれが、少なくとも１つのクラスターからの／それをカバーする強度放射に寄与する／それを示すクラスターサブピクセルであるかを最初に識別する。

次いで、我々は、補間を使用して、アップサンプリングされたサブピクセルドメイン内の画像データ７９０２をアップサンプリングし、画像データ７９０２のアップサンプリングされたバージョンを生成して、（１）テンプレート画像内の識別された背景サブピクセルにそれぞれ対応する、画像データ７９０２のアップサンプリングされたバージョンでのサブピクセルが、同じ背景強度（例えば、ゼロ値又はゼロに近い値）を割り当てられ、（２）テンプレート画像内の識別されたクラスターサブピクセルにそれぞれ対応する、画像データ７９０２のアップサンプリングされたバージョンでのサブピクセルは、光学ピクセルドメイン内のピクセル強度から補間されるクラスター強度を割り当てられる。この例は、図１４５に示される。

図１４５は、アップサンプリング及び背景マスキング１４５００のための補間を使用する一例を示す。図１４５では、画像データ７９０２の配列決定画像１４５０４内のピクセルの強度が修正される。配列決定画像１４５０４は、強度１６０、８０、３２０、及び２００をそれぞれ有する４つのピクセルを含む。

テンプレート画像１４５０２は、配列決定画像１４５０４に対するクラスター形状情報を含む。テンプレート画像１４５０２は、配列決定画像１４５０４内の４つのピクセルにそれぞれ対応する４つのサブピクセルブロック（すなわち、配列決定画像１４５０４内の１ピクセル当たりのテンプレート画像１４５０２内の１６個のサブピクセル）を含む。テンプレート画像１４５０２はまた、３つのクラスターＡ、Ｂ、及びＣに対する背景サブピクセル及びクラスターサブピクセルを識別する。

補間は、配列決定画像１４５０４をアップサンプリングするために、及びサブピクセルを有するアップサンプリングされた配列決定画像１４５０６を生成するために使用される。補間は、背景強度を背景サブピクセルに割り当て、ピクセル強度から補間されるクラスター強度をクラスターサブピクセルに割り当てる。
（サブピクセルカウント重み付け）

ここで、クラスター強度は、異なって計算される。すなわち、ピクセル強度を補間する代わりに、光学ピクセルドメイン内の各ピクセルの強度は、対応するピクセルを構成する、画像データ７９０２のアップサンプリングされたバージョンでのクラスターサブピクセル間で等しく分配される。各ピクセルに対して、その強度が等しく分散されるその構成クラスターサブピクセルのカウントは、複数のクラスターからの寄与を考慮する上述の領域重み付け係数（ＡＷＦ）に基づいて決定され得る。背景サブピクセルは、上述のように、背景強度を割り当てられる。この例は、図１４６に示される。

図１４６は、アップサンプリング及び背景マスキング１４６００のためのサブピクセルカウント重み付けを使用する一例を示す。図１４６では、画像データ７９０２の配列決定画像１４６０４内のピクセルの強度が修正される。配列決定画像１４６０４は、強度１６０、８０、３２０、及び２００をそれぞれ有する４つのピクセルを含む。

テンプレート画像１４６０２は、配列決定画像１４６０４に対するクラスター形状情報を含む。テンプレート画像１４６０２は、配列決定画像１４６０４内の４つのピクセルにそれぞれ対応する４つのサブピクセルブロック（すなわち、配列決定画像１４６０４内の１ピクセル当たりのテンプレート画像１４６０２内の１６個のサブピクセル）を含む。テンプレート画像１４６０２はまた、３つのクラスターＡ、Ｂ、及びＣに対する背景サブピクセル及びクラスターサブピクセルを識別する。

サブピクセルカウント重み付けは、配列決定画像１４６０４をアップサンプリングするために、及びサブピクセルを有するアップサンプリングされた配列決定画像１４６０６を生成するために使用される。サブピクセルカウント重み付けは、背景強度を背景サブピクセルに割り当て、各ピクセルの全体の強度をその構成クラスターサブピクセルに分配する。すなわち、ピクセルからその構成クラスターサブピクセルへの強度割り当ては、ピクセルを構成する背景サブピクセルへの割り当てがなく、又は最小の割り当てで、ピクセルの強度のいくつかを無駄にすることなく、ピクセルの強度の全てを利用する。いくつかの実施態様では、ピクセルの強度は、その構成クラスターサブピクセル間で等しく分配される。

他の実施態様では、アップサンプリングは、最近傍強度抽出、ガウス系強度抽出、平均２×２のサブピクセル領域に基づく強度抽出、最も明るい２×２のサブピクセル領域に基づく強度抽出、平均３×３のサブピクセル領域に基づく強度抽出、バイリニア強度抽出、双次強度抽出、及び／又は重み付け領域被覆に基づく強度抽出のうちの少なくとも１つを使用して実行される。

いくつかの実施態様では、アップサンプリングの前に、画像データ７９０２は、サイクル固有及び撮像チャネル固有の変換を使用してテンプレート画像と位置合わせされる。

クラスター強度及び背景強度を含む画像データ７９０２のアップサンプリングされたバージョンは、ベースコールのためにニューラルネットワークベースのベースコーラー１５１４によって処理される。

他の実施態様では、減衰マップ、バイナリマップ、及び／又は三元マップでの値は、画像データ７９０２内のピクセルの強度、又は画像データ７９０２のアップサンプリングされたバージョンでのサブピクセルの強度を直接変調するために使用される。
（統合ワークフロー）
（領域重み付け係数）

図１４１は、領域重み付け係数を使用して、ニューラルネットワークベースのテンプレート生成器１５１２をニューラルネットワークベースのベースコーラー１５１４と統合する一実施態様を示す。

最初に、ニューラルネットワークベースのテンプレート生成器１５１２は、配列決定動作のいくつかの初期配列決定サイクルに対する入力画像データ１７０２を処理し、減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０を出力として生成する。入力画像データ１７０２は、次に、図２１ｂ～図２４を参照して上述したように、配列決定画像１０８から導出される。一実施態様では、入力画像データ１７０２は、ニューラルネットワークベースのテンプレート生成器１５１２への入力として供給される前に、アップサンプリングされたサブピクセルドメイン／解像度内である。別の実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２のアップサンプリング層は、アップサンプリングされたサブピクセルドメイン／解像度内にあるように、入力画像データ１７０２をアップサンプリングする。アップサンプリングは、２次補間などの補間技術によって達成され得る。

ニューラルネットワークベースのテンプレート生成器１５１２の出力１７１４（減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０）から、テンプレート画像１４１０２は、上述のような後処理を介して導出される。テンプレート画像１４２０２は、アップサンプリングされたサブピクセルドメイン／解像度内のクラスターメタデータを含む。クラスターメタデータ１８１２は、クラスター中心、クラスター形状、クラスター境界、及び／又はクラスター背景を識別する。「テンプレート画像」又は「テンプレート」は、減衰マップ１７１６、三元マップ１７１８及び／又はバイナリマップ１７１８に由来するクラスターメタデータ１８１２を含むか、又は識別するデータ構造を指すことができる。

しかしながら、いくつかの実施態様では、クラスターサイズが十分に大きいとき、ニューラルネットワークベースのベースコーラー１５１４、すなわち、減衰マップ１７１６、三元マップ１７１８及びバイナリマップ１７２０の出力は、光学的ピクセルドメイン内にある。したがって、そのような実施態様では、テンプレート画像１４２０２はまた、光学ピクセルドメイン内にある。

次いで、領域重み付け係数判定器１４１０４は、上述のように、テンプレート画像１４１０２を使用して、領域重み付け係数を決定し、テンプレート画像１４１０２内に記憶する。

次いで、配列決定動作の配列決定サイクルの各々に対して、画像データ７９０２は、テンプレート画像１４１０２内に記憶される領域重み付け係数に基づいて、強度修正器１４１０６によって修正される。他の実施態様では、領域重み付け係数は、他の箇所に記憶され得る。

その結果は、ニューラルネットワークベースのベースコーラー１５１４によって処理されてベースコール１４１１０を生成する、強度修正画像１４１０８である。強度修正画像１４１０８は、任意の補足距離チャネルを含まないが、補足スケーリングチャネルを含み得ることに留意されたい。

他の実施態様では、強度修正は、配列決定動作の配列決定サイクルのサブセットに対してのみ実行される。
（アップサンプリング及び背景マスキング）

図１４２は、アップサンプリング及び背景マスキングを使用して、ニューラルネットワークベースのテンプレート生成器１５１２をニューラルネットワークベースのベースコーラー１５１４と統合する別の実施態様を示す。

最初に、ニューラルネットワークベースのテンプレート生成器１５１２は、配列決定動作のいくつかの初期配列決定サイクルに対する入力画像データ１７０２を処理し、減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０を出力として生成する。入力画像データ１７０２は、次に、図２１ｂ～図２４．を参照して上述したように、配列決定画像１０８から導出される。一実施態様では、入力画像データ１７０２は、ニューラルネットワークベースのテンプレート生成器１５１２への入力として供給される前に、アップサンプリングされたサブピクセルドメイン／解像度内である。別の実施態様では、ニューラルネットワークベースのテンプレート生成器１５１２のアップサンプリング層は、アップサンプリングされたサブピクセルドメイン／解像度内にあるように、入力画像データ１７０２をアップサンプリングする。アップサンプリングは、２次補間などの補間技術によって達成され得る。

ニューラルネットワークベースのテンプレート生成器１５１２の出力（減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０）から、テンプレート画像１４２０２は、上述のような後処理を介して導出される。テンプレート画像１４２０２は、アップサンプリングされたサブピクセルドメイン／解像度内のクラスターメタデータを含む。クラスターメタデータ１８１２は、クラスター中心、クラスター形状、クラスター境界、及び／又はクラスター背景を識別する。「テンプレート画像」又は「テンプレート」は、減衰マップ１７１６、三元マップ１７１８及び／又はバイナリマップ１７１８に由来するクラスターメタデータ１８１２を含むか、又は識別するデータ構造を指すことができる。

次いで、画像統合器１４２０４は、上述のように、テンプレート画像１４２０２を使用して、補間又はサブピクセルカウント重み付けを使用して配列決定動作の配列決定サイクルの各々に対して画像データ７９０２をアップサンプリングし、配列決定動作の配列決定サイクルの各々に対して画像データ７９０２のアップサンプリングされたバージョン１４２１２を生成する。

アップサンプリングは、画像アップサンプラー１４２０８によって動作可能である。一実施態様では、画像データ７９０２のアップサンプリングされたバージョン１４２１２は、ニューラルネットワークベースのベースコーラー１５１４への入力として供給される前に生成される。別の実施態様では、アップサンプリング層ニューラルネットワークベースのベースコーラー１５１４は、画像データ７９０２をアップサンプリングし、画像データ７９０２のアップサンプリングされたバージョン１４２１２を生成する。アップサンプリングは、２次補間などの補間技術によって達成され得る。

画像統合器１４２０４はまた、上述のように、配列決定動作の配列決定サイクルの各々に対して、画像データ７９０２のアップサンプリングされたバージョン１４２１２内の背景サブピクセルに背景マスクを適用する。背景マスキングは、背景マスカー１４２１０によって適用される。

いくつかの実施態様では、アップサンプリングの前に、画像統合器１４２０４はまた、上述のように、配列決定動作の配列決定サイクルの各々に対して、画像データ７９０２をテンプレート画像１４２０２と位置合わせする。位置合わせは、画像アライナー１４２０６によって動作可能である。

次いで、配列決定動作の配列決定サイクルの各々に対して、画像データ７９０２のアップサンプリングされたバージョン１４２１２は、ニューラルネットワークベースのベースコーラー１５１４によって処理されて、ベースコール１４２１４を生成する。画像データ７９０２のアップサンプリングされたバージョン１４２１２は、任意の補足距離チャネルを含まないが、補足スケーリングチャネルを含み得ることに留意されたい。

他の実施態様では、アップサンプリング及び背景マスキングは、配列決定動作の配列決定サイクルのサブセットに対してのみ実行される。
（強度修正なしで、代わりに非距離補足チャネルを使用するエンドツーエンド統合）

ここでの考察は、ニューラルネットワークベースのテンプレート生成器１５１２が、配列決定画像の強度データを修正することなく、ニューラルネットワークベースのベースコーラー１５１４とどのように統合されるかについて説明する。以下で論じられる実施態様は、上述の補足距離チャネルとは異なる新しい補足チャネルを提供する。これらの新しい補足チャネルはまた、クラスター形状情報を伝える。
１．補足チャネルとしての、減衰マップ、三元マップ、バイナリマップ

ここで、我々は、ニューラルネットワークベースのテンプレート生成器１５１２の出力１７１４、すなわち、減衰マップ１７１６、三元マップ１７１８、及びバイナリマップ１７２０で、画像データ７９０２を補うベースコール実施態様を開示する。したがって、このコンテキストでは、「統合」は、ニューラルネットワークベースのテンプレート生成器１５１２（例えば、減衰マップ１７１６、３元マップ１７１８、及びバイナリマップ１７２０）によって生成される情報で、ニューラルネットワークベースのベースコーラー１５１４によって処理されるデータを補うことを指す。

減衰マップ１７１６、三元マップ１７１８、及びバイナリマップ１７２０は、アップサンプリングされたサブピクセルドメイン内にあるが、クラスター及び背景強度を含む画像データ７９０２は、典型的には、光学ピクセルドメイン内にある。

しかしながら、いくつかの実施態様では、クラスターサイズが十分に大きいとき、ニューラルネットワークベースのベースコーラー１５１４、すなわち、減衰マップ１７１６、三元マップ１７１８及びバイナリマップ１７２０の出力は、光学的ピクセルドメイン内にある。したがって、このような実施態様形態では、テンプレート画像はまた、光ピクセルドメイン内にある。
（入力画像データのアップサンプリング）

減衰マップ１７１６、三元マップ１７１８、及びバイナリマップ１７２０がアップサンプリングされたサブピクセルドメイン内にあるとき、いくつかの実施態様では、入力画像データ１７０２は、アップサンプリングされたサブピクセルドメイン内にあるようにアップサンプリングされる。一実施態様では、アップサンプラー２３０２は、補間（例えば、２次補間）を使用して、一連の画像セット２１００内の配列決定画像１０８をアップサンプリング係数（例えば、４ｘ）及び一連のアップサンプリングされた画像セット２３００によってアップサンプリングする。

次いで、減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０は、入力画像データ１７０２（アップサンプリングされたサブピクセルドメイン内でもある）でサブピクセルごとに補われ、入力画像データ１７０２（アップサンプリングされたサブピクセルドメイン内でもある）と共に補足チャネルとしてニューラルネットワークベースのベースコーラー１５１４に供給される。
（減衰マップ、三元マップ、バイナリマップのダウンサンプリング）

他の実施態様では、減衰マップ１７１６、三元マップ１７１８、及びバイナリマップ１７２０が、アップサンプリングされたサブピクセルドメイン内で生成されるとき、それらは、光学ピクセルドメイン内にあるようにダウンサンプリングされる。一実施態様では、ダウンサンプリングは、ダウンサンプリング係数に基づいてサブピクセルをグループ化することと、グループ化されたサブピクセルの出力値の平均を取り、それを光学ピクセルドメイン内の対応するピクセルに割り当てることと、を含み得る。出力値は、減衰マップ１７１６の場合の重み付けされた減衰値である。出力値は、三元マップ１７１８の場合の三元分類スコアである。出力値は、バイナリマップ１７２０の場合の２方向分類スコアである。別の実施態様では、ダウンサンプリングは、同じクラスターに属することに基づいてサブピクセルをグループ化することと、グループ化されたサブピクセルの出力値の平均を取り、それを光学ピクセルドメイン内の対応するピクセル（複数可）に割り当てることと、を含み得る。

次いで、光学ピクセルドメイン内の減衰マップ１７１６、三元マップ１７１８、又はバイナリマップ１７２０は、入力画像データ１７０２（光学ピクセルドメイン内でもある）でピクセルごとに補われ、入力画像データ１７０２（光学ピクセルドメイン内でもある）と共に補足チャネルとしてニューラルネットワークベースのベースコーラー１５１４に供給される。
２．（補足チャネルとしての領域重み付け係数）

一実施態様では、テンプレート画像（例えば、１４３０６及び１４４０６）内に含まれる領域重み付け係数は、上述のように計算されるが、強度値を修正し、修正された配列決定画像（例えば、１４３０８及び１４４０８）を生成するために使用される代わりに、それら自体は、修正されていない元の配列決定画像（例えば、１４３０４及び１４４０４）に付随する補足チャネルとして提供される。すなわち、テンプレート画像（例えば、１４３０６及び１４４０６）内に含まれる領域重み付け係数が、光学ピクセルドメイン内にあるため、それらは、修正されていない入力画像データ１７０２（光学ピクセルドメイン内でもある）でピクセルごとに補われ、修正されていない入力画像データ１７０２（光学ピクセルドメイン内でもある）と共にニューラルネットワークベースのベースコーラー１５１４に補足チャネルとして供給される。

したがって、このコンテキストでは、「統合」は、ニューラルネットワークベースのテンプレート生成器１５１２（例えば、減衰マップ１７１６、３元マップ１７１８、及びバイナリマップ１７２０）の出力から導出される情報（例えば、領域重み付け係数）で、ニューラルネットワークベースのベースコーラー１５１４によって処理されるデータを補うことを指す。
（データ前処理）

いくつかの実施態様では、開示される技術は、画像データ２０２内のピクセルに適用され、かつ前処理された画像データ２０２ｐを生成する、前処理技術を使用する。そのような実施態様では、画像データ２０２の代わりに、前処理された画像データ２０２ｐは、ニューラルネットワークベースのベースコーラー１５１４への入力として提供される。データ前処理は、データプリプロセッサ１５００２によって動作可能であり、それは次に、データ正規化器１５０３２及びデータ増強器１５０３４を含み得る。

図１５０は、データ正規化及びデータ増強を含み得る、データ前処理の異なる実施態様を示す。
（データ正規化）

一実施態様では、データ正規化は、画像パッチごとに、画像データ２０２内のピクセルに適用される。これは、得られた正規化された画像パッチのピクセル強度ヒストグラムが、ゼロの第５のパーセンタイル及び１の第９５のパーセンタイルを有するように、画像パッチ内のピクセルの強度値を正規化することを含む。すなわち、正規化された画像パッチでは、（ｉ）５％のピクセルは、ゼロ未満の強度値を有し、（ｉｉ）別の５％のピクセルは、１よりも大きい強度値を有する。画像データ２０２のそれぞれの画像パッチは、別々に正規化され得るか、又は画像データ２０２は、全て一度に正規化され得る。その結果は、前処理された画像データ２０２ｐの一例である、正規化された画像パッチ１５０１６である。データ正規化は、データ正規化器１５０３２によって動作可能である。
（データ増強）

一実施態様では、データ増強は、画像データ２０２内のピクセルの強度値に適用される。これは、（ｉ）画像データ２０２内の全てのピクセルの強度値に同じスケーリング係数を乗算することと、（ｉｉ）画像データ２０２内の全てのピクセルのスケーリングされた強度値に同じオフセット値を追加することと、を含む。単一のピクセルに対して、これは、以下の式によって表現され得る。
増強されたピクセル強度（Augment Pixel Intensity、ＡＰＩ）＝ａＸ＋ｂ
ａは、スケーリング係数であり、Ｘは、元のピクセル強度であり、ｂは、オフセット値であり、ａＸは、スケーリングされたピクセル強度である。

その結果は、前処理された画像データ２０２ｐの一例でもある、増強された画像パッチ１５０２６である。データ増強は、データ増強器１５０３４によって動作可能である。

図１５１は、図１５０のデータ正規化技術（ＤｅｅｐＲＴＡ（ｎｏｒｍ））及びデータ増強技術（ＤｅｅｐＲＴＡ（ａｕｇｍｅｎｔ））が、ニューラルネットワークベースのベースコーラー１５１４が細菌データで訓練され、ヒトデータで試験されるときにベースコール誤差割合を低減し、細菌データ及びヒトデータが、同じアッセイを共有する（例えば、両方ともイントロンデータを含む）ことを示す。

図１５２は、図１５０のデータ正規化技術（ＤｅｅｐＲＴＡ（ｎｏｒｍ））及びデータ増強技術（ＤｅｅｐＲＴＡ（ａｕｇｍｅｎｔ））が、ニューラルネットワークベースのベースコーラー１５１４が非エキソンデータ（例えば、イントロンデータ）で訓練され、エキソンデータで試験されるときにベースコール誤差割合を低減することを示す。

言い換えると、図１５０のデータ正規化及びデータ増強技術は、ニューラルネットワークベースのベースコーラー１５１４が、訓練中に見られないデータをより良好に一般化し、したがって、過剰適合を低減することを可能にする。

一実施態様では、データ増強は、訓練中及び推測中の両方で適用される。別の実施態様では、データ増強は、訓練中にのみ適用される。更に別の実施態様では、データ増強は、推測中にのみ適用される。

図１４７Ａ及び図１４７Ｂは、配列決定システムの一実施態様を示す。配列決定システムは、構成可能なプロセッサを含む。

図１４７Ｃは、ベースコールセンサー出力などの、配列決定システムからのセンサーデータの分析のためのシステムの簡略ブロック図である。

図１４８Ａは、ホストプロセッサによって実行される実行時プログラムの機能を含む、ベースコール動作の態様を示す簡略図である。

図１４８Ｂは、図１４７Ｃに示されるものなどの構成可能プロセッサの構成の簡略図である。

図１４９は、本明細書に開示される技術を実施するために、図１４７Ａの配列決定システムによって使用され得るコンピュータシステムである。
（配列決定システム）

図１４７Ａ及び図１４７Ｂは、配列決定システム１４７００Ａの一実施態様を示す。配列決定システム１４７００Ａは、構成可能プロセッサ１４７４６を含む。構成可能プロセッサ１４７４６は、本明細書に開示されるベースコール技術を実施する。配列決定システムは、「シーケンサ」とも称される。

配列決定システム１４７００Ａは、生物学的物質又は化学物質のうちの少なくとも１つに関連する任意の情報又はデータを得ることができる。いくつかの実施態様では、配列決定システム１４７００Ａは、ベンチトップデバイス又はデスクトップコンピュータと同様であり得るワークステーションである。例えば、所望の反応を実施するためのシステム及び構成要素の大部分（又は全て）は、共通のハウジング１４７０２内にあってもよい。

特定の実施態様では、配列決定システム１４７００Ａは、ｄｅｎｏｖｏｓｅｑｕｅｎｃｉｎｇ、全ゲノム又は標的ゲノム領域の再配列、及びメタゲノミクスを含むがこれらに限定されない、様々な用途のために構成された核酸配列決定システムである。シーケンサはまた、ＤＮＡ又はＲＮＡ分析に使用されてもよい。いくつかの実施態様では、配列決定システム１４７００Ａはまた、バイオセンサー内に反応部位を生成するように構成されてもよい。例えば、配列決定システム１４７００Ａは、サンプルを受容し、サンプル由来のクロノウイルス増幅核酸の表面結合クラスターを生成するように構成され得る。各クラスターは、バイオセンサー内の反応部位を構成するか、又はその一部であってもよい。

例示的な配列決定システム１４７００Ａは、バイオセンサー１４７１２と相互作用して、バイオセンサー１４７１２内で所望の反応を行うように構成されたシステム容器又はインターフェース１４７１０を含んでもよい。図１４７Ａに関して以下の説明では、バイオセンサー１４７１２はシステム受け部１４７１０内に装填される。しかしながら、バイオセンサー１４７１２を含むカートリッジは、システム受け部１４７１０に挿入されてもよく、一部の状態では、カートリッジは一時的又は永久的に除去され得ることが理解される。上述のように、カートリッジは、とりわけ、流体制御及び流体貯蔵構成要素を含んでもよい。

特定の実施態様では、配列決定システム１４７００Ａは、バイオセンサー１４７１２内で多数の平行反応を行うように構成されている。バイオセンサー１４７１２は、所望の反応が生じ得る１つ又はそれ以上の反応部位を含む。反応部位は、例えば、バイオセンサーの固体表面に固定化されてもよく、又はバイオセンサーの対応する反応チャンバ内に位置するビーズ（又は他の可動基材）に固定化されてもよい。反応部位は、例えば、クロノウイルス増幅核酸のクラスターを含むことができる。バイオセンサー１４７１２は、固体撮像装置（例えば、ＣＣＤ又はＣＭＯＳイメージャ）及びそれに取り付けられたフローセルを含んでもよい。フローセルは、配列決定システム１４７００Ａから溶液を受容し、溶液を反応部位に向けて方向付ける１つ又はそれ以上の流路を含んでもよい。任意選択的に、バイオセンサー１４７１２は、熱エネルギーを流路の内外に伝達するための熱要素と係合するように構成することができる。

配列決定システム１４７００Ａは、相互に相互作用して、生物学的又は化学的分析のための所定の方法又はアッセイプロトコルを実行する、様々な構成要素、アセンブリ、及びシステム（又はサブシステム）を含んでもよい。例えば、配列決定システム１４７００Ａは、配列決定システム１４７００Ａの様々な構成要素、アセンブリ、及びサブシステムと通信してもよく、またバイオセンサー１４７１２も含むシステムコントローラ１４７０６を含む。例えば、システム容器１４７１０に加えて、配列決定システム１４７００Ａはまた、配列決定システム１４７００Ａの流体ネットワーク及びバイオセンサー１４７１２の流体の流れを制御する流体制御システム１４７０８と、バイオアッセイシステムによって使用され得る全ての流体（例えば、気体又は液体）を保持する流体貯蔵システム１４７１４と、流体ネットワーク、流体貯蔵システム１４７１４及び／又はバイオセンサー１４７１２内の流体の温度を調節し得る温度制御システム１４７０４と、バイオセンサー１４７１２を照明するように構成された照明システム１４７１６と、を備えていてもよい。上述のように、バイオセンサー１４７１２を有するカートリッジがシステム容器１４７１０内に装填される場合、カートリッジはまた、流体制御及び流体貯蔵構成要素を含んでもよい。

また、配列決定システム１４７００Ａは、ユーザーと対話するユーザーインターフェース１４７１８を含んでもよい。例えば、ユーザーインターフェース１４７１８は、ユーザーから情報を表示又は要求するディスプレイ１４７２０と、ユーザー入力を受け取るためのユーザー入力デバイス１４７２２とを含むことができる。いくつかの実施態様では、ディスプレイ１４７２０及びユーザー入力デバイス１４７２２は、同じデバイスである。例えば、ユーザーインターフェース１４７１８は、個々のタッチの存在を検出し、またディスプレイ上のタッチの場所を識別するように構成されたタッチ感知ディスプレイを含んでもよい。しかしながら、マウス、タッチパッド、キーボード、キーパッド、ハンドヘルドスキャナー、音声認識システム、動き認識システムなどの他のユーザー入力デバイス１４７２２が使用されてもよい。以下でより詳細に説明するように、配列決定システム１４７００Ａは、所望の反応を実施するために、バイオセンサー１４７１２（例えば、カートリッジの形態）を含む様々な構成要素と通信してもよい。配列決定システム１４７００Ａはまた、バイオセンサーから得られたデータを分析して、ユーザーに所望の情報を提供するように構成されてもよい。

システムコントローラ１４７０６は、マイクロコントローラ、低減命令セットコンピュータ（Reduced Instruction Set Computer、ＲＩＳＣ）、特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）、粗粒化再構成可能構造（Coarse-Grained Reconfigurable Architecture、ＣＧＲＡ）、論理回路、及び本明細書に記載される機能を実行することができる任意の他の回路又はプロセッサと、を備える。上記の実施例は、例示的なものに過ぎず、したがって、システムコントローラという用語の定義及び／又は意味を制限することを意図するものではない。例示的実施態様では、システムコントローラ１４７０６は、検出データを取得し分析する少なくとも１つのために、１つ又はそれ以上の記憶要素、メモリ、又はモジュール内に記憶された命令のセットを実行する。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサー（又はピクセル）のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。記憶要素は、配列決定システム１４７００Ａ内の情報源又は物理メモリ要素の形態であってもよい。

命令セットは、本明細書に記載される様々な実施態様の方法及びプロセスなどの特定の動作を実行するように配列決定システム１４７００Ａ又はバイオセンサー１４７１２に指示する様々なコマンドを含んでもよい。命令のセットは、有形の非一時的コンピュータ可読媒体又は媒体の一部を形成し得るソフトウェアプログラムの形態であってもよい。本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、ランダムアクセスメモリ（Random Access Memory、ＲＡＭ）メモリ、リードオンリーメモリ（Read Only Memory、ＲＯＭ）メモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、及び不揮発性ＲＡＭ（Non-Volatile RAM、ＮＶＲＡＭ）メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは、例示的なものに過ぎず、したがって、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されない。

ソフトウェアは、システムソフトウェア又はアプリケーションソフトウェアなどの様々な形態であってもよい。更に、ソフトウェアは、別個のプログラムの集合、又はより大きいプログラム内のプログラムモジュール若しくはプログラムモジュールの一部の形態であってもよい。ソフトウェアはまた、オブジェクト指向プログラミングの形態のモジュール式プログラミングを含んでもよい。検出データを取得した後、検出データは、ユーザー入力に応じて処理された配列決定システム１４７００Ａによって自動的に処理されてもよく、又は別の処理マシン（例えば、通信リンクを介したリモート要求）によって行われる要求に応じて処理されてもよい。図示の別の実施態様では、システムコントローラ１４７０６は分析モジュール１４７４４を含む。他の別の実施態様では、システムコントローラ１４７０６は分析モジュール１４７４４を含まず、代わりに分析モジュール１４７４４へのアクセスを有する（例えば、分析モジュール１４７４４は、クラウド上で別個にホスティングされ得る）。

システムコントローラ１４７０６は、通信リンクを介して、バイオセンサー１４７１２及び配列決定システム１４７００Ａの他の構成要素に接続されてもよい。システムコントローラ１４７０６はまた、オフサイトシステム又はサーバに通信可能に接続されてもよい。通信リンクは、配線、コード、又は無線であってもよい。システムコントローラ１４７０６は、ユーザーインターフェース１４７１８及びユーザー入力デバイス１４７２２からユーザー入力又はコマンドを受信してもよい。

流体制御システム１４７０８は、流体ネットワークを含み、流体ネットワークを通る１つ又はそれ以上の流体の流れを方向付けるように構成されている。流体ネットワークは、バイオセンサー１４７１２及び流体貯蔵システム１４７１４と流体連通していてもよい。例えば、流体貯蔵システム１４７１４から流体を選択し、制御された方法でバイオセンサー１４７１２に向けてもよく、又は流体は、バイオセンサー１４７１２から引き出され、例えば、流体貯蔵システム１４７１４内の廃棄物リザーバに向けられてもよい。図示されていないが、流体制御システム１４７０８は、流体ネットワーク内の流体の流量又は圧力を検出する流量センサーを含んでもよい。センサーは、システムコントローラ１４７０６と通信してもよい。

温度制御システム１４７０４は、流体ネットワーク、流体貯蔵システム１４７１４及び／又はバイオセンサー１４７１２の異なる領域における流体の温度を調節するように構成されている。例えば、温度制御システム１４７０４は、バイオセンサー１４７１２と相互作用し、バイオセンサー１４７１２内の反応部位に沿って流れる流体の温度を制御する熱循環器を含んでもよい。温度制御システム１４７０４はまた、配列決定システム１４７００Ａ又はバイオセンサー１４７１２の中実要素又は構成要素の温度を調節してもよい。図示されていないが、温度制御システム１４７０４は、流体又は他の構成要素の温度を検出するためのセンサーを含んでもよい。センサーは、システムコントローラ１４７０６と通信してもよい。

流体貯蔵システム１４７１４は、バイオセンサー１４７１２と流体連通しており、所望の反応を行うために使用される様々な反応成分又は反応物質を貯蔵してもよい。流体貯蔵システム１４７１４はまた、流体ネットワーク及びバイオセンサー１４７１２を洗浄又は洗浄し、反応物質を希釈するための流体を貯蔵してもよい。例えば、流体貯蔵システム１４７１４は、試料、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液などを保存するための様々なリザーバを含んでもよい。更に、流体貯蔵システム１４７１４はまた、バイオセンサー１４７１２から廃棄物を受容するための廃棄物リザーバを含んでもよい。カートリッジを含む実施態様形態では、カートリッジは、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの１つ又はそれ以上を含み得る。したがって、これらのシステムに関する本明細書に記載される構成要素のうちの１つ又はそれ以上は、カートリッジハウジング内に収容され得る。例えば、カートリッジは、サンプル、試薬、酵素、他の生体分子、緩衝液、水性、及び非極性溶液、廃棄物などを保存するための様々なリザーバを有し得る。したがって、流体貯蔵システム、流体制御システム、又は温度制御システムのうちの１つ又はそれ以上は、カートリッジ又は他のバイオセンサーを介してバイオアッセイシステムと取り外し可能に係合され得る。

照明システム１４７１６は、バイオセンサーを照明するための光源（例えば、１つ又はそれ以上の発光ダイオード（Light-Emitting Diode、ＬＥＤ））及び複数の光学構成要素を含んでもよい。光源の例としては、レーザー、アークランプ、ＬＥＤ、又はレーザーダイオードが挙げられる。光学部品は、例えば、反射器、偏光板、ビームスプリッタ、コリマ、レンズ、フィルタ、ウェッジ、プリズム、鏡、検出器などであってもよい。照明システムを使用する実施態様では、照明システム１４７１６は、励起光を反応部位に向けるように構成されてもよい。一例として、蛍光団は、緑色の光の波長によって励起されてもよく、そのため、励起光の波長は約５３２ｎｍであり得る。一実施態様では、照明システム１４７１６は、バイオセンサー１４７１２の表面の表面法線に平行な照明を生成するように構成されている。別の実施態様では、照明システム１４７１６は、バイオセンサー１４７１２の表面の表面法線に対してオフアングルである照明を生成するように構成されている。更に別の実施態様では、照明システム１４７１６は、いくつかの平行照明及びある程度のオフアングル照明を含む複数の角度を有する照明を生成するように構成されている。

システム容器又はインターフェース１４７１０は、機械的、電気的、及び流体的な方法のうちの少なくとも１つにおいてバイオセンサー１４７１２と係合するように構成される。システム受け部１４７１０は、バイオセンサー１４７１２を所望の配向に保持して、バイオセンサー１４７１２を通る流体の流れを容易にすることができる。システム受け部１４７１０はまた、バイオセンサー１４７１２と係合するように構成された電気接点を含んでもよく、それにより、配列決定システム１４７００Ａは、バイオセンサー１４７１２と通信してもよく、及び／又はバイオセンサー１４７１２に電力を供給することができる。更に、システム容器１４７１０は、バイオセンサー１４７１２と係合するように構成された流体ポート（例えば、ノズル）を含んでもよい。いくつかの実施態様では、バイオセンサー１４７１２は、電気的に、また流体方式で、システム受け部１４７１０に取り外し可能に連結される。

加えて、配列決定システム１４７００Ａは、他のシステム若しくはネットワークと遠隔で、又は他のバイオアッセイシステム１４７００Ａと通信してもよい。バイオアッセイシステム１４７００Ａによって得られた検出データは、リモートデータベースに記憶されてもよい。

図１４７Ｂは、図１４７Ａのシステムで使用することができるシステムコントローラ１４７０６のブロック図である。一実施態様では、システムコントローラ１４７０６は、互いに通信することができる１つ又はそれ以上のプロセッサ又はモジュールを含む。プロセッサ又はモジュールのそれぞれは、特定のプロセスを実行するためのアルゴリズム（例えば、有形及び／又は非一時的コンピュータ可読記憶媒体上に記憶された命令）又はサブアルゴリズムを含んでもよい。システムコントローラ１４７０６は、モジュールの集合として概念的に例示されるが、専用ハードウェアボード、ＤＳＰ、プロセッサなどの任意の組み合わせを利用して実装されてもよい。あるいは、システムコントローラ１４７０６は、単一のプロセッサ又は複数のプロセッサを備えた既製のＰＣを使用して実装されてもよく、機能動作はプロセッサ間に分散される。更なる選択肢として、以下に記載されるモジュールは、特定のモジュール式機能が専用ハードウェアを利用して実施されるハイブリッド構成を利用して実装されてもよく、残りのモジュール式機能は、既製のＰＣなどを利用して実施される。モジュールはまた、処理ユニット内のソフトウェアモジュールとして実装されてもよい。

動作中、通信ポート１４７５０は、バイオセンサー１４７１２（図１４７Ａ）及び／又はサブシステム１４７０８、１４７１４、１４７０４（図１４７Ａ）から情報（例えば、データ）に情報（例えば、コマンド）を送信してもよい。実施態様形態では、通信ポート１４７５０は、ピクセル信号の複数の配列を出力することができる。通信リンク１４７３４は、ユーザーインターフェース１４７１８からユーザー入力を受信し（図１４７Ａ）、ユーザーインターフェース１４７１８にデータ又は情報を送信してもよい。バイオセンサー１４７１２又はサブシステム１４７０８、１４７１４、１４７０４からのデータは、バイオアッセイセッション中に、システムコントローラ１４７０６によってリアルタイムで処理されてもよい。追加的に又は代替的に、データは、バイオアッセイセッション中にシステムメモリ内に一時的に記憶され、リアルタイム又はオフライン操作よりも遅く処理されてもよい。

図１４７Ｂに示すように、システムコントローラ１４７０６は、中心処理装置（Central Processing Unit、ＣＰＵ）１４７５２と共に主制御モジュール１４７２４と通信する複数のモジュール１４７２６－１４７４８を含んでもよい。主制御モジュール１４７２４は、ユーザーインターフェース１４７１８と通信してもよい（図１４７Ａ）。モジュール１４７２６－１４７４８は、主制御モジュール１４７２４と直接通信するものとして示されているが、モジュール１４７２６－１４７４８はまた、互いに、ユーザーインターフェース１４７１８と、及びバイオセンサー１４７１２と直接通信してもよい。また、モジュール１４７２６－１４７４８は、他のモジュールを介して主制御モジュール１４７２４と通信してもよい。

複数のモジュール１４７２６－１４７４８は、サブシステム１４７０８、１４７１４、１４７０４及び１４７１６とそれぞれ通信するシステムモジュール１４７２８－１４７３２、１４７２６を含む。流体制御モジュール１４７２８は、流体ネットワークを通る１つ又はそれ以上の流体の流れを制御するために、流体制御システム１４７０８と通信して、流体ネットワークの弁及び流量センサーを制御してもよい。流体貯蔵モジュール１４７３０は、流体が低い場合、又は廃棄物リザーバが容量又はその近くにあるときにユーザーに通知することができる。流体貯蔵モジュール１４７３０はまた、流体が所望の温度で貯蔵され得るように、温度制御モジュール１４７３２と通信してもよい。照明モジュール１４７２６は、所望の反応（例えば、結合事象）が生じた後など、プロトコル中に指定された時間で反応部位を照明するために、照明システム１４７１６と通信してもよい。いくつかの実施態様では、照明モジュール１４７２６は、照明システム１４７１６と通信して、指定された角度で反応部位を照明することができる。

複数のモジュール１４７２６－１４７４８はまた、バイオセンサー１４７１２と通信する装置モジュール１４７３６と、バイオセンサー１４７１２に関連する識別情報を判定する識別モジュール１４７３８とを含んでもよい。装置モジュール１４７３６は、例えば、システム容器１４７１０と通信して、バイオセンサーが配列決定システム１４７００Ａとの電気的及び流体的接続を確立したことを確認することができる。識別モジュール１４７３８は、バイオセンサー１４７１２を識別する信号を受信してもよい。識別モジュール１４７３８は、バイオセンサー１４７１２の識別情報を使用して、他の情報をユーザーに提供してもよい。例えば、識別モジュール１４７３８は、ロット番号、製造日、又はバイオセンサー１４７１２で動作することが推奨されるプロトコルを決定し、その後表示してもよい。

複数のモジュール１４７２６－１４７４８はまた、バイオセンサー１４７１２から信号データ（例えば、画像データ）を受信及び分析する分析モジュール１４７４４（信号処理モジュール又は信号プロセッサとも呼ばれる）も含む。分析モジュール１４７４４は、検出／画像データを記憶するためのメモリ（例えば、ＲＡＭ又はフラッシュ）を含む。検出データは、ピクセル信号の複数の配列を含むことができ、それにより、数百万個のセンサー（又はピクセル）のそれぞれからのピクセル信号の配列を、多くのベースコールサイクルにわたって検出することができる。信号データは、その後の分析のために記憶されてもよく、又はユーザーインターフェース１４７１８に送信されて、所望の情報をユーザーに表示することができる。いくつかの実施態様では、信号データは、分析モジュール１４７４４が信号データを受信する前に、固体撮像素子（例えば、ＣＭＯＳ画像センサー）によって処理され得る。

分析モジュール１４７４４は、複数の配列決定サイクルのそれぞれにおいて、光検出器から画像データを取得するように構成される。画像データは、光検出器によって検出される発光信号から導出され、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８を介して、複数の配列決定サイクルの各々に対して画像データを処理し、複数の配列決定サイクルの各々で検体のうちの少なくともいくつかに対するベースコールを生成する。光検出器は、１つ又はそれ以上のオーバーヘッドカメラ（例えば、バイオセンサー１４７１２上のクラスターの画像を上から撮影するＩｌｌｕｍｉｎａのＧＡＩＩｘのＣＣＤカメラ）の一部であってもよく、又はバイオセンサー１４７１２自体の一部（例えば、バイオセンサー１４７１２上のクラスターの下にあり、底部からのクラスターの画像を取るＩｌｌｕｍｉｎａのｉＳｅｑのＣＭＯＳ画像センサー）であってもよい。

光検出器の出力は、それぞれクラスターの強度放射及びそれらの周囲背景を示す配列決定画像である。配列決定画像は、配列決定中に配列にヌクレオチドを組み込む結果として生成される強度放射を示す。強度放射は、関連する検体及びそれらの周囲の背景からのものである。配列決定画像は、メモリ１４７４８に記憶される。

プロトコルモジュール１４７４０及び１４７４２は、メイン制御モジュール１４７２４と通信して、所定のアッセイプロトコルを実施する際にサブシステム１４７０８、１４７１４及び１４７０４の動作を制御する。プロトコルモジュール１４７４０及び１４７４２は、所定のプロトコルに従って特定の動作を実行するように配列決定システム１４７００Ａに指示するための命令セットを含み得る。図示のように、プロトコルモジュールは、配列決定ごとの合成プロセスを実行するための様々なコマンドを発行するように構成された、配列合成（Sequencing-By-Synthesis、ＳＢＳ）モジュール１４７４０であってもよい。ＳＢＳにおいて、核酸テンプレートに沿った核酸プライマーの伸長を監視して、テンプレート中のヌクレオチド配列を決定する。下にある化学プロセスは、（例えば、ポリメラーゼ酵素により触媒される）又はライゲーション（例えば、リガーゼ酵素により触媒される）であり得る。特定のポリマー系ＳＢＳの実施態様では、プライマーに付加されるヌクレオチドの順序及び種類の検出を使用してテンプレートの配列を決定することができるように、蛍光標識ヌクレオチドをテンプレート依存様式でプライマー（それによってプライマーを伸長させる）に添加する。例えば、第１のＳＢＳサイクルを開始するために、１つ又はそれ以上の標識されたヌクレオチド、ＤＮＡポリメラーゼなどを、核酸テンプレートのアレイを収容するフローセル内に／それを介して送達することができる。核酸テンプレートは、対応する反応部位に位置してもよい。プライマー伸長が、組み込まれる標識ヌクレオチドを、撮像事象を通して検出することができる、これらの反応部位が検出され得る。撮像イベントの間、照明システム１４７１６は、反応部位に励起光を提供することができる。任意に、ヌクレオチドは、ヌクレオチドがプライマーに添加されると、更なるプライマー伸長を終結する可逆終端特性を更に含むことができる。例えば、可逆的ターミネーター部分を有するヌクレオチド類似体をプライマーに添加して、デブロッキング剤が部分を除去するためにデブロッキング剤が送達されるまで続く伸長が生じ得ない。したがって、可逆終端を使用する別の実施態様では、フローセル（検出前又は検出後）にデブロッキング試薬を送達するために、コマンドを与えることができる。１つ又はそれ以上のコマンドは、様々な送達工程間の洗浄（複数可）をもたらすために与えられ得る。次いで、サイクルをｎ回繰り返してプライマーをｎ個のヌクレオチドで伸長させることができ、それによって長さｎの配列を検出する。例示的な配列決定技術は、例えば、Ｂｅｎｔｌｅｙｅｔａｌ．，Ｎａｔｕｒｅ４５６：５３－５９（２００１４７）、国際公開第０４／０１１４７４９７号、米国特許第７，０５７，０２６号明細書、国際公開第９１／０６６７１４７号、同第０７／１２３７４４号、米国特許第７，３２９，４９２号明細書、同第７，２１１，４１４号明細書、同第７，３１５，０１９号明細書、米国特許第７，４０５，２１４７１号明細書、及び同第２００１４７／０１４７０１４７０１４７２号（それぞれ参照により本明細書に組み込まれる）に記載されている。

ＳＢＳサイクルのヌクレオチド送達工程では、単一の種類のヌクレオチドのいずれかを一度に送達することができ、又は複数の異なるヌクレオチドタイプ（例えば、Ａ、Ｃ、Ｔ、及びＧ）を送達することができる。一度に単一の種類のヌクレオチドのみが存在するヌクレオチド送達構成では、異なるヌクレオチドは、個別化された送達に固有の時間的分離に基づいて区別することができるため、異なるヌクレオチドは別個の標識を有する必要はない。したがって、配列決定方法又は装置は、単一の色検出を使用することができる。例えば、励起源は、単一の波長又は単一の波長範囲の励起のみを提供する必要がある。ある時点で、送達がフローセル内に存在する複数の異なるヌクレオチドをもたらすヌクレオチド送達構成では、異なるヌクレオチドタイプを組み込む部位は、混合物中のそれぞれのヌクレオチドタイプに結合された異なる蛍光標識に基づいて区別することができる。例えば、４つの異なる蛍光団のうちの１つをそれぞれ有する４つの異なるヌクレオチドを使用することができる。一実施態様では、４つの異なるフルオロフォアは、スペクトルの４つの異なる領域における励起を使用して区別することができる。例えば、４つの異なる励起放射線源を使用することができる。あるいは、４つ未満の異なる励起源を使用することができるが、単一源からの励起放射線の光学的濾過を使用して、フローセルにおいて異なる励起放射線の範囲を生成することができる。

いくつかの実施態様では、４つ未満の異なる色を、４つの異なるヌクレオチドを有する混合物中で検出することができる。例えば、ヌクレオチドの対は、同じ波長で検出することができるが、対のうちの１つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の１つのメンバーへの変化（例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して）に基づいて区別され得る。４個未満の色の検出を使用して４個の異なるヌクレオチドを区別するための例示的な装置及び方法が、例えば、米国特許出願第６１／５３１４７，２９４号明細書及び同第６１／６１９，１４７７１４７号明細書に記載されており、それらの全体が参照により本明細書に組み込まれる。２０１２年９月２１日に出願された米国特許出願第１３／６２４，２００号は、その全体が参照により組み込まれる。

複数のプロトコルモジュールはまた、バイオセンサー１４７１２内の製品を増幅するための流体制御システム１４７０８及び温度制御システム１４７０４にコマンドを発行するように構成された試料調製（又は生成）モジュール１４７４２を含んでもよい。例えば、バイオセンサー１４７１２は、配列決定システム１４７００Ａに係合されてもよい。増幅モジュール１４７４２は、バイオセンサー１４７１２内の反応チャンバに必要な増幅成分を送達するために、流体制御システム１４７０８に命令を発行することができる。他の実施態様では、反応部位は、テンプレートＤＮＡ及び／又はプライマーなどの増幅のためのいくつかの成分を既に含有していてもよい。増幅成分を反応チャンバに送達した後、増幅モジュール１４７４２は、既知の増幅プロトコルに従って異なる温度段階を通して温度制御システム１４７０４にサイクルするように指示し得る。いくつかの実施態様では、増幅及び／又はヌクレオチドの取り込みは、等温的に実施される。

ＳＢＳモジュール１４７４０は、クローン性アンプリコンのクラスターがフローセルのチャネル内の局所領域上に形成されるブリッジＰＣＲを実行するコマンドを発行することができる。ブリッジＰＣＲを介してアンプリコンを生成した後、アンプリコンを「線形化」して、一本鎖テンプレートＤＮＡを作製してもよく、ｓｓｔＤＮＡ及び配列決定プライマーは、関心領域に隣接する普遍配列にハイブリダイズされてもよい。例えば、合成方法による可逆的ターミネーター系配列決定を、上記のように又は以下のように使用することができる。

各塩基性コーリング又は配列決定サイクルは、例えば、修飾ＤＮＡポリメラーゼ及び４種類のヌクレオチドの混合物を使用することによって達成することができる単一の塩基によってｓｓｔＤＮＡを延長することができる。異なる種類のヌクレオチドは、固有の蛍光標識を有することができ、各ヌクレオチドは、各サイクルにおいて単一塩基の組み込みのみが生じることを可能にする可逆的ターミネーターを更に有し得る。ＳｓｔＤＮＡ，励起光に単一の塩基を添加した後、反応部位に入射し、蛍光発光を検出することができる。検出後、蛍光標識及びターミネーターは、ｓｓｔＤＮＡから化学的に切断され得る。別の同様の基本コーリング又は配列決定サイクルは、以下の通りであってもよい。そのような配列決定プロトコルでは、ＳＢＳモジュール１４７４０は、バイオセンサー１４７１２を通る試薬及び酵素溶液の流れを方向付けるように流体制御システム１４７０８に指示することができる。本明細書に記載される装置及び方法と共に利用することができる例示的な可逆性ターミネーターベースのＳＢＳ方法は、米国特許出願公開第２００７／０１６６７０５（Ａ１）号、米国特許出願公開第２００６／０１１４７１４７９０１（Ａ１）号、米国特許第７，０５７，０２６号、米国特許出願公開第２００６／０２４０４３９（Ａ１）号明細書、米国特許出願公開第２００６／０２１４７１４７１４７０９（Ａ１）号明細書、国際公開第０５／０１４９１４７１４号、米国特許出願公開第２００５／０１４７００９００（Ａ１）号明細書、国際公開第０６／０１４７Ｂ１９９号及び国際公開第０７／０１４７０２５１号（それぞれ参照によりその全体が本明細書に組み込まれる）に記載されている。可逆性ターミネーター系ＳＢＳの例示的な試薬は、米国特許第７，５４１，４４４号、米国特許第７，０５７，０２６号明細書、同第７，４１４，１４７１６号明細書、同第７，４２７，６７３号明細書、同第７，５６６，５３７号明細書、同第７，５９２，４３５号号明細書、及び国際公開第０７／１４１４７３５３６１４７号に記載されており、これらはそれぞれ参照によりその全体が本明細書に組み込まれる。

いくつかの実施態様では、増幅及びＳＢＳモジュールは、単一のアッセイプロトコルで動作してもよく、例えば、テンプレート核酸は増幅され、続いて同じカートリッジ内で配列される。

配列決定システム１４７００Ａはまた、ユーザーがアッセイプロトコルを再構成することを可能にし得る。例えば、決定システム１４７００Ａは、決定されたプロトコルを修正するために、ユーザーインターフェース１４７１８を通じてユーザーにオプションを提供することができる。例えば、バイオセンサー１４７１２が増幅のために使用されると判定された場合、配列決定システム１４７００Ａは、アニーリングサイクルの温度を要求し得る。更に、配列決定システム１４７００Ａは、選択されたアッセイプロトコルに対して一般的に許容されないユーザー入力をユーザーが提供した場合に、ユーザーに警告を発行し得る。

実施態様形態では、バイオセンサー１４７１２は、センサー（又はピクセル）のミリオンを含み、それらのそれぞれは、連続するベースコールサイクルにわたって複数のピクセル信号の配列を生成する。分析モジュール１４７４４は、センサーのアレイ上のセンサーの行方向及び／又は列方向の位置に従って、ピクセル信号の複数の配列を検出し、それらを対応するセンサー（又はピクセル）に属させる。

図１４７Ｃは、ベースコールセンサー出力などの、配列決定システム１４７００Ａからのセンサーデータの分析のためのシステムの簡略ブロック図である。図１４７Ｃの例では、システムは、構成可能プロセッサ１４７４６を含む。構成可能プロセッサ１４７４６は、中心処理ユニット（ＣＰＵ）１４７５２（すなわち、ホストプロセッサ）によって実行される実行時プログラムと協調して、ベースコーラー（例えば、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８）を実行することができる。配列決定システム１４７００Ａは、バイオセンサー１４７１２及びフローセルを含む。フローセルは、遺伝物質のクラスターが、遺伝物質中の塩基を識別するためにクラスター内の反応を引き起こすために使用される一連の検体フローに曝露される１つ又はそれ以上のタイルを含み得る。センサーは、タイルデータを提供するために、フローセルの各タイルにおける配列の各サイクルの反応を検知する。遺伝的配列決定はデータ集約的操作であり、このデータ集約的動作は、ベースコールセンサーデータを、ベースコール動作中に感知された各遺伝物質群のベースコールの配列に変換する。

本実施例のシステムは、ベースコール動作を調整するための実行時プログラムを実行するＣＰＵ１４７５２と、タイルデータのアレイの配列を記憶するメモリ１４７４８Ｂと、ベースコール動作によって生成されたベースコールリードと、ベースコール動作で使用される他の情報とを記憶する。また、この図では、システムは、構成ファイル（又はファイル）、例えば、ＦＰＧＡビットファイル、並びに構成可能プロセッサ１４７４６を構成及び再構成するために使用されるニューラルネットワークのモデルパラメータなどの構成ファイル（又はファイル）を記憶するメモリ１４７４８Ａを含む。配列決定システム１４７００Ａは、構成可能プロセッサを構成するためのプログラムを含むことができ、いくつかの実施形態では、ニューラルネットワークを実行する再構成可能なプロセッサを含み得る。

配列決定システム１４７００Ａは、バス１４７８９によって構成可能プロセッサ１４７４６に結合される。バス１４７８９は、ＰＣＩ－ＳＩＧ規格（ＰＣＩＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ）によって現在維持及び開発されているＰＣＩｅ規格（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）と互換性のあるバス技術などの高スループット技術を使用して実装することができる。また、この例では、メモリ１４７４８Ａは、バス１４７９３によって構成可能プロセッサ１４７４６に結合される。メモリ１４７４８Ａは、構成可能プロセッサ１４７４６を有する回路基板上に配置されたオンボードメモリであってもよい。メモリ１４７４８Ａは、ベースコール動作で使用される作業データの構成可能プロセッサ１４７４６による高速アクセスに使用される。バス１４７９３はまた、ＰＣＩｅ規格と互換性のあるバス技術などの高スループット技術を使用して実装することもできる。

フィールドプログラマブルゲートアレイＦＰＧＡ、粗いグレー構成可能な再構成可能アレイＣＧＲＡｓ、並びに他の構成可能かつ再構成可能なデバイスを含む構成可能なプロセッサは、コンピュータプログラムを実行する汎用プロセッサを使用して達成され得るよりも、より効率的に又はより高速に様々な機能を実装するように構成することができる。構成可能なプロセッサの構成は、時にはビットストリーム又はビットファイルと称される構成ファイルを生成するために機能的な説明を編集することと、構成ファイルをプロセッサ上の構成可能要素に配布することと、を含む。構成ファイルは、データフローパターンを設定するように回路を構成することにより、分散メモリ及び他のオンチップメモリリソースの使用、ルックアップテーブルコンテンツ、構成可能な論理ブロックの動作、及び構成可能な論理ブロックの動作、及び構成可能なアレイの構成可能な相互接続及び他の要素のような構成可能な実行ユニットとを含む。構成ファイルがフィールド内で変更され得る場合、ロードされた構成ファイルを変更することによって構成ファイルを変更することができる場合に再構成可能である。例えば、構成ファイルは、揮発性ＳＲＡＭ要素内に、不揮発性読み書きメモリ素子内に記憶されてもよく、構成可能又は再構成可能なプロセッサ上の構成可能要素のアレイ間に分散されたものであってもよい。様々な市販の構成可能なプロセッサは、本明細書に記載されるようなベースコール動作において使用するのに好適である。例としては、Ｇｏｏｇｌｅのテンソル処理ユニット（ＴＰＵ）（商標）、ＧＸ４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＧＸ９ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＮＶＩＤＩＡＤＧＸ－１（商標）、Ｍｉｃｒｏｓｏｆｔ’ＳｔｒａｔｉｘＶＦＰＧＡ（商標）、ＧｒａｐｈｃｏｒｅのＩｎｔｅｌｌｉｇｅｎｔＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＩＰＵ）（商標）、ＱｕａｌｃｏｍｍのＺｅｒｏｔｈＰｌａｔｆｏｒｍ（商標）（Ｓｎａｐｄｒａｇｏｎｐｒｏｃｅｓｓｏｒｓ（商標）、ＮＶＩＤＩＡＶｏｌｔａ（商標）、ＮＶＩＤＩＡのドライブＰＸ（商標）、ＮＶＩＤＩＡのＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ（商標）、Ｉｎｔｅｌ’ｓＮｉｒｖａｎａＴＭ、ＭｏｖｉｄｉｕｓＶＰＵ（商標）、ＦｕｊｉｔｓｕＤＰＩ（商標）、アームＤｙｎａｍｉｃＩＱ（商標）、ＩＢＭＴｒｕｅＮｏｒｔｈ（商標）、ＬａｍｂｄａＧＰＵＳｅｒｖｅｒｗｉｔｈＴｅｓｔａＶ１００ｓ（商標）、ＸｉｌｉｎｘＡｌｖｅｏ（商標）Ｕ２００、ＸｉｌｉｎｘＡｌｖｅｏ（商標）Ｕ２５０、ＸｉｌｉｎｘＡｌｖｅｏ（商標）Ｕ２８０、Ｉｎｔｅｌ／ＡｌｔｅｒａＳｔｒａｔｉｘ（商標）ＧＸ２８００、Ｉｎｔｅｌ／ＡｌｔｅｒａＳｔｒａｔｉｘ（商標）ＧＸ２８００、及びＩｎｔｅｌＳｔｒａｔｉｘ（商標）ＧＸ１０Ｍ、が含まれる。いくつかの実施例では、ホストＣＰＵは、構成可能プロセッサと同じ集積回路上に実装することができる。

本明細書に記載される実施形態は、構成可能プロセッサ１４７４６を使用して、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８を実施する。構成可能プロセッサ１４７４６の構成ファイルは、高レベルの記述言語ＨＤＬ又はレジスタ転送レベルＲＴＬ言語仕様を使用して実行されるロジック機能を指定することによって実装することができる。本明細書は、選択された構成可能プロセッサが構成ファイルを生成するように設計されたリソースを使用してコンパイルすることができる。構成可能なプロセッサではない場合がある特定用途向け集積回路の設計を生成する目的で、同じ又は類似の仕様をコンパイルすることができる。

したがって、本明細書に記載される全ての実施形態における構成可能プロセッサ構成可能プロセッサ１４７４６の代替例は、特定用途向けＡＳＩＣ又は専用集積回路又は集積回路のセットを含む構成されたプロセッサを含み、又はシステムオンチップＳＯＣデバイス、又は本明細書に記載されるようなニューラルネットワークベースのベースコール動作を実行するように構成された、システムオンチップＳＯＣデバイス、又はグラフィック処理ユニット（ＧＰＵ）プロセッサ若しくは粗粒化再構成可能構造（Coarse-Grained Reconfigurable Architecture、ＣＧＲＡ）プロセッサである。

一般に、ニューラルネットワークの動作を実行するように構成された、本明細書に記載の構成可能なプロセッサ及び構成されたプロセッサは、本明細書ではニューラルネットワークプロセッサと称される。

構成可能プロセッサ１４７４６は、この例では、ＣＰＵ１４７５２によって実行されるプログラムを使用して、又は構成可能要素１４７９１のアレイを構成する他のソースによってロードされた構成ファイルによって構成される（例えば、構成論理ブロック（Configuration Logic Block、ＣＬＢ）、例えばルックアップテーブル（Look Up Table、ＬＵＴ）、フリップフロップ、演算処理ユニット（ＰＭＵ）、及び計算メモリユニット（Compute Memory Unit、ＣＭＵ）、構成可能なＩ／Ｏブロック、プログラマブル相互接続）を計算して、ベースコール機能を実行する。この例では、構成は、バス１４７８９及び１４７９３に結合され、ベースコール動作で使用される要素間でデータ及び制御パラメータを分散する機能を実行するデータフローロジック１４７９７を含む。

また、構成可能プロセッサ１４７４６は、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８を実行するために、ベースコール実行ロジック１４７９７を用いて構成されている。論理１４７９７は、マルチサイクル実行クラスター（例えば、１４７７９）を含み、この実施例では、実行クラスターＸを介した実行クラスター１を含む。多重サイクル実行クラスターの数は、動作の所望のスループットを伴うトレードオフ、及び構成可能プロセッサ１４７４６上の利用可能なリソースに従って選択することができる。

多重サイクル実行クラスターは、構成可能なプロセッサ１４７４６上の構成可能な相互接続及びメモリリソースを使用して実装されるデータ流路１４７９９によってデータフローロジック１４７９７に結合される。また、マルチサイクル実行クラスターは、構成可能な相互接続及びメモリリソースを使用して、例えば構成可能プロセッサ１４７４６上で実施される制御経路１４７９５によってデータフローロジック１４７９７に結合されている。それは、利用可能な実行クラスターを示す制御信号を提供し、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の動作の実行のための入力ユニットを利用可能な実行クラスターに提供する準備ができており、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の訓練されたパラメータを提供する準備ができており、ベースコール分類データの出力パッチ、並びにニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行に使用される他の制御データを提供する準備ができている。

構成可能プロセッサ１４７４６は、訓練されたパラメータを使用してニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の動作を実行して、ベースコール動作の検知サイクルに関する分類データを生成するように構成されている。ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の動作を実行して、ベースコール動作の被験者検知サイクルの分類データを生成する。ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の動作は、Ｎ個の検知サイクルのそれぞれの検知サイクルからのタイルデータのアレイの数Ｎを含む配列で動作し、Ｎ個の検知サイクルは、本明細書に記載される例での時間配列における動作ごとの１つの塩基位置に対する異なるベースコール動作のためのセンサーデータを提供する。任意選択的に、Ｎ個の感知サイクルのうちのいくつかは、実行される特定のニューラルネットワークモデルに従って必要に応じて、配列から出ることができる。数Ｎは、１を超える任意の数であり得る。本明細書に記載されるいくつかの実施例では、Ｎ個の検知サイクルの検知サイクルは、被験者の検知サイクルに先行する少なくとも１つの検知サイクル、及び被験者サイクルの後の少なくとも１回の検知サイクルについての検知サイクルのセットを表す。本明細書では、数Ｎが５以上の整数である、実施例が記載される。

データフローロジック１４７９７は、Ｎ個のアレイの空間的に位置合わせされたパッチのタイルデータを含む所与の動作のための入力ユニットを使用して、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の動作のために、メモリ１４７４８Ａから構成可能プロセッサ１４７４６に、タイルデータ及びモデルパラメータの少なくともいくつかの訓練されたパラメータを移動させるように構成されている。入力ユニットは、１回のＤＭＡ動作におけるダイレクトメモリアクセス動作によって、又は、配備されたニューラルネットワークの実行と協調して、利用可能なタイムスロットの間に移動するより小さいユニット内で移動させることができる。

本明細書に記載される感知サイクルのタイルデータは、１つ又はそれ以上の特徴を有するセンサーデータのアレイを含むことができる。例えば、センサーデータは、ＤＮＡ、ＲＮＡ、又は他の遺伝物質の遺伝的配列における塩基位置で４塩基のうちの１つを識別するために分析される２つの画像を含むことができる。タイルデータはまた、画像及びセンサーに関するメタデータを含むことができる。例えば、ベースコール動作の実施形態では、タイルデータは、タイル上の遺伝物質群の中心からのセンサーデータのアレイ内の各ピクセルの距離を示す中心情報からの距離などの、クラスターとの画像の位置合わせに関する情報を含むことができる。

以下に記載されるように、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行中に、タイルデータはまた、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行中に生成されるデータも含み得る。それは、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の動作中に再計算されるのではなく再使用することができる中間データと称される。例えば、ニューラルネットワークベースの品質スコアラー６１０２及び／又はニューラルネットワークベースのベースコーラー２１８の実行中に、データフローロジック１４７９７は、タイルデータのアレイの所与のパッチのセンサーデータの代わりに、中間データをメモリ１４７４８Ａに書き込むことができる。このような実施形態は、以下により詳細に記載される。

図示されているように、ベースコール動作の検知サイクルからタイルのセンサーデータを含むタイルデータを記憶する実行時プログラムによってアクセス可能なメモリ（例えば、１４７４８Ａ）を含む、ベースコールセンサー出力の分析のためのシステムが説明される。また、システムは、メモリへのアクセスを有する構成可能プロセッサ１４７４６などのニューラルネットワークプロセッサを含む。ニューラルネットワークプロセッサは、訓練されたパラメータを使用してニューラルネットワークの動作を実行して、検知サイクルのための分類データを生成するように構成される。本明細書に記載されるように、ニューラルネットワークの動作は、被験者サイクルを含むＮ個の感知サイクルのそれぞれの感知サイクルからタイルデータのＮ個のアレイの配列で動作して、被験者サイクルの分類データを生成する。データフローロジック１４７９７は、Ｎ個の検知サイクルのそれぞれの検知サイクルからのＮ個のアレイの空間的に位置合わせされたパッチのデータを含む入力ユニットを使用して、ニューラルネットワークの動作のために、メモリからニューラルネットワークプロセッサにタイルデータ及び訓練されたパラメータを移動させるために提供される。

また、ニューラルネットワークプロセッサがメモリへのアクセスを有し、複数の実行クラスターを含み、ニューラルネットワークを実行するように構成された複数の実行クラスター内の実行クラスターを含むシステムも説明される。データフローロジック１４７９７は、メモリへのアクセス、及び複数の実行クラスター内のクラスターを実行して、複数の実行クラスター内の利用可能な実行クラスターにタイルデータの入力ユニットを提供し、入力ユニットは、それぞれの感知サイクルからタイルデータのアレイの空間的に整列されたパッチの数Ｎを含む、入力ユニットと、被験者検知サイクルを含み、Ｎ個の空間的に整合されたパッチをニューラルネットワークに適用して、被験者検知サイクルの空間的に整合されたパッチの分類データの出力パッチを生成させるように、実行クラスターに、ニューラルネットワークにＮ個の空間的に位置合わせされたパッチを適用させることと、を含み、Ｎは１より大きい。

図１４８Ａは、ホストプロセッサによって実行される実行時プログラムの機能を含む、ベースコール動作の態様を示す簡略図である。この図では、フローセルからの画像センサーの出力は、ライン１４８００上で画像処理スレッド１４８０１に提供され、画像処理スレッド８００１は、個々のタイルのセンサーデータのアレイ内の位置合わせ及び配置、及び画像の再サンプリングなどの画像上のプロセスを実行することができ、フローセル内の各タイルのタイルクラスターマスクを計算するプロセスによって使用することができ、フローセルの対応するタイル上の遺伝子材料のクラスターに対応するセンサーデータのアレイ内のピクセルを識別するプロセスによって使用することができる。画像処理スレッド１４８０１の出力は、ＣＰＵ内のディスパッチロジック１４８１０に、ライン１４８０２上に提供され、それは、高速バス１４８０３上又は高速バス１４８０５上のデータキャッシュ１４８０４（例えば、ＳＳＤ記憶装置）に、ベースコール動作の状態に従って、図１４７Ｃの構成可能プロセッサ１４７４６などのニューラルネットワークプロセッサハードウェア１４８２０にタイルデータのアレイを転送する。処理され、変換された画像は、以前に使用されたサイクルを検知するために、データキャッシュ１４８０４上に記憶され得る。ハードウェア１４８２０は、ニューラルネットワークによって出力された分類データをディスパッチロジック１４８１４８に返し、ディスパッチロジック８０８０は、情報をデータキャッシュ１４８０４に、又はライン１４８１１上でスレッド１４８０２に渡し、分類データを使用してベースコール及び品質スコア計算を実行し、ベースコール読み取りのための標準フォーマットでデータを配置することができる。ベースコール及び品質スコア計算を実行するスレッド１４８０２の出力は、ベースコールリードを集約するスレッド１４８０３に、ライン１４８１２上に提供され、データ圧縮などの他の動作を実行し、結果として得られるベースコール出力を顧客による利用のために指定された宛先に書き込む。

いくつかの実施形態では、ホストは、ニューラルネットワークを支持するハードウェア１４８２０の出力の最終処理を実行する、スレッド（図示せず）を含むことができる。例えば、ハードウェア１４８２０は、マルチクラスターニューラルネットワークの最終層から分類データの出力を提供することができる。ホストプロセッサは、ベースコール及び品質スコアスレッド１４８０２によって使用されるデータを設定するために、分類データを超えて、ソフトマックス関数などの出力起動機能を実行することができる。また、ホストプロセッサは、ハードウェア１４８２０への入力前のタイルデータのバッチ正規化などの入力動作（図示せず）を実行することができる。

図１４８Ｂは、図１４７Ｃの構成などの構成可能プロセッサ１４７４６の構成の簡略図である。図１４８Ｂでは、構成可能プロセッサ１４７４６は、複数の高速ＰＣＩｅインターフェースを有するＦＰＧＡを含む。ＦＰＧＡは、図１４７Ｃを参照して説明されるデータフローロジック１４７９７を含むラッパー１４８９０を用いて構成されている。ラッパー１４８９０は、ＣＰＵ通信リンク１４８７７を介してＣＰＵ内の実行時プログラムとのインターフェース及び調整を管理し、ＤＲＡＭ通信リンク１４８９７を介してオンボードＤＲＡＭ１４８９９（例えば、メモリ１４７４８Ａ）との通信を管理する。ラッパー１４８９０内のデータフローロジック１４７９７は、数Ｎのサイクルのために、オンボードＤＲＡＭ１４８９９上のタイルデータのアレイをクラスター１４８８５まで横断することによって取得されたパッチデータを提供し、クラスター１４８８５からプロセスデータ１４８８７を取得して、オンボードＤＲＡＭ１４８９９に配信する。ラッパー１４８９０はまた、タイルデータの入力アレイ、及び分類データの出力パッチの両方について、オンボードＤＲＡＭ１４８９９とホストメモリとの間のデータの転送を管理する。ラッパーは、ライン１４８８３上のパッチデータを割り当てられたクラスター１４８８５に転送する。ラッパーは、オンボードＤＲＡＭ１４８９９から取得されたクラスター１４８８５にライン１４８８１の重みやバイアスなどの訓練されたパラメータを提供する。ラッパーは、ＣＰＵ通信リンク１４８７７を介してホスト上の実行時プログラムから提供されるか、又はそれに応答して生成されるクラスター１４８８５に、ライン１４８７９上の構成及び制御データを提供する。クラスターはまた、ホストからの制御信号と協働して使用されて、空間的に整列したパッチデータを提供し、クラスター１４８８５のリソースを使用して、パッチデータを介して多重サイクルニューラルネットワークをパッチデータの上で実行するために、ホストからの制御信号と協働して使用されるラッパー１４８９０に、ライン１４８８９上の状態信号を提供することができる。

上述のように、タイルデータの複数のパッチのうちの対応するパッチ上で実行するように構成されたラッパー１４８９０によって管理される単一の構成可能なプロセッサ上に複数のクラスターが存在し得る。各クラスターは、本明細書に記載される複数の感知サイクルのタイルデータを使用して、被験者検知サイクルにおけるベースコールの分類データを提供するように構成することができる。

システムの例では、フィルタ重み及びバイアスのようなカーネルデータを含むモデルデータをホストＣＰＵから構成可能プロセッサに送信することができ、その結果、モデルは、サイクル数の関数として更新され得る。ベースコール動作は、代表的な例では、数百の感知サイクルの順序で含むことができる。ベースコール動作は、いくつかの実施形態では、ペアリングされた端部読み取りを含むことができる。例えば、モデル訓練されたパラメータは、２０サイクルごと（又は他の数のサイクル）ごとに、又は特定のシステム及びニューラルネットワークモデルに実装される更新パターンに従って更新されてもよい。タイル上の遺伝的クラスター内の所与のストリングのための配列が、ストリングの第１の端部から下方に（又は上方に）延在する第１の部分と、ストリングの第２の端部から上方に（又は下方に）に延在する第２の部分とを含む、ペアリングされた端部リードを含むいくつかの実施形態では、訓練されたパラメータは、第１の部分から第２の部分への遷移で更新され得る。

いくつかの実施例では、タイルのための感知データの複数サイクルの画像データは、ＣＰＵから包装材１４８９０に送信され得る。ラッパー１４８９０は、任意選択的に、感知データの一部の前処理及び変換を行い、その情報をオンボードＤＲＡＭ１４８９９に書き込むことができる。各感知サイクルの入力タイルデータは、タイル当たり４０００ｘ３０００ピクセル／タイル以上を含むセンサーデータのアレイを含むことができ、２つの特徴はタイルの２つの画像の色を表し、１ピクセル当たり１つ又は２つのバイトを含むセンサーデータのアレイを含むことができる。数Ｎが、多重サイクルニューラルネットワークの各動作において使用される３回の検知サイクルである実施形態では、多重サイクルニューラルネットワークの各動作のためのタイルデータのアレイは、数当たり数百メガバイトの数で消費することができる。システムのいくつかの実施形態では、タイルデータはまた、タイルごとに１回記憶されたＤＦＣデータのアレイ、又はセンサーデータ及びタイルに関する他のタイプのメタデータも含む。

動作中、多重サイクルクラスターが利用可能である場合、ラッパーは、パッチをクラスターに割り当てる。ラッパーはタイルの横断面にタイルデータの次のパッチをフェッチし、適切な制御及び構成情報と共に割り当てられたクラスターに送信する。クラスターは、構成可能プロセッサ上の十分なメモリを用いて構成されて、パッチを含むデータのパッチを、定位置に処理されているいくつかのシステム内で複数サイクルから保持するのに十分なメモリを有するように構成することができ、様々な実施形態では、ピンポンバッファ技術又はラスタ走査技術を使用して処理される。

割り当てられたクラスターが、現在のパッチのニューラルネットワークのその動作を完了し、出力パッチを生成すると、それはラッパーに信号を送る。ラッパーは、割り当てられたクラスターから出力パッチを読み出すか、あるいは割り当てられたクラスターは、データをラッパーにプッシュする。次いで、ラッパーは、ＤＲＡＭ１４８９９内の処理されたタイルのための出力パッチを組み立てる。タイル全体の処理が完了し、データの出力パッチがＤＲＡＭに転送されると、ラッパーは、処理された出力アレイを、特定のフォーマットでホスト／ＣＰＵに返送する。いくつかの実施形態では、オンボードＤＲＡＭ１４８９９は、ラッパー１４８９０内のメモリ管理論理によって管理される。実行時プログラムは、リアルタイム分析を提供するために連続フローで動作する全てのサイクルについての全てのタイルデータのアレイの分析を完了するために、配列決定動作を制御することができる。
（コンピュータシステム）

図１４９は、本明細書に開示される技術を実施するために配列決定システム８００Ａによって使用され得るコンピュータシステム１４９００である。コンピュータシステム１４９００は、バスサブシステム１４９５５を介して多数の周囲デバイスと通信する、少なくとも１つの中心処理装置（ＣＰＵ）１４９７２を含む。これらの周囲デバイスは、例えば、メモリデバイス及びファイルストレージサブシステム１４９３６、ユーザーインターフェース入力デバイス１４９３８、ユーザーインターフェース出力デバイス１４９７６及びネットワークインターフェースサブシステム１４９７４を含む記憶サブシステム１４９１０を含むことができる。入力及び出力デバイスは、コンピュータシステム１４９００とのユーザー対話を可能にする。ネットワークインターフェースサブシステム１４９７４は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。

一実施態様では、システムコントローラ７８０６は、記憶サブシステム１４９１０及びユーザーインターフェース入力デバイス１４９３８に通信可能にリンクされている。

ユーザーインターフェース入力デバイス１４９３８は、キーボードと、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイスと、スキャナーと、ディスプレイに組み込まれたタッチスクリーンと、音声認識システム及びマイクロフォンなどのオーディオ入力デバイスと、他の種類の入力デバイスと、を含むことができる。一般に、用語「入力デバイス」の使用は、コンピュータシステム１４９００に情報を入力するための全ての可能な種類のデバイス及び方法を含むことを意図する。

ユーザーインターフェース出力デバイス１４９７６は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、ＬＥＤディスプレイ、陰極線管（Cathode Ray Tube、ＣＲＴ）、液晶ディスプレイ（Liquid Crystal Display、ＬＣＤ）などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、音声出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、用語「出力装置」の使用は、コンピュータシステム１４９００からユーザー又は別のマシン若しくはコンピュータシステムに情報を出力するための、全ての可能な種類のデバイス及び方法を含むことを意図する。

記憶サブシステム１４９１０は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、概して、深層学習プロセッサ１４９７８によって実行される。

深層学習プロセッサ１４９７８は、グラフィック処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、及び／又は粗粒化再構成可能構造（ＣＧＲＡｓ）であり得る。深層学習プロセッサ１４９７８は、ＧｏｏｇｌｅＣｌｏｕｄＰｌａｔｆｏｒｍ（商標）、Ｘｉｌｉｎｘ（商標）及びＣｉｒｒａｓｃａｌｅ（商標）などの深層学習クラウドプラットフォームによってホスティングすることができる。深層学習プロセッサ１４９７８の例は、ＧｏｏｇｌｅのＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（ＴＰＵ）（商標）、ＧＸ４ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）、ＧＸ１４９ＲａｃｋｍｏｕｎｔＳｅｒｉｅｓ（商標）のようなラックマウントソリューション、ＮＶＩＤＩＡＤＧＸ－１（商標）、Ｍｉｃｒｏｓｏｆｔ’ＳｔｒａｔｉｘＶＦＰＧＡ（商標）、ＧｒａｐｈｃｏｒｅのＩｎｔｅｌｌｉｇｅｎｔＰｒｏｃｅｓｓｏｒＵｎｉｔ（ＩＰＵ）（商標）、Ｓｎａｐｄｒａｇｏｎｐｒｏｃｅｓｓｏｒｓ（商標）を有するＱｕａｌｃｏｍｍのＺｅｒｏｔｈＰｌａｔｆｏｒｍ（商標）、ＮＶＩＤＩＡのＶｏｌｔａ（商標）、ＮＶＩＤＩＡのＤＲＩＶＥＰＸ（商標）、ＮＶＩＤＩＡのＪＥＴＳＯＮＴＸ１／ＴＸ２ＭＯＤＵＬＥ（商標）、ＩｎｔｅｌのＮｉｒｖａｎａ（商標）、ＭｏｖｉｄｉｕｓＶＰＵ（商標）、ＦｕｊｉｔｓｕＤＰＩ（商標）、ＡＲＭのＤｙｎａｍｉｃＩＱ（商標）、ＩＢＭＴｒｕｅＮｏｒｔｈ（商標）、ＴｅｓｔａＶ１００ｓ（商標）を有するＬａｍｂｄａＧＰＵＳｅｒｖｅｒ、及び他のものを含む。

記憶サブシステム１４９１０で使用されるメモリサブシステム１４９２２は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ（ＲＡＭ）１４９３２と、固定命令が記憶された読み取り専用メモリ（ＲＯＭ）１４９３４とを含む多数のメモリを含むことができる。ファイル記憶サブシステム１４９３６は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体、ドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実装するモジュールは、ストレージサブシステム１４９１０内のファイル記憶サブシステム１４９３６によって、又はプロセッサによってアクセス可能な他のマシン内に記憶され得る。

バスサブシステム１４９５５は、コンピュータシステム１４９００の様々な構成要素及びサブシステムを、意図されるように互いに通信するための機構を提供する。バスサブシステム１４９５５は、単一のバスとして概略的に示されているが、バスサブシステムの代替実施態様は、複数のバスを使用することができる。

コンピュータシステム１４９００自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩く分散した一組の緩くネットワーク化されたコンピュータ、又は任意の他のデータ処理システム若しくはユーザーデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークの変化の性質により、図１４９に示されるコンピュータシステム１４９００の説明は、本発明の好ましい実施態様を例示する目的のための特定の例としてのみ意図される。コンピュータシステム１４９００の多くの他の構成は、図１４９に示されるコンピュータシステムよりも多く又は少ない構成要素を有することができる。
（配列決定プロセス）

本明細書に記載される実施態様は、配列変動を識別するために核酸配列を分析することに適用可能であり得る。実施態様は、遺伝子位置／遺伝子座の潜在的な変異体／対立遺伝子を分析し、遺伝子座の遺伝子型を決定するか、又は言い換えると、遺伝子座に対する遺伝子型コールを提供するために使用され得る。一例として、核酸配列は、米国特許出願公開第２０１６／００８５９１０号及び米国特許出願公開第２０１３／０２９６１７５号に記載されている方法及びシステムに従って分析され得、その完全な主題は、それらの全体で参照により本明細書に明示的に組み込まれる。

一実施態様では、配列決定プロセスは、ＤＮＡなどの核酸を含むか、又はそれを含むと思われるサンプルを受容することを含む。サンプルは、動物（例えば、ヒト）、植物、細菌、又は真菌などの既知の又は未知のソースからであり得る。サンプルは、ソースから直接取られ得る。例えば、血液又は唾液は、個体から直接取られ得る。代替的に、サンプルは、ソースから直接取得されない場合がある。次いで、１つ又はそれ以上のプロセッサは、配列決定のためにサンプルを調製するようにシステムに指示する。調製は、外来材料を除去すること、及び／又は特定の材料（例えば、ＤＮＡ）を単離することを含み得る。生物サンプルは、特定のアッセイのための特徴を含むように調製され得る。例えば、生物サンプルは、配列合成（ＳＢＳ）のために調製され得る。特定の実施態様では、調製は、ゲノムの特定の領域の増幅を含み得る。例えば、調製は、ＳＴＲ及び／又はＳＮＰを含むことが知られている所定の遺伝子座を増幅することを含み得る。遺伝子座は、所定のプライマー配列を使用して増幅され得る。

次に、１つ又はそれ以上のプロセッサは、サンプルを配列決定するようにシステムに指示する。配列決定は、様々な既知の配列決定プロトコルを介して実行され得る。特定の実施態様では、配列決定は、ＳＢＳを含む。ＳＢＳでは、光学基板の表面（例えば、フローセル内のチャネルを少なくとも部分的に画定する表面）上に存在する増幅ＤＮＡの複数のクラスター（おそらく、数百万個のクラスター）を配列決定するために、複数の蛍光標識ヌクレオチドが使用される。フローセルは、フローセルが適切なフローセルホルダー内に配置される配列決定のための核酸サンプルを含み得る。

核酸は、未知のターゲット配列に隣接する既知のプライマー配列を含むように調製され得る。第１のＳＢＳ配列決定サイクルを開始するために、１つ又はそれ以上の異なる標識ヌクレオチド及びＤＮＡポリメラーゼなどが、流体フローサブシステムによってフローセル内に／それを介して流され得る。単一のタイプのヌクレオチドが一度に追加され得るか、又は配列決定手順で使用されるヌクレオチドが可逆終端特性を有するように特別に設計され得、したがって、配列決定反応の各サイクルが、いくつかのタイプの標識ヌクレオチド（例えば、Ａ、Ｃ、Ｔ、Ｇ）の存在下で同時に生じることを可能にする。ヌクレオチドは、フルオロフォアなどの検出可能な標識部分を含み得る。４個のヌクレオチドが一緒に混合される場合、ポリメラーゼは、正しい塩基を選択して組み込むことができ、各配列は、単一の塩基によって伸長される。非組み込みヌクレオチドは、フローセルを介して洗浄溶液を流すことによって洗い流され得る。１つ又はそれ以上のレーザーは、核酸を励起し、蛍光を誘発し得る。核酸から放出される蛍光は、組み込み塩基のフルオロフォアに基づいており、異なるフルオロフォアは、異なる波長の発光を放出し得る。伸長及び検出されたＤＮＡ鎖から可逆終端基を除去するために、デブロッキング試薬がフローセルに追加され得る。次いで、デブロッキング試薬は、フローセルを介して洗浄溶液を流すことによって洗い流され得る。次いで、フローセルは、上記の標識ヌクレオチドの導入で開始して、配列決定の更なるサイクルの準備ができている。流体及び検出動作は、配列決定動作を完了させるために数回繰り返され得る。例示的配列決定方法は、例えば、Ｂｅｎｔｌｅｙｅｔａｌ．，Ｎａｔｕｒｅ４５６：５３－５９（２００８）、国際公開第ＷＯ０４／０１８４９７号、米国特許第７，０５７，０２６号明細書、国際公開第ＷＯ９１／０６６７８号、国際公開第ＷＯ０７／１２３７４４号、米国特許第７，３２９，４９２号明細書、米国特許第７，２１１，４１４号明細書、米国特許第７，３１５，０１９号明細書、米国特許第７，４０５，２８１号明細書、及び米国特許出願公開第２００８／０１０８０８２号に記載されており、それぞれ参照により本明細書に組み込まれる。

いくつかの実施態様では、核酸は、配列決定前又は配列決定中に、表面に結合され、増幅され得る。例えば、増幅は、ブリッジ増幅を使用して実行されて、表面上に核酸クラスターを形成し得る。有用なブリッジ増幅方法は、例えば、米国特許第５，６４１，６５８号明細書、米国特許出願公開第２００２／００５５１００号、米国特許第７，１１５，４００号明細書、米国特許出願公開第２００４／００９６８５３号、米国特許出願公開第２００４／０００２０９０号、米国特許出願公開第２００７／０１２８６２４号、及び米国特許出願公開第２００８／０００９４２０号に記載されており、これらはそれぞれ、その全体が参照により本明細書に組み込まれる。表面上の核酸を増幅するための別の有用な方法は、例えば、Ｌｉｚａｒｄｉｅｔａｌ．，Ｎａｔ．Ｇｅｎｅｔ．１９：２２５－２３２（１９９８）及び米国特許出願公開第２００７／００９９２０８（Ａ１）号明細書に記載されているようなローリングサークル増幅（ＲｏｌｌｉｎｇＣｉｒｃｌｅＡｍｐｌｉｆｉｃａｔｉｏｎ、ＲＣＡ）であり、これらはそれぞれ、参照により本明細書に組み込まれる。

一例示的ＳＢＳプロトコルは、例えば、国際公開第ＷＯ０４／０１８４９７号、米国特許出願公開第２００７／０１６６７０５号、及び米国特許第７，０５７，０２６号明細書に記載されているように、取り外し可能な３’ブロックを有する改変されたヌクレオチドを活用し、これらはそれぞれ、参照により本明細書に組み込まれる。例えば、ＳＢＳ試薬の繰り返しサイクルは、例えば、ブリッジ増幅プロトコルの結果として、それに結合されたターゲット核酸を有するフローセルに送達され得る。核酸クラスターは、直鎖化溶液を使用して、単鎖形態に変換され得る。直鎖化溶液は、例えば、各クラスターの単鎖を切断することができる制限エンドヌクレアーゼを含み得る。開裂の他の方法は、制限酵素又はニッキング酵素に対する代替として使用され得、とりわけ、化学的開裂（例えば、過ヨウ素酸を用いたジオール結合の開裂）、熱又はアルカリに曝露することによる、エンドヌクレアーゼを用いた開裂による脱塩基部位の開裂（例えば、ＮＥＢ，Ｉｐｓｗｉｃｈ，Ｍａｓｓ．，ＵＳＡ部品番号Ｍ５５０５Ｓによって供給されるような「ＵＳＥＲ」）、別の方法では、デオキシリボヌクレオチド、光化学的開裂、又はペプチドリンカーの開裂で構成された増幅産物に組み込まれるリボヌクレオチドの開裂を含む。直鎖化動作の後、配列決定プライマーは、配列決定されるターゲット核酸への配列決定プライマーのハイブリダイゼーションのための条件下でフローセルに送達され得る。

次いで、フローセルは、単一のヌクレオチド付加によって各ターゲット核酸にハイブリダイズされるプライマーを伸長させるための条件下で、取り外し可能な３’ブロック及び蛍光標識を有する改変されたヌクレオチドを有するＳＢＳ伸長試薬と接触され得る。改変されたヌクレオチドが、配列決定されているテンプレートの領域に相補的な成長したポリヌクレオチド鎖に組み込まれると、更なる配列伸長を誘導するために利用可能な遊離の３’－ＯＨ基が存在せず、したがってポリメラーゼは、更なるヌクレオチドを付加することができないため、単一のヌクレオチドのみが、各プライマーに付加される。ＳＢＳ伸長試薬は、除去され、放射線での励起下でサンプルを保護する構成要素を含む走査試薬と置き換えられ得る。走査試薬の例示的構成要素は、米国特許出願公開第２００８／０２８０７７３（Ａ1）号及び米国特許出願第１３／０１８，２５５号に記載されており、それぞれ参照により本明細書に組み込まれる。次いで、伸長された核酸は、走査試薬の存在下で蛍光検出され得る。蛍光が検出されると、３’ブロックは、使用されるブロック基に適切なデブロック試薬を使用して除去され得る。それぞれのブロック基に有用な例示的デブロック試薬は、国際公開第００４０１８４９７号、米国特許出願公開第２００７／０１６６７０５（Ａ1）号、及び米国特許第７，０５７，０２６号に記載されており、それぞれ参照により本明細書に組み込まれる。デブロック試薬は、更なるヌクレオチドの付加に現在適格である、３’－ＯＨ基を有する伸長されたプライマーにハイブリダイズされるターゲット核酸を残して洗い流され得る。したがって、伸長試薬、走査試薬、及びデブロック試薬の付加のサイクルは、１つ又はそれ以上の動作間での任意選択的な洗浄で、所望の配列が取得されるまで繰り返され得る。上記のサイクルは、改変されたヌクレオチドの各々が、特定の塩基に対応することが知られている、それに結合された異なるラベルを有するとき、サイクルごとの単一の伸長試薬送達動作を使用して実行され得る。異なる標識は、各組み込み動作中に付加されるヌクレオチド間の区別を容易にする。代替的に、各サイクルは、伸長試薬送達の別個の動作、続いて走査試薬送達及び検出の別個の動作を含み得、その場合、ヌクレオチドのうちの２つ又はそれ以上は、同じ標識を有し得、既知の送達の順序に基づいて区別され得る。

特定のＳＢＳプロトコルに関して配列決定動作を上述したが、様々な他の分子分析のうちのいずれかを配列決定するための他のプロトコルが、望ましいように実行され得ることが理解されるであろう。

次いで、システムの１つ又はそれ以上のプロセッサは、後続の分析に対する配列決定データを受信する。配列決定データは、ＢＡＭファイルなどの様々な方法でフォーマットされ得る。配列決定データは、例えば、多数のサンプルリードを含み得る。配列決定データは、ヌクレオチドの対応するサンプル配列を有する複数のサンプルリードを含み得る。１つのサンプルリードのみが論じられるが、配列決定データは、例えば、数百、数千、数十万、又は数百万個のサンプルリードを含み得ることを理解されたい。異なるサンプルリードは、異なる数のヌクレオチドを有し得る。例えば、サンプルリードは、１０個のヌクレオチド～約５００個以上のヌクレオチドの範囲であり得る。サンプルリードは、ソース（複数可）の全体のゲノムに及び得る。一例として、サンプルリードは、疑わしいＳＴＲ又は疑わしいＳＮＰを有する遺伝子座などの所定の遺伝子座に向けられる。

各サンプルリードは、サンプル配列、サンプルフラグメント、又はターゲット配列と称され得るヌクレオチドの配列を含み得る。サンプル配列は、例えば、プライマー配列、フランキング配列、及びターゲット配列を含み得る。サンプル配列内のヌクレオチドの数は、３０、４０、５０、６０、７０、８０、９０、１００以上を含み得る。いくつかの実施態様では、１つ又はそれ以上のサンプルリード（又はサンプル配列）は、少なくとも１５０個のヌクレオチド、２００個のヌクレオチド、３００個のヌクレオチド、４００個のヌクレオチド、５００個以上のヌクレオチドを含む。いくつかの実施態様では、サンプルリードは、１０００個よりも多くのヌクレオチド、２０００個以上のヌクレオチドを含み得る。サンプルリード（又はサンプル配列）は、一方又は両方の末端にプライマー配列を含み得る。

次に、１つ又はそれ以上のプロセッサは、配列決定データを分析して、潜在的な変異体コール（複数可）及びサンプル変異体コール（複数可）のサンプル変異体頻度を取得する。動作はまた、変異体コールアプリケーション又は変異体コーラーと称され得る。したがって、変異体コーラーは、変異体を識別又は検出し、変異体分類子は、検出された変異体を体細胞又は生殖細胞系として分類する。代替的な変異体コーラーは、本明細書での実施態様に従って利用され得、異なる変異体コーラーは、対象であるサンプルの特徴などに基づいて、実行されている配列決定動作のタイプに基づいて使用され得る。ＩｌｌｕｍｉｎａＩｎｃ．（ＳａｎＤｉｅｇｏ，ＣＡ）によるＰｉｓｃｅｓ（商標）アプリケーションなどの、変異体コールアプリケーションの１つの非限定的な例は、ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／Ｉｌｌｕｍｉｎａ／Ｐｉｓｃｅｓでホスティングされ、論文Ｄｕｎｎ，Ｔａｍｓｅｎ＆Ｂｅｒｒｙ，Ｇｗｅｎｎ＆Ｅｍｉｇ－Ａｇｉｕｓ，Ｄｏｒｏｔｈｅａ＆Ｊｉａｎｇ，Ｙｕ＆Ｉｙｅｒ，Ａｎｉｔａ＆Ｕｄａｒ，Ｎｉｔｉｎ＆Ｓｔｒｏｍｂｅｒｇ，Ｍｉｃｈａｅｌ．（２０１７）．Ｐｉｓｃｅｓ：ＡｎＡｃｃｕｒａｔｅａｎｄＶｅｒｓａｔｉｌｅＳｉｎｇｌｅＳａｍｐｌｅＳｏｍａｔｉｃａｎｄＧｅｒｍｌｉｎｅＶａｒｉａｎｔＣａｌｌｅｒ．５９５－５９５．１０．１１４５／３１０７４１１．３１０８２０３に記載されており、その完全な主題は、その全体で参照により本明細書に明示的に組み込まれる。

そのような変異体コールアプリケーションは、４つの連続的に実行されたモジュールを含み得る。

（１）ＰｉｓｃｅｓＲｅａｄＳｔｉｔｃｈｅｒ：ＢＡＭ中のペアのリード（同じ分子のリード１及びリード２）をコンセンサスリードにステッチすることによって、ノイズを低減する。出力は、ステッチされたＢＡＭである。

（２）ＰｉｓｃｅｓＶａｒｉａｎｔＣａｌｌｅｒ：小さいＳＮＶ、挿入及び欠失をコールする。Ｐｉｓｃｅｓは、リード境界、基本フィルタリングアルゴリズム、及び単純ポアソンベースの変異体信頼性スコアリングアルゴリズムによって破壊される変異体を合体させるための変異体崩壊アルゴリズムを含む。出力は、ＶＣＦである。

（３）ＰｉｓｃｅｓＶａｒｉａｎｔＱｕａｌｉｔｙＲｅｃａｌｉｂｒａｔｏｒ（ＶＱＲ）：変異体コールが、熱損傷又はＦＦＰＥ脱アミノ化に関連するパターンに過度に続く場合、ＶＱＲ工程は、疑わしい変異体コールの変異体Ｑスコアを低下させる。出力は、調整されたＶＣＦである。

（４）ＰｉｓｃｅｓＶａｒｉａｎｔＰｈａｓｅｒ（Ｓｃｙｌｌａ）：小変異体をクローンサブ集団からの複合対立遺伝子に組み立てるために、リードバックされたグリーディクラスタリング方法を使用する。これは、下流ツールによる機能的結果のより正確な決定を可能にする。出力は、調整されたＶＣＦである。

追加的に又は代替的に、動作は、ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／Ｉｌｌｕｍｉｎａ／ｓｔｒｅｌｋａでホスティングされ、論文ＴＳａｕｎｄｅｒｓ，Ｃｈｒｉｓｔｏｐｈｅｒ＆Ｗｏｎｇ，Ｗｅｎｄｙ＆Ｓｗａｍｙ，Ｓａｊａｎｉ＆Ｂｅｃｑ，Ｊｅｎｎｉｆｅｒ＆ＪＭｕｒｒａｙ，Ｌｉｓａ＆Ｃｈｅｅｔｈａｍ，Ｋｅｉｒａ．（２０１２）に記載されている、ＩｌｌｕｍｉｎａＩｎｃ．による変異体コールアプリケーションＳｔｒｅｌｋａ（商標）アプリケーションを利用し得る。Ｓｔｒｅｌｋａ：配列決定された腫瘍－正常サンプルペアからの正確な体細胞小変異体コール。Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ（Ｏｘｆｏｒｄ，Ｅｎｇｌａｎｄ）．２８．１８１１－７．１０．１０９３／ｂｉｏｉｎｆｏｒｍａｔｉｃｓ／ｂｔｓ２７１、その完全な主題は、その全体で参照により本明細書に明示的に組み込まれる。更に、追加的に又は代替的に、動作は、ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／Ｉｌｌｕｍｉｎａ／ｓｔｒｅｌｋａでホスティングされ、論文Ｋｉｍ，Ｓ．，Ｓｃｈｅｆｆｌｅｒ，Ｋ．，Ｈａｌｐｅｒｎ，Ａ．Ｌ．，Ｂｅｋｒｉｔｓｋｙ，Ｍ．Ａ．，Ｎｏｈ，Ｅ．，Ｋａｌｌｂｅｒｇ，Ｍ．，Ｃｈｅｎ，Ｘ．，Ｂｅｙｔｅｒ，Ｄ．，Ｋｒｕｓｃｈｅ，Ｐ．，ａｎｄＳａｕｎｄｅｒｓ，Ｃ．Ｔ．（２０１７）に記載されている、ＩｌｌｕｍｉｎａＩｎｃ．による変異体コールアプリケーションＳｔｒｅｌｋａ２（商標）アプリケーションを利用し得る。Ｓｔｒｅｌｋａ２：臨床配列決定アプリケーションのための高速で正確な変異体コール、その完全な主題は、その全体で参照により本明細書に明示的に組み込まれる。更に、追加的に又は代替的に、動作は、ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／Ｉｌｌｕｍｉｎａ／Ｎｉｒｖａｎａ／ｗｉｋｉでホスティングされ、論文Ｓｔｒｏｍｂｅｒｇ，Ｍｉｃｈａｅｌ＆Ｒｏｙ，Ｒａｊａｔ＆Ｌａｊｕｇｉｅ，Ｊｕｌｉｅｎ＆Ｊｉａｎｇ，Ｙｕ＆Ｌｉ，Ｈａｏｃｈｅｎ＆Ｍａｒｇｕｌｉｅｓ，Ｅｌｌｉｏｔｔ．（２０１７）に記載されている、ＩｌｌｕｍｉｎａＩｎｃ．によるＮｉｒｖａｎａ（商標）アプリケーションなどの変異体アノテーション／コールツールを利用し得る。Ｎｉｒｖａｎａ：ＣｌｉｎｉｃａｌＧｒａｄｅＶａｒｉａｎｔＡｎｎｏｔａｔｏｒ．５９６－５９６．１０．１１４５／３１０７４１１．３１０８２０４、その完全な主題は、その全体で参照により本明細書に明示的に組み込まれる。

そのような変異体アノテーション／コールツールは、Ｎｉｒｖａｎａに開示されているものなどの異なるアルゴリズム技術を適用し得る。

ａ．間隔アレイを有する全ての重複する転写物の識別：機能的アノテーションに対して、我々は、変異体と重複する全ての転写物を識別し得、間隔ツリーが使用され得る。しかしながら、間隔のセットが静的であり得るため、我々は、間隔アレイにそれを更に最適化することができた。間隔ツリーは、全ての重複する転写物をＯ（ｍｉｎ（ｎ，ｋｌｇｎ））時間で戻し、ｎは、ツリーでの間隔の数であり、ｋは、重複する間隔の数である。実際には、ｋは、ほとんどの変異体についてｎと比較して非常に小さいため、間隔ツリー上の有効な実行時は、Ｏ（ｋｌｇｎ）である。我々は、全ての間隔が、ソートされたアレイで記憶されている間隔アレイを生成することによって、Ｏ（ｌｇｎ＋ｋ）に改善し、その結果、我々は、第１の重複する間隔を見出す必要のみあり、次いで、残りの（ｋ－１）を介して列挙する。

ｂ．ＣＮＶｓ／ＳＶｓ（Ｙｕ）：コピー数変動及び構造変異体に対するアノテーションが提供され得る。小さい変異体のアノテーションと同様に、構造変異体（Structural Variant、ＳＶ）と重複する転写物、及び以前に報告された構造変異体も、オンラインデータベースで注釈付けされ得る。小さい変異体とは異なり、あまりにも多くの転写物が大きいＳＶと重複するため、重複する転写物の全てが注釈付けされる必要があるというわけではない。その代わりに、部分的な重複する遺伝子に属する全ての重複する転写物は、注釈付けされ得る。具体的には、これらの転写物に対して、影響のあるイントロン、エキソン、及び構造変異体によって引き起こされる結果が報告され得る。全ての重複する転写物の出力を可能にするための選択肢が利用可能であるが、遺伝子シンボルなどのこれらの転写物に対する基本情報が報告され得、それが正規の重複であるか又は転写物との部分的な重複であるかどうかをフラグ付けし得る。各ＳＶ／ＣＮＶに対して、これらの変異体が研究されているかどうか、及び異なる集団でのそれらの頻度を知ることも対象である。したがって、我々は、１０００個のゲノム、ＤＧＶ及びＣｌｉｎＧｅｎなどの外部データベースで重複するＳＶを報告した。任意のカットオフを使用してどのＳＶが重複しているかを決定することを回避するために、代わりに、全ての重複する転写物が使用され得、相互の重複が計算され得、すなわち、重複する長さがこれら２つのＳＶの長さの最小値で除算される。

ｃ．補足アノテーションの報告：補足アノテーションは、小さい及び構造的な変異体（ＳＶ）の２つのタイプである。ＳＶは、間隔としてモデル化され得、重複するＳＶを識別するために上述の間隔アレイを使用し得る。小さい変異体は、ポイントとしてモデル化され、位置及び（任意選択的に）対立遺伝子によって一致する。したがって、それらは、バイナリ検索のようなアルゴリズムを使用して検索される。補足アノテーションデータベースが非常に大きくなり得るため、はるかに小さいインデックスが生成されて、染色体位置をマッピングして、補足アノテーションが存在する場所をファイルする。インデックスは、位置を使用してバイナリ検索され得る（染色体位置及びファイル場所で構成された）オブジェクトのソートされたアレイである。インデックスサイズを小さく維持するために、複数の位置（最大、特定の最大カウント）は、第１の位置に対する値及び後続の位置に対するデルタのみを記憶する１つのオブジェクトに圧縮される。我々は、バイナリ検索を使用するため、実行時は、Ｏ（ｌｇｎ）であり、ｎは、データベース内の項目の数である。

ｄ．ＶＥＰキャッシュファイル

ｅ．転写物データベース：転写物キャッシュ（キャッシュ）及び補足データベース（Supplementary database、ＳＡｄｂ）ファイルは、転写物及び補足アノテーションなどのデータオブジェクトのシリアル化されたダンプである。我々は、キャッシュに対する我々のデータソースとして、ＥｎｓｅｍｂｌＶＥＰキャッシュを使用する。キャッシュを生成するために、全ての転写物が間隔アレイに挿入され、アレイの最終状態がキャッシュファイル内に記憶される。したがって、アノテーション中、我々は、事前に計算された間隔アレイをロードし、その上で検索を実行する必要だけある。キャッシュがメモリでロードされ、検索が非常に高速（上述）であるため、重複する転写物を見出すことがＮｉｒｖａｎａで非常に迅速である（総実行時の１％未満までプロファイルされる？）。

ｆ．補足データベース：ＳＡｄｂに対するデータソースは、補足材料下でリストされる。小さい変異体に対するＳＡｄｂは、（参照名及び位置によって識別される）データベース内の各オブジェクトが全ての関連する補足アノテーションを保持するように、全てのデータソースのｋ方向マージによって生成される。データソースファイルの解析中に遭遇する問題は、Ｎｉｒｖａｎａのホームページで詳細に文書化されている。メモリ使用を制限するために、ＳＡインデックスのみがメモリにロードされる。このインデックスは、補足アノテーションのためのファイル場所の迅速なルックアップを可能にする。しかしながら、データがディスクからフェッチされなければならないため、補足アノテーションの追加は、（総実行時の～３０％でプロファイルされる）Ｎｉｒｖａｎａの最大ボトルネックとして識別されている。

ｇ．結果及び配列オントロジー：Ｎｉｒｖａｎａの機能的アノテーション（提供されるとき）は、配列オントロジー（Sequence Ontology、ＳＯ）（ｈｔｔｐ：／／ｗｗｗ．ｓｅｑｕｅｎｃｅｏｎｔｏｌｏｇｙ．ｏｒｇ／）ガイドラインに従う。時々、我々は、現在のＳＯの問題を識別し、ＳＯチームと協働して、アノテーションの状態を改善するための機会を有した。

そのような変異体アノテーションツールは、前処理を含み得る。例えば、Ｎｉｒｖａｎａは、ＥｘＡＣ、ＥＶＳ、１０００Ｇｅｎｏｍｅｓｐｒｏｊｅｃｔ、ｄｂＳＮＰ、ＣｌｉｎＶａｒ、Ｃｏｓｍｉｃ、ＤＧＶ、及びＣｌｉｎＧｅｎのような外部データソースからの多数のアノテーションを含んだ。これらのデータベースを完全に使用するために、我々は、それらからの情報をサニタイズする必要がある。我々は、異なるデータソースから存在する異なる競合に対処するための異なる戦略を実施した。例えば、同じ位置及び代替的な対立遺伝子に対する複数のｄｂＳＮＰエントリーの場合、我々は、全てのＩＤをＩＤのカンマ区切りのリストに結合し、同じ対立遺伝子に対する異なるＣＡＦ値を有する複数のエントリーが存在する場合、我々は、第１のＣＡＦ値を使用する。競合するＥｘＡＣ及びＥＶＳエントリーに対して、我々は、サンプルカウントの数を考え、より高いサンプルカウントを有するエントリーが使用される。１０００ＧｅｎｏｍｅＰｒｏｊｅｃｔｓでは、我々は、競合する対立遺伝子の対立遺伝子頻度を除去した。別の問題は、不正確な情報である。我々は、主に、１０００ＧｅｎｏｍｅＰｒｏｊｅｃｔｓから対立遺伝子頻度情報を抽出したが、我々は、ＧＲＣｈ３８に対して、情報フィールドで報告される対立遺伝子頻度は、利用できない遺伝子タイプを有するサンプルを除外せず、全てのサンプルに対して利用可能ではない変異体に対して収縮頻度をもたらすことに気づいた。我々のアノテーションの精度を保証するために、我々は、個々のレベルの遺伝子タイプの全てを使用して、真の対立遺伝子頻度を計算する。既知のように、同じ変異体は、異なる位置合わせに基づいて、異なる表現を有し得る。我々が、既に識別された変異体に対する情報を正確に報告できることを確認するために、我々は、異なるリソースから変異体を前処理して、それらに一貫した表現を有させる必要がある。全ての外部データソースに対して、我々は、参照対立遺伝子及び代替的な対立遺伝子の両方で、複製されたヌクレオチドを除去するために、対立遺伝子をトリミングした。ＣｌｉｎＶａｒに対して、我々は、ｘｍｌファイルを直接解析し、多くの場合ｖｃｆファイルで使用される、全ての変異体に対して５個のプライム位置合わせを実行した。異なるデータベースは、同じセットの情報を含み得る。不必要な複製を回避するために、我々は、いくつかの複製された情報を除去した。例えば、我々は、より詳細な情報を有する１０００人のゲノム内のこれらの変異体を既に報告したため、１０００人ゲノムプロジェクトとしてデータソースを有するＤＧＶでの変異体を除去した。

少なくともいくつかの実施態様によれば、変異体コールアプリケーションは、低周波数変異体、生殖細胞系コールなどに対するコールを提供する。非限定的な例として、変異体コールアプリケーションは、腫瘍のみのサンプル及び／又は腫瘍－正常ペアのサンプル上で動作され得る。変異体コールアプリケーションは、単一ヌクレオチド変異（Single Nucleotide Variations、ＳＮＶ）、複数ヌクレオチド変異（Multiple Nucleotide Variations、ＭＮＶ）、インデルなどを検索し得る。変異体コールアプリケーションは、配列決定又はサンプル調製誤差に起因する不一致のためのフィルタリングを行っている間に、変異体を識別する。各変異体に対して、変異体コーラーは、参照配列、変異体の位置、及び潜在的な変異体配列（複数可）（例えば、Ａ対ＣＳＮＶ、又はＡＧ対Ａ欠失）を識別する。変異体コールアプリケーションは、変異体が存在するという指標として、サンプル配列（又はサンプルフラグメント）、参照配列／フラグメント、及び変異体コールを識別する。変異体コールアプリケーションは、生フラグメントを識別し、生フラグメントの指定、潜在的な変異体コールを検証する生フラグメントの数のカウント、支持する変異体が生じた生フラグメント内の位置、及び他の関連する情報を出力し得る。生フラグメントの非限定的な例は、２重ステッチフラグメント、単純ステッチフラグメント、２重非ステッチフラグメント、及び単純非ステッチフラグメントを含む。

変異体コールアプリケーションは、ＶＣＦ又はＧＶＣＦファイルなどの様々なフォーマットでコールを出力し得る。一例としてのみ、変異体コールアプリケーションは、ＭｉＳｅｑＲｅｐｏｒｔｅｒパイプライン（例えば、ＭｉＳｅｑ（登録商標）シーケンサ器具上に実装されるとき）に含まれ得る。任意選択的に、アプリケーションは、様々なワークフローで実装され得る。分析は、所望の情報を取得するために指定された方法でサンプルリードを分析する、単一のプロトコル又はプロトコルの組み合わせを含み得る。

次いで、１つ又はそれ以上のプロセッサは、潜在的な変異体コールに関連して検証動作を実行する。検証動作は、以下に説明するように、品質スコア及び／又は階層試験の階層に基づき得る。検証動作が、潜在的な変異体コールを認証又は検証するとき、検証動作は、（変異体コールアプリケーションからの）変異体コール情報をサンプル報告生成器に渡す。代替的に、検証動作が、潜在的な変異体コールを無効にするか、又は不適格にするとき、検証動作は、対応する指標（例えば、負のインジケータ、ノーコールインジケータ、無効なコールインジケータ）をサンプル報告生成器に渡す。検証動作はまた、変異体コールが正しいか、又は無効なコール指定が正しいという信頼度に関連する信頼性スコアを渡し得る。

次に、１つ又はそれ以上のプロセッサは、サンプル報告を生成及び記憶する。サンプル報告は、例えば、サンプルに関して、複数の遺伝子座に関する情報を含み得る。例えば、所定のセットの遺伝子座の各遺伝子座に対して、サンプル報告は、遺伝子タイプコールを提供すること、遺伝子タイプコールが作製され得ないことを示すこと、遺伝子タイプコールの確実性に対する信頼性スコアを提供すること、又は１つ若しくはそれ以上の遺伝子座に関するアッセイで潜在的な問題を示すことのうちの少なくとも１つを行い得る。サンプル報告はまた、サンプルを提供した個体の性別を示し、及び／又はサンプルが複数のソースを含むことを示し得る。本明細書で使用するとき、「サンプル報告」は、遺伝子座若しくは遺伝子座の所定のセットのデジタルデータ（例えば、データファイル）、及び／又は遺伝子座若しくは遺伝子座のセットの印刷報告を含み得る。したがって、生成又は提供は、データファイルを生成すること、及び／若しくはサンプル報告を印刷すること、又はサンプル報告を表示することを含み得る。

サンプル報告は、変異体コールが判定されたが、検証されなかったことを示し得る。変異体コールが無効であると判定されるとき、サンプル報告は、変異体コールを検証していない判定のための基準に関する追加の情報を示し得る。例えば、報告での追加の情報は、生フラグメントの説明と、生フラグメントが変異体コールを支持又は矛盾した範囲（例えば、カウント）と、を含み得る。追加的に又は代替的に、報告内の追加の情報は、本明細書に記載される実施態様に従って取得される品質スコアを含み得る。
（変異体コールアプリケーション）

本明細書に開示される実施態様は、配列決定データを分析して、潜在的な変異体コールを識別することを含む。変異体コールは、以前に実行された配列決定動作のために、記憶されたデータで実行され得る。追加的に又は代替的に、それは、配列決定動作が実行されている間に、リアルタイムで実行され得る。サンプルリードの各々は、対応する遺伝子座に割り当てられる。サンプルリードは、サンプルリードのヌクレオチドの配列、言い換えると、サンプルリード内のヌクレオチドの順序（例えば、Ａ、Ｃ、Ｇ、Ｔ）に基づいて対応する遺伝子座に割り当てられ得る。この分析に基づいて、サンプルリードは、特定の遺伝子座の可能な変異体／対立遺伝子を含むものとして指定され得る。サンプルリードは、遺伝子座の可能な変異体／対立遺伝子を含むものとして指定された他のサンプルリードと共に収集（又は集約若しくはビニング）され得る。割り当て動作はまた、サンプルリードが特定の遺伝子位置／座におそらく関連していると識別されるコール動作と称され得る。サンプルリードが分析されて、他のサンプルリードからサンプルリードを区別するヌクレオチドの１つ又はそれ以上の識別配列（例えば、プライマー配列）を配置し得る。より具体的には、識別配列（複数可）は、特定の遺伝子座に関連している他のサンプルリードからサンプルリードを識別し得る。

割り当て動作は、識別配列の一連のｎ個のヌクレオチドを分析して、識別配列の一連のｎ個のヌクレオチドが選択配列のうちの１つ又はそれ以上と効果的に一致するかどうかを判定することを含み得る。特定の実施態様では、割り当て動作は、サンプル配列の第１のｎ個のヌクレオチドを分析して、サンプル配列の第１のｎ個のヌクレオチドが選択配列のうちの１つ又はそれ以上と効果的に一致するかどうかを判定することを含み得る。数ｎは、様々な値を有し得、それは、プロトコルにプログラムされるか、又はユーザーによって入力され得る。例えば、数ｎは、データベース内の最短選択配列のヌクレオチドの数として定義され得る。数ｎは、所定の数であり得る。所定の数は、例えば、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、又は３０個のヌクレオチドであり得る。しかしながら、他の実施態様では、より少ない又はより多くのヌクレオチドが使用され得る。数ｎはまた、システムのユーザーなどの個人によって選択され得る。数ｎは、１つ又はそれ以上の条件に基づき得る。例えば、数ｎは、データベース内の最短プライマー配列のヌクレオチドの数、又は指定された数として定義され得、いずれの場合も、より小さい数である。いくつかの実施態様では、１５個未満のヌクレオチドである任意のプライマー配列が例外として指定され得るように、１５などのｎの最小値が使用され得る。

いくつかの場合では、識別配列の一連のｎ個のヌクレオチドは、選択配列のヌクレオチドと正確に一致しない場合がある。それでもなお、識別配列は、識別配列が選択配列とほぼ同一である場合、選択配列と効果的に一致し得る。例えば、識別配列の一連のｎ個のヌクレオチド（例えば、第１のｎ個のヌクレオチド）が、不一致の指定された数（例えば、３）及び／又はシフトの指定された数（例えば、２）以下の選択配列と一致する場合、サンプルリードは、遺伝子座に対してコールされ得る。各不一致又はシフトが、サンプルリードとプライマー配列との間の差としてカウントし得るように、ルールが確立され得る。差の数が指定された数未満である場合、サンプルリードは、対応する遺伝子座に対してコールされ得る（すなわち、対応する遺伝子座に割り当てられ得る）。いくつかの実施態様では、サンプルリードの識別配列と遺伝子座に関連する選択配列との間の差の数に基づく一致スコアが決定され得る。一致スコアが、指定された一致閾値を超える場合、選択配列に対応する遺伝子座は、サンプルリードの潜在的な遺伝子座として指定され得る。いくつかの実施態様では、後続の分析が実行されて、サンプルリードが遺伝子座に対してコールされるかどうかを判定し得る。

サンプルリードがデータベース内の選択配列のうちの１つと効果的に一致する（すなわち、上述のように正確に一致するか、又はほぼ一致する）場合、サンプルリードは、選択配列と相関する遺伝子座に割り当てられるか、又は指定される。これは、遺伝子座コール又は暫定遺伝子座コールと称され得、サンプルリードは、選択配列と相関する遺伝子座に対してコールされる。しかしながら、上述のように、サンプルリードは、１つを超える遺伝子座に対してコールされ得る。そのような実施態様では、更なる分析は、潜在的な遺伝子座のうちの１つのみに対してサンプルリードをコールするか、又は割り当てるために実行され得る。いくつかの実施態様では、参照配列のデータベースと比較されるサンプルリードは、ペアの末端配列決定からの第１のリードである。ペアの末端配列決定を実行するとき、サンプルリードと相関する（生フラグメントを表す）第２のリードが取得される。割り当ての後、割り当てられたリードで実行される後続の分析は、割り当てられたリードに対してコールされた遺伝子座のタイプに基づき得る。

次に、サンプルリードが分析されて、潜在的な変異体コールを識別する。とりわけ、分析の結果は、潜在的な変異体コール、サンプル変異体頻度、参照配列、及び変異体が生じた、対象のゲノム配列内の位置を識別する。例えば、遺伝子座がＳＮＰを含むことが知られている場合、遺伝座に対してコールされた、割り当てられたリードは、割り当てられたリードのＳＮＰを識別するために分析を受け得る。遺伝子座が多型反復ＤＮＡ要素を含むことが知られている場合、割り当てられたリードは、サンプルリード内の多型反復ＤＮＡ要素を識別又は特徴付けるために分析され得る。いくつかの実施態様では、割り当てられたリードがＳＴＲ遺伝子座及びＳＮＰ遺伝子座と効果的に一致する場合、警告又はフラグがサンプルリードに割り当てられ得る。サンプルリードは、ＳＴＲ遺伝子座及びＳＮＰ遺伝子座の両方として指定され得る。分析は、位置合わせプロトコルに従って、割り当てられたリードを位置合わせして、割り当てられたリードの配列及び／又は長さを決定することを含み得る。位置合わせプロトコルは、２０１３年３月１５日に出願された国際特許出願第ＰＣＴ／ＵＳ２０１３／０３０８６７号（国際公開第ＷＯ２０１４／１４２８３１号）に記載される方法を含み得、その全体が参照により本明細書に組み込まれる。

次いで、１つ又はそれ以上のプロセッサは、生フラグメントを分析して、支持変異体が生フラグメント内の対応する位置に存在するかどうかを判定する。様々なタイプの生フラグメントが識別され得る。例えば、変異体コーラーは、元の変異体コールを検証する変異体を示す、生フラグメントのタイプを識別し得る。例えば、生フラグメントのタイプは、２重ステッチフラグメント、単純ステッチフラグメント、２重非ステッチフラグメント、又は単純非ステッチフラグメントを表し得る。任意選択的に、他の生フラグメントは、前述の例の代わりに、又はそれに加えて識別され得る。各タイプの生フラグメントを識別することに関連して、変異体コーラーはまた、支持変異体が生じた生フラグメント内の位置、及び支持変異体を呈した生フラグメントの数のカウントを識別する。例えば、変異体コーラーは、生フラグメントの１０個のリードが特定の位置Ｘで支持変異体を有する２重ステッチフラグメントを表すように識別されたという指標を出力し得る。変異体コーラーはまた、生フラグメントの５個のリードが特定の位置Ｙで支持変異体を有する単純非ステッチフラグメントを表すように識別されたという指標を出力し得る。変異体コーラーはまた、参照配列に対応する多数の生フラグメントを出力し得、したがって、対象のゲノム配列での潜在的な変異体コールを検証する証拠を別の方法で提供する支持変異体を含まなかった。

次に、支持変異体、及び支持変異体が生じた位置を含む、生フラグメントのカウントが維持される。追加的に又は代替的に、（サンプルリード又はサンプルフラグメントでの潜在的な変異体コールの位置に対して）対象の位置で支持変異体を含まなかった生フラグメントのカウントが維持され得る。追加的に又は代替的に、参照配列に対応する生フラグメントのカウントが維持され得、潜在的な変異体コールを認証又は確認しない。決定される情報は、変異体コール検証アプリケーションに出力され、潜在的な変異体コールを支持する生フラグメントのカウント及びタイプ、生フラグメントでの支持分散の位置、潜在的な変異体コールを支持しない生フラグメントのカウントなどを含む。

潜在的な変異体コールが識別されるとき、プロセスは、潜在的な変異体コール、変異体配列、変異体位置、及びそれに関連する参照配列の指標を出力する。変異体コールは、誤差がコールプロセスに偽変異体を識別させ得るように、「潜在的な」変異体を表すように指定される。本明細書の実施態様によれば、潜在的な変異体コールが分析されて、偽変異体又は偽陽性を低減及び排除する。追加的に又は代替的に、プロセスは、サンプルリードに関連する１つ又はそれ以上の生フラグメントを分析し、生フラグメントに関連する、対応する変異体コールを出力する。
（技術的な改善及び用語）

ベースコールは、蛍光標識されたタグを検体と共に組み込む又は取り付けることを含む。検体は、ヌクレオチド又はオリゴヌクレオチドであってよく、タグは、特定のヌクレオチド型（Ａ、Ｃ、Ｔ、又はＧ）であってもよい。励起光は、タグを有する検体に向けられ、タグは検出可能な蛍光シグナル又は強度発光を発する。強度発光は、検体に化学的に結合された励起タグによって放出される光子を示す。

特許請求の範囲を含む本出願全体を通して、「画像、画像データ、又は検体及びそれらの周囲背景の強度放射を示す画像領域が使用されるとき、それらは、検体に取り付けられたタグの強度放射を指す。当業者であれば、取り付けられたタグの強度放射は、タグが取り付けられている検体の強度放射を表すか、又はそれに相当し、したがって互換的に使用されることを理解するであろう。同様に、検体の特性は、検体に取り付けられたタグ、又は取り付けられたタグからの強度放射の特性を指す。例えば、検体の中心とは、検体に取り付けられたタグによって放出される強度放射の中心を指す。別の実施例では、検体の周囲の背景とは、検体に取り付けられたタグによって放出される強度放射の周囲の背景を指す。

特許、特許出願、論文、書籍、木、及びウェブページが挙げられるがこれらに限定されない、本出願において引用された文献及び類似材料は、その全体が参照により明示的に組み込まれる。組み込まれた文献及び類似の材料のうちの１つ又はそれ以上が、定義された用語、用語使用、記載された技術などを含むがこれらに限定されない、本出願とは異なる、又は矛盾する場合には、この出願は制御する。

開示される技術は、核酸テンプレート又はその相補体、例えば、ＤＮＡ若しくはＲＮＡポリヌクレオチド又は他の核酸サンプルなどの核酸サンプルから得ることができる核酸配列情報の品質及び量を改善するためにニューラルネットワークを使用する。したがって、開示される技術の特定の実施は、以前に利用可能な方法と比較して、より高いスループットのポリヌクレオチド配列決定、例えば、より高いＤＮＡ又はＲＮＡ配列データの収集速度、配列データ収集におけるより高い効率、及び／又はそのような配列データを得る低コストを提供する。

開示される技術は、ニューラルネットワークを使用して、固相核酸クラスターの中心を識別し、そのようなクラスターの配列決定中に生成される光信号を解析して、隣接する、隣接する、又は重複するクラスター間で曖昧さなく区別して、単一の離散したソースクラスターに配列決定シグナルを割り当てる。したがって、これら及び関連する実施態様は、高密度クラスターアレイの領域からの、配列データなどの有意義な情報の回収を可能にし、有用な情報は、重複する又は非常に近接して離間配置された隣接クラスターの影響を混乱させることに起因して、そのような領域から以前に得られなかった場合がある。重複するシグナルの効果（例えば、核酸配列決定において使用されるような）の効果を含む。

以下により詳細に記載されるように、特定の実施態様では、本明細書で提供されるように、１つ又は複数の核酸クラスターに固定化された固体支持体を含む組成物が提供される。各クラスターは、同じ配列の複数の固定化された核酸を含み、本明細書で提供されるような検出可能な中心標識を有する識別可能な中心を有し、識別可能な中心は、クラスター内の周囲領域において固定化された核酸と区別可能である。また、識別可能な中心を有するこのようなクラスターを作製及び使用するための方法も本明細書に記載される。

本開示の実施態様は、多数の状況での使用が見出され、その利点は、クラスター内の実質的に中心の位置の位置を識別、決定、アノテーション、記録、ないしは別の方法で割り当てる能力から得られる、多くの状況において使用が見出されるであろう。ハイスループット核酸配列決定、光学的又は他のシグナルを個別のソースクラスターに割り当てるための画像解析アルゴリズムの開発、及び固定化された核酸クラスターの中心の認識が望ましい及び有益である他の用途が望ましい。

特定の実施態様では、本発明は、核酸配列決定（例えば、「配列決定」）などのハイスループット核酸分析に関連する方法を企図する。例示的なハイスループット核酸解析としては、非限定的に、デノボ配列決定、再配列決定、全ゲノム配列決定、遺伝子発現解析、遺伝子発現モニタリング、エピジェネティクス分析、ゲノムメチル化分析、対立遺伝子特異的プライマー伸長（Allele Specific Primer Extension、ＡＰＳＥ）、遺伝的多様性プロファイリング、全ゲノム多型発見及び解析、単一ヌクレオチド多型解析、ハイブリダイゼーション系配列決定法などが挙げられる。当業者は、様々な異なる核酸が、本発明の方法及び組成物を使用して分析され得ることを理解するであろう。

本発明の実施は核酸配列決定に関連して記載されているが、それらは、異なる時点で取得された画像データ、空間位置、又は他の時間的若しくは物理的観点で取得された画像データが分析される任意の分野において適用可能である。例えば、本明細書に記載される方法及びシステムは、マイクロアレイ、生物学的検体、細胞、生物などからの画像データが取得され、異なる時点又は視点で取得され、分析される、分子生物学及び細胞生物学の分野において有用である。画像は、蛍光顕微鏡法、光学顕微鏡法、共焦点顕微鏡法、光学画像化法、磁気共鳴画像化法、トモグラフィー走査などが挙げられるが、これらに限定されない、技術分野において既知の任意の数の技術を使用して得ることができる。別の例として、本明細書に記載される方法及びシステムは、監視、空中、又は衛星撮像技術などによって取得された画像データが、異なる時点又は視点で取得され、分析される場合に適用することができる。本方法及びシステムは、視野内で取得された画像を分析するのに特に有用であり、この視野内で、観察される検体は、視野内の互いに対して同じ場所に留まる。しかしながら、検体は、別個の画像で異なる特性を有してもよく、例えば、検体は、視野の別々の画像において異なるように見える場合がある。例えば、検体は、異なる画像で検出された所与の検体の色とは異なるように見える場合があり、異なる画像内の所与の検体のために検出された信号の強度の変化、又は更には、１つの画像中の所与の検体の信号の外観、及び別の画像内の検体の信号の消失を示し得る。

本明細書に記載される例は、学術分析又は商業的分析のための様々な生物学的又は化学的プロセス及びシステムにおいて使用されてもよい。より具体的には、本明細書に記載される例は、指定された反応を示すイベント、特性、品質、又は特性を検出することが望ましい様々なプロセス及びシステムにおいて使用されてもよい。例えば、本明細書に記載される例としては、光検出デバイス、バイオセンサー、及びそれらの構成要素、並びにバイオセンサーと共に動作するバイオアッセイシステムが挙げられる。いくつかの実施例では、装置、バイオセンサー、及びシステムは、フローセルと、実質的に一体型構造で一緒に（取り外し可能に又は固定的に）結合された１つ又はそれ以上の光センサーと、を含み得る。

装置、バイオセンサー、及びバイオアッセイシステムは、個別に又は集合的に検出され得る複数の指定された反応を実施するように構成されてもよい。装置、バイオセンサー、及びバイオアッセイシステムは、複数の指定された反応が並行して生じる多数のサイクルを実行するように構成されてもよい。例えば、装置、バイオセンサー、及びバイオアッセイシステムを使用して、酵素操作及び光又は画像検出／捕捉の反復サイクルを通して、ＤＮＡ特徴の高密度配列を配列することができる。したがって、デバイス、バイオセンサー、及びバイオアッセイシステム（例えば、１つ又はそれ以上のカートリッジを介した）は、試薬又は他の反応成分を反応溶液中に送達する１つ又はそれ以上のマイクロ流体チャネル、バイオセンサー、及びバイオアッセイシステムを含んでもよい。いくつかの実施例では、反応溶液は、約５以下、又は約４以下、又は約３以下のｐＨを含むなど、実質的に酸性であってもよい。いくつかの他の実施例では、反応溶液は、約８以上、又は約９以上、又は約１０以上のｐＨを含むなど、実質的にアルカリ性／塩基性であってもよい。本明細書で使用するとき、用語「酸性」及びその文法的変異体は、約７未満のｐＨ値を指し、用語「塩基性」、「アルカリ性」及びその文法的変異型は、約７を超えるｐＨ値を指す。

いくつかの実施例では、反応部位は、均一又は反復パターンなどの所定の方法で提供又は離間される。いくつかの他の実施例では、反応部位はランダムに分布している。反応部位のそれぞれは、関連する反応部位からの光を検出する１つ又はそれ以上の光ガイド及び１つ又はそれ以上の光センサーと関連付けることができる。いくつかの実施例では、反応部位は、指定された反応を少なくとも部分的に区画化し得る反応凹部又はチャンバ内に位置する。

本明細書で使用するとき、「指定された反応」は、対象となる検体などの対象となる化学物質又は生物学的物質の化学的、電気的、物理的、又は光学的特性（又は品質）のうちの少なくとも１つの変化を含む。特定の実施例では、指定された反応は、例えば、蛍光標識生体分子を対象とする蛍光標識生体分子の組み込みなどの正の結合事象である。より一般的には、指定された反応は、化学変換、化学変化、又は化学的相互作用であってもよい。指定された反応はまた、電気特性の変化であってもよい。特定の実施例では、指定された反応は、検体と蛍光標識された分子を組み込むことを含む。検体はオリゴヌクレオチドであってもよく、蛍光標識分子はヌクレオチドであってもよい。指定された反応は、励起光が標識ヌクレオチドを有するオリゴヌクレオチドに向けられ、蛍光団が検出可能な蛍光シグナルを発するときに、指定された反応が検出され得る。代替例では、検出された蛍光は、化学発光又は生物発光の結果である。指定された反応はまた、例えば、ドナーフルオロフォアをアクセプタ蛍光団に近接させることによって蛍光（又はＦｏｒｓｔｅｒ）共鳴エネルギー移動（Fluorescence Resonance Energy Transfer、ＦＲＥＴ）を増加させることができ、ドナーとアクセプタ蛍光団とを分離することによってＦＲＥＴを減少させ、消光剤をフルオロフォアから分離することによって蛍光を増加させるか、又は消光剤及び蛍光団を共局在させることによって蛍光を減少させることができる。

本明細書で使用するとき、「反応溶液」、「反応成分」又は「反応物質」は、少なくとも１つの指定された反応を得るために使用され得る任意の物質を含む。例えば、潜在的な反応成分としては、例えば、試薬、酵素、サンプル、他の生体分子、及び緩衝液が挙げられる。反応成分は、溶液中の反応部位に送達されてもよく、及び／又は反応部位で固定されてもよい。反応成分は、反応部位で固定化された対象検体などの別の物質と直接又は間接的に相互作用し得る。上記のように、反応溶液は、実質的に酸性であってもよい（すなわち、比較的高い酸性度を含む）（例えば、約５以下のｐＨ、約４以下のｐＨを含む）、又は約３以下のｐＨ、又は実質的にアルカリ性／塩基性（すなわち、比較的高いアルカリ性／塩基性を含む）（例えば、約８以上のｐＨ、約９以上のｐＨ、又は約１０以上のｐＨを含む）。

本明細書で使用するとき、用語「反応部位」は、少なくとも１つの指定された反応が生じ得る局所的領域である。反応部位は、物質がその上に固定され得る反応構造又は基材の支持表面を含んでもよい。例えば、反応部位は、その上に反応成分、例えば、その上に核酸のコロニーを有する反応構造（フローセルのチャネル内に配置され得る）の表面を含んでもよい。いくつかのこのような実施例では、コロニー中の核酸は同じ配列を有し、例えば、一本鎖又は二本鎖テンプレートのクローンコピーである。しかしながら、いくつかの実施例では、反応部位は、例えば、一本鎖又は二本鎖形態で、単一の核酸分子のみを含有してもよい。

複数の反応部位は、反応構造に沿ってランダムに分布してもよく、又は所定の様式で配置されてもよい（例えば、マイクロアレイなどのマトリックス内の並列）。反応部位はまた、指定された反応を区画化するように構成された空間領域又は容積を少なくとも部分的に画定する反応室又は凹部を含むことができる。本明細書で使用するとき、用語「反応チャンバ」又は「反応凹部」は、支持構造体の画定された空間領域（多くの場合、流路と流体連通している）を含む。反応凹部は、周囲環境又は空間領域から少なくとも部分的に分離されてもよい。例えば、複数の反応凹部は、検出表面などの共有された壁によって互いに分離されてもよい。より具体的な例として、反応凹部は、検出表面の内面によって画定された窪み、ウェル、溝、空洞、又は窪みを含むナノセルであってもよく、ナノセルが流路と流体連通することができるように、開口部又は開口部（すなわち、開側面である）を有することができる。

いくつかの実施例では、反応構造の反応凹部は、固体がその中に完全に又は部分的に挿入され得るように、固体（半固体を含む）に対してサイズ及び形状を定められる。例えば、反応凹部は、捕捉ビーズを収容するような大きさ及び形状であってもよい。捕捉ビーズは、クロノウイルス増幅ＤＮＡ又はその上の他の物質を有してもよい。あるいは、反応凹部は、およその数のビーズ又は固体基材を受容するような大きさ及び形状であってもよい。別の例として、反応凹部は、拡散又はフィルタ流体又は反応凹部に流入し得る溶液を制御するように構成された多孔質ゲル又は物質で充填されてもよい。

いくつかの実施例では、光センサー（例えば、フォトダイオード）は、対応する反応部位と関連付けられる。反応部位に関連する光センサーは、関連する反応部位において指定された反応が生じたときに、少なくとも１つの光ガイドを介して、関連する反応部位からの光放射を検出するように構成されている。いくつかの場合では、複数の光センサー（例えば、光検出又はカメラデバイスのいくつかのピクセル）は、単一の反応部位に関連付けられてもよい。他の場合では、単一の光センサー（例えば、単一のピクセル）は、単一の反応部位に、又は反応部位の群と関連付けられてもよい。バイオセンサーの光センサー、反応部位、及び他の特徴は、光の少なくとも一部が反射されることなく光センサーによって直接検出されるように構成されてもよい。

本明細書で使用するとき、「生物学的又は化学物質」は、生体分子、対象試料、対象検体、及び他の化学化合物を含む。生物学的物質又は化学物質を使用して、他の化学化合物を検出、識別、若しくは分析するか、又は他の化学化合物を研究又は分析するための仲介として機能してもよい。特定の実施例では、生物学的物質又は化学物質は、生体分子を含む。本明細書で使用するとき、「生体分子」は、バイオポリマー、ヌクレオチド、核酸、ポリヌクレオチド、オリゴヌクレオチド、タンパク質、酵素、ポリペプチド、抗体、抗原、リガンド、受容体、多糖類、炭水化物、ポリリン酸、細胞、組織、生物、若しくはそれらの断片、又は前述の種の類似体若しくは模倣体などの任意の他の生物学的に活性な化学化合物のうちの少なくとも１つを含む。更なる例では、生物学的若しくは化学物質又は生体分子は、酵素又は試薬などの別の反応の生成物、例えば、ピロ配列決定反応においてピロリン酸を検出するために使用される酵素又は試薬などの酵素又は試薬の生成物を検出する。ピロホスフェート検出に有用な酵素及び試薬は、例えば、参照によりその全体が組み込まれる米国特許公開第２００５／０２４４８７０号に記載されている。

生体分子、試料、及び生物学的物質又は化学物質は、天然に存在しても合成であってもよく、反応凹部又は領域内の溶液又は混合物中に懸濁されてもよい。生体分子、試料、及び生物学的物質又は化学物質もまた、固体相又はゲル材料に結合されてもよい。生体分子、試料、及び生物学的物質又は化学物質はまた、医薬組成物を含んでもよい。場合によっては、対象とする生体分子、試料、及び生物学的物質又は化学物質は、標的、プローブ、又は検体と呼ばれる場合がある。

本明細書で使用するとき、「バイオセンサー」は、反応部位又は反応部位に近接して生じる指定された反応を検出するように構成された複数の反応部位を有する反応構造を含む装置を含む。バイオセンサーは、固体光検出装置又は「撮像」デバイス（例えば、ＣＣＤ又はＣＭＯＳ光検出デバイス）、及び任意選択的に、それに取り付けられたフローセルを含んでもよい。フローセルは、反応部位と流体連通する少なくとも１つの流路を含み得る。１つの特定の例として、バイオセンサーは、生物学的アッセイシステムに流体的かつ電気的に結合するように構成される。バイオアッセイシステムは、所定のプロトコル（例えば、配列番号合成）に従って反応部位に反応溶液を送達し、複数の撮像事象を実施してもよい。例えば、バイオアッセイシステムは、反応溶液を反応部位に沿って流すことができる。反応溶液のうちの少なくとも１つは、同じ又は異なる蛍光標識を有する４種類のヌクレオチドを含んでもよい。ヌクレオチドは、反応部位の対応するオリゴヌクレオチドなどに結合してもよい。次いで、バイオアッセイシステムは、励起光源（例えば、発光ダイオード（ＬＥＤ）などの固体光源）を使用して反応部位を照明することができる。励起光は、波長の範囲を含む所定の波長又は波長を有してもよい。入射励起光によって励起された蛍光標識は、光センサーによって検出され得る発光信号（例えば、励起光とは異なる波長又は波長の光、及び潜在的に互いに異なる）を提供することができる。

本明細書で使用するとき、用語「固定化された」は、生体分子又は生物学的物質又は化学物質に関して使用されるとき、生体分子又は生物学的物質又は化学物質を、光検出デバイス又は反応構造の検出表面などの表面に実質的に付着させることを含む。例えば、生体分子又は生物学的物質又は化学物質は、非共有結合（例えば、静電力、ファンデルワールス、及び疎水性界面の脱水）を含む吸着技術、並びに官能基又はリンカーが生体分子の表面への結合を促進する共有結合技術を含む吸着技術を用いて、反応構造の表面に固定化されてもよい。生体分子又は生物学的物質若しくは化学物質を表面に固定化することは、表面の特性、生体分子又は生物学的物質若しくは化学物質を担持する液体媒体、並びに生体分子又は生物学的物質若しくは化学物質自体の特性に基づいてもよい。いくつかの場合において、表面は、生体分子（又は生物学的物質又は化学物質）を表面に固定化するのを容易にするために、表面を官能化（例えば、化学的又は物理的に修飾）してもよい。

いくつかの実施例では、核酸は、その反応凹部の表面などの反応構造に固定化することができる。特定の実施例では、本明細書に記載される装置、バイオセンサー、バイオアッセイシステム及び方法は、天然ヌクレオチド、及び天然ヌクレオチドと相互作用するように構成された酵素の使用を含んでもよい。天然ヌクレオチドとしては、例えば、リボヌクレオチド又はデオキシリボヌクレオチドが挙げられる。天然ヌクレオチドは、一リン酸、二リン酸、又は三リン酸形態であってよく、アデニン（Ａ）、チミン（Ｔ）、ウラシル（Ｕ）、グアニン（Ｇ）、又はシトシン（Ｃ）から選択される塩基を有することができる。しかしながら、上記ヌクレオチドの非天然ヌクレオチド、修飾ヌクレオチド、又は類似体を使用することができることが理解されるであろう。

上記のように、生体分子又は生物学的物質又は化学物質は、反応構造の反応凹部内の反応部位に固定されてもよい。このような生体分子又は生物学的物質は、干渉嵌め、接着、共有結合、又は捕捉によって、反応凹部内に物理的に保持又は固定化されてもよい。反応凹部内に配置され得る物品又は固体の例としては、ポリマービーズ、ペレット、アガロースゲル、粉末、量子ドット、又は反応チャンバ内で圧縮及び／又は保持され得る他の固体が挙げられる。特定の実施態様では、反応凹部は、ＤＮＡオリゴヌクレオチドに共有結合することができるヒドロゲル層でコーティング又は充填されてもよい。特定の実施例では、ＤＮＡボールなどの核酸超構造は、例えば、反応凹部の内面に取り付けることによって、又は反応凹部内に液体中に滞留することによって、反応凹部内又は反応凹部に配置することができる。ＤＮＡボール又は他の核酸超構造を実施することができ、次いで、反応凹部内又は反応凹部に配置することができる。あるいは、ＤＮＡボールは、反応凹部においてその場で合成することができる。反応凹部内に固定された物質は、固体、液体、又は気体状態であり得る。

本明細書で使用するとき、用語「検体」は、相対位置に従って他の点又は領域と区別することができるパターンの点又は領域を意味することを意図する。個々の検体は、特定の種類の１つ又はそれ以上の分子を含むことができる。例えば、検体は、特定の配列を有する単一の標的核酸分子を含むことができ、又は検体は、同じ配列（及び／又はその相補的配列）を有するいくつかの核酸分子を含むことができる。パターンの異なる検体である異なる分子は、パターン内の検体の場所に従って互いに分化させることができる。例示的な検体としては、基材中のウェル、基材中又は基材上のビーズ（又は他の粒子）、基材からの突出部、基材上の隆起部、基材上のゲル材料のパッド、又は基材内のチャネルが挙げられる。

検出、特徴付け、又は識別される様々な標的検体のいずれも、本明細書に記載される装置、システム、又は方法で使用することができる。例示的な検体としては、限定するものではないが、核酸（例えば、ＤＮＡ、ＲＮＡ又はそれらの類似体）、タンパク質、多糖類、細胞、抗体、エピトープ、受容体、リガンド、酵素（例えば、キナーゼ、ホスファターゼ又はポリメラーゼ）、小分子薬物候補、細胞、ウイルス、生物などが挙げられるが、これらに限定されない。

用語「検体」、「核酸」、「核酸分子」、及び「ポリヌクレオチド」という用語は、本明細書において互換的に使用される。様々な実施態様では、核酸は、特定の種類の核酸分析のために、本明細書で提供されるようなテンプレート（例えば、核酸テンプレート、又は核酸テンプレートに相補的な核酸相補体）として使用されてもよく、核酸増幅、核酸発現解析、及び／又は核酸配列決定、又はこれらの好適な組み合わせが挙げられるが、これらに限定されない。特定の実施における核酸としては、例えば、３’－５’ホスホジエステル中のデオキシリボヌクレオチドの直鎖ポリマー、又はデオキシリボ核酸（DeoxyriboNucleic Acid、ＤＮＡ）、例えば、一本鎖及び二本鎖ＤＮＡ、ゲノムＤＮＡ、コピーＤＮＡ若しくは相補的ＤＮＡ（complementary DNA、ｃＤＮＡ）、組み換えＤＮＡ、又は任意の形態の合成ＤＮＡ若しくは修飾ＤＮＡが挙げられる。他の実施態様では、核酸としては、例えば、３’－５’ホスホジエステル中のリボヌクレオチドの直鎖ポリマー、又はリボ核酸（RiboNucleic Acid、ＲＮＡ）などの他の結合、例えば、一本鎖及び二本鎖ＲＮＡ、メッセンジャー（ｍＲＮＡ）、コピーＲＮＡ又は相補的ＲＮＡ（complementary RNA、ｃＲＮＡ）、あるいはスプライシングされたｍＲＮＡ、リボソームＲＮＡ、小核ＲＮＡ（small nucleolar RNA、ｓｎｏＲＮＡ）、マイクロＲＮＡ（microRNA、ｍｉＲＮＡ）、低干渉ＲＮＡ（small interfering RNA、ｓＲＮＡ）、ピウイＲＮＡ（piwi RNA、ｐｉＲＮＡ）、又は任意の形態の合成若しくは修飾ＲＮＡ。本発明の組成物及び方法において使用される核酸は、長さが変化してもよく、無傷又は完全長の分子若しくは断片、又はより大きい核酸分子のより小さい部分であってもよい。特定の実施態様では、核酸は、本明細書の他の箇所に記載されるように、１つ又はそれ以上の検出可能な標識を有してもよい。

用語「検体」、「クラスター」、「核酸クラスター」、「核酸コロニー」、及び「ＤＮＡクラスター」は互換的に使用され、固体支持体に結合された核酸テンプレート及び／又はその相補体の複数のコピーを指す。典型的には、特定の好ましい実施態様では、核酸クラスターは、それらの５’末端を介して固体支持体に結合されたテンプレート核酸及び／又はその相補体の複数のコピーを含む。核酸クラスターを構成する核酸鎖のコピーは、一本鎖又は二本鎖形態であってよい。クラスター内に存在する核酸テンプレートのコピーは、例えば、標識部分の存在に起因して、互いに異なる対応する位置にヌクレオチドを有することができる。対応する位置はまた、異なる化学構造を有するが、ウラシル及びチミンの場合など、類似のＷａｔｓｏｎ－Ｃｒｉｃｋ塩基対形成特性を有するアナログ構造を含むことができる。

核酸のコロニーはまた、「核酸クラスター」と呼ばれることもある。核酸コロニーは、本明細書の他の箇所で更に詳細に記載されるように、クラスター増幅又はブリッジ増幅技術によって任意に作成することができる。標的配列の複数の反復は、ローリングサークル増幅手順を使用して作成された混乱剤などの単一の核酸分子中に存在し得る。

本発明の核酸クラスターは、使用される条件に応じて、異なる形状、サイズ、及び密度を有することができる。例えば、クラスターは、実質的に円形、多面、ドーナツ形、又はリング形状の形状を有することができる。核酸クラスターの直径は、約０．２μｍ～約６μｍ、約０．３μｍ～約４μｍ、約０．４μｍ～約３μｍ、約０．５μｍ～約２μｍ、約０．７５μｍ～約１．５μｍ、又は任意の介在直径であるように設計することができる。特定の実施態様において、核酸クラスターの直径は、約０．５μｍ、約１μｍ、約１．５μｍ、約２μｍ、約２．５μｍ、約３μｍ、約４μｍ、約５μｍ、又は約６μｍである。核酸クラスターの直径は、クラスターの産生において実施される増幅サイクルの数、核酸テンプレートの長さ、又はクラスターが形成される表面に付着したプライマーの密度を含むが、これらに限定されない多数のパラメータによって影響され得る。核酸クラスターの密度は、典型的には、０．１／ｍｍ^２、１／ｍｍ^２、１０／ｍｍ２、１００／ｍｍ２、１，０００／ｍｍ２、１０，０００／ｍｍ２～１００，０００／ｍｍ２の範囲であるように設計することができる。本発明は、一部では、より高密度の核酸クラスター、例えば、１００，０００／ｍｍ^２～１，０００，０００／ｍｍ^２、及び１，０００，０００／ｍｍ^２～１０，０００，０００／ｍｍ^２を更に企図する。

本明細書で使用するとき、「検体」は、検体又は視野内の対象領域である。マイクロアレイデバイス又は他の分子分析デバイスに関連して使用される場合、検体は、類似又は同一の分子によって占有される領域を指す。例えば、検体は、増幅オリゴヌクレオチド、又は同じ又は類似の配列を有するポリヌクレオチド又はポリペプチドの任意の他の群であり得る。他の実施態様では、検体は、試料上の物理的領域を占有する任意の要素又は要素群であり得る。例えば、検体は、ランドのパセル、水の本体などであってもよい。検体が撮像されると、各検体は、一部の領域を有する。したがって、多くの実施態様では、検体は、単に１つのピクセルではない。

検体間の距離は、任意の数の方法で説明することができる。いくつかの実施態様では、検体間の距離は、１つの検体の中心から別の検体の中心まで説明することができる。他の実施態様では、距離は、１つの検体の縁部から別の検体の縁部まで、又は各検体の最も外側の識別可能な点間に記載することができる。検体の縁部は、チップ上の理論的若しくは実際の物理的境界、又は検体の境界内のいくつかの点として説明することができる。他の実施態様では、距離は、試料上の固定点、又は試料の画像に関して説明することができる。

一般に、分析方法に関して、いくつかの実施態様が本明細書に記載される。自動又は半自動化方法で方法を実行するためのシステムも提供されることが理解されるであろう。したがって、本開示は、ニューラルネットワークベースのテンプレート生成及びベースコールシステムを提供し、システムは、プロセッサと、記憶装置と、画像解析用のプログラムと、を含むことができ、プログラムは、本明細書に記載される方法のうちの１つ又はそれ以上を実行するための命令を含む。したがって、本明細書に記載される方法は、例えば、本明細書に記載されるか又は技術分野において既知の構成要素を有するコンピュータ上で実行することができる。

本明細書に記載される方法及びシステムは、様々なオブジェクトのうちのいずれかを分析するのに有用である。特に有用な物体は、固体担体又は付着した検体を有する固相表面である。本明細書に記載される方法及びシステムは、ｘｙ平面における検体の繰り返しパターンを有する物体と共に使用される場合、利点を提供する。一例は、細胞、ウイルス、核酸、タンパク質、抗体、炭水化物、小分子（薬物候補など）、生物学的活性分子、又は他の対象検体の集合を有するマイクロアレイである。

核酸及びポリペプチドなどの生物学的分子を有する検体を有するアレイの用途の数が増えてきた。このようなマイクロアレイは、典型的には、デオキシリボ核酸（ＤＮＡ）又はリボ核酸（ＲＮＡ）プローブが挙げられる。これらは、ヒト及び他の生物に存在するヌクレオチド配列に特異的である。特定の用途では、例えば、個々のＤＮＡ又はＲＮＡプローブをアレイの個々の検体に取り付けることができる。既知のヒト又は生物からのものなどの試験サンプルは、標的核酸（例えば、遺伝子断片、ｍＲＮＡ、又はアンプリコン）が配列中のそれぞれの検体で相補的プローブにハイブリダイズするように、アレイに曝露することができる。プローブは、標的特異的プロセス（例えば、標的核酸上に存在する標識に起因して、又は検体においてハイブリダイズした形態で存在するプローブ又は標的の酵素標識に起因して）標識することができる。次いで、検体の上の特定の光の周波数を走査して、どの標的核酸が試料中に存在するかを識別することによって検査することができる。

生物学的マイクロアレイは、遺伝子配列決定及び類似の用途に使用され得る。一般に、遺伝子配列決定は、ＤＮＡ又はＲＮＡの断片などの標的核酸の長さのヌクレオチドの順序を決定することを含む。比較的短い配列は、典型的には、各検体において配列決定され、得られた配列情報は、様々な生物情報科学法において使用されて、フラグメントが由来する多くの広範な長さの遺伝物質の配列を確実に決定するために、様々な生物情報科学法において使用されてもよい。特徴的断片の自動化されたコンピュータベースのアルゴリズムが開発されており、ゲノムマッピング、遺伝子の識別、及びそれらの機能などにおいて、より最近使用されてきた。マイクロアレイは、多数の変異体が存在するため、ゲノム含有量を特徴付けるのに特に有用であり、このことは、個々のプローブ及び標的に対して多くの実験を実施する代替物であるため、ゲノム含有量を特徴付けるのに特に有用である。マイクロアレイは、実用的な方法でこのような調査を実施するための理想的なフォーマットである。

技術分野において既知の様々な検体アレイ（「マイクロアレイ」とも呼ばれる）のいずれも、本明細書に記載される方法又はシステムにおいて使用することができる。典型的なアレイは、それぞれが個々のプローブ又はプローブの集団を有する検体を含む。後者の場合、各検体におけるプローブの集団は、典型的には、単一種のプローブを有する均質である。例えば、核酸配列の場合、各検体は、それぞれ共通の配列を有する複数の核酸分子を有することができる。しかしながら、いくつかの実施態様では、アレイの各検体における集団は、不均質であり得る。同様に、タンパク質配列は、単一のタンパク質又はタンパク質の集団を有する検体を有することができ、典型的には、同じアミノ酸配列を有するが、必ずしもそうではない。プローブは、例えば、プローブを表面に共有結合することによって、又はプローブと表面との非共有相互作用（複数可）を介して、アレイの表面に取り付けることができる。いくつかの実施態様では、核酸分子などのプローブは、例えば、米国特許出願第１３／７８４，３６８号、及び米国特許出願公開第２０１１／００５９８６５（Ａ１）号明細書に記載されるようなゲル層を介して表面に取り付けられ得、それぞれ参照により本明細書に組み込まれる。

例示的なアレイとしては、限定するものではないが、Ｉｌｌｕｍｉｎａ，Ｉｎｃから入手可能なＢｅａｄＣｈｉｐアレイ（ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ．）又は他のもの、例えば、プローブが、表面上に存在するビーズ（例えば、表面上のウェル内のビーズ）に取り付けられる以下に記載されたものなどの他のものが挙げられる。米国特許第６，２６６，４５９号明細書、米国特許第６，３５５，４３１号明細書、米国特許第６，７７０，４４１号明細書、米国特許第６，８５９，５７０号明細書、又は米国特許第７，６２２，２９４号明細書、又はＰＣＴ国際公開第００／６３４３７号。これらは、それぞれ参照により本明細書に組み込まれる。使用することができる市販のマイクロアレイの更なる例としては、例えば、ＶＬＳＩＰＳ（商標）（ＶｅｒｙＬａｒｇｅＳｃａｌｅＩｍｍｏｂｉｌｉｚｅｄＰｏｌｙｍｅｒＳｙｎｔｈｅｓｉｓ）技術と呼ばれることがある技術に従って合成されたＡｆｆｙｍｅｔｒｉｘ（登録商標）ＧｅｎｅＣｈｉｐ（登録商標）マイクロアレイ又は他のマイクロアレイが挙げられる。スポットされたマイクロアレイはまた、本開示のいくつかの実施態様による方法又はシステムにおいて使用することができる。例示的なスポッティングされたマイクロアレイは、ＡｍｅｒｓｈａｍＢｉｏｓｃｉｅｎｃｅｓから入手可能なＣｏｄｅＬｉｎｋ（商標）Ａｒｒａｙである。有用な別のマイクロアレイは、ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓから入手可能なＳｕｒｅＰｒｉｎｔＴＭＴｅｃｈｎｏｌｏｇｙなどのインクジェット印刷法を使用して製造されるものである。

他の有用な配列としては、核酸配列決定用途で使用されるものが挙げられる。例えば、ゲノムフラグメント（多くの場合、クラスターと称される）のアンプリコンを有するアレイは、Ｂｅｎｔｌｅｙｅｔａｌ．，Ｎａｔｕｒｅ４５６：５３－５９（２００８）、国際公開第０４／０１８４９７号、国際公開第９１／０６６７８号、国際公開第０７／１２３７４４号、米国特許第７，３２９，４９２号明細書、米国特許第７，２１１，４１４号明細書、米国特許第７，３１５，０１９号明細書、米国特許第７，４０５，２８１号明細書、又は米国特許第７，０５７，０２６号明細書、又は米国特許出願公開第２００８／０１０８０８２（Ａ１）号明細書に記載されているように特に有用であり、それぞれ参照により本明細書に組み込まれる。核酸配列決定に有用な別の種類の配列は、エマルションＰＣＲ技術から生成される粒子の配列である。実施例は、Ｄｒｅｓｓｍａｎｅｔａｌ．，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ１００：８８１７－８８２２（２００３）、国際公開第０５／０１０１４５号、米国特許出願公開第２００５／０１３０１７３号明細書又は米国特許出願公開第２００５／００６４４６０号明細書に記載されており、これらはそれぞれその全体が参照により本明細書に組み込まれる。

核酸配列に使用される配列は、多くの場合、核酸検体のランダムな空間パターンを有する。例えば、ＩｌｌｕｍｉｎａＩｎｃから入手可能なＨｉＳｅｑ又はＭｉＳｅｑ配列決定プラットフォーム（ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ．）は、核酸配列がランダム播種、続いてブリッジ増幅によって形成されるフローセルを利用する。しかしながら、パターン化された配列は、核酸配列又は他の分析用途にも使用することができる。パターン化されたアレイの例、それらの使用方法及びその使用方法は、米国特許出願第１３／７８７，３９６号明細書、米国特許出願第１３／７８３，０４３号明細書、米国特許出願第１３／７８４，３６８号明細書、米国特許出願公開第２０１３／０１１６１５３号明細書、及び米国特許出願公開第２０１２／０３１６０８６号明細書に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。このようなパターン化された配列の検体を使用して、単一の核酸テンプレート分子を捕捉して、例えば、ブリッジ増幅を介して、均質なコロニーの後続の形成を行うことができる。このようなパターン化された配列は、核酸配列決定用途に特に有用である。

アレイ（又は本明細書の方法又はシステムで使用される他の物体）上の検体のサイズは、特定の用途に適するように選択することができる。例えば、いくつかの実施態様では、アレイの検体は、単一の核酸分子のみを収容するサイズを有することができる。このサイズ範囲の複数の検体を有する表面は、単一分子分解能で検出するための分子の配列を構築するのに有用である。このサイズ範囲の検体もまた、核酸分子のコロニーをそれぞれ含む検体を有するアレイでの使用にも有用である。したがって、アレイの検体はそれぞれ、約１ｍｍ^２以下、約５００μｍ^２以下、約１００μｍ^２以下、約１０μｍ^２以下、約１μｍ^２以下、約５００ｎｍ^２以下、又は約１００ｎｍ^２以下、約１０ｎｍ^２以下、約５ｎｍ^２以下、又は約１ｎｍ^２以下の面積を有することができる。代替的に又は追加的に、アレイの検体は、約１ｍｍ^２以上、約５００μｍ^２以上、約１００μｍ^２以上、約１０μｍ^２以上、約１μｍ^２以上、約５００ｎｍ^２以上、約１００ｎｍ^２以上、約１０ｎｍ^２以上、約５ｎｍ^２以上、又は約１ｎ^ｍ２以上である。実際に、検体は、上記に例示したものから選択される上限と下限との間の範囲内の大きさを有することができる。表面の検体のいくつかのサイズ範囲が核酸及び核酸のスケールに関して例示されてきたが、これらのサイズ範囲の検体は、核酸を含まない用途に使用できることが理解されるであろう。検体のサイズは、核酸用途に使用されるスケールに必ずしも限定される必要はないことが更に理解されるであろう。

検体のアレイなどの複数の検体を有する物体を含む実施例では、検体は、互いの間の空間で分離されている、別個のものとすることができる。本発明において有用なアレイは、最大で１００μｍ、５０μｍ、１０μｍ、５μｍ、１μｍ、０．５μｍ以下の縁部から縁部までの距離によって分離される検体を有することができる。代替的に又は追加的に、アレイは、少なくとも０．５μｍ、１μｍ、５μｍ、１０μｍ、５０μｍ、１００μｍ、又はそれ以上の縁部から縁部までの距離によって分離される検体を有することができる。これらの範囲は、検体の平均縁部間隔及び縁部間隔、並びに最小又は最大間隔に適用することができる。

いくつかの実施態様では、アレイの検体は、別個である必要はなく、代わりに、隣接する検体は互いに当接することができる。検体が別個であるか否かに関わらず、検体及び／又は検体のピッチの大きさは、アレイが所望の密度を有することができるように変化し得る。例えば、規則的なパターンにおける平均検体ピッチは、最大で１００μｍ、５０μｍ、１０μｍ、５μｍ、１μｍ、０．５μｍ以下であり得る。代替的に又は追加的に、規則的なパターンにおける平均検体ピッチは、少なくとも０．５μｍ、１μｍ、５μｍ、１０μｍ、５０μｍ、１００μｍ、又はそれ以上であり得る。これらの範囲は、規則的なパターンの最大ピッチ又は最小ピッチにも適用することができる。例えば、規則的なパターンの最大検体ピッチは、１００μｍ以下、５０μｍ以下、１０μｍ以下、５μｍ以下、１μｍ以下、０．５μｍ以下とすることができ、かつ／又は規則的なパターンにおける最小検体ピッチは、少なくとも０．５μｍ、１μｍ、５μｍ、１０μｍ、５０μｍ、１００μｍ、又はそれ以上であり得る。

アレイ内の検体の密度は、単位面積当たりに存在する検体の数に関しても理解され得る。例えば、アレイに関する検体の平均密度は、少なくとも約１×１０^３検体／ｍｍ^２、１×１０^４検体／ｍｍ^２、１×１０^５検体／ｍｍ^２、１×１０^６検体／ｍｍ^２、１×１０^６検体／ｍｍ^２、１×１０^７検体／ｍｍ^２、１×１０^８検体／ｍｍ^２、又は１×１０^９検体／ｍｍ^２以上であり得る。あるいは、又はそれに加えて、アレイに関する検体の平均密度は、最大で約１×１０^９検体／ｍｍ^２、１×１０^８検体／ｍｍ^２、１×１０^７検体／ｍｍ^２、１×１０^６検体／ｍｍ^２、１×１０^５検体／ｍｍ^２、１×１０^４検体／ｍｍ^２、又は１×１０^３検体／ｍｍ^２以下であり得る。

上記の範囲は、例えば、検体のアレイの全て又は一部を含む規則的なパターンの全て又は一部に適用することができる。

パターン内の検体は、様々な形状のいずれかを有することができる。例えば、アレイの表面上などの２次元平面で観察される場合、検体は、丸みを帯びた、円形、楕円形、矩形、正方形、対称、非対称、三角形、多角形などに見える場合がある。検体は、例えば六角形又は直線パターンを含む規則的な繰り返しパターンで配置することができる。パターンは、所望のレベルのパッキングを達成するように選択され得る。例えば、円形検体は、六角形の配置で最適に充填される。当然のことながら、他の包装構成もまた、円形検体のために使用することができ、逆もまた同様である。

パターンは、パターンの最小幾何学的単位を形成するサブセット内に存在する検体の数に関して特徴付けることができる。サブセットは、例えば、少なくとも約２、３、４、５、６、１０以上の検体を含み得る。検体のサイズ及び密度に応じて、幾何学的単位は、１ｍｍ^２、５００μｍ^２、１００μｍ^２、５０μｍ^２、１０μｍ^２、１μｍ^２、５００ｎｍ^２、１００ｎｍ^２、５０ｎｍ^２、１０ｎｍ^２以下の面積を占めることができる。代替的に又は追加的に、幾何学的単位は、１０ｎｍ^２、５０ｎｍ^２、１００ｎｍ^２、５００ｎｍ^２、１μｍ^２、１０μｍ^２、５０μｍ^２、１００μｍ^２、５００μｍ^２、１ｍｍ^２以上の面積を占めることができる。形状、サイズ、ピッチなどの幾何学的単位における検体の特性は、アレイ又はパターンの検体に関して、より一般的に本明細書に記載されるものから選択することができる。

検体の規則的なパターンを有するアレイは、検体の相対的な場所に対して順序付けられるが、各検体の１つ又はそれ以上の他の特性に対してランダムであってもよい。例えば、核酸配列の場合、核酸検体は、それらの相対的な位置に関して規則的であるが、任意の特定の検体に存在する核酸種に関する配列の知識に関してランダムであってもよい。より具体的な例として、テンプレート核酸を有する検体の反復パターンを播種し、各検体でテンプレートを増幅して、検体においてテンプレートのコピーを形成することによって形成される核酸配列（例えば、クラスター増幅又はブリッジ増幅を介して、核酸検体の規則的なパターンを有するが、配列にわたる核酸の配列の分布に関してランダムであろう。したがって、アレイ上の核酸材料の存在の検出は、検体の繰り返しパターンをもたらすことができるのに対し、配列特異的検出は、アレイにわたる信号の非反復分布をもたらすことができる。

本明細書におけるパターン、順序、ランダム性などの説明は、アレイ上の検体などの物体上の検体にも関するだけでなく、画像中の検体にも関連することが理解されるであろう。したがって、パターン、順序、ランダム性などは、限定するものではないが、グラフィカルユーザーインターフェース又は他の出力デバイスなどのコンピュータ可読媒体又はコンピュータ構成要素を含むがこれらに限定されない、画像データを記憶、操作、又は通信するために使用される様々なフォーマットのうちのいずれかに存在することができる。

本明細書で使用するとき、用語「画像」は、オブジェクトの全て又は一部の表現を意味することを意図する。表現は、光学的に検出された再現であり得る。例えば、蛍光、発光、散乱、又は吸収信号から画像を得ることができる。画像内に存在するオブジェクトの部分は、物体の表面又は他のｘｙ面であり得る。典型的には、画像は２次元表現であるが、場合によっては、画像内の情報は、３つ又はそれ以上の次元から導出することができる。画像は、光学的に検出された信号を含む必要はない。非光信号を代わりに存在させることができる。画像は、本明細書の他の箇所に記載されるもののうちの１つ又はそれ以上などの、コンピュータ可読フォーマット又は媒体に提供することができる。

本明細書で使用するとき、「画像」は、試料又は他の物体の少なくとも一部分の再現又は表現を指す。いくつかの実施態様では、再現は、例えばカメラ又は他の光学検出器によって生成される光再現である。再現は、非光学的再現、例えば、ナノ細孔検体のアレイから得られる電気信号の表現、又はイオン感応性ＣＭＯＳ検出器から得られた電気信号の表現であり得る。特定の実施態様では、非光学的再現性は、本明細書に記載される方法又は装置から除外され得る。画像は、例えば、１００μｍ、５０μｍ、１０μｍ、５μｍ、１μｍ、又は０．５μｍ未満離れたものを含む、様々な間隔のいずれかで存在する検体の検体を区別することができる解像度を有することができる。

本明細書で使用するとき、「取得」、「取得」、及び同様の用語は、画像ファイルを取得するプロセスの任意の部分を指す。いくつかの実施態様では、データ取得は、標本の画像を生成することと、標本内の信号を探すことと、信号の画像を探すか又は生成するように検出デバイスに指示することと、画像ファイルの更なる分析又は変換のための命令、及び画像ファイルの任意の数の変換又は操作のための命令を与えることと、を含むことができる。

本明細書で使用するとき、用語「テンプレート」は、信号又は検体間の場所又は関係の表現を指す。したがって、いくつかの実施態様では、テンプレートは、検体中の検体に対応する信号の表現を有する物理的グリッドである。いくつかの実施態様では、テンプレートは、チャート、テーブル、テキストファイル、又は検体に対応する場所を示す他のコンピュータファイルであり得る。本明細書に提示される実施態様では、異なる基準点で捕捉された試料の画像のセットにわたって検体の場所を追跡するためにテンプレートが生成される。例えば、テンプレートは、別の検体に対する１つの検体の方向及び／又は距離を記述するｘ、ｙ座標、又は一連の値であり得る。

本明細書で使用するとき、用語「標本」は、画像が取り込まれる物体又は物体の領域を指すことができる。例えば、画像が土壌の表面から撮影される実施例では、ランドのパセルは、標本であり得る。生体分子の分析がフローセル内で行われる他の実施態様では、フローセルは、任意の数のサブディビジョンに分割されてもよく、これらのそれぞれは検体であってもよい。例えば、フローセルは、様々な流路又はレーンに分割されてもよく、各レーンは、画像化される２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００、１１０、１２０、１４０、１６０、１８０、２００、４００、６００、８００、１０００個以上の別個の領域に更に分割され得る。フローセルの一例は８つのレーンを有し、各レーンは１２０個の標本又はタイルに分割されている。別の実施態様では、試料は、複数のタイル、又は更にはフローセル全体で作製されてもよい。したがって、各検体の画像は、撮像されるより大きい表面の領域を表すことができる。

本明細書に記載される範囲及び連続数リストへの言及は、列挙された数だけではなく、列挙された数字間の全ての実数を含むことが理解されるであろう。

本明細書で使用するとき、「参照点」は、画像間の任意の時間的又は物理的区別を指す。好ましい別の実施態様では、基準点は時間点である。より好ましい実施態様では、参照点は、配列決定反応中の時点又はサイクルである。しかしながら、用語「基準点」は、画像を区別又は分離することができる、角度、回転、時間、又は他の態様などの画像を区別又は分離する他の態様を含むことができる。

本明細書で使用するとき、「画像のサブセット」は、セット内の画像のグループを指す。例えば、サブセットは、画像のセットから選択される１、２、３、４、６、８、１０、１２、１４、１６、１８、２０、３０、４０、５０、６０又は任意の数の画像を含んでもよい。特定の別の実施態様では、サブセットは、１、２、３、４、６、８、１０、１２、１４、１６、１８、２０、３０、４０、５０、６０以下、又は画像のセットから選択される任意の数の画像を含んでもよい。好ましい別の実施態様では、画像は、各サイクルに相関する４つの画像を有する１つ又はそれ以上の配列決定サイクルから得られる。したがって、例えば、サブセットは、４サイクルにわたって取得された１６画像のグループであり得る。

塩基は、ヌクレオチド塩基又はヌクレオチド、（アデニン）、Ｃ（シトシン）、Ｔ（チミン）、又はＧ（グアニン）を指す。本出願は、「塩基（複数可）」及び「ヌクレオチド（複数可）」を互換的に使用する。

用語「染色体」は、ＤＮＡ及びタンパク質成分（特にヒストントン）を含むクロマチンストランドに由来する、生きている細胞の本発明の有効性を有する遺伝子キャリアを指す。本明細書では、従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。

「部位」という用語は、参照ゲノム上の固有の位置（例えば、染色体ＩＤ、染色体位置及び配向）を指す。いくつかの実施態様では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。用語「遺伝子座」は、参照染色体上の核酸配列又は多型の特定の位置を指すために使用されてもよい。

本明細書における用語「試料」は、典型的には、配列決定及び／又はフェーズドされる核酸を含有する生物液、細胞、組織、器官、又は生物に由来するサンプル、又は配列決定及び／又はフェーズドされる核酸配列を少なくとも１つ含有する核酸の混合物に由来するサンプルを指す。このような試料としては、痰／口腔流体、羊水、血液、血液画分、細針生検試料（例えば、外科生検、針生検など）、尿、腹膜流体、胸膜流体、組織外植片、臓器培養物、及びこれらの任意の他の組織若しくは細胞調製物、又はこれらの画分若しくは誘導体が挙げられるが、これらに限定されない。サンプルは、多くの場合、ヒト被験者（例えば、患者）から採取されるが、試料は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない、染色体を有する任意の生物から採取することができる。試料は、生物学的源から得られるように、又は試料の特性を修正する前処理後に、直接使用することができる。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法には、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解などを含んでもよいが、これらに限定されない。

用語「配列」は、互いに結合されたヌクレオチドの鎖を含むか、又はそれを表す。ヌクレオチドは、ＤＮＡ又はＲＮＡに基づくことができる。１つの配列は、複数のサブ配列を含んでもよいことを理解されたい。例えば、単一の配列（例えば、ＰＣＲアンプリコン）は、３５０ヌクレオチドを有してもよい。サンプル読み取りは、これらの３５０ヌクレオチド内に複数のサブ配列を含んでもよい。例えば、サンプル読み取りは、例えば、２０－５０ヌクレオチドを有する第１及び第２のフランキングサブ配列を含んでもよい。第１及び第２の隣接するサブ配列は、対応するサブ配列（例えば、４０－１００ヌクレオチド）を有する反復セグメントの両側に位置してもよい。隣接するサブ配列のそれぞれは、プライマーサブ配列（例えば、１０－３０ヌクレオチド）を含んでもよい（又はその一部を含み得る）。読書を容易にするために、用語「サブ配列」は「配列」と称されるが、２つの配列は、共通のストランド上で互いに別個である必要はないことが理解される。本明細書に記載の様々な配列を区別するために、配列は、異なる標識（例えば、標的配列、プライマー配列、隣接配列、参照配列など）を与えられてもよい。「対立遺伝子」などの他の用語は、同様の物体を区別するために異なるラベルを与えられてもよい。アプリケーションは、「読み取り（単数又は複数）」及び「配列読み取り（単数又は複数）」を互換的に使用する。

用語「ｐａｉｒｅｄｅｎｄｓｅｑｕｅｎｃｉｎｇ」は、標的フラグメントの両端を配列する配列決定方法を指す。ペレッドエンド配列決定は、ゲノム再構成及び反復セグメントの検出、並びに遺伝子融合及び新規転写物の検出を容易にし得る。パイレッドエンド配列決定の方法は、国際公開第０７０１０２５２号、ＰＣＴ出願第ＰＣＴＧＢ２００７／００３７９８号、及び米国特許出願公開第２００９／００８８３２７号に記載されており、これらはそれぞれ参照により本明細書に組み込まれる。一実施例では、一連の操作は、以下のように実施されてもよく、（ａ）核酸のクラスターを生成する、（ｂ）核酸を直鎖化すること、（ｃ）第１の配列決定プライマーをハイブリダイズし、伸長の繰り返しサイクル、走査及び脱ブロッキングを行う。（ｄ）相補的なコピーを合成することによって、フロー細胞表面上の標的核酸を「反転」し、（ｅ）再合成された鎖を直鎖化し、（ｆ）第２配列決定プライマーをハイブリダイズし、伸長の繰り返しサイクル、走査及び脱ブロッキングを行う。反転操作は、ブリッジ増幅の単一サイクルについて上述した試薬を送達することができる。

用語「参照ゲノム」又は「参照配列」は、対象からの識別された配列を参照するために使用され得る任意の生物の部分的又は完全ないずれかの特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くの他の生物が、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎａｔｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖで見出される。「ゲノム」は、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を指す。ゲノムは、ＤＮＡの遺伝子及び非コード配列の両方を含む。参照配列は、それに位置合わせされたリードよりも大きくてもよい。例えば、それは、少なくとも約１００倍大きい、又は少なくとも約１０００倍大きい、又は少なくとも約１０，０００倍大きい、又は少なくとも約１０５倍大きい、又は少なくとも約１０６倍大きい、又は少なくとも約１０７倍大きい場合がある。一実施例では、参照ゲノム配列は、完全長ヒトゲノムのものである。別の例では、参照ゲノム配列は、１３番染色体などの特定のヒト染色体に限定される。いくつかの実施態様では、参照染色体は、ヒトゲノムバージョンｈｇ１９からの染色体配列である。このような配列は、染色体参照配列と呼ばれる場合があるが、用語参照ゲノムは、そのような配列を網羅することを意図している。参照配列の他の例としては、他の種のゲノム、並びに任意の種の染色体、サブ染色体領域（ストランドなど）などが挙げられる。様々な実施態様では、参照ゲノムは、複数の個体に由来するコンセンサース配列又は他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。他の実施態様では、「ゲノム」はまた、ゲノム配列の特定の記憶形式及び表現を使用するいわゆる「グラフゲノム」も被覆する。一実施態様では、グラフゲノムは、線形ファイルにデータを記憶する。別の実施態様では、グラフゲノムは、代替的な配列（例えば、小さな差異を有する染色体の異なるコピー）がグラフ内の異なる経路として記憶されている表現を指す。グラフゲノムの実施に関する更なる情報は、ｈｔｔｐｓ：／／ｗｗｗ．ｂｉｏｒｘｉｖ．ｏｒｇ／ｃｏｎｔｅｎｔ／ｂｉｏｒｘｉｖ／ｅａｒｌｙ／２０１８／０３／２０／１９４５３０．ｆｕｌｌ．ｐｄｆにおいて見出すことができ、その内容は参照によりその全体が本明細書に組み込まれる。

用語「読み取られる」は、ヌクレオチドサンプル又は参照のフラグメントを記述する配列データの集合を指す。用語「読み取られる」は、サンプル読み取り及び／又は参照読み取りを指し得る。典型的には、必ずしもそうではないが、読み取りは、サンプル又は参照における連続的な塩基対の短い配列を表す。読み取りは、サンプル又は参照フラグメントのベース対配列（ＡＴＣＧ）によって記号的に表されてもよい。読み取りが参照配列と一致するか、又は他の基準を満たすかを判定するために、メモリデバイスに記憶され、適切に処理されてもよい。読み取りは、配列決定機器から直接、又はサンプルに関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に位置合わせされ、特異的に割り当てられ得る、より大きな配列又は領域を識別するために使用することができる十分な長さ（例えば、少なくとも約２５ｂｐ）のＤＮＡ配列である。

次世代配列決定法としては、例えば、合成技術（Ｉｌｌｕｍｉｎａ）、ピロ配列決定（４５４）、イオン半導体技術（ＩｏｎＴｏｒｒｅｎｔｓｅｑｕｅｎｃｉｎｇ）、一分子リアルタイム配列決定（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）及びライゲーションによる配列決定（ＳＯＬｉＤ配列決定）が挙げられる。配列決定法に応じて、各読み取りの長さは、約３０ｂｐ～１０，０００ｂｐを超えて変化し得る。例えば、ＳＯＬｉＤシーケンサを用いたＤＮＡ配列決定法は、約５０ｂｐの核酸リードを生成する。別の例では、ＩｏｎＴｏｒｒｅｎｔＳｅｑｕｅｎｃｉｎｇは、最大４００ｂｐの核酸リードを生成し、４５４のピロ配列は、約７００ｂｐの核酸リードを生成する。更に別の例では、単分子リアルタイム配列決定法は、１０，０００ｂｐ～１５，０００ｂｐのリードを生成し得る。したがって、特定の実施態様では、核酸配列のリードは、３０－１００ｂｐ、５０－２００ｂｐ、又は５０－４００ｂｐの長さを有する。

用語「サンプル読み取り」、「サンプル配列」又は「サンプル断片」は、サンプルから対象とするゲノム配列に関する配列データを指す。例えば、サンプル読み取りは、順方向及び逆方向プライマー配列を有するＰＣＲアンプリコンからの配列データを含む。配列データは、任意の選択配列手順から得ることができる。サンプルの読み取りは、例えば、配列単位合成（ＳＢＳ）反応、配列決定・ライゲーション反応、又は反復要素の長さ及び／若しくは同一性を決定することが望ましい任意の他の好適な配列決定方法であり得る。サンプル読み取りは、複数のサンプル読み取りに由来するコンセンサース（例えば、平均又は加重）配列であり得る。特定の実施態様では、参照配列を提供することは、ＰＣＲアンプリコンのプライマー配列に基づいて目的の遺伝子座を識別することを含む。

用語「生フラグメント」は、サンプル読み取り又はサンプル断片内の対象とする指定位置又は二次位置に少なくとも部分的に重なり合う、対象とするゲノム配列の一部の配列データを指す。生産物断片の非限定的な例としては、二重ステッチされた断片、単純なステッチされたフラグメント、及び単純な非ステッチの断片が挙げられる。用語「生」は、生のフラグメントがサンプル読み取りにおける配列データとのいくつかの関係を有する配列データを含むことを示すために使用され、生のフラグメントが、サンプル読み取りにおける潜在的変異体に対応し、かつそれを認証又は確認する支持変異体を示すかどうかに関わらず、使用される。用語「生フラグメント」は、フラグメントが、サンプル読み取りにおける変異型コールを検証する支持変異体を必ずしも含むことを示すものではない。例えば、サンプル読み取りが、第１の変異体を呈するために、変異型コールアプリケーションによって判定されるとき、この変異型コールアプリケーションは、１つ又はそれ以上の生のフラグメントが、サンプル読み取りにおける変異体を考慮して、そうでなければ発生することが予想され得る、対応する種類の「支持」変異体を欠くと判定することができる。

用語「マッピング」、「整列された」、「整列している」、又は「整列する」という用語は、読み取り又はタグを参照配列と比較し、それによって、参照配列が読み取り配列を含むかどうかを判定するプロセスを指す。参照配列が読み取られた場合、読み取りは参照配列にマップされてもよく、又は特定の別の実施態様では、参照配列内の特定の位置にマッピングされてもよい。いくつかの場合において、整列は、読み取りが特定の参照配列のメンバーであるか否か（すなわち、読み取りが参照配列中に存在するか又は存在していないか）かを単に伝える。例えば、ヒト染色体１３についての参照配列に対する読み取りの位置合わせは、１３番染色体の参照配列中に読み取りが存在するかどうかを伝える。この情報を提供するツールは、設定メンバシップ試験機と呼ばれることがある。場合によっては、位置合わせは、読み取り又はタグマップがある参照配列内の位置を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、アライメントは、染色体１３，上にリードが存在することを示してもよく、更に、読み取られたものが染色体１３の特定の鎖及び／又は部位にあることを更に示してもよい。

用語「インデル」は、生物のＤＮＡ中の塩基の挿入及び／又は欠失を指す。マイクロインデルは、１～５０ヌクレオチドの正味変化をもたらすインデルを表す。インデルの長さが３の倍数でない限り、ゲノムの領域をコードする際に、フレームシフト変異が生じる。インデルは、点突然変異と対比することができる。インデル挿入物は、配列からヌクレオチドを欠失させるが、点変異は、ＤＮＡ中の全体的な数を変えることなくヌクレオチドのうちの１つを置き換える置換の形態である。インデルはまた、隣接するヌクレオチドにおける置換として定義され得るＴａｎｄｅｍＢａｓｅ変異（Tandem Base Mutation、ＴＢＭ）と対比することもできる（主に２つの隣接するヌクレオチドで置換されるが、隣接する３つのヌクレオチドでの置換が観察された。

用語「変異体」は、核酸参照とは異なる核酸配列を指す。典型的な核酸配列変異体としては、限定するものではないが、単一のヌクレオチド多型（Single Nucleotide Polymorphism、ＳＮＰ）、短い欠失及び挿入多型（Ｉｎｄｅｌ）、コピー数変動（Copy Number Variation、ＣＮＶ）、マイクロ衛星マーカー、又は短いタンデム反復及び構造変異が挙げられる。体細胞変異体コールは、ＤＮＡサンプル中に低頻度で存在する変異体を識別するための努力である。体細胞変異体のコーリングは、癌治療の文脈において対象となる。癌は、ＤＮＡにおける変異の蓄積によって引き起こされる。腫瘍由来のＤＮＡサンプルは、一般的に不均質であり、いくつかの正常細胞、癌進行の早期段階（より少ない突然変異を伴う）、及び一部の後期細胞（より多くの変異を有する）を含む。この不均一性のため、腫瘍を配列決定するとき（例えば、ＦＦＰＥサンプルから）、体細胞変異は、多くの場合、低頻度で現れる。例えば、ＳＮＶは、所与の塩基を被覆するリードの１０％のみに見られ得る。変異体分類子によって体細胞又は生殖細胞系として分類される変異体は、本明細書では「試験中の変異体」とも称される。

用語「ノイズ」は、配列決定プロセス及び／又は変異型コールアプリケーションにおける１つ又はそれ以上の誤差から生じる、誤りのある変異型コールを指す。

用語「変異体頻度」は、集団内の特定の遺伝子座における対立遺伝子（遺伝子の変異体）の相対頻度を表し、分画又は割合として表される。例えば、分画又は割合は、その対立遺伝子を保有する集団中の全ての染色体の割合であってもよい。一例として、サンプル変異体頻度は、個体から対象となるゲノム配列について得られたリード及び／又はサンプルの数に対応する「集団」にわたって、対象とするゲノム配列に沿った特定の遺伝子座／位置における対立遺伝子／変異体の相対頻度を表す。別の例として、ベースライン変異体頻度は、１つ又はそれ以上のベースラインゲノム配列に沿った特定の遺伝子座／位置における対立遺伝子／変異体の相対頻度を表し、ここで、１つ又はそれ以上のベースラインゲノム配列について得られた、１つ又はそれ以上のベースラインゲノム配列に沿った特定の遺伝子座／位置における対立遺伝子／変異体の相対頻度を表す。

用語「変異型対立遺伝子頻度（Variant Allele Frequency、ＶＡＦ）」は、変異体を標的位置での全体的な被覆率で割った、配列決定されたリードの割合を指す。ＶＡＦは、変異体を保有する配列決定されたリードの割合の尺度である。

用語「位置」、「指定位置」、及び「遺伝子座」は、ヌクレオチド配列内の１つ又はそれ以上のヌクレオチドの位置又は座標を指す。用語「位置」、「指定位置」、及び「遺伝子座」はまた、ヌクレオチドの配列における１つ又はそれ以上の塩基対の位置又は座標を指す。

用語「ハプロタイプ」は、互いに遺伝する染色体上の隣接する部位における対立遺伝子の組み合わせを指す。ハプロタイプは、存在する場合、所与の座の組の間に生じた組み換え事象の数に応じて、１つの遺伝子座、いくつかの座、又は染色体全体であってもよい。

本明細書における「閾値」という用語は、サンプル、核酸、又はその一部（例えば、読み取り）を特徴付けるためのカットオフとして使用される数値又は数値を指す。閾値は、経験的分析に基づいて変化してもよい。閾値は、そのような値を生じさせる源が特定の方法で分類されるべきかどうかを判定するために、測定値又は計算値と比較することができる。閾値は、経験的又は分析的に識別することができる。閾値の選択は、ユーザーが分類を行う必要があることを望む信頼度に依存する。閾値は、特定の目的（例えば、感度及び選択性のバランスのために）選択されてもよい。本明細書で使用するとき、用語「閾値」は、分析の過程が変化し得る点、及び／又はアクションがトリガされ得る点を示す。閾値は、所定の数である必要はない。その代わりに、閾値は、例えば、複数の因子に基づく関数であってもよい。閾値は、状況に適応し得る。更に、閾値は、上限、下限、又は限界間の範囲を示し得る。

いくつかの実施態様では、配列決定データに基づく指標又はスコアは、閾値と比較され得る。本明細書で使用するとき、用語「メトリック」又は「スコア」は、配列決定データから決定された値又は結果を含んでもよく、又は配列決定データから決定された値又は結果に基づく関数を含んでもよい。閾値と同様に、指標又はスコアは、状況に適応し得る。例えば、指標又はスコアは、正規化された値であってもよい。スコア又はメトリックの例として、１つ又はそれ以上の実施態様は、データを分析する際にカウントスコアを使用することができる。計数スコアは、サンプル読み取りの数に基づいてもよい。サンプル読み取りは、サンプル読み取りが少なくとも１つの共通の特性又は品質を有するように、１つ又はそれ以上のフィルタリング段階を経ていてもよい。例えば、計数スコアを決定するために使用されるサンプル読み取りのそれぞれは、参照配列と整列されていてもよく、又は潜在的な対立遺伝子として割り当てられてもよい。共通の特性を有するサンプル読み取りの数をカウントして、読み取りカウントを決定することができる。カウントスコアは、読み取りカウントに基づいてもよい。いくつかの実施態様では、計数スコアは、読み取りカウントと等しい値であってもよい。他の実施例では、計数スコアは、読み取りカウント及び他の情報に基づいてもよい。例えば、計数スコアは、遺伝子座の特定の対立遺伝子の読み取りカウント、及び遺伝子座の合計リード数に基づいてもよい。いくつかの実施態様では、計数スコアは、遺伝子座の読み出しカウント及び以前に得られたデータに基づいてもよい。いくつかの実施態様では、計数スコアは、所定の値間の正規化スコアであってもよい。計数スコアはまた、サンプルの他の遺伝子座からのリードカウントの関数、又は対象となるサンプルと同時に動作された他のサンプルからのリードカウントの関数であってもよい。例えば、計数スコアは、特定の対立遺伝子の読み取りカウント及びサンプル中の他の遺伝子座の読み取りカウント、及び／又は他のサンプルからのリードカウントの関数であってもよい。一例として、他の遺伝子座からのリードカウント及び／又は他のサンプルからのリードカウントを使用して、特定の対立遺伝子についての計数スコアを正規化してもよい。

用語「被覆率」又は「断片被覆率」は、配列の同じフラグメントに対する多数のサンプルリードの計数又は他の尺度を指す。読み取りカウントは、対応するフラグメントをカバーするリードの数のカウントを表し得る。あるいは、被覆率は、履歴知識、サンプルの知識、遺伝子座の知識などに基づく指定された因子を、読み取りカウントに掛けることによって決定されてもよい。

用語「読み取り深さ」（従来、「ｘ」が続く数）は、標的位置における重複アラインメントを伴う配列決定されたリードの数を指す。これは、多くの場合、１組の間隔（エキソン、遺伝子、又はパネルなど）のカットオフを超える平均又は百分率として表現される。例えば、臨床報告は、パネル平均被覆率が、標的化されたベースカバー＞１００×の９８％を有する１，１０５×であると言うことができる。

用語「ベースコール品質スコア」又は「Ｑスコア」は、単一の配列決定された塩基が正しい確率に反比例する０－５０からの範囲のＰＨＲＥＤスケールされた確率を指す。例えば、２０のＱを有するＴベースコールは、９９．９９％の確率で正しいと考えられる。Ｑ＜２０での任意のベースコールは、低品質であると見なされるべきであり、変異体を支持する配列決定されたリードのかなりの割合が低い場合に識別される任意の変異体は、潜在的に偽陽性であると見なされるべきである。

用語「変異体リード」又は「変異体リード番号」は、変異体の存在を支持する配列決定されたリードの数を指す。

「ストリンデディティー」（又はＤＮＡストランド）に関して、ＤＮＡ中の遺伝的メッセージは、文字Ａ、Ｇ、Ｃ、及びＴの文字、例えば、５’－ＡＧＧＡＣＡ－３’として表すことができる。多くの場合、配列は、本明細書に示される方向、すなわち、５’端を左に、３’端を右に書き込む。ＤＮＡは、（特定のウイルスのように）一本鎖分子として生じる場合があるが、通常、二本鎖単位としてＤＮＡを見つける。これは、２つの抗平行ストランドを有する二重螺旋構造を有する。この場合、「逆平行」という語は、２つのストランドが平行に動作するが、反対の極性を有することを意味する。二本鎖ＤＮＡは、塩基とペアリングによって一緒に保持され、ペアリングは、アデニン（Ａ）対がチミン（Ｔ）及びシトシン（Ｃ）対とグアニン（Ｇ）との対となるように、常に保持される。このペアリングは相補性と呼ばれ、１本のＤＮＡ鎖は、他方の相補体であると言われる。したがって、二本鎖ＤＮＡは、これと同様に、２つのストリングとして表され得る。５’－ＡＧＧＡＣＡ－３’及び３’－ＴＣＣＴＧＴ－５’．２つのストランドは、反対の極性を有することに留意されたい。したがって、２つのＤＮＡ鎖のストランド性は、基準ストランド及びその補体、順方向及び逆方向ストランド、トップ及びボトムストランド、センス及びアンチセンスストランド、又はＷａｔｓｏｎ及びＣｒｉｃｋストランドと呼ぶことができる。

リードアライメント（リードマッピングとも呼ばれる）は、ゲノム中の配列が由来する場合に、参照するプロセスである。整列が行われると、所与の読み取りの「マッピング品質」又は「マッピング品質スコア（ＭＡＰＱ）」は、ゲノム上のその位置が正しい確率を定量化する。マッピング品質は、位相スケールで符号化され、Ｐはアライメントが正しくない確率である。確率は、以下のように計算される。Ｐ＝１０^{（－ＭＡＱ／１０）}であり、式中、ＭＡＰＱは、マッピング品質である。例えば、－４の電力に対する４０＝１０のマッピング品質は、読み取りが不正確に位置合わせされた０．０１％の機会が存在することを意味する。したがって、マッピング品質は、読み取りの基本品質、参照ゲノムの複雑性、及びパレッドエンド情報などのいくつかの位置合わせ因子と関連付けられる。最初に、読み取りの基本品質が低い場合、観察された配列が誤っている可能性があり、したがってそのアライメントが誤っていることを意味する。第２に、マッピング能力はゲノムの複雑さを指す。反復領域は、これらの領域に含まれるマップ及びリードをマッピングすることがより困難であり、通常、マッピング品質が低くなる。この文脈では、ＭＡＰＱは、リードが一意的に整列されておらず、それらの実際の原点を決定することができないという事実を反映する。第３に、パリッドエンド配列決定データの場合、コンコダント対は、より良好に整列される可能性が高い。マッピング品質が高いほど、アライメントがより良好である。良好なマッピング品質と整合された読み取りは、通常、読み出し配列が良好であり、高いマッピング可能領域内ではわずかな不一致と位置合わせされたことを意味する。ＭＡＰＱ値は、アライメント結果の品質管理として使用することができる。２０よりも高いＭＡＰＱと位置合わせされたリードの割合は、通常、下流分析のためである。

本明細書で使用するとき、「信号」は、例えば画像内の発光、好ましくは発光などの検出可能な事象を指す。したがって、好ましい別の実施態様では、信号は、画像内に捕捉された任意の検出可能な発光（すなわち、「スポット」）を表すことができる。したがって、本明細書で使用するとき、「信号」は、検体の検体からの実際の放出の両方を指すことができ、実際の検体と相関しない擬似発光を指すことができる。したがって、信号はノイズから生じ得、試験片の実際の検体を代表しないように後に廃棄することができる。

本明細書で使用するとき、用語「塊」は、一群の信号を指す。特定の実施態様では、信号は、異なる検体に由来する。好ましい別の実施態様では、信号塊は、一緒にクラスター化する信号群である。より好ましい実施態様では、シグナル凝集は、１つの増幅オリゴヌクレオチドによって覆われた物理的領域を表す。各信号塊は、理想的には、いくつかの信号（テンプレートサイクル当たり１つ、恐らくはクロストークによってより多く）として観察されるべきである。したがって、２つ（又はそれ以上）の信号が同じ信号の塊からテンプレートに含まれる、重複する信号が検出される。

本明細書で使用するとき、「最小」、「最大」、「最小化」、「最大化」、及びその文法的変異形などの用語は、絶対最大値又は最小値ではない値を含むことができる。いくつかの実施態様では、値は、最大値及び最小値付近を含む。他の実施例では、値は、局所的最大値及び／又は局所最小値を含むことができる。いくつかの実施態様では、値は、絶対最大値又は最小値のみを含む。

本明細書で使用するとき、「クロストーク」は、別個の画像においても検出される１つの画像内の信号の検出を指す。好ましい別の実施態様では、クロストークは、放出された信号が２つの別個の検出チャネルで検出されるときに発生し得る。例えば、放射された信号が１つの色で発生する場合、その信号の放射スペクトルは、別の色で別の放射された信号と重なってもよい。好ましい実施態様では、ヌクレオチド塩基Ａ、Ｃ、Ｇ、及びＴの存在を示すために使用される蛍光分子は、別個のチャネルで検出される。しかし、Ａ及びＣの発光スペクトルは重複するため、色チャネルを使用した検出中に、Ｃ色信号の一部が検出され得る。したがって、Ａ信号とＣ信号との間のクロストークにより、１つのカラー画像からの信号が他のカラー画像に現れることを可能にする。いくつかの実施態様では、Ｇ及びＴクロストークがある。いくつかの実施態様では、チャネル間のクロストークの量は非対称である。チャネル間のクロストークの量は、とりわけ、適切な放射スペクトルを有する信号分子の選択、並びに検出チャネルのサイズ及び波長範囲の選択によって制御され得ることが理解されるであろう。

本明細書で使用するとき、「レジスタ」、「登録」、「登録」、及び同様の用語は、画像又はデータセット内の信号を、別の時点又は視点からの画像又はデータセット内の信号と相関させるための任意のプロセスを指す。例えば、位置合わせを使用して、画像のセットからの信号を整列させてテンプレートを形成することができる。別の例では、位置合わせを使用して、他の画像からの信号をテンプレートに位置合わせすることができる。１つの信号は、別の信号に直接又は間接的に登録されてもよい。例えば、画像「Ｓ」からの信号は、画像「Ｇ」に直接登録されてもよい。別の例として、画像「Ｎ」からの信号は、画像「Ｇ」に直接登録されてもよく、あるいは、画像「Ｎ」からの信号は、以前に画像「Ｇ」に登録された画像「Ｓ」に登録されてもよい。したがって、画像「Ｎ」からの信号は、画像「Ｇ」に間接的に登録される。

本明細書で使用するとき、用語「基準」は、物体内又は物体上の区別可能な基準点を意味することを意図する。基準点は、例えば、マーク、第２の物体、形状、縁部、領域、不規則性、チャネル、ピット、ポストなどであり得る。基準点は、オブジェクトの画像内に、又はオブジェクトを検出することに由来する別のデータセット内に存在することができる。基準点は、物体の平面内のｘ及び／又はｙ座標によって指定することができる。代替的に又は追加的に、基準点は、例えば、物体と検出器との相対位置によって定義される、ｘｙ平面に直交するｚ座標によって指定することができる。基準点に対する１つ又はそれ以上の座標は、オブジェクトの１つ又はそれ以上の他の検体、又はオブジェクトに由来する画像又は他のデータセットに対して指定することができる。

本明細書で使用するとき、用語「光信号」は、例えば、蛍光、発光、散乱、又は吸収信号を含むことを意図する。光信号は、紫外線（Ultraviolet、ＵＶ）範囲（約２００～３９０ｎｍ）、可視（Visible、ＶＩＳ）範囲（約３９１～７７０ｎｍ）、赤外線（Infrared、ＩＲ）範囲（約０．７７１～２５マイクロメートル）、又は電磁スペクトルの他の範囲で検出することができる。これらの範囲のうちの１つ又はそれ以上の全て又は一部を除外する方法で、光信号を検出することができる。

本明細書で使用するとき、用語「信号レベル」は、所望又は所定の特性を有する検出されたエネルギー又は符号化された情報の量又は量を意味することを意図する。例えば、光信号は、強度、波長、エネルギー、周波数、電力、輝度などのうちの１つ又はそれ以上によって定量化することができる。他の信号は、電圧、電流、電界強度、磁場強度、周波数、電力、温度などの特性に従って定量化することができる。信号の不在は、ゼロの信号レベル、又はノイズとは有意に区別されない信号レベルであると理解される。

本明細書で使用するとき、用語「シミュレートする」は、物理又は行動の特性を予測する物理的又は行動の表現又はモデルを作成することを意味することを意図する。表現又はモデルは、多くの場合、そのもの又は行動と区別可能であり得る。例えば、表現又はモデルは、色、被加工、サイズ、又は形状の全て又は一部から検出される信号の強度などの１つ又はそれ以上の特性に対するものと区別することができる。特定の実施態様では、表現又はモデルは、何か又は行為と比較して、理想化、誇張、ミュート、又は不完全であり得る。したがって、いくつかの実施態様では、モデルの表現は、例えば、上記の特性のうちの少なくとも１つに関して表すものであることを表すものであることができる。表現又はモデルは、本明細書の他の箇所に記載されるもののうちの１つ又はそれ以上などのコンピュータ可読フォーマット又は媒体に提供され得る。

本明細書で使用するとき、用語「特定の信号」は、背景エネルギー又は情報などの他のエネルギー又は情報にわたって選択的に観察される、検出されたエネルギー又は符号化情報を意味することを意図する。例えば、特定の信号は、特定の強度、波長、若しくは色で検出される光信号、特定の周波数、電力若しくは場強度で検出される電気信号、又は分光及び分析検出に関する技術分野において既知の他の信号であり得る。

本明細書で使用するとき、用語「スイング」は、物体の矩形部分を意味することを意図する。スイングは、ストリップの最長寸法に平行な方向に、物体と検出器との間の相対移動によって走査される細長いストリップであり得る。一般に、矩形部分又はストリップの幅は、その全長に沿って一定である。物体の複数のスエージは、互いに平行であってもよい。物体の複数のスエージは、互いに重なり合い、互いに隣接するか、又は間質領域によって互いに分離され得る。

本明細書で使用するとき、用語「分散」は、予想される差、及び観察される差、又は２つ又はそれ以上の観測結果間の差を意味することを意図する。例えば、分散は、期待値と測定値との間の不一致であり得る。標準偏差、標準偏差の二乗、変動係数などの統計関数を使用して、分散を表すことができる。

本明細書で使用するとき、用語「ｘｙ座標」は、ｘｙ平面内の位置、サイズ、形状、及び／又は向きを指定する情報を意味することを意図する。情報は、例えば、デカルトシステムにおける数値座標であり得る。座標は、ｘ軸及びｙ軸の一方又は両方に対して提供することができ、又はｘｙ平面内の別の場所に対して提供することができる。例えば、物体の検体の座標は、対象物の基準又は他の検体の位置に対する検体の場所を指定することができる。

本明細書で使用するとき、用語「ｘｙ平面」は、直線軸ｘ及びｙによって画定される２次元領域を意味することを意図する。検出器及び検出器によって観察される物体を参照して使用される場合、検出器と検出されている物体との間の観測方向に直交するように更に指定することができる。

本明細書で使用するとき、用語「ｚ座標」は、ｘｙ平面に直交する軸に沿った点、線、又は領域の位置を指定する情報を意味することを意図する。特定の別の実施態様では、ｚ軸は、検出器によって観察される物体の領域に直交する。例えば、光学系の焦点の方向は、ｚ軸に沿って指定されてもよい。

いくつかの実施態様では、獲得された信号データは、アフィン変換を用いて変換される。いくつかのそのような実施態様では、テンプレートの生成は、色チャネル間のアフィン変換が動作間に一貫しているという事実を使用する。この一貫性のため、標本中の検体の座標を決定する際に、デフォルトオフセットのセットを使用することができる。例えば、デフォルトオフセットファイルは、Ａチャネルなどの１つのチャネルに対する異なるチャネルに対する相対変換（シフト、スケール、スキュー）を含むことができる。しかしながら、他の実施態様では、動作中及び／又は動作間の色チャネルドリフト間のオフセットは、オフセット駆動型テンプレート生成を困難にする。このような実施例では、本明細書で提供される方法及びシステムは、オフセットしたテンプレート生成を利用することができ、これについては以下で更に説明する。

上記の実施態様のいくつかの態様では、システムはフローセルを含み得る。一部の態様では、フローセルは、レーン、又は他の構成のタイルを含み、タイルの少なくとも一部は、１つ又はそれ以上の検体群を含む。一部の態様では、検体は、核酸などの複数の分子を含む。特定の態様では、フローセルは、標識されたヌクレオチド塩基を核酸の配列に送達し、それによって、核酸を含む検体に対応するシグナルを生成するように、検体内の核酸にハイブリダイズするプライマーを伸長させるように構成される。好ましい実施態様では、検体内の核酸は、互いに同一又は実質的に同一である。

本明細書に記載される画像解析システムのいくつかにおいて、画像のセット内の各画像は、色信号を含み、異なる色は、異なるヌクレオチド塩基に対応する。一部の態様では、画像のセットの各画像は、少なくとも４つの異なる色から選択される単一の色を有する信号を含む。一部の態様では、画像のセット内の各画像は、４つの異なる色から選択される単一の色を有する信号を含む。本明細書に記載されるシステムのいくつかにおいて、核酸は、４つの異なる画像を生成するように、４つの異なる標識ヌクレオチド塩基を分子の配列に提供することにより、核酸を配列決定することができ、各画像は単一の色を有するシグナルを含み、信号色が、４つの異なる画像のそれぞれに対して異なることにより、核酸内の特定の位置に存在する４つの可能なヌクレオチドに対応する４つのカラー画像のサイクルを生成する、方法。特定の態様では、システムは、追加の標識ヌクレオチド塩基を分子の配列に送達するように構成されたフローセルを含み、それによって複数のカラー画像のサイクルを生成する。

好ましい実施態様形態では、本明細書で提供される方法は、プロセッサがアクティブにデータを取得しているか、又はプロセッサが低活動状態にあるかどうかを判定することを含み得る。多数の高品質画像を取得及び記憶することは、典型的には、大量の記憶容量を必要とする。更に、取得され記憶されると、画像データの分析はリソース集約的になり得、追加の画像データの取得及び記憶などの他の機能の処理能力を妨げる可能性がある。したがって、本明細書で使用するとき、用語「低活動状態」は、所与の時間におけるプロセッサの処理能力を指す。いくつかの実施態様では、低活動状態は、プロセッサがデータを取得及び／又は記憶していないときに生じる。いくつかの実施態様では、一部のデータ取得及び／又はストレージが行われる場合には、低いアクティビティ状態が生じるが、他の機能に干渉することなく画像解析が同時に生じ得るように、追加の処理能力が残る。

本明細書で使用するとき、「競合を識別する」とは、複数のプロセスがリソースに対して競合する状況を識別することを指す。いくつかのそのような実施態様では、１つのプロセスは、別のプロセスに対して優先度を与えられる。いくつかの実施態様では、競合は、時間、処理能力、記憶能力、又は優先度が与えられる任意の他のリソースの割り当てに対する優先度を与える必要性に関連し得る。したがって、いくつかの実施態様では、処理時間又は容量が、データセットを分析し、データセットを取得及び／又は記憶するかのいずれかなどの２つのプロセス間に分散される場合、２つのプロセス間の不一致が存在し、プロセスのうちの１つに優先度を与えることによって解決することができる。

本明細書では、画像解析を実行するためのシステムも提供される。システムは、プロセッサと、記憶容量と、画像解析用のプログラムと、を含むことができ、プログラムは、記憶のための第１のデータセット及び分析のための第２のデータセットを処理するための命令を含み、処理は、記憶装置上の第１のデータセットを取得及び／又は記憶することと、プロセッサが第１のデータセットを取得していないときに第２のデータセットを解析することと、を含む。特定の態様では、プログラムは、第１のデータセットを取得及び／又は記憶することと、第２のデータセットを解析することとの間の競合の少なくとも１つのインスタンスを識別するための命令を含み、第１のデータセットを取得及び／又は記憶することが優先度を与えられるように、画像データを取得及び／又は記憶することが優先される。特定の態様では、第１のデータセットは、光学撮像装置から取得された画像ファイルを含む。特定の態様では、システムは、光学撮像装置を更に備える。一部の態様では、光学撮像装置は、光源と検出デバイスとを備える。

本明細書で使用するとき、用語「プログラム」は、タスク又はプロセスを実行するための命令又はコマンドを指す。用語「プログラム」は、用語「モジュール」と互換的に使用され得る。特定の実施態様では、プログラムは、同じコマンドセットの下で実行される様々な命令のコンパイルであり得る。他の実施態様では、プログラムは、別個のバッチ又はファイルを参照することができる。

以下に記載されるのは、本明細書に記載される画像解析を実行するための方法及びシステムを利用する驚くべき効果の一部である。いくつかの配列決定の実現例では、配列決定システムの有用性の重要な尺度は、その全体的な効率である。例えば、１日当たりに生成されるマッピング可能なデータの量、並びに器具の設置及び動作の総コストは、経済的な配列決定ソリューションの重要な態様である。マッピング可能なデータを生成し、システムの効率を高めるための時間を短縮するために、リアルタイムのベースコールを機器コンピュータ上で有効にすることができ、配列決定ケミストリー及び画像化と並行して動作することができる。これにより、配列決定化学仕上げの前に、データ処理及び分析が完了することを可能にする。更に、中間データに必要な記憶を低減し、ネットワークを横切って移動する必要があるデータの量を制限することができる。

配列出力が増加している間、本明細書で提供されるシステムからネットワークに転送された動作ごとのデータ、及び二次分析処理ハードウェアは、実質的に減少している。機器コンピュータ（取得コンピュータ）上でデータを変換することにより、ネットワークロードが劇的に低減される。これらのオン機器、オフネットワークデータ低減技術を伴わずに、ＤＮＡ配列決定機器のフレットの画像出力は、ほとんどのネットワークをクリップルするであろう。

ハイスループットＤＮＡ配列決定機器の広範な採用は、使用の容易さ、用途の範囲に対する支持、及び実質的に任意のｌａｂ環境に対する適合性によって、部分的に駆動されてきた。本明細書に提示される高度に効率的なアルゴリズムは、配列決定インスツルメントを制御することができる単純なワークステーションに、有意な分析機能を加えることを可能にする。計算ハードウェアの必要条件のこの低減は、配列決定出力レベルが増加し続けるにつれて、更に重要となる、いくつかの実用的な利点を有する。例えば、単純なタワー、熱生成、実験室設置面積、及び電力消費を最小限に抑えるために、画像解析及びベースコールを行うことによって、最小に保たれる。対照的に、他の商業的な配列決定技術は、１次分析のために、最大５回の処理電力で、そのコンピューティングインフラストラクチャを最近ランプアップして、熱出力及び電力消費の増加を開始する。したがって、いくつかの実施態様では、本明細書で提供される方法及びシステムの計算効率は、サーバハードウェアを最小限に抑えながら、それらの配列決定スループットを増加させることを可能にする。

したがって、いくつかの実施態様では、本明細書に提示される方法及び／又はシステムは、状態マシンとして機能し、各試料の個々の状態の追跡を保ち、試料が次の状態に進む準備ができていることを検出すると、適切な処理を行い、試料をその状態に前進させる。状態マシンがファイルシステムを監視して、好ましい実施例に従って試料が次の状態に進む準備ができているかを判定する方法のより詳細な例が、以下の実施例１に記載されている。

好ましい実施態様では、本明細書で提供される方法及びシステムは、マルチスレッドであり、構成可能な数のスレッドと協働することができる。したがって、例えば、核酸配列決定の文脈において、本明細書で提供される方法及びシステムは、リアルタイム分析のためのライブ配列決定動作中に背景において作用することができ、又はオフライン分析のために既存の画像データセットを使用して動作することができる。特定の好ましい実施態様では、方法及びシステムは、それぞれのスレッドを、それが関与する検体のそれ自体のサブセットを与えることによって、マルチスレッドを取り扱う。これにより、スレッド保持の可能性が最小限に抑えられる。

本開示の方法は、検出装置を使用して物体の標的画像を取得する工程を含むことができ、この画像は、オブジェクト上の検体の繰り返しパターンを含む。表面の高解像度撮像が可能な検出装置が特に有用である。特定の実施態様では、検出装置は、本明細書に記載される密度、ピッチ、及び／又は検体サイズにおける検体を区別するのに十分な分解能を有するであろう。表面から画像又は画像データを得ることができる検出装置が特に有用である。例示的な検出器は、物体と検出器とを静的関係に維持しつつ、面積画像を取得するように構成されたものである。走査装置も使用することができる。例えば、連続領域画像を取得する装置（例えば、「ステップ及びショット」検出器と呼ばれる）を使用することができる。また、物体の表面上の点又は線を連続的に走査して、表面の画像を構築するためにデータを蓄積するデバイスも有用である。点走査検出器は、表面のｘ－ｙ平面内のラスタ運動を介してオブジェクトの表面上の点（すなわち、小さい検出領域）を走査するように構成することができる。線走査検出器は、物体の表面のｙ次元に沿った線を走査するように構成することができ、この線の最長寸法は、ｘ次元に沿って生じる。検出デバイス、物体、又はその両方を移動させて、走査検出を達成できることが理解されるであろう。例えば核酸配列決定用途において特に有用な検出装置は、米国特許出願公開第２０１２／０２７０３０５号明細書、米国特許出公開願第２０１３／００２３４２２号明細書、及び米国特許出公開願第２０１３／０２６０３７２号明細書、及び米国特許第５，５２８，０５０号明細書、米国特許第５，７１９，３９１号明細書、米国特許第８，１５８，９２６号明細書及び米国特許第８，２４１，５７３号明細書に記載されており、これらはそれぞれ、参照により本明細書に組み込まれる。

本明細書に開示される実施態様は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組み合わせを生成するためのプログラミング技術又は工学技術を使用して、製造方法、装置、システム、又は物品として実装されてもよい。本明細書で使用するとき、用語「製造物品」は、光学記憶デバイスなどのハードウェア又はコンピュータ可読媒体、並びに揮発性又は不揮発性メモリデバイス内に実施態様されるコード又は論理を指す。そのようなハードウェアとしては、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、粗粒度再構成可能構造（ＣＧＲＡ）、特定用途向け集積回路（ＡＳＩＣ）、複合プログラマブル論理デバイス（Complex Programmable Logic Device、ＣＰＬＤ）、プログラマブルロジックアレイ（Programmable Logic Array、ＰＬＡ）、マイクロプロセッサ、又は他の同様の処理装置が挙げられるが、これらに限定されない。特定の実施態様では、本明細書に記載される情報又はアルゴリズムは、非一過性記憶媒体中に存在する。

特定の実施態様形態では、本明細書に記載されるコンピュータ実装の方法は、物体の複数の画像が取得されている間、リアルタイムで発生することができる。このようなリアルタイム分析は、核酸配列が流体及び検出工程の繰り返しサイクルに供される核酸配列決定用途に特に有用である。配列決定データの分析は、多くの場合、本明細書に記載される方法をリアルタイム又は背景で実行するのに有益であり得る一方で、他のデータ獲得又は分析アルゴリズムがプロセス中である間に、本明細書に記載される方法を実行することが有益であり得る。本方法で使用することができるリアルタイム分析法の例は、Ｉｌｌｕｍｉｎａ，Ｉｎｃ（ＳａｎＤｉｅｇｏ，Ｃａｌｉｆ．）から市販されており、及び／又は、参照により本明細書に組み込まれる米国特許出願公開第２０１２／００２０５３７号明細書に記載されているＭｉＳｅｑ及びＨｉＳｅｑ配列決定機器に使用されるものである。

１つ又はそれ以上のプログラムされたコンピュータによって形成され、本明細書に記載される方法の１つ又はそれ以上の工程を実行するために実行されるコードを有するプログラミングが、１つ又はそれ以上の機械可読媒体上に記憶されている、例示的データ分析システム。一実施態様では、例えば、システムは、標的オブジェクトからデータを取得するように構成された１つ又はそれ以上の検出システム（例えば、光学撮像システム）へのシステムのネットワーキングを可能にするように設計されたインターフェースを含む。インターフェースは、適切な場合には、データを受信及び条件することができる。特定の実施態様では、検出システムは、例えば、アレイ又は他の物体の画像を一緒に形成する個々の画像要素又はピクセルを表す画像データを出力する。プロセッサは、処理コードによって定義された１つ又はそれ以上のルーチンに従って、受信した検出データを処理する。処理コードは、様々な種類のメモリ回路に記憶されてもよい。

現時点で企図される実施態様によれば、検出データ上で実行される処理コードは、検出データを分析して、データ内で可視又は符号化された個々の検体の場所、及び検体が検出されない場所（すなわち、検体が存在しないか、又は、既存の検体から有意な信号が検出されない場所）及びメタデータを判定するように設計されたデータ分析ルーチンを含む。特定の実施態様では、アレイ内の検体位置は、典型的には、撮像された検体に付着した蛍光染料の存在に起因して、非検体位置よりも明るく見える。検体は、例えば、検体におけるプローブの標的が検出されているアレイ内に存在しない場合、検体は、それらの周囲領域よりも明るく見える必要はないことが理解されるであろう。個々の検体が現れる色は、使用される染料、並びに撮像目的のために撮像システムによって使用される光の波長の関数であり得る。標的が結合されていない、又は特定のラベルを有さない検体は、マイクロアレイ内の予想される場所などの他の特性に従って識別することができる。

データ分析ルーチンがデータ中に個々の検体を配置すると、値割り当てが実行され得る。一般に、値割り当ては、対応する場所における検出器構成要素（例えば、ピクセル）によって表されるデータの特性に基づいて、各検体にデジタル値を割り当てる。すなわち、例えば、画像化データが処理されるとき、値割り当てルーチンは、特定の場所で特定の色又は波長の光が特定の場所で検出されたことを認識するように設計されてもよい。典型的なＤＮＡ画像化用途では、例えば、４つの共通ヌクレオチドは、４つの別個の区別可能な色によって表される。次いで、各色は、そのヌクレオチドに対応する値を割り当てられてもよい。

本明細書で使用するとき、用語「モジュール」、「システム」、又は「システムコントローラ」は、１つ又はそれ以上の機能を実行するように動作するハードウェア及び／又はソフトウェアシステム及び回路を含み得る。例えば、モジュール、システム、又はシステムコントローラは、コンピュータメモリなどの有形及び非一時的コンピュータ可読記憶媒体上に記憶された命令に基づいて動作を実行する、コンピュータプロセッサ、コントローラ、又は他のログベースのデバイスを含んでもよい。あるいは、モジュール、システム、又はシステムコントローラは、有線論理及び回路に基づいて動作を実行する、有線デバイスを含んでもよい。添付の図面に示されるモジュール、システム、又はシステムコントローラは、ソフトウェア又は結線命令に基づいて動作するハードウェア及び回路、ハードウェアを動作させるように命令するソフトウェア、又はそれらの組み合わせを表し得る。モジュール、システム、又はシステムコントローラは、１つ又はコンピュータマイクロプロセッサなどの１つ又はそれ以上のプロセッサを含む、及び／又はそれと接続されるハードウェア回路又は回路を含むか、又は表すことができる。

本明細書で使用するとき、用語「ソフトウェア」及び「ファームウェア」は互換可能であり、ＲＡＭメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、及び不揮発性ＲＡＭ（ＮＶＲＡＭ）メモリを含むコンピュータによって実行されるメモリに記憶された任意のコンピュータプログラムを含む。上記メモリタイプは単なる例であり、コンピュータプログラムの記憶に使用可能なメモリの種類に限定されるものではない。

分子生物学分野では、使用中の核酸配列決定のためのプロセスの１つは、配列番号合成である。この技術は、非常に平行な配列決定プロジェクトに適用することができる。例えば、自動プラットフォームを使用することにより、数百万の配列決定反応を同時に行うことが可能である。したがって、本発明の実施態様の１つは、核酸配列決定中に生成された画像データを取得、記憶、及び分析するための器具及び方法に関する。

取得及び記憶することができるデータ量の莫大なゲインは、合理化された画像解析方法を更により有益にする。例えば、本明細書に記載される画像解析方法は、設計者及びエンドユーザーの両方が、既存のコンピュータハードウェアの効率的な使用を行うことを可能にする。したがって、本明細書では、迅速に増加するデータ出力の面における処理データの計算量を低減する方法及びシステムが本明細書に提示される。例えば、ＤＮＡ配列決定の分野では、収率は最近の過程で１５倍に拡大され、ＤＮＡ配列決定デバイスの単一の動作において何百ギガーゼに達する可能性がある。計算インフラストラクチャの要件が比例的に増加した場合、大規模なゲノム規模の実験は、ほとんどの研究者に到達していない。したがって、より多くの生配列データの生成は、二次分析及びデータ記憶の必要性を増加させ、データ輸送及び記憶の最適化を非常に有益にする。本明細書に提示される方法及びシステムのいくつかの実施態様は、使用可能な配列データを生成するために必要な時間、ハードウェア、ネットワーキング、及び実験室インフラストラクチャ要件を低減することができる。

本開示は、方法を実行するための様々な方法及びシステムを説明する。方法のいくつかの例は、一連の工程として記載される。しかしながら、実施態様は、本明細書に記載される特定の工程及び／又は工程の順序に限定されないことを理解されたい。工程は省略されてもよく、工程は修正されてもよく、及び／又は他の工程が追加されてもよい。更に、本明細書に記載される工程を組み合わせることができ、工程は同時に実行されてもよく、工程は同時に実行されてもよく、工程は複数のサブ工程に分割されてもよく、工程は、異なる順序で実行されてもよく、又は工程（又は一連の工程）は、反復的に再実行されてもよい。加えて、本明細書には異なる方法が記載されているが、他の実施態様では、異なる方法（又は異なる方法の工程）を組み合わせてもよいことを理解されたい。

いくつかの実施態様では、タスク又は動作を実行するように「構成された」処理ユニット、プロセッサ、モジュール、又はコンピューティングシステムは、タスク又は動作を実行するように特に構造化されていると理解され得る（例えば、タスク又は動作を実行するように調整又は意図された、及び／又はタスク若しくは動作を実行するように調整若しくは意図された１つ又はそれ以上のプログラム又は命令を有すること、及び／又はタスク若しくは動作を実行するように調整又は意図された処理回路の配置を有する）。明確さ及び疑義の回避のために、汎用コンピュータ（適切にプログラムされた場合にタスク又は動作を実行するように構成された」となり得る）汎用コンピュータは、タスク又は動作を実行するために具体的にプログラム又は構造的に変更されない限り、タスク又は動作を実行するように「構成されている」ように構成されていない）。

更に、本明細書に記載される方法の操作は、操作が、商業的に妥当な時間期間内に、当業者には、平均的なヒト又は当業者によって実施されることができないように、十分に複雑であり得る。例えば、本方法は、そのような人が商業的に妥当な時間内で方法を完了できないように、比較的複雑な計算に依存し得る。

本出願全体を通して、様々な刊行物、特許、又は特許出願が参照されている。これらの出版物の全体の開示は、本発明が属する技術分野の状態をより完全に説明するために、本出願において参照により本明細書に組み込まれる。

用語「含む（comprising）」は、本明細書では、列挙された要素のみならず、任意の追加の要素を更に包含する、オープンエンドであることが意図される。

本明細書で使用するとき、用語「それぞれ」は、項目の集合を参照して使用されるとき、集合内の個々の項目を識別することを意図しているが、必ずしも集合内の全ての項目を指すものではない。明示的な開示又は文脈がそうでないことを明確に指示する場合、例外が生じ得る。

上記の実施例を参照して本発明を説明したが、本発明から逸脱することなく様々な修正を行うことができることを理解されたい。

本出願のモジュールは、ハードウェア又はソフトウェアで実装することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかは、異なるプロセッサ若しくはコンピュータ上に実装されてもよく、又は多数の異なるプロセッサ若しくはコンピュータの中で広がることもできる。加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。また、本明細書で使用するとき、用語「モジュール」は、モジュールを構成するために本明細書で考慮することができる、「サブモジュール」を含むことができる。モジュールとして指定された図のブロックはまた、方法におけるフローチャート工程と考えることができる。

本明細書で使用するとき、情報項目の「識別」は、その情報の項目の直接仕様を必ずしも必要としない。情報は、単に、一方向の１つ又はそれ以上の層を通じた実際の情報を単に参照することによって、又は情報の実際の項目を決定するのに十分である異なる情報の１つ又はそれ以上のアイテムを識別することによって、フィールド内で「識別され得る」ことができる。加えて、用語「指定する」は、本明細書では、「識別する」と同じであることを意味する。

本明細書で使用するとき、所与の信号、イベント又は値は、「前デセサー信号、イベント又は前デセサー信号の値、所与の信号、イベント、又は値によって影響されるイベント又は値に依存する。介在処理要素、工程又は期間が存在する場合、所与の信号、イベント、又は値は、「前デセサー信号、イベント又は値」に依存して「存在する」ことができる。介在処理要素又は工程が２つ又はそれ以上の信号、イベント、又は値を組み合わせる場合、処理要素又は工程の信号出力は、「信号、イベント、又は値入力のそれぞれ」に依存していると見なされる。所与の信号、イベント又は値が前デセサー信号、イベント又は値と同じである場合、これは単に、所与の信号、イベント、又は値が「前デセサー信号、イベント又は値」に依存して「依存して」又は「依存して」又は「ベースデセサー信号、イベント又は値」に基づいて、「依存して」又は「依存する」と見なされる。別の信号、イベント又は値に対する所与の信号、イベント、又は値の「応答性」は、同様に定義される。

本明細書で使用するとき、「並行して」又は「並行して」は、正確な同時性を必要としない。個人の１人の評価が、個人の別の評価が完了する前に開始する場合に十分である。
（特定の改善）

我々は、ニューラルネットワークベースのテンプレート生成及びニューラルネットワークベースのベースコールの様々な実施態様を説明している。実施態様の１つ又はそれ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の１つ又はそれ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザーを定期的に通知する。これらの選択肢を繰り返す列挙のいくつかの実施態様からの省略は、前述のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記載は、以下の実施のそれぞれに参照することにより本明細書に組み込まれる。
（サブピクセルベースコール）

我々は、フローセルのタイル上の検体についてメタデータを決定するコンピュータ実装の方法を開示している。本方法は、配列決定動作中に生成された一連の画像セットにアクセスすることを含み、各画像セットは、配列決定動作のそれぞれの配列決定サイクル中に生成されたシリーズ内に設定された一連の画像セットにアクセスすることを含み、シリーズ中の各画像は複数のサブピクセルを有する。本方法は、ベースコーラーから、４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）のうちの１つとしてサブピクセルのそれぞれを分類するベースコールを取得することを含み、それによって、配列決定動作の複数の配列決定サイクルにわたってサブピクセルのそれぞれに対してベースコール配列を生成することを含む。本方法は、実質的に一致するベースコール配列を共有する連続するサブピクセルの不連続領域として検体を識別する検体マップを生成することを含む。本方法は、不連続領域に基づいて、それらの形状及びサイズを含む検体の空間分布を決定することと、分類子を訓練するためのグラウンドトゥルースとして使用するために、メモリに検体マップを記憶することと、を含む。

開示されるこのセクション及び技術の他のセクションに記載される方法は、開示される追加の方法に関連して説明される以下の特徴及び／又は特徴のうちの１つ又はそれ以上を含むことができる。簡潔性の目的で、本出願に開示される特徴の組み合わせは、個別に列挙されず、特徴の各ベースセットで繰り返されない。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。

一実施態様では、本方法は、検体マップ内のサブピクセルを、非接合領域のいずれにも属しないサブピクセルを識別することを含む。一実施態様では、本方法は、ベースコーラーから、５つの塩基（Ａ、Ｃ、Ｔ、Ｇ、及びＮ）のうちの１つとして、サブピクセルのそれぞれを分類することを含む。一実施態様では、検体マップは、ベースコール配列が実質的に一致しない２つの連続するサブピクセル間の検体境界部分を識別する。

一実施態様では、本方法は、ベースコーラーによって判定された検体の予備中心座標における原点サブピクセルを識別することと、原点サブピクセルから始まり連続的に連続する非原点サブピクセルを継続することによって、ベースコール配列を実質的に一致させるための、第１の検索と、を含む。一実施態様では、方法は、検体ベースで検体の中心座標を決定することと、検体マップの不連続領域の質量中心を、不連続領域を形成するそれぞれの連続するサブピクセルの座標の平均として計算することと、検体上の検体の超位置中心座標を検体によって検体ベースで記憶して、分類子を訓練するためのグラウンドトゥルースとして使用することと、を含む。

一実施態様では、方法は、検体ベースで検体マップの不連続領域内の質量サブピクセルの中心を識別することと、検体マップを補間を用いてアップサンプリングし、分類部を訓練するためにグラウンドトゥルースとして使用するために、メモリ内にアップサンプリングされた検体マップを記憶することと、を含み、検体による検体ベースのアップサンプリングされた検体マップにおいて、検体ごとに、隣接するサブピクセルが属する不連続領域内の質量サブピクセルの中心からの隣接するサブピクセルの距離に比例する減衰係数に基づいて、不連続領域内の各連続サブピクセルに値を割り当てることと、を含む。一実施態様では、値は、ゼロと１との間で正規化された強度値である。一実施態様では、方法は、アップサンプリングされた検体マップにおいて、背景として識別された全てのサブピクセルに同じ所定の値を割り当てることを含む。一実施態様では、所定の値はゼロ強度値である。

一実施態様では、本方法は、分離された領域内の連続するサブピクセルを発現するアップサンプリングされた検体マップから減衰マップを生成することと、その割り当てられた値に基づいて背景として識別されたサブピクセルとから減衰マップを生成することと、分類部を訓練するためのグラウンドトゥルースとして使用するために、メモリ内に減衰マップを記憶することと、を含む。一実施態様では、減衰マップ内の各サブピクセルは、ゼロと１との間で正規化された値を有する。一実施態様では、本方法は、アップサンプリングされた検体マップにおいて、検体によって検体ベースで、同じ検体に属する検体内部サブピクセルとして、不連続領域内の連続するサブピクセルを検体中心サブピクセルとして分類することと、検体境界部分を境界サブピクセルとして含み、サブピクセルが背景サブピクセルとして背景として識別され、分類部を訓練するためのグラウンドトゥルースとして使用するために、メモリ内に分類を記憶することと、を含む。

一実施態様では、方法は、検体による検体ベース、検体内部サブピクセルの座標、検体中心サブピクセル、境界サブピクセル、及び背景サブピクセルを、検体に基づいて検体に基づいて記憶することと、検体マップをアップサンプリングするために使用される因子によって座標をダウンスケールすることと、分類子を訓練するためのグラウンドトゥルースとして使用するために、メモリにダウンスケールされた座標を記憶することと、を含む。

一実施態様では、方法は、アップサンプリングされた検体マップから生成されたバイナリグラウンドトゥルースデータにおいて、検体中心クラスに属する検体中心サブピクセルをラベル化するために色符号化を使用して、検体中心サブピクセルをラベル化することと、分類部を訓練するためのグラウンドトゥルースとして使用するために、メモリ内にバイナリグラウンドトゥルースデータを記憶することと、を含む。一実施態様では、方法は、背景クラスに属する背景サブピクセルをラベル化するためにカラーコーディングを使用して、アップサンプリングされた検体マップから生成された三元グラウンドトゥルースデータにおいて、背景クラスに属する背景サブピクセルをラベル化することと、検体中心サブピクセルは、検体中心クラスに属するものであり、検体内部サブピクセルは、検体内部クラスに属するものとして、及び分類子を訓練するためのグラウンドトゥルースとして使用するために、メモリ内に三元グラウンドトゥルースデータを記憶することと、を含む。

一実施態様では、本方法は、フローセルの複数のタイルの検体マップを生成することと、検体マップをメモリに保存することと、それらの形状及びサイズを含む検体マップに基づいて、タイル内の検体の空間分布を決定することと、検体のアップサンプリングされた検体マップにおいて、検体によって検体ベースで、同じ検体、検体中心サブピクセル、境界サブピクセル、及び背景サブピクセルに属する検体内部サブピクセルとして分類することと、分類子を訓練するためのグラウンドトゥルースとして使用するためにメモリに分類を記憶することであって、検体によって検体ベースで、検体内部サブピクセルの座標、検体中心サブピクセル、境界サブピクセルを記憶することと、分類子を訓練し、検体マップをアップサンプリングするために使用される係数によって座標をダウンスケールするために、メモリ内の背景サブピクセルが、検体マップをアップサンプリングするために使用される因子によって座標をダウンスケールすることと、分類子を訓練するためのグラウンドトゥルースとして使用するために、メモリにダウンスケールされた座標を記憶することと、を含む。

一実施態様では、ベースコール配列は、ベースコールの所定の部分が、順序の位置ごとに一致するときに実質的に一致する。一実施態様では、ベースコーラーは、最近傍強度抽出、ガウス系強度抽出、平均２×２サブピクセル領域に基づく強度抽出のうちの少なくとも１つを含む、サブピクセルの強度を補間することによって、ベースコール配列を生成し、２×２サブピクセル面積の最も明るい試験に基づく強度抽出、平均３×３サブピクセル面積、バイリニア強度抽出、双キュービック強度抽出、及び／又は加重面積被覆率に基づく強度抽出に基づく強度抽出。一実施態様では、サブピクセルは、それらの整数又は非整数座標に基づいて、ベースコーラーに識別される。

一実施態様では、本方法は、不連続領域の少なくとも一部が所定の最小数のサブピクセルを有することを必要とすることを含む。一実施態様では、フローセルは、検体を占有するウェルのアレイを有する、少なくとも１つのパターン化された表面を有する。そのような実施態様では、本方法は、検体の決定された形状及びサイズに基づいて、ウェルのうちのどれが、ウェルのうちの１つが最小限に占有されている少なくとも１つの検体によって実質的に占有され、ウェルのうちの１つが、複数の検体によって共占有される。

一実施態様では、フローセルは、少なくとも１つのパターン化されていない表面を有し、検体は、非パターン化表面上で不均一に散乱される。一実施態様では、検体の密度は、約１００，０００検体／ｍｍ^２～約１，０００，０００検体／ｍｍ^２の範囲である。一実施態様では、検体の密度は、約１，０００，０００検体／ｍｍ^２～約１０，０００，０００検体／ｍｍ^２の範囲である。一実施態様では、サブピクセルは４分の１サブピクセルである。別の実施態様では、サブピクセルは半サブピクセルである。一実施態様では、ベースコーラーによって決定される検体の予備中心座標は、タイルのテンプレート画像内に定義され、画像座標系のピクセル解像度、画像座標系、及び測定スケールは、テンプレート画像及び画像と同じである。一実施態様では、各画像セットは、４つの画像を有する。別の実施態様では、各画像セットは２つの画像を有する。更に別の実施態様では、各画像セットは１つの画像を有する。一実施態様では、配列決定動作は、４チャネル化学を利用する。別の実施態様では、配列決定動作は、２チャネル化学を利用する。更に別の実施態様では、配列決定動作は、１チャネル化学を利用する。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。

我々は、フローセルのタイル上の検体についてメタデータを決定するコンピュータ実装の方法を開示している。本方法は、配列決定動作中に捕捉されたタイルの画像セット、及びベースコーラーによって決定された検体の予備中心座標にアクセスすることを含む。本方法は、各画像セットについて、基本的な中心座標を含む４つの基本原点サブピクセルのうちの１つとして、原点サブピクセルのそれぞれに連続的に連続している連続するサブピクセルの所定の近傍を含む４つの基本原点サブピクセルのうちの１つとして取得することと、それによって、ソースサブピクセルのそれぞれ、及び連続するサブピクセルの所定の近傍のそれぞれに対して、ベースコール配列を生成する。本方法は、原点サブピクセルのうちの対応する１つの少なくとも一部に連続的に隣接し、かつ、４つの塩基のうちの１つの実質的に一致するベースコール配列を、原点サブピクセルのうちの対応する１つの少なくとも一部と共有する、連続するサブピクセルの不連続領域として、検体を識別する検体マップを生成することを含む。本方法は、検体マップをメモリに保存することと、検体マップ内の不連続領域に基づいて、検体の形状及びサイズを決定することと、を含む。

他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。

一実施態様では、連続するサブピクセルの所定の近傍は、原点サブピクセルを含むピクセルを中心とするｍ×ｎサブピクセルパッチであり、サブピクセルパッチは３×３ピクセルである。一実施態様では、連続するサブピクセルの所定の近傍は、原点サブピクセルを含むピクセルを中心とするｎ個の接続されたサブピクセル近傍である。一実施態様では、方法は、検体マップ内の、不連続領域のいずれにも属しないサブピクセルを背景として識別することを含む。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（訓練データ生成）

私たちは、ニューラルネットワークベースのテンプレート生成及びベースコールのための訓練データを生成するコンピュータ実装の方法を開示している。方法は、配列決定動作の複数のサイクルにわたって捕捉されたフローセルの多数の画像にアクセスすることを含み、フローセルは複数のタイルを有し、多数の画像において、各タイルは、複数のサイクルにわたって生成された一連の画像セットを有し、画像セットの配列内の各画像は、特定の１回のサイクルにおいて、特定のタイルのうちの特定の１つの上の検体及びそれらの周囲の背景の強度放射を示す。本方法は、複数の訓練例を有する訓練セットを構築することを含み、各訓練例は、タイルのうちの特定の１つに対応し、タイルのうちの特定の１つの画像セットの配列内の少なくとも一部の画像セットからの画像データを含む。本方法は、訓練例のそれぞれについて、少なくとも１つのグラウンドトゥルースデータ表現を生成することを含み、地面真理値データ表現は、その強度放射が画像データによって描かれているタイルのうちの特定の１つの上の、検体及びそれらの周囲の背景の空間分布のうちの少なくとも１つを識別することと、検体の形状、検体サイズ、及び／又は検体境界、及び／又は検体の中心のうちの少なくとも１つを含む。

一実施態様では、画像データは、タイルのうちの特定の１つの画像セットの配列内の少なくとも一部の画像セットのそれぞれの画像を含み、画像は１８００×１８００の解像度を有する。一実施態様では、画像データは、画像のそれぞれからの少なくとも１つの画像パッチを含み、画像パッチは、タイルのうちの特定の１つの一部分を覆い、解像度が２０×２０である。一実施態様では、画像データは、画像パッチのアップサンプリングされた表現を含み、アップサンプリングされた表現は、８０×８０の解像度を有する。一実施態様では、グラウンドトゥルースデータ表現は、８０×８０のアップサンプリング解像度を有する。

一実施態様では、複数の訓練例は、タイルの同じ特定の１つに対応し、それぞれ、タイルのうちの同じ特定の画像セットの画像セットの配列内の各画像から異なる画像パッチを画像データとして含み、異なる画像パッチのうちの少なくとも一部は互いに重複する。一実施態様では、グラウンドトゥルースデータ表現は、隣接するサブピクセルの不連続領域として検体を識別し、検体の中心は、不連続領域のそれぞれの１つの内部の質量サブピクセルの中心として検体の中心、及びそれらの周囲の背景として、検体を識別する。一実施態様では、グラウンドトゥルースデータ表現は、色符号化を使用して、検体中心又は非中心のいずれかとして各サブピクセルを識別する。一実施態様では、グラウンドトゥルースデータ表現は、色符号化を使用して、検体内部、検体中心、又は周囲の背景のいずれかとして各サブピクセルを識別する。

一実施態様では、本方法は、ニューラルネットワークベースのテンプレート生成及びベースコールの訓練データとして、訓練セット及び関連するグラウンドトゥルースデータ表現内の訓練例を、メモリに記憶することを含む。一実施態様では、本方法は、様々なフローセル、配列決定機器、配列決定プロトコル、配列決定ケミストリー、配列決定試薬、及び検体密度の訓練データを生成することを含む。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（メタデータ及びベースコール生成）

一実施態様では、方法は、シーケンサによって生成された検体の配列決定画像にアクセスすることと、配列決定画像から訓練データを生成することと、ニューラルネットワークを訓練して、検体に関するメタデータを生成するための訓練データを使用することと、を含む。他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。

一実施態様では、方法は、シーケンサによって生成された検体の配列決定画像にアクセスすることと、配列決定画像から訓練データを生成することと、ニューラルネットワークを訓練して検体をベースコールための訓練データを使用することと、を含む。他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（回帰モデル）

本発明者らは、フローセル及び関連する検体メタデータのタイル上の検体を識別するコンピュータ実装の方法を開示している。本方法は、入力画像データを、ニューラルネットワークを介して画像セットの配列から処理し、入力画像データの代替表現を生成することを含む。画像セットの配列内の各画像はタイルを覆い、タイル上の検体の強度放射、及びフローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉された、それらの周囲の背景とを示す。本方法は、出力層を介して代替表現を処理することと、検体を識別する出力を生成することと、を含み、その強度放射が、隣接するサブピクセルの不連続領域、不連続領域のうちのそれぞれの１つの質量中心での中心サブピクセルとしての検体の中心、及び不連続領域のいずれにも属しない背景サブピクセルとしてのそれらの周囲の背景として、入力画像データによって表される。

一実施態様では、不連続領域のうちの対応する領域内の隣接するサブピクセルは、隣接するサブピクセルが属する不連続領域内の中心サブピクセルからの隣接するサブピクセルの距離に従って重み付けされた強度値を有する。一実施態様では、中心サブピクセルは、不連続領域のうちの対応する領域内で最も高い強度値を有する。一実施態様では、背景サブピクセルは全て、出力において同じ最低強度値を有する。一実施態様では、出力層は、ゼロと１との間の強度値を正規化する。

一実施態様では、方法は、ピークロケータを出力に適用して、出力におけるピーク強度を見つけ、ピーク強度に基づいて、検体の中心の位置座標を決定することと、入力画像データを作成するために使用されるアップサンプリング係数によって場所座標をダウンスケールすることと、検体をベースコールする際に使用するために、メモリにダウンスケールされた場所座標を記憶することと、を含む。一実施態様では、本方法は、同じ検体に属する検体内部サブピクセルとして、隣接するサブピクセルを、同じ検体に属する検体内部サブピクセルとして分類することと、検体をベースコールする際に使用するために、検体による検体ベースの検体内部サブピクセルの分類及びダウンスケールされた場所座標を記憶することと、を含む。一実施態様では、本方法は、検体ベースで、検体の中心のうちの対応する検体の内部サブピクセルの距離を判定することと、検体をベースコールする際に使用するために、検体による検体ベースでのメモリ内の距離を記憶することと、を含む。

一実施態様では、本方法は、最近傍強度抽出、ガウス系強度抽出、平均２×２サブピクセル領域に基づく強度抽出のうちの少なくとも１つを使用することを含む、不連続領域のうちの対応する領域内の検体内部サブピクセルから強度を抽出することを含み、２×２個のサブピクセル領域の最も明るい試験に基づく強度抽出、平均３×３サブピクセル面積、双線形強度抽出、二次強度抽出、及び／又は強度抽出に基づく強度抽出、及び／又は加重領域被覆率に基づく強度抽出、及び／又は強度抽出に基づいて、強度抽出、及び／又は強度抽出に基づいて強度抽出することと、を含む。

一実施態様では、本方法は、不連続領域に基づいて、検体形状、検体サイズ、及び／又は検体境界のうちの少なくとも１つを含む検体の空間分布を決定することと、検体をベースコールする際に使用するために、検体による検体ベースのメモリ内に関連する検体メタデータを保存することと、を含む。

一実施態様では、入力画像データは、画像セットの配列内の画像を含み、画像は３０００×３０００の解像度を有する。一実施態様では、入力画像データは、画像セットの配列内の画像のそれぞれからの少なくとも１つの画像パッチを含み、画像パッチはタイルの一部分を覆い、解像度は２０×２０である。一実施態様では、入力画像データは、画像セットの配列内の画像のそれぞれからの画像パッチのアップサンプリングされた表現を含み、アップサンプリングされた表現は、８０×８０の解像度を有する。一実施態様では、出力は、８０×８０のアップサンプリング解像度を有する。

一実施態様では、ニューラルネットワークは、エンコーダサブネットワーク及び対応するデコーダネットワークを有するディープフル畳み込みセグメンテーションニューラルネットワークであり、エンコーダサブネットワークはエンコーダの階層を含み、デコーダサブネットワークは、低解像度エンコーダ特徴マップを完全入力解像度特徴マップにマッピングするデコーダの階層を含む。一実施態様では、検体の密度は、約１００，０００検体／ｍｍ^２～約１，０００，０００検体／ｍｍ^２の範囲である。別の実施態様では、検体の密度は、約１，０００，０００検体／ｍｍ^２～約１０，０００，０００検体／ｍｍ^２の範囲である。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（訓練回帰モデル）

本発明者らは、検体及び関連する検体メタデータを識別するためにニューラルネットワークを訓練するコンピュータ実装の方法を開示している。本方法は、ニューラルネットワークを訓練するための訓練データを取得することを含む。訓練データは、訓練例を処理することによってニューラルネットワークによって生成されるべき、複数の訓練例及び対応するグラウンドトゥルースデータを含む。各訓練例は、画像セットの配列からの画像データを含む。画像セットの配列内の各画像は、フローセルのタイルを覆い、タイル上の検体の強度放射及びフローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉された、それらの周囲の背景を示す。各グラウンドトゥルースデータは、対応する訓練例の画像データによって示され、隣接するサブピクセルの不連続領域として、検体の中心は、不連続領域のそれぞれの１つの質量中心における中心サブピクセルとしての検体の中心、及びそれらの周囲の背景として、対応する訓練例の画像データによって示される検体を識別する。本方法は、ニューラルネットワークを訓練し、出力とグラウンドトゥルースデータとの間の誤差を最小化する損失関数を反復的に最適化することと、誤差に基づいてニューラルネットワークのパラメータを更新することと、を含む、ニューラルネットワークを訓練し、訓練例の出力を生成することと、誤差に基づいてニューラルネットワークのパラメータを更新することと、を含む。

一実施態様では、本方法は、最後の反復後の誤差収束の際に、メモリ内のニューラルネットワークの更新されたパラメータを記憶して、更なるニューラルネットワークベースのテンプレート生成及びベースコールに適用することを含む。一実施態様では、グラウンドトゥルースデータでは、不連続領域のうちの対応する領域内の隣接するサブピクセルは、隣接するサブピクセルが属する接合領域内の中心サブピクセルからの隣接するサブピクセルの距離に従って重み付けされた強度値を有する。一実施態様では、グラウンドトゥルースデータでは、中心サブピクセルは、それぞれの不連続領域内の最も高い強度値を有する。一実施態様では、グラウンドトゥルースデータでは、背景サブピクセルは全て、出力において同じ最低強度値を有する。一実施態様では、グラウンドトゥルースデータでは、強度値は、ゼロと１との間で正規化される。

一実施態様では、損失関数は平均二乗誤差であり、出力及びグラウンドトゥルースにおける対応するサブピクセルの正規化された強度値とグラウンドトゥルースとの間のサブピクセル基準で最小化される。一実施態様では、グラウンドトゥルースデータは、関連する検体メタデータの一部として、検体形状、検体サイズ、及び／又は検体境界のうちの少なくとも１つを含む検体の空間分布を識別する。一実施態様では、画像データは画像セットの配列内の画像を含み、画像は１８００×１８００の解像度を有する。一実施態様では、画像データは、画像セットの配列内の画像のそれぞれからの少なくとも１つの画像パッチを含み、画像パッチはタイルの一部分を覆い、解像度は２０×２０である。一実施態様では、画像データは、画像セットの配列内の画像のそれぞれからの画像パッチのアップサンプリングされた表現を含み、画像パッチのアップサンプリングされた表現は、８０×８０の解像度を有する。

一実施態様では、訓練データにおいて、複数の訓練例は、それぞれ、同じタイルの画像セットの配列内の各画像からの画像データの異なる画像パッチとして、及び異なる画像パッチの少なくとも一部が互いに重複する。一実施態様では、グラウンドトゥルースデータは、８０×８０のアップサンプリング解像度を有する。一実施態様では、訓練データは、フローセルの複数のタイルの訓練例を含む。一実施態様では、訓練データは、様々なフローセル、配列決定インストール、配列決定プロトコル、配列決定ケミストリー、配列決定試薬、及び検体密度の訓練例を含む。一実施態様では、ニューラルネットワークは、エンコーダサブネットワーク及び対応するデコーダネットワークを有する深層完全畳み込みニューラルネットワークであり、エンコーダサブネットワークは、エンコーダの階層を含み、デコーダサブネットワークは、低解像度のエンコーダ特徴部マップを、最終分類層によるサブピクセルごとの分類のための完全入力解像度特徴マップにマッピングするデコーダの階層を含む。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（ニューラルネットワークベースのテンプレート生成器）

我々は、フローセル上の検体に関するメタデータを決定するコンピュータ実装の方法を開示している。本方法は、検体の強度放射を描写する画像データにアクセスすることと、ニューラルネットワークの１つ又はそれ以上の層を介して画像データを処理することと、画像データの代替表現を生成することと、出力層を介して代替表現を処理し、検体及び／又は検体の中心の形状及びサイズのうちの少なくとも１つを識別する出力を生成することと、を含む、方法。

一実施態様では、画像データは、検体の周囲の背景の強度放射を更に示す。そのような実施態様では、本方法は、検体間の周囲の背景及び境界を含む、フローセル上の検体の空間分布を識別する出力を含む。一実施態様では、方法は、出力に基づいて、フローセル上の検体の中心位置座標を決定することを含む。一実施態様では、ニューラルネットワークは、畳み込みニューラルネットワークである。一実施態様では、ニューラルネットワークは、反復ニューラルネットワークである。一実施態様では、ニューラルネットワークは、エンコーダサブネットワーク及び対応するデコーダネットワークを有するディープフル畳み込みセグメンテーションニューラルネットワークであり、続いて出力層はエンコーダサブネットワークがエンコーダの階層を含み、デコーダサブネットワークは、低解像度エンコーダ特徴マップを完全入力解像度特徴マップにマッピングするデコーダの階層を含む。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（バイナリ分類モデル）

本発明者らは、フローセル及び関連する検体メタデータのタイル上の検体を識別するコンピュータ実装の方法を開示している。本方法は、ニューラルネットワークを介して画像セットの配列から入力画像データを処理することと、画像データの代替表現を生成することと、を含む。一実施態様では、画像セットの配列内の各画像はタイルを覆い、タイル上の検体の強度放射、及びフローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉された、それらの周囲の背景を示す。本方法は、分類層を通して代替表現を処理することと、その強度放射が入力画像データによって示される検体の中心を識別する出力を生成することと、を含む。出力は複数のサブピクセルを有し、複数のサブピクセル内の各サブピクセルは、検体中心又は非中心のいずれかとして分類される。

一実施態様では、分類層は、出力内の各サブピクセルを、検体中心である第１の尤度スコア、及び非中心である第２の尤度スコアを割り当てる。一実施態様では、第１及び第２の尤度スコアは、ソフトマックス関数に基づいて決定され、ゼロと１との間で指数関数的に正規化される。一実施態様では、第１及び第２の尤度スコアは、シグモイド関数に基づいて決定され、ゼロと１との間で正規化される。一実施態様では、出力における各サブピクセルは、第１及び第２の尤度スコアのうちの１つが他方よりも高いかに基づいて、検体中心又は非中心のいずれかとして分類される。一実施態様では、出力における各サブピクセルは、第１及び第２の尤度スコアが所定の閾値尤度スコアを上回るかどうかに基づいて、検体中心又は非中心のいずれかとして分類される。一実施態様では、出力は、検体のうちの対応する検体の質量中心の中心を識別する。一実施態様では、出力において、検体中心として分類されるサブピクセルには、同じ第１の所定の値が割り当てられ、非中心として分類されるサブピクセルは全て、同じ第２の所定の値を割り当てられる。一実施態様では、第１及び第２の所定の値は強度値である。一実施態様では、第１及び第２の所定の値は、連続値である。

一実施態様では、本方法は、検体中心として分類されたサブピクセルの場所座標を決定することと、入力画像データを調製するために使用されるアップサンプリング係数によって場所座標をダウンスケールすることと、検体をベースコールする際に使用するために、メモリ内にダウンスケールされた場所座標を記憶することと、を含む。一実施態様では、入力画像データは、画像セットの配列内の画像を含み、画像は３０００×３０００の解像度を有する。一実施態様では、入力画像データは、画像セットの配列内の画像のそれぞれからの少なくとも１つの画像パッチを含み、画像パッチはタイルの一部分を覆い、解像度は２０×２０である。一実施態様では、入力画像データは、画像セットの配列内の画像のそれぞれからの画像パッチのアップサンプリングされた表現を含み、アップサンプリングされた表現は、８０×８０の解像度を有する。一実施態様では、出力は、８０×８０のアップサンプリング解像度を有する。

一実施態様では、ニューラルネットワークは、エンコーダサブネットワーク及び対応するデコーダネットワークを有するディープフル畳み込みセグメンテーションニューラルネットワークであり、続いて分類層が、エンコーダサブネットワークはエンコーダの階層を含み、デコーダサブネットワークは、低解像度エンコーダ特徴マップを、分類層によるサブピクセルごとの分類のための完全入力解像度特徴マップにマッピングするデコーダの階層を含む。一実施態様では、検体の密度は、約１００，０００検体／ｍｍ^２～約１，０００，０００検体／ｍｍ^２の範囲である。別の実施態様では、検体の密度は、約１，０００，０００検体／ｍｍ^２～約１０，０００，０００検体／ｍｍ^２の範囲である。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（バイナリ分類モデルの訓練）

本発明者らは、検体及び関連する検体メタデータを識別するためにニューラルネットワークを訓練するコンピュータ実装の方法を開示している。本方法は、ニューラルネットワークを訓練するための訓練データを取得することを含む。訓練データは、訓練例を処理することによってニューラルネットワークによって生成されるべき、複数の訓練例及び対応するグラウンドトゥルースデータを含む。各訓練例は、画像セットの配列からの画像データを含む。画像セットの配列内の各画像は、フローセルのタイルを覆い、タイル上の検体の強度放射及びフローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉された、それらの周囲の背景を示す。各グラウンドトゥルースデータは、対応する訓練例の画像データによって強度放射が示される、検体の中心を識別する。グラウンドトゥルースデータは複数のサブピクセルを有し、複数のサブピクセル内の各サブピクセルは、検体中心又は非中心のいずれかとして分類される。本方法は、ニューラルネットワークを訓練し、出力とグラウンドトゥルースデータとの間の誤差を最小化する損失関数を反復的に最適化することと、誤差に基づいてニューラルネットワークのパラメータを更新することと、を含む、ニューラルネットワークを訓練し、訓練例の出力を生成することと、誤差に基づいてニューラルネットワークのパラメータを更新することと、を含む。

一実施態様では、本方法は、最後の反復後の誤差収束の際に、メモリ内のニューラルネットワークの更新されたパラメータを記憶して、更なるニューラルネットワークベースのテンプレート生成及びベースコールに適用することを含む。一実施態様では、グラウンドトゥルースデータにおいて、検体中心として分類されるサブピクセルは全て、同じ第１の所定のクラススコアを割り当てられ、非中心として分類されるサブピクセルは全て、同じ第２の所定のクラススコアが割り当てられる。一実施態様では、各出力において、各サブピクセルは、検体中心である第１の予測スコアと、非中心である第２の予測スコアとを有する。一実施態様では、損失関数は、カスタム加重バイナリクロスエントロピー損失であり、出力及びグラウンドトゥルースにおける対応するサブピクセルの予測スコアとクラススコアとの間のサブピクセルベースで最小化される。一実施態様では、グラウンドトゥルースデータは、検体のうちの対応する検体の重心における中心を識別する。一実施態様では、グラウンドトゥルースでは、検体中心として分類されるサブピクセルは全て、同じ第１の所定の値を割り当てられ、非中心として分類されるサブピクセルは全て、同じ第２の所定の値を割り当てられる。一実施態様では、第１及び第２の所定の値は強度値である。別の実施態様では、第１及び第２の所定の値は、連続値である。

一実施態様では、グラウンドトゥルースデータは、関連する検体メタデータの一部として、検体形状、検体サイズ、及び／又は検体境界のうちの少なくとも１つを含む検体の空間分布を識別する。一実施態様では、画像データは画像セットの配列内の画像を含み、画像は１８００×１８００の解像度を有する。一実施態様では、画像データは、画像セットの配列内の画像のそれぞれからの少なくとも１つの画像パッチを含み、画像パッチはタイルの一部分を覆い、解像度は２０×２０である。一実施態様では、画像データは、画像セットの配列内の画像のそれぞれからの画像パッチのアップサンプリングされた表現を含み、画像パッチのアップサンプリングされた表現は、８０×８０の解像度を有する。一実施態様では、訓練データにおいて、複数の訓練例は、それぞれ、同じタイルの画像セットの配列内の各画像からの画像データの異なる画像パッチとして、及び異なる画像パッチの少なくとも一部が互いに重複する。一実施態様では、グラウンドトゥルースデータは、８０×８０のアップサンプリング解像度を有する。一実施態様では、訓練データは、フローセルの複数のタイルの訓練例を含む。一実施態様では、訓練データは、様々なフローセル、配列決定インストール、配列決定プロトコル、配列決定ケミストリー、配列決定試薬、及び検体密度の訓練例を含む。一実施態様では、ニューラルネットワークは、エンコーダサブネットワーク及び対応するデコーダネットワークを有するディープフル畳み込みセグメンテーションニューラルネットワークであり、続いて分類層が、エンコーダサブネットワークはエンコーダの階層を含み、デコーダサブネットワークは、低解像度エンコーダ特徴マップを、分類層によるサブピクセルごとの分類のための完全入力解像度特徴マップにマッピングするデコーダの階層を含む。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（三元分類モデル）

本発明者らは、フローセル及び関連する検体メタデータのタイル上の検体を識別するコンピュータ実装の方法を開示している。本方法は、ニューラルネットワークを介して画像セットの配列から入力画像データを処理することと、画像データの代替表現を生成することと、を含む。画像セットの配列内の各画像はタイルを覆い、タイル上の検体の強度放射、及びフローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉された、それらの周囲の背景を示す。本方法は、分類層を通して代替表現を処理することと、検体の中心、検体形状、検体サイズ、及び／又は検体境界のうちの少なくとも１つを含む、入力画像データによって表される検体及びそれらの周囲の背景の空間分布を識別する出力を生成することと、を含む。出力は複数のサブピクセルを有し、複数のサブピクセル内の各サブピクセルは、背景、検体中心、又は検体内部のいずれかとして分類される。

一実施態様では、分類層は、出力中の各サブピクセルを、背景である第１の尤度スコア、検体中心である第２の尤度スコア、及び検体内部である第３の尤度スコアを割り当てる。一実施態様では、第１、第２、及び第３の尤度スコアは、ソフトマックス関数に基づいて決定され、ゼロと１との間で指数関数的に正規化される。一実施態様では、出力における各サブピクセルは、第１、第２、及び第３の尤度スコアのうちの１つが最も高いかに基づいて、背景、検体中心、又は検体内部のいずれかとして分類される。一実施態様では、出力における各サブピクセルは、第１、第２、及び第３の尤度スコアが所定の閾値尤度スコアを上回るかどうかに基づいて、背景、検体中心、又は検体内部のいずれかとして分類される。一実施態様では、出力は、検体のうちの対応する検体の質量中心で検体中心を識別する。一実施態様では、出力において、背景として分類されるサブピクセルは全て、同じ第１の所定の値を割り当てられ、検体中心として分類されるサブピクセルは全て同じ第２の所定の値を割り当てられ、検体内部として分類されるサブピクセルは全て、同じ第３の所定の値が割り当てられる。一実施態様では、第１、第２、及び第３の所定の値は、強度値である。一実施態様では、第１、第２、及び第３の所定の値は、連続値である。

一実施態様では、本方法は、検体基準で検体中心として分類されるサブピクセルの場所座標を決定することと、入力画像データを調製するために使用されるアップサンプリング係数によって場所座標をダウンスケールすることと、検体をベースコールする際に使用するために、検体による検体ベースのメモリにダウンスケールされた場所座標を記憶することと、を含む。一実施態様では、本方法は、検体ベースの検体内部として分類されたサブピクセルの場所座標を決定することと、入力画像データを調製するために使用されるアップサンプリング係数によって場所座標をダウンスケールすることと、検体をベースコールする際に使用するために、検体による検体ベースのメモリにダウンスケールされた場所座標を記憶することと、を含む。一実施態様では、本方法は、検体基準に基づいて、検体中心として分類されたサブピクセルのうちの対応する１つから検体内部として分類されるサブピクセルの距離を決定することと、検体をベースコールする際に使用するために、検体による検体ベースでのメモリ内の距離を記憶することと、を含む。一実施態様では、本方法は、検体基準で、検体内部として分類されるサブピクセルから強度を抽出することを含み、これは、最近傍強度抽出、ガウス系強度抽出、平均２×２サブピクセル領域に基づく強度抽出のうちの少なくとも１つを使用することを含み、２×２個のサブピクセル領域の最も明るい試験に基づく強度抽出、平均３×３サブピクセル面積、双線形強度抽出、二次強度抽出、及び／又は強度抽出に基づく強度抽出、及び／又は加重領域被覆率に基づく強度抽出、及び／又は強度抽出に基づいて、強度抽出、及び／又は強度抽出に基づいて強度抽出することと、を含む。

一実施態様では、入力画像データは、画像セットの配列内の画像を含み、画像は３０００×３０００の解像度を有する。一実施態様では、入力画像データは、画像セットの配列内の画像のそれぞれからの少なくとも１つの画像パッチを含み、画像パッチはタイルの一部分を覆い、解像度は２０×２０である。一実施態様では、入力画像データは、画像セットの配列内の画像のそれぞれからの画像パッチのアップサンプリングされた表現を含み、アップサンプリングされた表現は、８０×８０の解像度を有する。一実施態様では、出力は、８０×８０のアップサンプリング解像度を有する。一実施態様では、ニューラルネットワークは、エンコーダサブネットワーク及び対応するデコーダネットワークを有するディープフル畳み込みセグメンテーションニューラルネットワークであり、続いて分類層が、エンコーダサブネットワークはエンコーダの階層を含み、デコーダサブネットワークは、低解像度エンコーダ特徴マップを、分類層によるサブピクセルごとの分類のための完全入力解像度特徴マップにマッピングするデコーダの階層を含む。一実施態様では、検体の密度は、約１００，０００検体／ｍｍ^２～約１，０００，０００検体／ｍｍ^２の範囲である。別の実施態様では、検体の密度は、約１，０００，０００検体／ｍｍ^２～約１０，０００，０００検体／ｍｍ^２の範囲である。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（ターナルクラス分類モデルの訓練）

本発明者らは、検体及び関連する検体メタデータを識別するためにニューラルネットワークを訓練するコンピュータ実装の方法を開示している。本方法は、ニューラルネットワークを訓練するための訓練データを取得することを含む。訓練データは、訓練例を処理することによってニューラルネットワークによって生成されるべき、複数の訓練例及び対応するグラウンドトゥルースデータを含む。各訓練例は、画像セットの配列からの画像データを含む。画像セットの配列内の各画像は、フローセルのタイルを覆い、タイル上の検体の強度放射及びフローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉された、それらの周囲の背景とを示す。各グラウンドトゥルースデータは、検体中心、検体形状、検体サイズ、及び検体境界を含む、入力画像データによって表される、検体及びそれらの周囲の背景の空間分布を識別する。グラウンドトゥルースデータは複数のサブピクセルを有し、複数のサブピクセル内の各サブピクセルは、背景、検体中心、又は検体内部のいずれかとして分類される。本方法は、ニューラルネットワークを訓練し、出力とグラウンドトゥルースデータとの間の誤差を最小化する損失関数を反復的に最適化することと、誤差に基づいてニューラルネットワークのパラメータを更新することと、を含む、ニューラルネットワークを訓練し、訓練例の出力を生成することと、誤差に基づいてニューラルネットワークのパラメータを更新することと、を含む。

一実施態様では、本方法は、最後の反復後の誤差収束の際に、メモリ内のニューラルネットワークの更新されたパラメータを記憶して、更なるニューラルネットワークベースのテンプレート生成及びベースコールに適用することを含む。一実施態様では、グラウンドトゥルースデータにおいて、背景として分類されるサブピクセルは全て、同じ第１の所定のクラススコアを割り当てられ、検体中心として分類されるサブピクセルは全て、同じ第２の所定のクラススコアを割り当てられ、検体内部として分類されるサブピクセルは全て、同じ第３の所定のクラススコアが割り当てられる。

一実施態様では、各出力において、各サブピクセルは、背景である第１の予測スコア、検体中心である第２の予測スコア、及び検体内部である第３の予測スコアを有する。一実施態様では、損失関数は、カスタム重み付け三元クロスエントロピー損失であり、出力及びグラウンドトゥルースにおける対応するサブピクセルの予測スコアとクラススコアとの間のサブピクセルベースで最小化される。一実施態様では、グラウンドトゥルースデータは、検体のうちの対応する検体の質量中心で検体中心を識別する。一実施態様では、グラウンドトゥルースにおいて、背景として分類されるサブピクセルは全て、同じ第１の所定の値を割り当てられ、検体中心として分類されるサブピクセルは全て同じ第２の所定の値を割り当てられ、検体内部として分類されるサブピクセルは全て、同じ第３の所定の値が割り当てられる。一実施態様では、第１、第２、及び第３の所定の値は、強度値である。一実施態様では、第１、第２、及び第３の所定の値は、連続値である。一実施態様では、画像データは画像セットの配列内の画像を含み、画像は１８００×１８００の解像度を有する。一実施態様では、画像データは画像セットの配列内の画像を含み、画像は１８００×１８００の解像度を有する。

一実施態様では、画像データは、画像セットの配列内の画像のそれぞれからの少なくとも１つの画像パッチを含み、画像パッチはタイルの一部分を覆い、解像度は２０×２０である。一実施態様では、画像データは、画像セットの配列内の画像のそれぞれからの画像パッチのアップサンプリングされた表現を含み、画像パッチのアップサンプリングされた表現は、８０×８０の解像度を有する。一実施態様では、訓練データにおいて、複数の訓練例は、それぞれ、同じタイルの画像セットの配列内の各画像からの画像データの異なる画像パッチとして、及び異なる画像パッチの少なくとも一部が互いに重複する。一実施態様では、グラウンドトゥルースデータは、８０×８０のアップサンプリング解像度を有する。一実施態様では、訓練データは、フローセルの複数のタイルの訓練例を含む。一実施態様では、訓練データは、様々なフローセル、配列決定インストール、配列決定プロトコル、配列決定ケミストリー、配列決定試薬、及び検体密度の訓練例を含む。一実施態様では、ニューラルネットワークは、エンコーダサブネットワーク及び対応するデコーダネットワークを有するディープフル畳み込みセグメンテーションニューラルネットワークであり、続いて分類層が、エンコーダサブネットワークはエンコーダの階層を含み、デコーダサブネットワークは、低解像度エンコーダ特徴マップを、分類層によるサブピクセルごとの分類のための完全入力解像度特徴マップにマッピングするデコーダの階層を含む。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（セグメント化）

本発明者らは、検体メタデータを決定するコンピュータ実装の方法を開示する。本方法は、ニューラルネットワークを通じて一連の画像セットから導出された入力画像データを処理することと、入力画像データの代替表現を生成することと、を含む。入力画像データは、検体及びそれらの周囲背景を描写するユニットのアレイを有する。本方法は、出力層を介して代替表現を処理し、アレイ内の各ユニットの出力値を生成することを含む。本方法は、ユニットの出力値を閾値化することと、周囲の背景を描写する背景ユニットとして、ユニットの第１のサブセットを分類することと、を含む。本方法は、ユニットの出力値内にピークを配置することと、検体の中心を含む中心ユニットとして、ユニットの第２のサブセットを分類することと、を含む。本方法は、単位の出力値にセグメント化器を適用することと、背景ユニットによって分離され、中心ユニットを中心とした連続ユニットの非重複領域として、検体の形状を決定することと、を含む。セグメントは中心ユニットから始まり、各中心ユニットに関して、中心が中心ユニットに含まれる同じ検体を示す連続的に連続するユニット群を決定する。

一実施態様では、ユニットはピクセルである。別の実施態様では、ユニットはサブピクセルである。更に別の実施態様では、ユニットはスーパーピクセルである。一実施態様では、出力値は連続値である。別の実施態様では、出力値は、ソフトマックススコアである。一実施態様では、非重複領域のうちの対応する領域内の連続単位は、隣接するユニットが属する非重複領域内の中心ユニットからの連続ユニットの距離に従って重み付けされた出力値を有する。一実施態様では、中心ユニットは、非重複領域のうちのそれぞれの領域内で最も高い出力値を有する。

一実施態様では、非重複領域は不規則な輪郭を有し、ユニットはサブピクセルである。そのような実施態様において、方法は、所与の検体の形状を識別する連続するサブピクセルの対応する非重複領域に基づいて、所与の検体の検体強度に寄与するサブピクセルを識別することによって、所与の検体の検体強度を判定することと、現在の配列決定サイクルで１つ又はそれ以上の画像チャネルに対して生成された１つ又はそれ以上の光学ピクセル解像度画像内に識別されたサブピクセルを配置することと、画像のそれぞれにおいて、識別されたサブピクセルの強度を補間することと、補間強度を組み合わせ、組み合わされた補間強度を正規化して、画像のそれぞれにおける所与の検体のための画像ごとの検体強度を生成することと、画像のそれぞれについて画像ごとの検体強度を合わせて、現在の配列決定サイクルにおいて、所与の検体の検体強度を決定することと、を含む。一実施態様では、正規化は正規化係数に基づいており、正規化係数は、識別されたサブピクセルの数である。一実施態様では、本方法は、現在の配列決定サイクルにおける検体強度に基づいて、所与の検体をベースコールすることを含む。

一実施態様では、非重複領域は不規則な輪郭を有し、ユニットはサブピクセルである。そのような実施態様において、方法は、所与の検体の形状を識別する連続するサブピクセルの対応する非重複領域に基づいて、所与の検体の検体強度に寄与するサブピクセルを識別することによって、所与の検体の検体強度を判定することと、識別されたサブピクセルを、対応する光学からアップサンプリングされた１つ又はそれ以上のサブピクセル解像度画像内に配置することと、現在の配列決定サイクルで１つ又はそれ以上の画像チャネルに対して生成されたピクセル解像度画像であって、アップサンプリングされた画像のそれぞれにおいて、識別されたサブピクセルの強度を組み合わせ、組み合わせた強度を正規化して、アップサンプリングされた画像のそれぞれにおける所与の検体のための画像ごとの検体強度を生成することと、アップサンプリングされた画像のそれぞれに対する画像ごとの検体強度を組み合わせて、現在の配列決定サイクルでの所与の検体の検体強度を決定することと、を含む。一実施態様では、正規化は正規化係数に基づいており、正規化係数は、識別されたサブピクセルの数である。一実施態様では、本方法は、現在の配列決定サイクルにおける検体強度に基づいて、所与の検体をベースコールすることを含む。

一実施態様では、画像セットの配列内の各画像はタイルを覆い、タイル上の検体の強度放射、及びフローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉された、それらの周囲の背景とを示す。一実施態様では、入力画像データは、画像セットの配列内の画像のそれぞれからの少なくとも１つの画像パッチを含み、画像パッチはタイルの一部分を覆い、解像度は２０×２０である。一実施態様では、入力画像データは、画像セットの配列内の画像のそれぞれからの画像パッチのアップサンプリングされたサブピクセル解像度表現を含み、アップサンプリングされたサブピクセル表現は、８０×８０の解像度を有する。

一実施態様では、ニューラルネットワークは、畳み込みニューラルネットワークである。別の実施態様では、ニューラルネットワークは、反復ニューラルネットワークである。更に別の実施態様では、ニューラルネットワークは、残留ボック及び残留接続を有する残留ニューラルネットワークである。更に更なる別の実施態様では、ニューラルネットワークは、エンコーダサブネットワーク及び対応するデコーダネットワークを有するディープフル畳み込みセグメンテーションニューラルネットワークであり、エンコーダサブネットワークはエンコーダの階層を含み、デコーダサブネットワークは、低解像度エンコーダ特徴マップを完全入力解像度特徴マップにマッピングするデコーダの階層を含む。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（ピーク検出）

本発明者らは、検体メタデータを決定するコンピュータ実装の方法を開示する。本方法は、ニューラルネットワークを通じて一連の画像セットから導出された入力画像データを処理することと、入力画像データの代替表現を生成することと、を含む。入力画像データは、検体及びそれらの周囲背景を描写するユニットのアレイを有する。本方法は、出力層を介して代替表現を処理し、アレイ内の各ユニットの出力値を生成することを含む。本方法は、ユニットの出力値を閾値化することと、周囲の背景を描写する背景ユニットとして、ユニットの第１のサブセットを分類することと、を含む。本方法は、ユニットの出力値内にピークを配置することと、検体の中心を含む中心ユニットとして、ユニットの第２のサブセットを分類することと、を含む。

一実施態様では、本方法は、単位の出力値にセグメント化器を適用することと、背景ユニットによって分離され、中心ユニットで中心に置かれた連続ユニットの非重複領域として、検体の形状を決定することと、を含む。セグメントは中心ユニットから始まり、各中心ユニットに関して、中心が中心ユニットに含まれる同じ検体を示す連続的に連続するユニット群を決定する。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
ニューラルネットワークに基づく分析データ生成器

一実施態様では、方法は、ニューラルネットワークを介して画像データを処理することと、画像データの代替表現を生成することと、を含む。画像データは、検体の強度放射を示す。本方法は、出力層を介して代替表現を処理することと、検体の空間分布、検体の形状、検体の中心、及び／又は検体間の境界、すなわち、検体境界／境界（複数）のうちの少なくとも１つを含む、検体に関するメタデータを識別する出力を生成することと、を含む。他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（ユニットベースの回帰モデル）

本発明者らは、フローセル及び関連する検体メタデータのタイル上の検体を識別するコンピュータ実装の方法を開示している。本方法は、入力画像データを、ニューラルネットワークを介して画像セットの配列から処理し、入力画像データの代替表現を生成することを含む。画像セットの配列内の各画像はタイルを覆い、タイル上の検体の強度放射、及びフローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉された、それらの周囲の背景を示す。本方法は、出力層を介して代替表現を処理することと、検体を識別する出力を生成することと、を含み、その強度放射が、隣接するユニットの不連続領域、不連続領域のうちのそれぞれの１つの質量中心での中心ユニットとしての検体の中心、及び不連続領域のいずれにも属しない背景ユニットとしてのそれらの周囲の背景として、入力画像データによって示される。

一実施態様では、ユニットはピクセルである。別の実施態様では、ユニットはサブピクセルである。更に別の実施態様では、ユニットはスーパーピクセルである。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（ユニットベースの結合分類モデル）

本発明者らは、フローセル及び関連する検体メタデータのタイル上の検体を識別するコンピュータ実装の方法を開示している。本方法は、ニューラルネットワークを介して画像セットの配列から入力画像データを処理することと、画像データの代替表現を生成することと、を含む。画像セットの配列内の各画像はタイルを覆い、タイル上の検体の強度放射、及びフローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉された、それらの周囲の背景とを示す。本方法は、分類層を通して代替表現を処理することと、その強度放射が入力画像データによって示される検体の中心を識別する出力を生成することと、を含む。出力は複数のユニットを有し、複数のユニット内の各ユニットは、検体中心又は非中心のいずれかとして分類される。

一実施態様では、ユニットはピクセルである。別の実施態様では、ユニットはサブピクセルである。更に別の実施態様では、ユニットはスーパーピクセルである。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（ユニットベースの三元分類モデル）

本発明者らは、フローセル及び関連する検体メタデータのタイル上の検体を識別するコンピュータ実装の方法を開示している。本方法は、ニューラルネットワークを介して画像セットの配列から入力画像データを処理することと、画像データの代替表現を生成することと、を含む。画像セットの配列内の各画像はタイルを覆い、タイル上の検体の強度放射、及びフローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉された、それらの周囲の背景を示す。本方法は、分類層を通して代替表現を処理することと、検体の中心、検体形状、検体サイズ、及び／又は検体境界のうちの少なくとも１つを含む、入力画像データによって表される検体及びそれらの周囲の背景の空間分布を識別する出力を生成することと、を含む。出力は複数のユニットを有し、複数のユニット内の各ユニットは、背景、検体中心、又は検体内部のいずれかとして分類される。

一実施態様では、ユニットはピクセルである。別の実施態様では、ユニットはサブピクセルである。更に別の実施態様では、ユニットはスーパーピクセルである。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（ベースコール－単一検体距離チャネル）

我々は、配列決定動作中にフローセルのタイル上で合成される検体をベースコールするニューラルネットワーク実装の方法を開示し、配列決定動作は、複数の配列決定サイクルを有し、複数の配列決定サイクルの各々は、１つ又はそれ以上の画像を有する画像セットを生成し、画像の各々は、１つ又はそれ以上の画像チャネルのうちのそれぞれの１つで検体及びそれらの周囲の背景の強度放射を示す。本方法は、テンプレート生成器を介して複数の配列決定サイクルのうちの初期の１つでそれぞれ生成される初期画像セットを処理して、テンプレート画像内の検体の参照中心を識別することを含む。本方法は、複数の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、複数の配列決定サイクルのうちの現在の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び複数の配列決定サイクルのうちの現在の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で１つ又はそれ以上の画像にアクセスすることを含む。本方法は、テンプレート画像を有する、現在の、先行する、及び後続の画像セット内の画像の各々を位置合わせして、サイクル固有及び画像チャネル固有の変換を決定することを含む。本方法は、検体の参照中心に変換を適用して、画像の各々で検体の変換された中心を識別することを含む。本方法は、ベースコールされている検体のうちの特定の１つに対して、現在の、先行する、後続の画像セット内の画像の各々から画像パッチを抽出することを含んで、各画像パッチは、画像のうちのそれぞれの１つで識別される検体のうちの特定の１つの変換された中心をその中心ピクセル内に含み、検体のうちの特定の１つ、検体のうちのいくつかの隣接するもの、及び画像チャネルの対応する１つでのそれらの周囲の背景の強度放射を示す。本方法は、各画像パッチに対して、その中心ピクセルが含まれる検体のうちの特定の１つの変換された中心から、そのピクセルの中心の距離を識別する距離情報を生成することを含む。本方法は、距離情報を各画像パッチにピクセルごとに符号化することによって、入力データを構築することを含む。本方法は、畳み込みニューラルネットワークを介して、入力データを畳み込んで、入力データの畳み込み表現を生成することを含む。本方法は、出力層を介して畳み込み表現を処理して、Ａ、Ｃ、Ｔ、及びＧである、複数の配列決定サイクルのうちの現在の１つで検体のうちの特定の１つに組み込まれる塩基の尤度を生成することを含む。本方法は、尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することを含む。

一実施態様では、本方法は、各画像パッチに対して、そのピクセルのうちのどれが検体のうちの特定の１つをカバーするか、及びそのピクセルのうちのどれがカバーしないかを識別する検体属性情報を生成することと、検体属性情報を各画像パッチにピクセルごとに符号化することによって入力データを構築することと、を含む。一実施態様では、検体のうちの特定の１つをカバーするピクセルは、検体属性情報で非ゼロ値を割り当てられる。一実施態様では、検体のうちの特定の１つをカバーしないピクセルは、検体属性情報でゼロ値を割り当てられる。一実施態様では、本方法は、検体の変換された中心の畳み込みニューラルネットワーク位置座標への入力として提供することを含む。そのような一実施態様では、入力は、畳み込みニューラルネットワークの第１の層に供給される。別のそのような実施態様では、入力は、畳み込みニューラルネットワークの１つ又はそれ以上の中間層に供給される。更に別のそのような実施態様では、入力は、畳み込みニューラルネットワークの最終層に供給される。一実施態様では、本方法は、画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを畳み込みニューラルネットワークへの入力として提供することを含む。そのような実施態様では、スケーリング値は、検体のうちの特定の１つの中心を含む画像パッチの中心ピクセルの平均強度に基づく。一実施態様では、強度スケーリングチャネルは、画像パッチの全てのピクセルの同じスケーリング値をピクセルごとに含む。一実施態様では、中心ピクセルの平均強度は、画像チャネルのうちの対応する１つの各々に対して決定される。

一実施態様では、中心ピクセルの平均強度は、検体のうちの特定の１つに対してＡ及びＴベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第１の画像チャネルに対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちの特定の１つに対してＡ及びＣベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第２の画像チャネルに対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちの特定の１つに対してＡベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第１の画像チャネルに対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちの特定の１つに対してＧベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第２の画像チャネルに対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちの特定の１つに対してＴベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第３の画像チャネルに対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちの特定の１つに対してＣベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第３の画像チャネルに対して決定される。

一実施態様では、配列決定動作は、第１のリードプライマー及び第２のリードプライマーを使用して、検体内のフラグメントの両方の末端を順方向及び逆方向に配列決定する、ペアの末端配列決定を実施し、それによって、各フラグメントに対してリードペアを生成し、リードペアは、順方向リード及び逆方向リードを有する。一実施態様では、フラグメントの両方の末端は、連続して配列決定されて、順方向及び逆方向リードを次々に生成する。一実施態様では、フラグメントの両方の末端は、同時に配列決定されて、順方向及び逆方向リードを同時に生成する。一実施態様では、順方向及び逆方向リードは各々、１つ又はそれ以上のフラグメントを含む。一実施態様では、フラグメントのうちの１つ又はそれ以上は、連続して配列決定される。一実施態様では、フラグメントのうちの１つ又はそれ以上は、同時に配列決定される。一実施態様では、配列決定動作は、単一のリードプライマーを使用して１つの方向にフラグメントを配列決定する単一のリード配列決定を実施する。一実施態様では、配列決定動作は、ループ内のフラグメントの２本鎖コピーを配列決定する円形配列決定を実施し、ループは、所与のフラグメントの２本鎖コピーにおいて複数回反復する。一実施態様では、配列決定動作は、フラグメントのスタックコピーを配列決定するスタック配列決定を実施し、所与のフラグメントのスタックコピーは、垂直又は水平にスタックされる。一実施態様では、画像パッチのサイズは、３×３のピクセル～１００００×１００００のピクセルの範囲である。

一実施態様では、変換された中心は、浮動小数点座標値である。そのような実施態様では、本方法は、変換された中心の整数座標値を生成するための丸め動作を使用して浮動小数点座標値を丸めることと、その整数座標と変換された中心に対して生成される整数座標値との間の重複に基づいて中心ピクセルを識別することと、を含む。一実施態様では、丸め動作は、床関数、天井関数、及び／又はラウンド関数のうちの少なくとも１つである。一実施態様では、丸め動作は、整数関数及び／又は整数＋符号関数のうちの少なくとも１つである。一実施態様では、テンプレート生成器は、ニューラルネットワークベースのテンプレート生成器である。一実施態様では、出力層は、ソフトマックス層であり、尤度は、Ａ、Ｃ、Ｔ、及びＧである複数の配列決定サイクルのうちの現在の１つで、検体のうちの特定の１つに組み込まれる塩基の指数関数的に正規化されたスコア分布である。

一実施態様では、画像チャネルの各々１つは、複数のフィルタ波長帯域のうちの１つである。別の実施態様では、画像チャネルの各々１つは、複数の画像イベントのうちの１つである。一実施態様では、フローセルは、検体を占有するウェルのアレイを有する、少なくとも１つのパターン化された表面を有する。別の実施態様では、フローセルは、少なくとも１つの非パターン化表面を有し、検体は、非パターン化表面上で不均一に散乱される。一実施態様では、画像セットは、４個の画像を有する。別の実施態様では、画像セットは、２個の画像を有する。更に別の実施態様では、画像セットは、１個の画像を有する。一実施態様では、配列決定動作は、４チャネル化学を利用する。別の実施態様では、配列決定動作は、２チャネル化学を利用する。更に別の実施態様では、配列決定動作は、１チャネル化学を利用する。

我々は、配列決定動作中に合成される検体をベースコールするニューラルネットワーク実装の方法を開示する。本方法は、畳み込みニューラルネットワークを介して、入力データを畳み込んで、入力データの畳み込み表現を生成することを含む。入力データは、配列決定動作の現在の配列決定サイクルで生成される現在の画像セット、現在の配列決定サイクルに先行する配列決定動作の１つ又はそれ以上の配列決定サイクルでそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び現在の配列決定サイクルに続く配列決定動作の１つ又はそれ以上の配列決定サイクルでそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で１つ又はそれ以上の画像から抽出される画像パッチを含む。画像パッチの各々は、ベースコールされているターゲット検体、いくつかの隣接する検体、及び対応する画像チャネル内のそれらの周囲の背景の強度放射を示す。入力データは、画像パッチの中心ピクセルに位置するターゲット検体の中心からの画像パッチのピクセルの中心の距離を識別するために画像パッチの各々でピクセルごとに符号化される距離情報を更に含む。本方法は、出力層を介して畳み込み表現を処理して出力を生成することを含む。本方法は、出力に基づいて、現在の配列決定サイクルでターゲット検体をベースコールすることを含む。

一実施態様では、本方法は、出力層を介して畳み込み表現を処理して、Ａ、Ｃ、Ｔ、及びＧである、現在の配列決定サイクルでターゲット検体に組み込まれる塩基の尤度を生成することと、尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、を含む。一実施態様では、尤度は、ソフトマックス層によって生成される、指数関数的に正規化されたスコアである。

一実施態様では、本方法は、出力から、現在の配列決定サイクルでターゲット検体に組み込まれる塩基がＡ、Ｃ、Ｔ、又はＧであることのクラスラベルを識別するターゲット検体に対する出力ペアを導出することと、クラスラベルに基づいて、ターゲット検体をベースコールすることと、を含む。一実施態様では、１、０のクラスラベルは、Ａ塩基を識別し、０、１のクラスラベルは、Ｃ塩基を識別し、１、１のクラスラベルは、Ｔ塩基を識別し、０、０のクラスラベルは、Ｇ塩基を識別する。別の実施態様では、１、１のクラスラベルは、Ａ塩基を識別し、０、１のクラスラベルは、Ｃ塩基を識別し、０．５、０．５のクラスラベルは、Ｔ塩基を識別し、０、０のクラスラベルは、Ｇ塩基を識別する。更に別の実施態様では、１、０のクラスラベルは、Ａ塩基を識別し、０、１のクラスラベルは、Ｃ塩基を識別し、０．５、０．５のクラスラベルは、Ｔ塩基を識別し、０、０のクラスラベルは、Ｇ塩基を識別する。更に更なる実施態様では、１、２のクラスラベルは、Ａ塩基を識別し、０、１のクラスラベルは、Ｃ塩基を識別し、１、１のクラスラベルは、Ｔ塩基を識別し、０、０のクラスラベルは、Ｇ塩基を識別する。一実施態様では、本方法は、出力から、現在の配列決定サイクルでターゲット検体に組み込まれる塩基がＡ、Ｃ、Ｔ、又はＧであることを識別するターゲット検体に対するクラスラベルを導出することと、クラスラベルに基づいて、ターゲット検体をベースコールすることと、を含む。一実施態様では、０．３３のクラスラベルは、Ａ塩基を識別し、０．６６のクラスラベルは、Ｃ塩基を識別し、１のクラスラベルは、Ｔ塩基を識別し、０のクラスラベルは、Ｇ塩基を識別する。別の実施態様では、０．５０のクラスラベルは、Ａ塩基を識別し、０．７５のクラスラベルは、Ｃ塩基を識別し、１のクラスラベルは、Ｔ塩基を識別し、０．２５のクラスラベルは、Ｇ塩基を識別する。一実施態様では、本方法は、出力から単一の出力値を導出することと、塩基Ａ、Ｃ、Ｔ、及びＧに対応するクラス値範囲に対して単一の出力値を比較することと、比較に基づいて、単一の出力値を特定のクラス値範囲に割り当てることと、割り当てに基づいて、ターゲット検体をベースコールすることと、を含む。一実施態様では、単一の出力値は、シグモイド関数を使用して導出され、単一の出力値は、０～１の範囲である。別の実施態様では、０～０．２５のクラス値範囲は、Ａ塩基を表し、０．２５～０．５０のクラス値範囲は、Ｃ塩基を表し、０．５０～０．７５のクラス値範囲は、Ｔ塩基を表し、０．７５～１のクラス値範囲は、Ｇ塩基を表す。

我々は、配列決定動作中にフローセルのタイル上で合成される検体をベースコールするニューラルネットワーク実装の方法を開示し、配列決定動作は、複数の配列決定サイクルを有し、複数の配列決定サイクルの各々は、１つ又はそれ以上の画像を有する画像セットを生成し、画像の各々は、１つ又はそれ以上の画像チャネルのうちのそれぞれの１つで検体及びそれらの周囲の背景の強度放射を示す。本方法は、テンプレート生成器を介して複数の配列決定サイクルのうちの初期の１つでそれぞれ生成される初期画像セットを処理して、テンプレート画像内の検体の参照中心を識別することを含む。本方法は、複数の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、複数の配列決定サイクルのうちの現在の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び複数の配列決定サイクルのうちの現在の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で１つ又はそれ以上の画像にアクセスすることを含む。本方法は、テンプレート画像を有する、現在の、先行する、及び後続の画像セット内の画像の各々を位置合わせして、サイクル固有及び画像チャネル固有の変換を決定することを含む。本方法は、検体の参照中心に変換を適用して、画像の各々で検体の変換された中心を識別することを含む。本方法は、ベースコールされている検体のうちの特定の１つに対して、現在の、先行する、後続の画像セット内の画像の各々から画像パッチを抽出することを含んで、各画像パッチは、画像のうちのそれぞれの１つで識別される検体のうちの特定の１つの変換された中心をその中心ピクセル内に含み、検体のうちの特定の１つ、検体のうちのいくつかの隣接するもの、及び画像チャネルの対応する１つでのそれらの周囲の背景の強度放射を示す。本方法は、各画像パッチに対して、その中心ピクセルが含まれる検体のうちの特定の１つの変換された中心から、そのピクセルの中心の距離を識別する距離情報を生成することを含む。本方法は、距離情報を各画像パッチにピクセルごとに符号化することによって、入力データを構築することを含む。本方法は、畳み込みニューラルネットワークを介して、入力データを畳み込んで、入力データの畳み込み表現を生成することを含む。本方法は、出力層を介して畳み込み表現を処理して出力を生成することを含む。本方法は、出力に基づいて、複数の配列決定サイクルのうちの現在の１つで、検体のうちの特定の１つをベースコールすることを含む。

一実施態様では、本方法は、出力層を介して畳み込み表現を処理して、Ａ、Ｃ、Ｔ、及びＧである、複数の配列決定サイクルのうちの現在の１つで検体のうちの特定の１つに組み込まれる塩基の尤度を生成することと、尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、を含む。

一実施態様では、コンピュータ実装の方法は、ニューラルネットワークを介して入力データを処理することと、入力データの代替表現を生成することと、を含む。入力データは、配列決定動作の１つ又はそれ以上の配列決定サイクルの各々に対するサイクルごとの画像データを含む。サイクルごとの画像データは、それぞれの配列決定サイクルで捕捉される、１つ又はそれ以上の検体及びそれらの周囲の背景の強度放射を示す。本方法は、出力層を介して代替表現を処理することと、出力を生成することと、を含む。本方法は、出力に基づいて、配列決定サイクルのうちの１つ又はそれ以上で、検体のうちの１つ又はそれ以上をベースコールすることを含む。

一実施態様では、本方法は、サイクルごとの画像データのピクセルと、検体のうちの１つ又はそれ以上との間の距離を識別する補足距離情報に、サイクルごとの画像データを伴わせることを含む。そのような実施態様では、距離は、ニューラルネットワーク及び出力層による処理で検体のうちの１つ又はそれ以上の中心、形状、及び／又は境界に関するコンテキストを組み込む。一実施態様では、本方法は、サイクルごとの画像データのピクセルにスケーリング値を割り当てる補足スケーリング情報に、サイクルごとの画像データを伴わせることを含む。そのような実施態様では、スケーリング値は、検体のうちの１つ又はそれ以上の強度の分散を考慮する。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（ベースコール－マルチ検体距離チャネル）

我々は、配列決定動作中に合成される検体をベースコールするニューラルネットワーク実装の方法を開示する。本方法は、配列決定動作の一連の配列決定サイクルのために生成されるサイクルごとの画像パッチセットの配列を含む入力データにアクセスすることを含む。配列内のサイクルごとの各画像パッチセットは、１つ又はそれ以上の画像チャネルのうちのそれぞれの１つに対する画像パッチを有する。各画像パッチは、複数の検体及びそれらの周囲の背景をカバーするピクセルに対するピクセル強度データと、ピクセルと検体の各々との間の中心間距離に基づいて選択される検体のうちの最も近い１つから、各ピクセルの中心間距離を識別するピクセル距離データと、を有する。本方法は、畳み込みニューラルネットワークを介して、入力データを畳み込んで、入力データの畳み込み表現を生成することを含む。本方法は、出力層を介して畳み込み表現を処理して、Ａ、Ｃ、Ｔ、及びＧである現在の配列決定サイクルで検体のうちのそれぞれの１つに組み込まれる塩基の尤度を識別する検体の各々に対するスコア分布を生成することを含む。本方法は、尤度に基づいて、検体の各々をベースコールすることを含む。

一実施態様では、ピクセル距離データは、各画像パッチにピクセルごとに符号化される。一実施態様では、中心間距離は、検体の変換された中心の位置座標及びピクセル中心の位置座標を使用する距離式から導出される。一実施態様では、本方法は、各画像パッチのピクセルに対応するスケーリング値を有する畳み込みニューラルネットワーク強度スケーリングチャネルへの入力として提供することを含み、スケーリング値は、検体の変換された中心を含む各画像パッチ内の中心ピクセルの平均強度の組み合わせに基づく。一実施態様では、強度スケーリングチャネルは、画像パッチの全てのピクセルのピクセル強度データに、同じスケーリング値をピクセルごとに適用する。一実施態様では、強度スケーリングチャネルは、ピクセル近傍ベースで、画像パッチのピクセルのピクセル強度データに異なるスケーリング値をピクセルごとに適用して、第１の中心ピクセルの平均強度から導出される第１のスケーリング値は、第１の中心ピクセルに連続的に連続する隣接するピクセルの第１のピクセル近傍に適用され、別の中心ピクセルの平均強度から導出される別のスケーリング値は、別の中心ピクセルに連続的に連続する隣接するピクセルの別のピクセル近傍に適用される。一実施態様では、ピクセル近傍は、中心ピクセルで中心にされるｍ×ｎのピクセルパッチであり、ピクセルパッチは、３×３のピクセルである。一実施態様では、ピクセル近傍は、中心ピクセルで中心にされるｎ個の接続されたピクセル近傍である。一実施態様では、中心ピクセルの平均強度は、画像チャネルの対応する１つの各々に対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちのそれぞれの１つに対してＡ及びＴベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第１の画像チャネルに対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちのそれぞれの１つに対してＡ及びＣベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第２の画像チャネルに対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちのそれぞれの１つに対してＡベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第１の画像チャネルに対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちのそれぞれの１つに対してＧベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第２の画像チャネルに対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちそれぞれの１つに対してＴベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第３の画像チャネルに対して決定される。一実施態様では、中心ピクセルの平均強度は、検体のうちのそれぞれの１つに対してＣベースコールを生成した２つ又はそれ以上の先行する配列決定サイクル中に観察される中心ピクセルの強度値を平均することによって、第３の画像チャネルに対して決定される。一実施態様では、本方法は、各画像パッチに対して、そのピクセルのうちのどれが検体をカバーするか、及びそのピクセルのうちのどれがカバーしないかを識別する検体属性情報を生成することと、検体属性情報を各画像パッチにピクセルごとに符号化することによって入力データを構築することと、を含む。一実施態様では、検体をカバーするピクセルは、検体属性情報で非ゼロ値を割り当てられる。一実施態様では、検体をカバーしないピクセルは、検体属性情報でゼロ値を割り当てられる。一実施態様では、各画像パッチのサイズは、３×３のピクセル～１００００×１００００のピクセルの範囲である。一実施態様では、出力層は、ソフトマックス層であり、スコア分布は、指数関数的に正規化されたスコア分布である。

我々は、配列決定動作中に合成される検体をベースコールするニューラルネットワーク実装の方法を開示する。本方法は、配列決定動作の一連の配列決定サイクルのために生成されるサイクルごとの画像パッチセットの配列を含む入力データにアクセスすることを含む。配列内のサイクルごとの各画像パッチセットは、１つ又はそれ以上の画像チャネルのうちのそれぞれの１つに対する画像パッチを有する。各画像パッチは、複数の検体及びそれらの周囲の背景をカバーするピクセルに対するピクセル強度データと、ピクセルと検体の各々との間の中心間距離に基づいて選択される検体のうちの最も近い１つから、各ピクセルの中心間距離を識別するピクセル距離データと、を有する。本方法は、畳み込みニューラルネットワークを介して、入力データを畳み込んで、入力データの畳み込み表現を生成することを含む。本方法は、出力層を介して畳み込み表現を処理して出力を生成することを含む。本方法は、出力に基づいて、現在の配列決定サイクルで検体の各々をベースコールすることを含む。

一実施態様では、本方法は、出力から、Ａ、Ｃ、Ｔ、及びＧである現在の配列決定サイクルで検体のうちのそれぞれの１つに組み込まれる塩基の尤度を識別する検体の各々に対するスコア分布を導出することと、尤度に基づいて、検体の各々をベースコールすることと、を含む。一実施態様では、出力層は、ソフトマックス層であり、スコア分布は、指数関数的に正規化されたスコア分布である。一実施態様では、本方法は、出力から、現在の配列決定サイクルで検体のうちのそれぞれの１つに組み込まれる塩基がＡ、Ｃ、Ｔ、及びＧであることのクラスラベルを識別する検体の各々に対する出力ペアを導出することと、クラスラベルに基づいて、検体の各々をベースコールすることと、を含む。一実施態様では、本方法は、出力から単一の出力値を導出することと、塩基Ａ、Ｃ、Ｔ、及びＧに対応するクラス値範囲に対して単一の出力値を比較することと、比較に基づいて、単一の出力値を特定のクラス値範囲に割り当てることと、割り当てに基づいて、検体の各々をベースコールすることと、を含む。一実施態様では、単一の出力値は、シグモイド関数を使用して導出され、単一の出力値は、０～１の範囲である。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（ベースコール－マルチ検体形状ベースの距離チャネル）

我々は、配列決定動作中に合成される検体をベースコールするニューラルネットワーク実装の方法を開示する。本方法は、配列決定動作の一連の配列決定サイクルのために生成されるサイクルごとの画像パッチセットの配列を含む入力データにアクセスすることを含む。配列内のサイクルごとの各画像パッチセットは、１つ又はそれ以上の画像チャネルのうちのそれぞれの１つに対する画像パッチを有する。各画像パッチは、検体強度を示す検体ピクセル及び背景強度を示す背景ピクセルを使用して、複数の検体及びそれらの周囲の背景の強度放射を示す。各画像パッチは、各検体ピクセルを検体のうちの１つのみに分類することに基づいて選択される検体のうちの割り当てられた１つから、各検体ピクセルの中心間距離を識別する検体距離データで符号化される。本方法は、畳み込みニューラルネットワークを介して、入力データを畳み込んで、入力データの畳み込み表現を生成することを含む。本方法は、出力層を介して畳み込み表現を処理して、Ａ、Ｃ、Ｔ、及びＧである現在の配列決定サイクルで検体のうちのそれぞれの１つに組み込まれる塩基の尤度を識別する検体の各々に対するスコア分布を生成することを含む。本方法は、尤度に基づいて、検体の各々をベースコールすることを含む。

一実施態様では、検体は、複数の検体ピクセルに及ぶ不規則な形状を有し、ピクセル対検体分類は、不規則な形状に基づく。一実施態様では、全ての背景ピクセルは、検体距離データ内の同じ最小中心間距離を割り当てられる。一実施態様では、全ての背景ピクセルは、同じ最小強度を割り当てられる。一実施態様では、各検体ピクセルは、ニューラルネットワークベースのテンプレート生成器によって生成される減衰マップに基づいて、検体のうちの１つのみに分類される。そのような実施態様では、減衰マップは、隣接するピクセルの不連続領域として検体を識別し、不連続領域のうちのそれぞれの１つの質量中心で中心ピクセルとして検体の中心を識別し、不連続領域のいずれにも属しない背景ピクセルとしてそれらの周囲の背景を識別する。一実施態様では、不連続領域のうちのそれぞれの１つでの隣接するピクセルは、隣接するピクセルが属する不連続領域内の中心ピクセルからの隣接するピクセルの距離に従って重み付けされる強度値を有する。一実施態様では、不連続領域のうちのそれぞれの１つでの隣接するピクセルは、同じ検体に属し、それを共に示す検体内部ピクセルとして分類され、検体ごとにメモリ内に記憶される。一実施態様では、中心ピクセルは、不連続領域のうちのそれぞれの１つで最も高い強度値を有する。一実施態様では、背景ピクセルは全て、減衰マップで同じ最低強度値を有する。一実施態様では、検体距離データは、各画像パッチにピクセルごとに符号化している。一実施態様では、中心間距離は、検体の変換された中心の位置座標及びピクセル中心の位置座標を使用する距離式から導出される。一実施態様では、検体の変換された中心は、減衰マップによって識別される検体の中心に、サイクル固有及び画像チャネル固有の変換を適用することによって導出される。

一実施態様では、本方法は、各画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを畳み込みニューラルネットワークへの入力として提供することを含む。そのような実施態様では、スケーリング値は、検体の変換された中心を含む各画像パッチ内の中心ピクセルの平均強度の組み合わせに基づく。一実施態様では、強度スケーリングチャネルは、ピクセルグループベースで、画像パッチのピクセルのピクセル強度データに異なるスケーリング値をピクセルごとに適用して、第１の中心ピクセルの平均強度から導出される第１のスケーリング値は、第１の検体に属し、かつそれを共に示す、隣接するピクセルの第１のピクセルグループに適用され、別の検体の中心を含む別の中心ピクセルの平均強度から導出される別のスケーリング値は、別の検体に属し、かつそれを共に示す、隣接するピクセルの別のピクセルグループに適用される。一実施態様では、中心ピクセルの平均強度は、画像チャネルの対応する１つの各々に対して決定される。一実施態様では、本方法は、各画像パッチに対して、そのピクセルのうちのどれが検体をカバーするか、及びそのピクセルのうちのどれがカバーしないかを識別する検体属性情報を生成することと、検体属性情報を各画像パッチにピクセルごとに符号化することによって入力データを構築することと、を含む。一実施態様では、検体をカバーするピクセルは、検体属性情報で非ゼロ値を割り当てられる。別の実施態様では、検体をカバーしないピクセルは、検体属性情報でゼロ値を割り当てられる。

我々は、配列決定動作中に合成される検体をベースコールするニューラルネットワーク実装の方法を開示する。本方法は、配列決定動作の一連の配列決定サイクルのために生成されるサイクルごとの画像パッチセットの配列を含む入力データにアクセスすることを含む。配列内のサイクルごとの各画像パッチセットは、１つ又はそれ以上の画像チャネルのうちのそれぞれの１つに対する画像パッチを有する。各画像パッチは、検体強度を示す検体ピクセル及び背景強度を示す背景ピクセルを使用して、複数の検体及びそれらの周囲の背景の強度放射を示す。各画像パッチは、各検体ピクセルを検体のうちの１つのみに分類することに基づいて選択される検体のうちの割り当てられた１つから、各検体ピクセルの中心間距離を識別する検体距離データで符号化される。本方法は、畳み込みニューラルネットワークを介して、入力データを畳み込んで、入力データの畳み込み表現を生成することを含む。本方法は、出力層を介して畳み込み表現を処理して出力を生成することを含む。本方法は、出力に基づいて、現在の配列決定サイクルで検体の各々をベースコールすることを含む。

他の実施態様のための特定の実施態様セクションで説明される特徴の各々は、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（専用構造）

我々は、互いに位置合わせ誤差を有する配列決定画像を使用して検体をベースコールするネットワーク実装の方法を開示する。本方法は、配列決定動作の一連の配列決定サイクルのために生成されるサイクルごとの画像パッチセットの配列にアクセスすることを含む。配列は、サイクルごとの画像パッチセットにわたって、サイクルごとの画像パッチセット内で、画像パッチ間の位置合わせ誤差を有する。配列内の各画像パッチは、ベースコールされているターゲット検体、いくつかの隣接する検体、及び一連の対応する配列決定サイクルでの対応する画像チャネル内のそれらの周囲の背景の強度情報を示す。配列内の各画像パッチは、その中心ピクセルに位置するターゲット検体の中心からのそのピクセルの中心の距離を識別する距離情報でピクセルごとに符号化される。本方法は、第１の畳み込みサブネットワークを介して、サイクルごとの各画像パッチセットを別々に処理して、各配列決定サイクルに対する中間畳み込み表現を生成することを含み、配列決定サイクル間ではなく配列決定サイクル内でのみ、強度及び距離情報を組み合わせ、かつ得られた畳み込み表現を組み合わせる畳み込みを適用することを含む。本方法は、第２の畳み込みサブネットワークを介して、一連の連続する配列決定サイクルに対する中間畳み込み表現をグループごとに処理して、一連の最終畳み込み表現を生成することを含み、配列決定サイクル間で、中間畳み込み表現を組み合わせ、かつ得られた畳み込み表現を組み合わせる畳み込みを適用することを含む。本方法は、出力層を介して最終畳み込み表現を処理して出力を生成することを含む。本方法は、出力に基づいて、現在の配列決定サイクルでターゲット検体をベースコールすることを含む。

一実施態様では、配列内の各画像パッチは、複数の検体及びそれらの周囲の背景をカバーするピクセルに対するピクセル強度データと、ピクセルと検体の各々との間の中心間距離に基づいて選択される検体のうちの最も近い１つから、各ピクセルの中心間距離を識別するピクセル距離データと、を有する。そのような実施態様では、本方法は、出力に基づいて、現在の配列決定サイクルで検体の各々をベースコールすることを含む。一実施態様では、配列内の各画像パッチは、検体強度を示す検体ピクセル及び背景強度を示す背景ピクセルを使用して、複数の検体及びそれらの周囲の背景の強度放射を示し、各検体ピクセルを検体のうちの１つのみに分類することに基づいて選択される検体のうちの割り当てられた１つから、各検体ピクセルの中心間距離を識別する検体距離データで符号化される。そのような実施態様では、本方法は、出力に基づいて、現在の配列決定サイクルで検体の各々をベースコールすることを含む。一実施態様では、本方法は、ターゲット検体及び／又は隣接する検体の第１の畳み込みサブネットワーク位置座標への入力として提供することを含む。一実施態様では、本方法は、ターゲット検体及び／又は隣接する検体の第２の畳み込みサブネットワーク位置座標への入力として提供することを含む。一実施態様では、本方法は、ターゲット検体及び／又は隣接する検体の出力層位置座標への入力として提供することを含む。

我々は、位置合わせ誤差を有する画像データを使用して検体をベースコールするネットワーク実装の方法を開示する。本方法は、配列決定動作の一連の配列決定サイクルのために入力データにアクセスすることを含む。入力データは、各配列決定サイクルに対する画像テンソルを有する。各画像テンソルは、１つ又はそれ以上の画像チャネルに対するデータを有し、各画像チャネルに対して、ベースコールされているターゲット検体、いくつかの隣接する検体、及び周囲の背景をカバーするピクセルに対するピクセル強度データ、並びにターゲット検体の中心からピクセルの中心までの距離に対するピクセル距離データを含む。入力データは、画像テンソルにわたるピクセル間のクロスサイクル位置合わせ誤差、及び画像テンソル内のピクセル間のクロス画像チャネル位置合わせ誤差を有する。本方法は、空間畳み込み層の配列を有する空間畳み込みネットワークを介して各入力テンソルを別々に処理して、各配列決定サイクルに対する空間畳み込み表現を生成することを含み、配列決定サイクル間ではなく配列決定サイクル内でのみ、ピクセル強度及び距離を組み合わせる第１の空間畳み込み層で開始することと、配列決定サイクル間ではなく一連の配列決定サイクル内の各配列決定サイクル内でのみ、先行する空間畳み込み層の出力を組み合わせる連続する空間畳み込み層を継続することと、を含む。本方法は、時間的畳み込み層の配列を有する時間的畳み込みネットワークを介して、連続する配列決定サイクルに対する空間畳み込み表現をグループごとに処理して、一連の時間的畳み込み表現を生成することを含み、一連の配列決定サイクル内の配列決定サイクル間で空間畳み込み表現を組み合わせる第１の時間的畳み込み層で開始することと、先行する時間的畳み込み層の連続する出力を組み合わせる、連続する時間的畳み込み層を継続することと、を含む。本方法は、出力層を介して時間的畳み込み表現を処理して出力を生成することを含む。本方法は、出力に基づいて、現在の配列決定サイクルでターゲット検体をベースコールすることを含む。

一実施態様では、グループごとに処理することは、重複するスライディングウィンドウ内の連続する中間畳み込み表現上で畳み込むことを更に含む。一実施態様では、連続する時間的畳み込み層は、重複するスライディングウィンドウ内で連続する出力を組み合わせる。一実施態様では、ピクセル距離データは、各画像テンソルにピクセルごとに符号化している。一実施態様では、配列内の各画像テンソルは、複数の検体及びそれらの周囲の背景をカバーするピクセルに対するピクセル強度データと、ピクセルと検体の各々との間の中心間距離に基づいて選択される検体のうちの最も近い１つから、各ピクセルの中心間距離を識別するピクセル距離データと、を有する。一実施態様では、本方法は、出力に基づいて、現在の配列決定サイクルで検体の各々をベースコールすることを含む。一実施態様では、配列内の各画像テンソルは、検体強度を示す検体ピクセル及び背景強度を示す背景ピクセルを使用して、複数の検体及びそれらの周囲の背景の強度放射を示し、各検体ピクセルを検体のうちの１つのみに分類することに基づいて選択される検体のうちの割り当てられた１つから、各検体ピクセルの中心間距離を識別する検体距離データで符号化される。一実施態様では、本方法は、出力に基づいて、現在の配列決定サイクルで検体の各々をベースコールすることを含む。一実施態様では、本方法は、ターゲット検体及び／又は隣接する検体の第１の畳み込みサブネットワーク位置座標への入力として提供することを含む。一実施態様では、本方法は、ターゲット検体及び／又は隣接する検体の第２の畳み込みサブネットワーク位置座標への入力として提供することを含む。一実施態様では、本方法は、ターゲット検体及び／又は隣接する検体の出力層位置座標への入力として提供することを含む。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（再構成）

我々は、配列決定動作中に合成される検体をベースコールするニューラルネットワーク実装の方法を開示する。本方法は、配列決定動作の一連の配列決定サイクルのために生成されるサイクルごとの画像パッチセットの配列にアクセスすることを含む。配列内のサイクルごとの各画像パッチセットは、１つ又はそれ以上の画像チャネルのうちのそれぞれの１つに対する画像パッチを有する。各画像パッチは、ベースコールされているターゲット検体、いくつかの隣接する検体、及び周囲の背景をカバーするピクセルに対するピクセル強度データを有する。本方法は、各画像パッチのピクセルを再構成して、中心ピクセル内のターゲット検体の中心を中心にすることを含む。本方法は、畳み込みニューラルネットワークを介して、再構成された画像パッチを畳み込んで、再構成された画像パッチの畳み込み表現を生成することを含む。本方法は、出力層を介して畳み込み表現を処理して出力を生成することを含む。本方法は、出力に基づいて、現在の配列決定サイクルでターゲット検体をベースコールすることを含む。

一実施態様では、再構成は、再構成を補償するための各画像パッチのピクセルの強度補間を更に含む。一実施態様では、強度補間は、最近傍強度抽出、ガウス系強度抽出、平均２×２のサブピクセル領域に基づく強度抽出、最も明るい２×２のサブピクセル領域に基づく強度抽出、平均３×３のサブピクセル領域に基づく強度抽出、バイリニア強度抽出、双次強度抽出、及び／又は重み付け領域被覆に基づく強度抽出のうちの少なくとも１つを更に含む。一実施態様では、再構成の前に、ターゲット検体の中心は、中心ピクセルの中心からオフセットで各画像パッチの中心ピクセルに位置する。一実施態様では、再構成は、各画像パッチの非中心ピクセルが、ターゲット検体のそれぞれの中心から等距離であることを必要とすることを更に含む。一実施態様では、配列内の各画像パッチは、複数の検体及びそれらの周囲の背景を示すピクセルに対するピクセル強度データと、ピクセルと検体の各々との間の中心間距離に基づいて選択される検体のうちの最も近い１つから、各ピクセルの中心間距離を識別するピクセル距離データと、を有する。一実施態様では、本方法は、出力に基づいて、現在の配列決定サイクルで検体の各々をベースコールすることを含む。一実施態様では、配列内の各画像パッチは、検体強度を示す検体ピクセル及び背景強度を示す背景ピクセルを使用して、複数の検体及びそれらの周囲の背景の強度放射を示し、各検体ピクセルを検体のうちの１つのみに分類することに基づいて選択される検体のうちの割り当てられた１つから、各検体ピクセルの中心間距離を識別する検体距離データで符号化される。一実施態様では、本方法は、出力に基づいて、現在の配列決定サイクルで検体の各々をベースコールすることを含む。一実施態様では、本方法は、ターゲット検体及び／又は隣接する検体の第１の畳み込みサブネットワーク位置座標への入力として提供することを含む。一実施態様では、本方法は、ターゲット検体及び／又は隣接する検体の第２の畳み込みサブネットワーク位置座標への入力として提供することを含む。一実施態様では、本方法は、ターゲット検体及び／又は隣接する検体の出力層位置座標への入力として提供することを含む。

我々は、フローセル上で検体をベースコールするニューラルネットワーク実装の方法を開示する。本方法は、フローセル上で検体を合成する配列決定動作の複数の配列決定サイクル上で生成される画像セットの配列にアクセスすることを含む。画像セットの配列内の各画像は、フローセルの非重複領域をカバーし、複数の配列決定サイクルのうちのそれぞれの１つでの対応する画像チャネル内に捕捉される、非重複領域上の検体のサブセット及びそれらの周囲の背景の強度放射を示す。本方法は、画像セットの配列から、複数の配列決定サイクルのうちの特定の１つで生成される現在の画像セット、複数の配列決定サイクルのうちの特定の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び複数の配列決定サイクルのうちの特定の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットを選択することによって、検体のサブセットのうちの特定の１つで複数の配列決定サイクルのうちの特定の１つで組み込まれるヌクレオチド塩基（Ａ、Ｃ、Ｔ、又はＧ）を決定することを含む。本方法は、選択された画像セットの各々での画像から画像パッチを抽出することを含む。画像パッチは、検体のサブセットのうちの特定の１つで中心にされ、検体のサブセットから追加の隣接する検体を含む。本方法は、畳み込みニューラルネットワークの１つ又はそれ以上の層を介して、画像パッチを畳み込んで、画像パッチの畳み込み表現を生成することを含む。本方法は、出力層を介して畳み込み表現を処理して、Ａ、Ｃ、Ｔ、及びＧである、ヌクレオチド塩基に対する尤度を生成することを含む。本方法は、尤度に基づいて、ヌクレオチド塩基をＡ、Ｃ、Ｔ、又はＧと分類することを含む。

一実施態様では、本方法は、複数の配列決定サイクルの各々に対して、選択、抽出、畳み込み、処理、及び分類を反復することによって、複数の配列決定サイクルにおいて検体のサブセットのうちの特定の１つに対してベースコールの配列を生成することを含む。一実施態様では、本方法は、サブセット内の複数の検体の各々に対して複数の配列決定サイクルの各々に対して、選択、抽出、畳み込み、処理、及び分類を反復することによって、複数の配列決定サイクルにおいてサブセット内の複数の検体に対してベースコールの配列を生成することを含む。一実施態様では、フローセルの非重複領域は、タイルである。一実施態様では、対応する画像チャネルは、複数のフィルタ波長帯域のうちの１つである。一実施態様では、対応する画像チャネルは、複数の画像イベントのうちの１つである。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（複数のサイクルでの複数のクラスターの同時のベースコール）

我々は、フローセル上で検体をベースコールするニューラルネットワーク実装の方法を開示する。本方法は、画像セットの配列から入力画像データを取得することを含む。画像セットの配列は、フローセル上で検体を合成する配列決定動作の複数の配列決定サイクル上で生成される。画像セットの配列内の各画像は、フローセルの非重複領域をカバーし、複数の配列決定サイクルのうちのそれぞれの１つでの対応する画像チャネル内に捕捉される、非重複領域上の検体のサブセット及びそれらの周囲の背景の強度放射を示す。本方法は、ニューラルネットワークの１つ又はそれ以上の層を介して、入力画像データを処理して、入力画像データの代替表現を生成することを含む。本方法は、出力層を介して代替表現を処理して、複数の配列決定サイクルの各々の各々でサブセット内の検体のうちの少なくともいくつかに組み込まれるヌクレオチド塩基（Ａ、Ｃ、Ｔ、又はＧ）を識別する出力を生成し、それによって、複数の配列決定サイクルにおいて、サブセット内の検体のうちの少なくともいくつかの各々に対して、ベースコールの配列を生成することを含む。

一実施態様では、出力層は、ソフトマックス層であり、出力は、Ａ、Ｃ、Ｔ、及びＧである、サブセット内の検体のうちの少なくともいくつかの各々で複数の配列決定サイクルの各々で組み込まれるヌクレオチド塩基の指数関数的に正規化されたスコア分布である。一実施態様では、入力画像データは、画像セットの配列内の画像を含む。一実施態様では、入力画像データは、画像セットの配列内の画像の各々からの少なくとも１つの画像パッチを含む。一実施態様では、ニューラルネットワークは、畳み込みニューラルネットワークである。別の実施態様では、ニューラルネットワークは、残留ニューラルネットワークである。更に別の実施態様では、ニューラルネットワークは、反復ニューラルネットワークである。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（反復畳み込みベースのベースコール）

我々は、ベースコールに対するニューラルネットワークベースのシステムを開示する。システムは、反復モジュール及び畳み込みモジュールを有するハイブリッドニューラルネットワークを含む。反復モジュールは、畳み込みモジュールからの入力を使用する。畳み込みモジュールは、１つ又はそれ以上の畳み込み層を介して、配列決定動作の一連の配列決定サイクルに対する画像データを処理し、画像データの１つ又はそれ以上の畳み込み表現を生成する。画像データは、１つ又はそれ以上の検体及びそれらの周囲の背景の強度放射を示す。反復モジュールは、畳み込み表現及び以前の隠れ状態表現を畳み込むことに基づいて、現在の隠れ状態表現を生成する。出力モジュールは、現在の隠れ状態表現に基づいて、検体のうちの少なくとも１つ、及び配列決定サイクルのうちの少なくとも１つに対してベースコールを生成する。

我々は、ベースコールのニューラルネットワーク実装の方法を開示する。本方法は、畳み込みニューラルネットワークの畳み込み層のカスケードを介して、サイクルごとの入力データの配列内のサイクルごとの各入力データを別々に処理することを含む。サイクルごとの入力データの配列は、配列決定動作の一連の配列決定サイクルに対して生成され、サイクルごとの各入力データは、それぞれの配列決定サイクルで捕捉される、１つ又はそれ以上の検体及びそれらの周囲の背景の強度放射を示す画像チャネルを含む。本方法は、各配列決定サイクルに対して、別個の処理に基づいて、畳み込み層の各々で畳み込み表現を生成し、それによって、畳み込み表現の配列を生成することと、そのサイクルごとの入力データを、畳み込み表現のその対応する配列と混合し、混合表現を生成することと、その混合表現を平坦化し、平坦化された混合表現を生成することと、を含む。本方法は、連続する配列決定サイクルの平坦化された混合表現をスタックとして配置することを含む。本方法は、スライディングウィンドウベースでスタック内の平坦化された混合表現のサブセットにおいて畳み込む反復ニューラルネットワークを介して前方及び後方の方向にスタックを処理することを含み、各スライディングウィンドウがそれぞれの配列決定サイクルに対応し、（ｉ）スタックにおける現在のスライディングウィンドウでの平坦化された混合表現のサブセット、及び（ｉｉ）以前の隠れ状態表現に基づいて、各配列決定サイクルに対して各時間ステップで現在の隠れ状態表現を連続的に生成する。本方法は、前方及び後方の方向でのスタックの処理の結果に基づいて、配列決定サイクルの各々で検体の各々をベースコールすることを含む。反復ニューラルネットワークは、ＬＳＴＭ及びＧＲＵなどのゲートされた反復ニューラルネットワークであり得る。

本方法は、時間ステップベースで所与の配列決定サイクルの前方及び後方の現在の隠れ状態表現を組み合わせることによって、所与の配列決定サイクルで検体の各々をベースコールし、組み合わされた隠れ状態表現を生成することと、１つ又はそれ以上の完全に接続されたネットワークを介して、組み合わされた隠れ状態表現を処理し、高密度表現を生成することと、ソフトマックス層を介して、高密度表現を処理して、Ａ、Ｃ、Ｔ、及びＧである、所与の配列決定サイクルで検体の各々に組み込まれる塩基の尤度を生成することと、尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、を含む。一実施態様では、組み合わせることは、連結を含む。別の実施態様では、組み合わせることは、積算を含む。更に別の実施態様では、組み合わせることは、平均を含む。

一実施態様では、サイクルごとの各入力データは、画像チャネルを補い、かつ対応する画像チャネル内のピクセルと１つ又はそれ以上の検体中心との間の中心間距離を含む、距離チャネルを含む。一実施態様では、サイクルごとの各入力データは、画像チャネル内の１つ又はそれ以上のピクセルの平均強度に基づいて、画像チャネルを補い、かつスケーリング値を含む、スケーリングチャネルを含む。一実施態様では、混合は、畳み込み表現及びサイクルごとの入力データを連結することを更に含む。一実施態様では、混合は、畳み込み表現及びサイクルごとの入力データを積算することを更に含む。一実施態様では、平坦化された混合表現は、２次元アレイである。一実施態様では、平坦化された混合表現のサブセットは、３次元容積である。一実施態様では、反復ニューラルネットワークは、３次元の畳み込みを３次元容積に適用する。一実施態様では、３次元畳み込みは、同じパディングを使用する。一実施態様では、畳み込み層は、同じパディングを使用する。一実施態様では、反復ニューラルネットワークは、入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートを含む、長い短期メモリ（ＬＳＴＭ）ネットワークである。そのような実施態様では、本方法は、（ｉ）スタックにおける現在のスライディングウィンドウ内の平坦化された混合表現のサブセット、及び（ｉｉ）入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートを介した以前の隠れ状態表現を処理することと、各配列決定サイクルに対して各時間ステップで現在の隠れ状態表現を生成することと、を含む。入力ゲート、活性化ゲート、忘却ゲート、及び出力ゲートは、（ｉ）スタックにおける現在のスライディングウィンドウ内の平坦化された混合表現のサブセット、及び（ｉｉ）以前の隠れ状態表現に対して畳み込みを適用する。

一実施態様では、ベースコールのニューラルネットワーク実装の方法は、畳み込みモジュールの１つ又はそれ以上の畳み込み層を介して、配列決定動作の一連の配列決定サイクルに対する画像データを畳み込むことと、画像データの１つ又はそれ以上の畳み込み表現を生成することと、を含む。画像データは、１つ又はそれ以上の検体及びそれらの周囲の背景の強度放射を示す。本方法は、反復モジュールを介して、畳み込み表現及び以前の隠れ状態表現を畳み込むことと、現在の隠れ状態表現を生成することと、を含む。本方法は、出力モジュールを介して、現在の隠れ状態表現を処理することと、検体のうちの少なくとも１つ、及び配列決定サイクルのうちの少なくとも１つに対してベースコールを生成することと、を含む。

他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（品質スコアの推測）

我々は、ニューラルネットワークベースのベースコーラーによってコールされる塩基に品質スコアを割り当てる、コンピュータ実装の方法を開示する。本方法は、訓練中の訓練データの処理に応答して、ニューラルネットワークベースのベースコーラーによって生成される、予測されたベースコールの分類スコアを量子化することを含む。本方法は、量子化分類スコアとそれらのベースコール誤差率との間の適合を決定することを含む。すなわち、各量子化分類スコアに対して、量子化分類スコアを割り当てられる訓練データ内の訓練例のセットが決定される。訓練例の決定されたセット内の各訓練例に対して、訓練例に対する予測されたベースコールは、訓練例に対するグラウンドトゥルースベースコールと比較され、誤差率は、特定の量子化分類スコアに対する誤差率を提供するために、訓練例の決定されたセットにわたる比較から決定される。本方法は、適合に基づいて、品質スコアを量子化分類スコアに相関させることを含む。

一実施態様では、量子化分類スコアのセットは、訓練中の訓練データの処理に応答して、ニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの分類スコアのサブセットを含み、分類スコアは、実数である。一実施態様では、量子化分類スコアのセットは、訓練中の訓練データの処理に応答して、ニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの全ての分類スコアを含み、分類スコアは、実数である。一実施態様では、分類スコアは、１になる指数関数的に正規化されたソフトマックススコアであり、ニューラルネットワークベースのベースコーラーのソフトマックス出力層によって生成される。一実施態様では、量子化分類スコアのセットは、

と定義される選択式に基づいて選択され、ソフトマックススコアに適用される。一実施態様では、量子化分類スコアのセットは、

と定義される選択式に基づいて選択され、ソフトマックススコアに適用される。一実施態様では、本方法は、相関に基づいて、推測中にニューラルネットワークベースのベースコーラーによってコールされる塩基に品質スコアを割り当てることを含む。一実施態様では、本方法は、推測中にニューラルネットワークベースのベースコーラーによってコールされる塩基に品質スコア対応スキームを適用することに基づいて、品質スコアを割り当てることを含む。そのような実施態様では、スキームは、推測中に、推測データの処理に応答して、ニューラルネットワークベースのベースコーラーによって生成される、分類スコアの範囲をセット内の対応する量子化分類スコアにマッピングする。一実施態様では、本方法は、推測中に、品質スコアが現在のベースコールサイクルに対する設定された閾値を下回る検体をベースコールすることを停止させることを含む。一実施態様では、本方法は、推測中に、平均品質スコアが連続するベースコールサイクルの後に設定された閾値を下回る検体をベースコールすることを停止させることを含む。一実施態様では、予測されたベースコールを対応するグラウンドトゥルースベースコールと比較するために使用されるサンプルサイズは、各量子化分類スコアに固有である。一実施態様では、予測されたベースコールを対応するグラウンドトゥルースベースコールと比較するために使用されるサンプルサイズは、各量子化分類スコアに固有である。一実施態様では、適合は、回帰モデルを使用して決定される。一実施態様では、本方法は、各量子化分類スコアに対して、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによってベースコール精度率を決定することと、量子化分類スコアとそれらのベースコール精度率との間の適合を決定することと、を含む。一実施態様では、対応するグラウンドトゥルースベースコールは、多数の配列決定器具、配列決定化学、及び配列決定プロトコルで配列決定される、十分に特徴付けられたヒト及び非ヒトサンプルから導出される。

このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
（品質スコアの予測）

我々は、並行して動作し、かつメモリに結合された多数のプロセッサ上で動作するニューラルネットワークベースの品質スコアラーを開示する。システムは、多数のプロセッサ上で動作する畳み込みニューラルネットワークを含む。畳み込みニューラルネットワークは、畳み込みニューラルネットワークのベースコール品質予測をベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝搬ベースの勾配更新技術を使用して、配列決定画像からのデータを含む訓練例で訓練され、ベースコール品質グラウンドトゥルースでラベル付けされる。システムは、多数のプロセッサのうちの少なくとも１つで動作し、かつ１つ又はそれ以上の検体に対してコールされる１つ又はそれ以上の塩基の品質状態を決定するために、１つ又はそれ以上の配列決定サイクルで捕捉される配列決定画像からのデータを畳み込みニューラルネットワークに供給する、畳み込みニューラルネットワークの入力モジュールを含む。システムは、多数のプロセッサのうちの少なくとも１つで動作し、かつ畳み込みニューラルネットワークによる分析を、１つ又はそれ以上の検体に対してコールされる１つ又はそれ以上の塩基の品質状態を識別する出力に変換する、畳み込みニューラルネットワークの出力モジュールを含む。

一実施態様では、出力モジュールは、高品質、中品質、及び低品質である品質状態に対する尤度を生成するソフトマックス分類層を更に備える。そのような実施態様では、尤度に基づいて、品質状態は、高品質、中質、又は低品質と分類される。一実施態様では、ソフトマックス分類層は、複数の品質スコアを割り当てられている品質状態に対する尤度を生成する。そのような実施態様では、尤度に基づいて、品質状態は、複数の品質スコアのうちの１つから品質スコアを割り当てられる。一実施態様では、品質スコアは、ベースコール誤差確率に対数的に基づき、複数の品質スコアは、Ｑ６、Ｑ１０、Ｑ４３、Ｑ２０、Ｑ２２、Ｑ２７、Ｑ３０、Ｑ３３、Ｑ３７、Ｑ４０、及びＱ５０を含む。一実施態様では、出力モジュールは、品質状態を識別する連続値を生成する回帰層を更に含む。一実施態様では、システムは、配列決定画像からのデータを、コールされる塩基に対する品質予測値で補い、配列決定画像からのデータと共に、品質予測値を畳み込みニューラルネットワークに供給する、補足入力モジュールを含む。一実施態様では、品質予測値は、オンライン重複、純度、フェイジング、ｓｔａｒｔ５、６量体スコア、モチーフ蓄積、ｅｎｄｉｎｅｓｓ、近似ホモポリマー、強度減衰、最終チャスティティ、背景を有する信号重複（ＳＯＷＢ）、及び／又はシフトされた純度Ｇ調整を含む。一実施態様では、品質予測値は、ピーク高さ、ピーク幅、ピーク場所、相対的なピーク場所、ピーク高さ比、ピーク間隔比、及び／又はピーク対応を含む。

我々はまた、品質スコアリングのニューラルネットワーク実装の方法を開示する。本方法は、１つ又はそれ以上の検体に対してコールされる１つ又はそれ以上の塩基の品質状態を決定するために、１つ又はそれ以上の配列決定サイクルで補足される配列決定画像からのデータを畳み込みニューラルネットワークに供給することを含む。畳み込みニューラルネットワークは、配列決定画像からのデータを含み、かつベースコール品質グラウンドトゥルースでラベル付けされる訓練例で訓練される。訓練は、畳み込みニューラルネットワークのベースコール品質予測をベースコール品質グラウンドトゥルースと漸進的に一致させる、逆伝搬ベースの勾配更新技術を使用することを含む。本方法は、畳み込みニューラルネットワークによる分析を、１つ又はそれ以上の検体に対してコールされる１つ又はそれ以上の塩基の品質を識別する出力に変換することを含む。

一実施態様では、コンピュータ実装の方法は、ニューラルネットワークを介して１つ又はそれ以上の検体に対して入力データを処理し、入力データの代替表現を生成することと、出力層を介して代替表現を処理して出力を生成することとであって、出力が、Ａ、Ｃ、Ｔ、及びＧである、検体のうちの特定の１つに組み込まれる塩基の尤度を識別する、生成することと、出力に基づいて、１つ又はそれ以上の検体に対して塩基をコールすることと、出力によって識別される尤度に基づいて、コールされた塩基の品質を決定することと、を含む。

他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。

我々は、並行して動作し、かつメモリに結合された多数のプロセッサ上で動作するニューラルネットワークベースの品質スコアラーを開示する。システムは、ニューラルネットワークのベースコール品質予測をベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝搬ベースの勾配更新技術を使用して、配列決定画像からのデータを含む訓練例で訓練され、かつベースコール品質グラウンドトゥルースでラベル付けされる、多数のプロセッサ上で動作するニューラルネットワークを含む。システムは、多数のプロセッサのうちの少なくとも１つで動作し、かつ１つ又はそれ以上の検体に対してコールされる１つ又はそれ以上の塩基の品質状態を決定するために、１つ又はそれ以上の配列決定サイクルで捕捉される配列決定画像からのデータをニューラルネットワークに供給する、ニューラルネットワークの入力モジュールを含む。システムは、多数のプロセッサのうちの少なくとも１つで動作し、かつニューラルネットワークによる分析を、１つ又はそれ以上の検体に対してコールされる１つ又はそれ以上の塩基の品質状態を識別する出力に変換する、ニューラルネットワークの出力モジュールを含む。

他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。
（エンドツーエンド統合）

コンピュータ実装の方法が提供され、本方法は、ニューラルネットワークを介して配列決定動作の１つ又はそれ以上の配列決定サイクルに対して配列決定システムによって捕捉される検体及びそれらの周囲の背景の画像を含む第１の画像データを処理することと、配列決定動作の１つ又はそれ以上の配列決定サイクルの検体のうちの１つ又はそれ以上に対してベースコールを生成することと、を含む。本方法は、１つ又はそれ以上の配列決定サイクルを実行して、検体の画像及びそれらの周囲の背景を捕捉することを含み得る。いくつかの実施態様では、本方法は、複数の配列決定サイクルを実行することを含み、複数の配列決定サイクルの各々は、画像データを生成する。コンピュータ実装の方法は、第１のニューラルネットワークを介して第１の入力を処理することと、第１の出力を生成することと、を含み得る。第１の入力は、配列決定動作のための配列決定システムによって捕捉される、検体及びそれらの周囲の背景の画像から導出される第１の画像データを含む。本方法は、ポストプロセッサを介して第１の出力を処理することと、第１の画像データのそれぞれの部分の１つ又はそれ以上の特性を示す、すなわち、検体及びそれらの周囲の背景に関するテンプレートデータを生成することと、を含み得る。本方法は、第２のニューラルネットワークを介して第２の入力を処理することと、第２の出力を生成することと、を含み得る。第２の入力は、テンプレートデータを使用して修正される第１の画像データ、テンプレートデータを使用して修正される第２の画像データ、及び／若しくは第１及び／若しくは第２の画像データ、並びに補足データを含み得る。補足データは、テンプレートデータを含み得る。第２の画像データは、検体及びそれらの周囲の背景の画像から導出される。第２の出力は、配列決定動作の１つ又はそれ以上の配列決定サイクルで、検体のうちの１つ又はそれ以上に対するベースコールを識別する。

一実施態様では、メタデータは、アップサンプリングされたサブピクセル解像度でのテンプレート画像を含み、メタデータに基づいて、テンプレート画像内の各サブピクセルは、背景サブピクセル、検体中心サブピクセル、又は検体内部サブピクセルのいずれかとして識別される。一実施態様では、検体及びそれらの周囲の背景の画像は、光学ピクセル解像度で捕捉される。一実施態様では、本方法は、画像内のピクセルに対応する、テンプレート画像内のどれくらい多くのサブピクセルが検体のうちの１つ又はそれ以上の一部を含むかに基づいて、画像内のピクセルに対して領域重み付け係数を決定することと、領域重み付け係数に基づいて、ピクセルの強度を修正することと、第２のニューラルネットワークによるベースコールに対する第３の画像データとして第２の入力での修正強度を有するピクセルを含むことと、を含む。一実施態様では、本方法は、アップサンプリングされたサブピクセル解像度に画像をアップサンプリングすることと、アップサンプリングされた画像を生成することと、を含む。アップサンプリングは、テンプレート画像内の背景サブピクセルに対応するアップサンプリングされた画像内のサブピクセルに背景強度を割り当てることと、テンプレート画像内の検体中心サブピクセル及び検体内部サブピクセルに対応するアップサンプリングされた画像内のサブピクセルに検体強度を割り当てることと、第２の入力内のアップサンプリングされた画像を、第２のニューラルネットワークによるベースコールに対する第３の画像データとして含むことと、を含む。一実施態様では、背景強度は、ゼロ又は最小値を有する。一実施態様では、検体強度は、光学ピクセル解像度内のピクセルの強度を補間することによって決定される。一実施態様では、本方法は、アップサンプリングされたサブピクセル解像度に画像をアップサンプリングすることと、アップサンプリングされた画像を生成することと、を含む。アップサンプリングは、テンプレート画像内の検体中心サブピクセル及び検体内部サブピクセルに対応するアップサンプリングされた画像内のピクセルの構成サブピクセルのみの間で、光学ピクセルドメイン内のピクセルの全体の強度を分散させることと、第２の入力内のアップサンプリングされた画像を、第２のニューラルネットワークによるベースコールに対する第３の画像データとして含むことと、を含む。一実施態様では、メタデータは、検体の中心を識別する。別の実施態様では、メタデータは、検体の形状を識別する。更に別の実施態様では、メタデータは、検体間の境界を識別する。一実施態様では、本方法は、第２の出力に基づいてベースコールの品質を決定することを含む。

我々は、第１のニューラルネットワークを使用して、検体に関するメタデータを決定することであって、メタデータが、検体の中心、検体の形状、及び／又は検体間の境界を識別する、決定することと、第２のニューラルネットワークを使用して、決定されたメタデータに基づいて検体をベースコールすることと、を含む、コンピュータ実装の方法を開示する。

一実施態様では、本方法は、決定されたメタデータに基づいて、第２のニューラルネットワークによる処理に対する入力を構築することを含む。入力は、第２のニューラルネットワークによる処理で検体の中心、形状、及び／又は境界に関するコンテキストを組み込む、修正強度値を含む。一実施態様では、本方法は、第２のニューラルネットワークを介して修正強度値を処理して、検体をベースコールすることを含む。一実施態様では、本方法は、決定されたメタデータに基づいて導出される補足データで処理するために、第２のニューラルネットワークに供給される入力を伴わせることを含む。補足データは、第２のニューラルネットワークによる処理で検体の中心、形状、及び／又は境界に関するコンテキストを組み込む。一実施態様では、本方法は、第２のニューラルネットワークを介して入力及び補足データを処理して、検体をベースコールすることを含む。

我々は、検体に対して配列決定手順を実行することを含む、コンピュータ実装の方法を開示する。配列決定手順は、複数の配列決定サイクルを含み、複数の配列決定サイクルの各々は、画像データを生成する。一実施態様では、本方法は、ニューラルネットワークを介して、複数の配列決定サイクルの各々に対して画像データを処理することと、複数の配列決定サイクルの各々で、検体のうちの少なくともいくつかに対してベースコールを生成することと、を含む。

一実施態様では、本方法は、ニューラルネットワークを介して複数の配列決定サイクルの各々に対して画像データを処理する前に、別のニューラルネットワークを介して複数の配列決定サイクルのうちのいくつかに対して画像データを処理することと、検体に関するメタデータを決定することと、を含む。メタデータは、検体の中心及び／又は形状を識別する。一実施態様では、本方法は、決定されたメタデータに基づいて、ニューラルネットワークを使用して、複数の配列決定サイクルの各々で、検体のうちの少なくともいくつかをベースコールすることを含む。

我々は、バイオセンサーシステムに結合された受け部と、照明システムと、受け部に結合されており、かつ分析モジュールを有する、システムコントローラと、を備える、配列決定システムを開示する。バイオセンサーシステムは、光検出器のアレイを有するように構成されており、バイオセンサーシステムは、バイオセンサーを有し、バイオセンサーは、検体を含むように構成された反応部位を有する。照明システムは、励起光をバイオセンサーに向け、かつ反応部位内の検体を照明するように構成されている。検体のうちの少なくともいくつかは、照明されるときに発光信号を提供する。システムコントローラは、受け部に結合されており、分析モジュールを有する。分析モジュールは、複数の配列決定サイクルの各々で、光検出器から画像データを取得するように構成されている。画像データは、光検出器によって検出される発光信号から導出され、ニューラルネットワークを介して、複数の配列決定サイクルの各々に対して画像データを処理し、複数の配列決定サイクルの各々で検体のうちの少なくともいくつかに対するベースコールを生成する。

我々は、アップサンプリングされたサブピクセル解像度でテンプレート画像で識別される検体中心、形状、及び境界を使用して、光学ピクセル解像度で捕捉される画像を解釈して、配列決定動作中にフローセルのタイル上で合成される検体をベースコールする、コンピュータ実装の方法を開示し、配列決定動作は、複数の配列決定サイクルを有し、複数の配列決定サイクルの各々は、１つ又はそれ以上の画像を有する画像セットを生成し、画像の各々は、光学ピクセル解像度で捕捉される１つ又はそれ以上の画像チャネルのうちのそれぞれの１つで検体及びそれらの周囲の背景の強度放射を示す。本方法は、領域重み付け係数を有するテンプレート画像を生成することと、ニューラルネットワークベースのテンプレート生成器を介して複数の配列決定サイクルのうちの初期の１つでそれぞれ生成される初期画像セットを処理して、アップサンプリングされたサブピクセル解像度で検体の検体中心、形状、及び境界を識別することを含むことと、特定の検体の検体形状及び境界を評価して、特定の検体の一部を含む少なくとも１つのピクセルを識別して、識別されたピクセル内のどれくらい多くのサブピクセルが特定の検体の一部を含むかに基づいて、領域重み付け係数を設定して、テンプレート画像内の領域重み付け係数を記憶することと、特定の検体の一部も含むピクセルに対して、光学ピクセル解像度で捕捉される画像の各々でのピクセルに対して、評価を実行して、識別、設定、及び記憶することと、それぞれのピクセルに対するテンプレート画像内の領域重み付け係数に基づいて、ピクセル強度値を修正することと、修正ピクセル強度値を有するピクセルを有する画像の各々の修正バージョンを生成することと、ニューラルネットワークベースのベースコーラーを介して画像の修正バージョンを処理して、修正バージョンの代替表現を生成することと、代替表現を使用して、特定の検体をベースコールすることと、を含む。

一実施態様では、ベースコールは、複数の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、複数の配列決定サイクルのうちの現在の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び複数の配列決定サイクルのうちの現在の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で光学ピクセル解像度で１つ又はそれ以上の画像にアクセスすることと、画像の各々でのピクセルに対して、それぞれのピクセルに対するテンプレート画像内の領域重み付け係数に基づいて、ピクセル強度値を修正することと、修正ピクセル強度値を有するピクセルを有する画像の各々の修正バージョンを生成することと、特定の検体に対して、各画像パッチが、ピクセルのアレイを有し、テンプレート画像で識別される特定の検体の中心をその中心ピクセル内に含むように、各修正バージョンから画像パッチを抽出することと、畳み込みニューラルネットワークを介して、画像の修正バージョンから抽出される画像パッチを畳み込んで、画像パッチの畳み込み表現を生成することと、出力層を介して畳み込み表現を処理して、中心ピクセルに対して、Ａ、Ｃ、Ｔ、及びＧである、複数の配列決定サイクルのうちの現在の１つで特定のクラスターに組み込まれる塩基の尤度を生成することと、尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、を更に含む。一実施態様では、本方法は、ピクセル強度値を修正する前に、サイクル固有及び画像チャネル固有の変換を使用して、光学ピクセル解像度で捕捉される画像の各々をテンプレート画像と位置合わせすることを含む。

我々は、アップサンプリングされたサブピクセル解像度でテンプレート画像で識別される検体中心、形状、及び境界を使用して、光学ピクセル解像度で捕捉される画像を解釈して、配列決定動作中にフローセルのタイル上で合成される検体をベースコールする、コンピュータ実装の方法を開示し、配列決定動作は、複数の配列決定サイクルを有し、複数の配列決定サイクルの各々は、１つ又はそれ以上の画像を有する画像セットを生成し、画像の各々は、光学ピクセル解像度で捕捉される１つ又はそれ以上の画像チャネルのうちのそれぞれの１つで検体及びそれらの周囲の背景の強度放射を示す。本方法は、領域重み付け係数を有するテンプレート画像を生成することと、ニューラルネットワークベースのテンプレート生成器を介して複数の配列決定サイクルのうちの初期の１つでそれぞれ生成される初期画像セットを処理して、ピクセルが１次検体の一部を含む少なくとも１つの１次検体を決定して、ピクセル内のどれくらい多くのサブピクセルが１次検体の一部を含むかに基づいて、領域重み付け係数を設定することを含むことと、多数の検体及び多数のピクセルに対して、光学ピクセル解像度で捕捉される画像の各々でのピクセルに対して、評価を実行して、決定及び設定することと、それぞれのピクセルに対するテンプレート画像内の領域重み付け係数に基づいて、ピクセル強度値を修正することと、ニューラルネットワークベースのベースコーラーの前方へのパスへの入力として、修正ピクセル強度値を有するピクセルを有する画像の各々の修正バージョンを生成することと、ニューラルネットワークベースのベースコーラーを介して画像の修正バージョンを処理して、修正バージョンの代替表現を生成することと、前方へのパスの出力として、代替表現を使用して多数の検体の各々１つを同時にベースコールすることと、を含む。

一実施態様では、ベースコールは、複数の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、複数の配列決定サイクルのうちの現在の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び複数の配列決定サイクルのうちの現在の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で光学ピクセル解像度で１つ又はそれ以上の画像にアクセスすることと、画像の各々でのピクセルに対して、それぞれのピクセルに対するテンプレート画像内の領域重み付け係数に基づいて、ピクセル強度値を修正することと、修正ピクセル強度値を有するピクセルを有する画像の各々の修正バージョンを生成することと、各画像パッチが、ピクセルのアレイを有するように、各修正バージョンから画像パッチを抽出することと、畳み込みニューラルネットワークを介して、画像の修正バージョンから抽出される画像パッチを畳み込んで、画像パッチの畳み込み表現を生成することと、出力層を介して畳み込み表現を処理して、アレイ内の各ピクセルに対して、Ａ、Ｃ、Ｔ、及びＧである、複数の配列決定サイクルのうちの現在の１つで組み込まれる塩基の尤度を生成することと、尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、対応する検体の中心を含むそれぞれのピクセルに割り当てられる塩基分類に基づいて、多数の検体のうちの各々１つをベースコールすることと、を更に含む。一実施態様では、本方法は、ピクセル強度値を修正する前に、サイクル固有及び画像チャネル固有の変換を使用して、光学ピクセル解像度で捕捉される画像の各々をテンプレート画像と位置合わせすることを含む。

我々は、アップサンプリングされたサブピクセル解像度でテンプレート画像で識別される検体中心、形状、及び境界を使用して、光学ピクセル解像度で捕捉される画像を解釈して、配列決定動作中にフローセルのタイル上で合成される検体をベースコールする、コンピュータ実装の方法を開示し、配列決定動作は、複数の配列決定サイクルを有し、複数の配列決定サイクルの各々は、１つ又はそれ以上の画像を有する画像セットを生成し、画像の各々は、光学ピクセル解像度で捕捉される１つ又はそれ以上の画像チャネルのうちのそれぞれの１つで検体及びそれらの周囲の背景の強度放射を示す。本方法は、ニューラルネットワークベースのテンプレート生成器を介して複数の配列決定サイクルのうちの初期の１つでそれぞれ生成される初期画像セットを処理して、アップサンプリングされたサブピクセル解像度でテンプレート画像を生成することを含む。「複数の配列決定サイクルのうちの初期の１つ」によって、これは、１つ又はそれ以上の初期配列決定サイクル、例えば、配列決定サイクル１～１０、２～１０、２～８、又は２～７のうちの１つ又はそれ以上を指すことが理解されるであろう。テンプレート画像は、検体中心、背景を含み、光学ピクセル解像度で捕捉される画像の各々をサブピクセルドメインにアップサンプリングする検体に属するクラスにサブピクセルを分類し、アップサンプリングは、いかなる検体にも寄与しないとして、テンプレート画像で識別されるサブピクセルに背景強度を割り当てることと、ニューラルネットワークベースのベースコーラーの前方へのパスへの入力として、ニューラルネットワークベースのベースコーラーを介してアップサンプリングされた画像を処理して、アップサンプリングされた画像の代替表現を生成することと、前方へのパスの出力として、代替表現を使用して複数の検体を同時にベースコールすることと、を含む。

一実施態様では、ベースコールは、複数の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、複数の配列決定サイクルのうちの現在の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び複数の配列決定サイクルのうちの現在の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で光学ピクセル解像度で１つ又はそれ以上の画像にアクセスすることと、光学ピクセル解像度で捕捉される画像の各々をサブピクセルドメインにアップサンプリングすることであって、いかなる検体にも寄与しないとして、テンプレート画像で識別されるサブピクセルに背景強度を割り当てることを含む、アップサンプリングすることと、各画像パッチがサブピクセルのアレイを有するように、各アップサンプリングされた画像から画像パッチを抽出することと、畳み込みニューラルネットワークを介して、アップサンプリングされた画像から抽出される画像パッチを畳み込んで、画像パッチの畳み込み表現を生成することと、出力層を介して畳み込み表現を処理して、アレイ内の各サブピクセルに対して、Ａ、Ｃ、Ｔ、及びＧである、複数の配列決定サイクルのうちの現在の１つで組み込まれる塩基の尤度を生成することと、尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、対応する検体の中心を含むそれぞれのサブピクセルに割り当てられる塩基分類に基づいて、複数の検体のうちの各々１つをベースコールすることと、を更に含む。

一実施態様では、本方法は、アップサンプリングの前に、サイクル固有及び画像チャネル固有の変換を使用して、光学ピクセル解像度で捕捉される画像の各々をテンプレート画像と位置合わせすることを含む。一実施態様では、アップサンプリングは、最近傍強度抽出、ガウス系強度抽出、平均２×２のサブピクセル領域に基づく強度抽出、最も明るい２×２のサブピクセル領域に基づく強度抽出、平均３×３のサブピクセル領域に基づく強度抽出、バイリニア強度抽出、双次強度抽出、及び／又は重み付け領域被覆に基づく強度抽出のうちの少なくとも１つを使用して実行される。一実施態様では、背景強度は、ゼロ値を有する。一実施態様では、背景強度は、ほぼゼロ値を有する。

我々は、アップサンプリングされたサブピクセル解像度でテンプレート画像で識別される検体中心、形状、及び境界を使用して、光学ピクセル解像度で捕捉される画像を解釈して、配列決定動作中にフローセルのタイル上で合成される検体をベースコールする、コンピュータ実装の方法を開示し、配列決定動作は、複数の配列決定サイクルを有し、複数の配列決定サイクルの各々は、１つ又はそれ以上の画像を有する画像セットを生成し、画像の各々は、光学ピクセル解像度で捕捉される１つ又はそれ以上の画像チャネルのうちのそれぞれの１つで検体及びそれらの周囲の背景の強度放射を示す。本方法は、サブピクセルごとの領域重み付け係数を有するテンプレート画像を生成することと、ニューラルネットワークベースのテンプレート生成器を介して複数の配列決定サイクルのうちの初期の１つでそれぞれ生成される初期画像セットを処理して、アップサンプリングされたサブピクセル解像度で検体の検体中心、形状、及び境界を識別することを含むことと、検体の検体形状及び境界を評価して、それぞれのピクセル内のどれくらい多くのサブピクセルが任意の検体の一部を含むかを決定し、それぞれのピクセル内のサブピクセルに対してサブピクセルごとの領域重み付け係数を設定し、テンプレート画像内のサブピクセルごとの領域重み付け係数を記憶することと、光学ピクセル解像度で捕捉される画像の各々をサブピクセルドメインにアップサンプリングすることであって、サブピクセルごとの領域重み付け係数を適用することによって、いかなる検体にも寄与しないとして、テンプレート画像で識別されるそれぞれのピクセルの第１のサブピクセル間でそれぞれのピクセルの強度を分散させることを含む、アップサンプリングすることと、いかなる検体にも寄与しないとして、テンプレート画像で識別されるそれぞれのピクセル内の第２のサブピクセルに背景強度を割り当てることと、ニューラルネットワークベースのベースコーラーの前方へのパスへの入力として、ニューラルネットワークベースのベースコーラーを介してアップサンプリングされた画像を処理して、アップサンプリングされた画像の代替表現を生成することと、前方へのパスの出力として、代替表現を使用して複数の検体を同時にベースコールすることと、を含む。

一実施態様では、ベースコールは、複数の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、複数の配列決定サイクルのうちの現在の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び複数の配列決定サイクルのうちの現在の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で光学ピクセル解像度で１つ又はそれ以上の画像にアクセスすることと、光学ピクセル解像度で捕捉される画像の各々をサブピクセルドメインにアップサンプリングすることであって、サブピクセルごとの領域重み付け係数を適用することによって、いかなる検体にも寄与しないとして、テンプレート画像で識別されるそれぞれのピクセルの第１のサブピクセル間でそれぞれのピクセルの強度を分散させることを含む、アップサンプリングすることと、いかなる検体にも寄与しないとして、テンプレート画像で識別されるそれぞれのピクセル内の第２のサブピクセルに背景強度を割り当てることと、各画像パッチがサブピクセルのアレイを有するように、各アップサンプリングされた画像から画像パッチを抽出することと、畳み込みニューラルネットワークを介して、アップサンプリングされた画像から抽出される画像パッチを畳み込んで、画像パッチの畳み込み表現を生成することと、出力層を介して畳み込み表現を処理して、アレイ内の各サブピクセルに対して、Ａ、Ｃ、Ｔ、及びＧである、複数の配列決定サイクルのうちの現在の１つで組み込まれる塩基の尤度を生成することと、尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、対応する検体の中心を含むそれぞれのサブピクセルに割り当てられる塩基分類に基づいて、複数の検体のうちの各々１つをベースコールすることと、を更に含む。

一実施態様では、本方法は、アップサンプリングの前に、サイクル固有及び画像チャネル固有の変換を使用して、光学ピクセル解像度で捕捉される画像の各々をテンプレート画像と位置合わせすることを含む。一実施態様では、背景強度は、ゼロ値を有する。別の実施態様では、背景強度は、ほぼゼロ値を有する。

一実施態様では、コンピュータ実装の方法は、特定の検体に対してアップサンプリングされたサブピクセルドメイン内のテンプレート画像を評価して、特定の検体の一部を含む少なくとも１つのピクセルを識別して、識別されたピクセル内のどれくらい多くのサブピクセルが特定の検体の一部を含むかに基づいて、領域重み付け係数を設定することと、特定の検体の一部も含む識別されたピクセルに隣接するピクセルに対して、評価を実行して、決定及び設定することと、それぞれのピクセルに対する領域重み付け係数に基づく処理のために、識別されたピクセル及び隣接するピクセルのピクセル強度値を修正することと、を含む。

一実施態様では、コンピュータ実装の方法は、アップサンプリングされたサブピクセルドメイン内のテンプレート画像内のピクセルを評価して、ピクセルが１次検体の一部を含む少なくとも１次検体を決定して、識別されたピクセル内のどれくらい多くのサブピクセルが１次検体の一部を含むかに基づいて、領域重み付け係数を設定することと、光学画像のフィールド内の多数のピクセルに対して、評価を実行して、決定及び設定することと、それぞれのピクセルに対する領域重み付け係数に基づく処理のために、識別されたピクセル及び隣接するピクセルのピクセル強度値を修正することと、を含む。

一実施態様では、コンピュータ実装の方法は、アップサンプリングされたサブピクセルドメイン内のテンプレート画像にアクセスすることであって、テンプレート画像が、任意の検体の一部を含むサブピクセルを識別する、アクセスすることと、光学画像のフィールドのサブピクセルドメインへのアップサンプリング中に、いかなる検体にも寄与しないとして、テンプレート画像で識別されるサブピクセルに背景強度を割り当てることと、を含む。

一実施態様では、コンピュータ実装の方法は、アップサンプリングされたサブピクセルドメイン内のテンプレート画像内の識別されたピクセルを評価して、識別されたピクセル内のどれくらい多くのサブピクセルが任意の検体の一部を含むかを決定して、識別されたピクセル内のサブピクセルに対してサブピクセルごとの領域重み付け係数を設定することと、光学画像のフィールド内の多数のピクセルに対して、評価を実行して、決定及び設定することと、テンプレート画像内の多数のピクセルに対してサブピクセルごとの領域重み付け係数を記憶することと、光学画像のフィールドのサブピクセルドメインへのアップサンプリング中に、サブピクセルごとの領域重み付け係数を適用することによって、任意の検体に寄与するとしてテンプレート画像で識別される特定のピクセルの第１のサブピクセル間の特定のピクセルの強度を分散させることと、任意の検体に寄与しないとしてテンプレートで識別される特定のピクセルの第２のサブピクセルに背景強度を割り当てることと、を含む。

我々は、アップサンプリングされたサブピクセル解像度でテンプレート画像で識別されるクラスター中心、形状、及び境界を使用して、光学ピクセル解像度で捕捉される画像を解釈して、配列決定動作中にフローセルのタイル上で合成されるデオキシリボ核酸（ＤＮＡ）クラスターをベースコールする、コンピュータ実装の方法を開示し、配列決定動作は、複数の配列決定サイクルを有し、複数の配列決定サイクルの各々は、１つ又はそれ以上の画像を有する画像セットを生成し、画像の各々は、光学ピクセル解像度で捕捉される１つ又はそれ以上の撮像チャネルのうちのそれぞれの１つでＤＮＡクラスター及びそれらの周囲の背景の強度放射を示す。本方法は、領域重み付け係数を有するテンプレート画像を生成することと、ニューラルネットワークベースのテンプレート生成器を介して複数の配列決定サイクルのうちの初期の１つでそれぞれ生成される初期画像セットを処理して、ピクセルが１次ＤＮＡクラスターの一部を含む少なくとも１つの１次ＤＮＡクラスターを決定して、ピクセル内のどれくらい多くのサブピクセルが１次ＤＮＡクラスターの一部を含むかに基づいて、領域重み付け係数を設定することを含むことと、多数のＤＮＡクラスター及び多数のピクセルに対して、評価を実行して、決定及び設定することと、画像内のピクセルで領域重み付け係数をピクセルごとに符号化することによって、光学ピクセル解像度で捕捉される画像の各々を、領域重み付け係数を有するテンプレート画像で補うことと、ニューラルネットワークベースのベースコーラーの前方へのパスへの入力として、ニューラルネットワークベースのベースコーラーを介して画像及び補足テンプレート画像を処理して、入力の代替表現を生成することと、前方へのパスの出力として、代替表現を使用して多数のＤＮＡクラスターの各々１つを同時にベースコールすることと、を含む。

他の実施態様のための特定の実施態様セクションで説明される特徴のそれぞれは、この実施態様に等しく適用される。上記のように、全ての他の特徴はここでは繰り返されず、参照により繰り返されるべきである。読者は、これらの実施態様において識別された特徴が、他の実施態様で識別された塩基特徴のセットと容易に組み合わせることができるかを理解するであろう。このセクションで説明される方法の他の実施態様は、上述の方法のいずれかを実行するためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションで説明される方法の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行するように動作可能な１つ又はそれ以上のプロセッサとを含むシステムを含むことができ、上記の方法のいずれかを実行することができる。
項目

本開示はまた、以下の項目を含む。
項目セット
１．ニューラルネットワークを介して配列決定動作の１つ又はそれ以上の配列決定サイクルに対して配列決定システムによって捕捉される検体及びそれらの周囲の背景の画像を含む第１の画像データを処理することと、配列決定動作の１つ又はそれ以上の配列決定サイクルの検体のうちの１つ又はそれ以上に対してベースコールを生成することと、を含む、コンピュータ実装の方法。
２．第１の画像データを処理することが、
第１のニューラルネットワークを介して第１の入力を処理して、第１の出力を生成することであって、第１の入力が、第１の画像データを含む、生成することと、
ポストプロセッサを介して第１の出力を処理して、第１の画像データのそれぞれの部分の１つ又はそれ以上の特性を示すテンプレートデータを生成することと、
第２のニューラルネットワークを介して第２の入力を処理して、第２の出力を生成することであって、第２の入力が、第１の画像データ及び補足データを含み、補足データが、テンプレートデータを含み、第２の出力が、配列決定動作の１つ又はそれ以上の配列決定サイクルで、検体のうちの１つ又はそれ以上に対するベースコールを識別する、生成することと、を含む、項目１に記載のコンピュータ実装の方法。
３．第１の画像データを処理することが、
第１のニューラルネットワークを介して第１の入力を処理して、第１の出力を生成することであって、第１の入力が、第１の画像データを含む、生成することと、
ポストプロセッサを介して第１の出力を処理して、第１の画像データのそれぞれの部分の１つ又はそれ以上の特性を示すテンプレートデータを生成することと、
第２のニューラルネットワークを介して第２の入力を処理して、第２の出力を生成することであって、第２の入力が、テンプレートデータを使用して修正される第１の画像データを含み、第２の出力が、配列決定動作の１つ又はそれ以上の配列決定サイクルで、検体のうちの１つ又はそれ以上に対するベースコールを識別する、生成することと、を含む、項目１に記載のコンピュータ実装の方法。
４．第２の入力が、テンプレートデータを使用して修正される第２の画像データを更に含み、第２の画像データが、配列決定動作の１つ又はそれ以上の追加の配列決定サイクルに対して、配列決定システムによって補足される検体及びそれらの周囲の背景の画像を含む、項目３に記載のコンピュータ実装の方法。
５．テンプレートデータが、テンプレート画像を含み、テンプレート画像が、アップサンプリングされたサブピクセル解像度である、項目２～５のいずれか一項に記載のコンピュータ実装の方法。
６．テンプレート画像内の各サブピクセルが、背景サブピクセル、検体中心サブピクセル、又は検体内部サブピクセルのいずれかとして識別される、項目５に記載のコンピュータ実装の方法。
７．検体及びそれらの周囲の背景の画像が、光学ピクセル解像度で補足される、項目１～６のいずれか一項に記載のコンピュータ実装の方法。
８．テンプレートデータを使用する修正が、
第１及び／又は第２の画像データの画像内のピクセルに対応するテンプレートデータ内のどれくらい多くのサブピクセルが、検体のうちの１つ又はそれ以上の一部を含むかに基づいて、第１及び／又は第２の画像データ内の１つ又はそれ以上のピクセルに対する領域重み付け係数を計算することと、
領域重み付け係数に基づいて、ピクセルの強度を修正することと、を含む、項目３～７のいずれか一項に記載のコンピュータ実装の方法。
９．テンプレートデータを使用する修正が、
検体及びそれらの周囲の背景の画像をアップサンプリングされたサブピクセル解像度にアップサンプリングして、アップサンプリングされた画像を生成することと、テンプレート画像内の背景サブピクセルに対応するアップサンプリングされた画像内のサブピクセルに背景強度を割り当てることと、テンプレート画像内の検体中心サブピクセル及び検体内部サブピクセルに対応するアップサンプリングされた画像内のサブピクセルに検体強度を割り当てることと、を含む、項目６に記載の、又は項目６に従属するときの項目７若しくは８に記載のコンピュータ実装の方法。
１０．背景強度が、ゼロ値を有する、項目９に記載のコンピュータ実装の方法。
１１．検体強度が、光学ピクセル解像度でピクセルの強度を補間することによって決定される、項目９又は１０に記載のコンピュータ実装の方法。
１２．テンプレート画像を使用する修正が、
検体及びそれらの周囲の背景の画像をアップサンプリングされたサブピクセル解像度にアップサンプリングして、アップサンプリングされた画像を生成することと、テンプレート画像内の検体中心サブピクセル及び検体内部サブピクセルに対応するアップサンプリングされた画像内のピクセルの構成サブピクセルのみの間で、光学ピクセルドメイン内のピクセルの全体の強度を分散させることと、を含む、項目６に記載の、又は項目６に従属するときの項目７～１１のいずれか一項に記載のコンピュータ実装の方法。
１３．テンプレートデータが、検体の空間分布、検体形状、検体の中心、及び検体境界からなる群から選択される特性のうちの少なくとも１つを識別する、項目２～１２のいずれか一項に記載のコンピュータ実装の方法。
１４．第２の出力に基づいて、ベースコールの品質を計算することを更に含む、項目２～１３のいずれか一項に記載のコンピュータ実装の方法。
１５．１つ又はそれ以上の配列決定サイクルを実行して、検体及びそれらの周囲の背景の画像を捕捉することを更に含む、項目１～１４のいずれか一項に記載のコンピュータ実装の方法。
１６．複数の配列決定サイクルを実行することを更に含み、複数の配列決定サイクルの各々が、画像データを生成する、項目１～１５のいずれか一項に記載のコンピュータ実装の方法。
１７．第１のニューラルネットワークを使用して、検体に関するテンプレートデータを決定することであって、テンプレートデータが、検体の空間分布、検体形状、検体の中心、及び検体境界からなる群から選択される特性のうちの少なくとも１つを識別する、決定することと、
第２のニューラルネットワークを使用して、テンプレートデータに基づいて検体をベースコールすることと、を含む、コンピュータ実装の方法。
１８．テンプレートデータが、検体の空間分布、検体形状、検体の中心、及び検体境界からなる群から選択される特性のうちの少なくとも１つを識別するための修正強度値と、
第２のニューラルネットワークを介して修正強度値を処理して、検体をベースコールすることと、を含む、項目１７に記載のコンピュータ実装の方法。
１９．テンプレートデータが、テンプレート画像を含む、項目１７又は１８に記載のコンピュータ実装の方法。
２０．少なくとも１つの特定の検体に対してアップサンプリングされたサブピクセルドメイン内のテンプレート画像を評価して、少なくとも１つの特定の検体の一部を含むピクセル、及び少なくとも１つの特定の検体の一部も含む、ピクセルに隣接するピクセルを識別することと、
識別されたピクセルの各々でのどれくらい多くのサブピクセルが、少なくとも１つの特定の検体の一部を含むかに基づいて、各ピクセルに対する領域重み付け係数を計算することと、
それぞれのピクセルに対する領域重み付け係数に基づく処理のために、識別されたピクセル及び隣接するピクセルのピクセル強度値を修正することと、を更に含む、項目１９に記載のコンピュータ実装の方法。
２１．テンプレート画像を評価することが、
第１のニューラルネットワークを介して、複数の配列決定サイクルのうちの１つ又はそれ以上の初期配列決定サイクルでそれぞれ生成される１つ又はそれ以上の初期画像セットを処理して、テンプレート画像を生成して、アップサンプリングされたサブピクセル解像度で検体の中心、形状、及び境界を識別することであって、各画像セットが、１つ又はそれ以上の画像を含み、画像の各々が、光学ピクセル解像度で捕捉される１つ又はそれ以上の撮像チャネルのうちのそれぞれの１つでの検体及びそれらの周囲の背景の強度放射を示す、識別することを更に含む、項目２０に記載のコンピュータ実装の方法。
２２．テンプレート画像を評価することが、
少なくとも１つの特定の検体の検体形状及び境界を評価して、少なくとも１つの特定の検体の一部を含む少なくとも１つのピクセル、及び少なくとも１つの特定の検体の一部も含む、ピクセルに隣接するピクセルを識別することを更に含み、方法が、
テンプレート画像内に領域重み付け係数を記憶することと、
修正ピクセル強度値を有するピクセルを有する画像の各々の修正バージョンを生成することと、
第２のニューラルネットワークを介して画像の修正バージョンを処理して、修正バージョンの代替表現を生成することと、
代替表現を使用して、少なくとも１つの特定の検体をベースコールすることと、を更に含む、項目２０又は２１に記載のコンピュータ実装の方法。
２３．ベースコールが、
複数の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、複数の配列決定サイクルのうちの現在の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び
複数の配列決定サイクルのうちの現在の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で光学ピクセル解像度で１つ又はそれ以上の画像にアクセスすることと、
画像の各々でのピクセルに対して、それぞれのピクセルに対するテンプレート画像内の領域重み付け係数に基づいて、ピクセル強度値を修正することと、
修正ピクセル強度値を有するピクセルを有する画像の各々の修正バージョンを生成することと、
少なくとも１つの特定の検体に対して、各画像パッチが、
ピクセルのアレイを有し、かつ
その中心ピクセルで、テンプレート画像で識別される特定の検体の中心を含むように、各修正バージョンから画像パッチを抽出することと、
第２のニューラルネットワークの畳み込みニューラルネットワークを介して、画像の修正バージョンから抽出される画像パッチを畳み込んで、画像パッチの畳み込み表現を生成することと、
出力層を介して畳み込み表現を処理して、中心ピクセルに対して、Ａ、Ｃ、Ｔ、及びＧである、複数の配列決定サイクルのうちの現在の１つで少なくとも１つの特定の検体に組み込まれる塩基の尤度を生成することと、
尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、を更に含む、項目２２に記載のコンピュータ実装の方法。
２４．ピクセル強度値を修正する前に、サイクル固有及び撮像チャネル固有の変換を使用して、光学ピクセル解像度で捕捉される画像の各々をテンプレート画像と位置合わせすることを更に含む、項目２２又は２３に記載のコンピュータ実装の方法。
２５．アップサンプリングされたサブピクセルドメイン内のテンプレート画像を評価して、任意の検体の一部を含むサブピクセルを識別することと、
任意の検体に寄与しないとしてテンプレート画像で識別されるサブピクセルに背景強度を割り当てることと、を更に含む、項目１９に記載のコンピュータ実装の方法。
２６．アップサンプリングされたサブピクセルドメイン内のテンプレート画像を評価することが、
少なくとも１つのピクセル内のどれくらい多くのサブピクセルが、任意の検体の一部を含むかを計算することと、少なくとも１つのピクセル内のサブピクセルに対するサブピクセルごとの領域重み付け係数を計算することと、を更に含む、項目２５に記載のコンピュータ実装の方法。
２７．方法が、
第１のニューラルネットワークを介して、複数の配列決定サイクルのうちの１つ又はそれ以上の初期配列決定サイクルでそれぞれ生成される１つ又はそれ以上の初期画像セットを処理して、アップサンプリングされたサブピクセル解像度でテンプレート画像を生成することであって、各画像セットが、１つ又はそれ以上の画像を含み、画像の各々が、光学ピクセル解像度で捕捉される１つ又はそれ以上の撮像チャネルのうちのそれぞれの１つでの検体及びそれらの周囲の背景の強度放射を示し、テンプレート画像が、検体中心、背景、及び検体内部を含むクラスにサブピクセルを分類する、生成することと、
光学ピクセル解像度で捕捉される画像の各々をサブピクセルドメインにアップサンプリングすることと、任意の検体に寄与しないとしてテンプレート画像で識別される画像の各々のサブピクセルに背景強度を割り当てることと、
第２のニューラルネットワークを介してアップサンプリングされた画像を処理して、アップサンプリングされた画像の代替表現を生成することと、
代替表現を使用して、複数の検体をベースコールすることと、を含む、項目２５又は２６に記載のコンピュータ実装の方法。
２８．画像の各々をアップサンプリングすることが、
サブピクセルごとの領域重み付け係数を適用することによって、任意の検体に寄与するとしてテンプレート画像で識別される特定のピクセルの第１のサブピクセル間の特定のピクセルの強度を分散させることと、任意の検体に寄与しないとしてテンプレートで識別される特定のピクセルの第２のサブピクセルに背景強度を割り当てることと、を更に含む、項目２７に記載のコンピュータ実装の方法。
２９．アップサンプリングの前に、方法が、
複数の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、複数の配列決定サイクルのうちの現在の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び
複数の配列決定サイクルのうちの現在の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で光学ピクセル解像度で１つ又はそれ以上の画像にアクセスすることを含み、アップサンプリングした後に、方法が、
各画像パッチが、サブピクセルのアレイを有するように、各アップサンプリングされた画像から画像パッチを抽出することと、
第２のニューラルネットワークの畳み込みニューラルネットワークを介して、アップサンプリングされた画像から抽出される画像パッチを畳み込んで、画像パッチの畳み込み表現を生成することと、
出力層を介して畳み込み表現を処理して、アレイ内の各サブピクセルに対して、Ａ、Ｃ、Ｔ、及びＧである、複数の配列決定サイクルのうちの現在の１つで組み込まれる塩基の尤度を生成することと、
尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、
対応する検体の中心を含むそれぞれのサブピクセルに割り当てられる塩基分類に基づいて、複数の検体のうちの各々１つをベースコールすることと、を含む、項目２８に記載のコンピュータ実装の方法。
３０．アップサンプリングの前に、サイクル固有及び撮像チャネル固有の変換を使用して、光学ピクセル解像度で捕捉される画像の各々をテンプレート画像と位置合わせすることを更に含む、項目２８又は２９に記載のコンピュータ実装の方法。
３１．アップサンプリングが、最近傍強度抽出、ガウス系強度抽出、平均２×２のサブピクセル領域に基づく強度抽出、最も明るい２×２のサブピクセル領域に基づく強度抽出、平均３×３のサブピクセル領域に基づく強度抽出、バイリニア強度抽出、双次強度抽出、及び／又は重み付け領域被覆に基づく強度抽出のうちの少なくとも１つを使用して実行される、項目２９又は３０に記載のコンピュータ実装の方法。
３２．バイオセンサーシステムに結合された受け部であって、バイオセンサーシステムが、光検出器のアレイを備えるように構成されており、バイオセンサーシステムが、バイオセンサーを備え、バイオセンサーが、検体を含むように構成された反応部位を含む、受け部と、
励起光をバイオセンサーに向け、かつ反応部位内の検体を照明するように構成された、照明システムであって、検体のうちの少なくともいくつかが、照明されるときに発光信号を提供する、照明システムと、
受け部に結合されており、かつ分析モジュールを備える、システムコントローラであって、分析モジュールが、
複数の配列決定サイクルの各々で、光検出器から、光検出器によって検出される発光信号から導出される画像データを取得し、
ニューラルネットワークを介して、複数の配列決定サイクルの各々に対して画像データを処理し、かつ複数の配列決定サイクルの各々で、検体のうちの少なくともいくつかに対してベースコールを生成するように構成されている、システムコントローラと、を備える、配列決定システム。
項目セット２
１．ニューラルネットワークベースのテンプレート生成をニューラルネットワークベースのベースコールと統合することを含む、エンドツーエンド配列決定のコンピュータ実装の方法であって、
光学ピクセル解像度でピクセルを含む第１の画像データ及び第２の画像データにアクセスすることであって、
第１の画像データが、配列決定動作の配列決定サイクルのうちの初期の１つで、配列決定システムによって捕捉される、クラスター及びクラスターの周囲の背景の画像を含み、
第２の画像データが、配列決定動作の初期及び追加の配列決定サイクルで、配列決定システムによって捕捉される、クラスター及びそれらの周囲の背景の画像を含む、アクセスすることと、
ニューラルネットワークベースのテンプレート生成器を介して第１の画像データを処理し、クラスターメタデータを識別するクラスターマップを生成することであって
クラスターメタデータが、クラスター中心、クラスター形状、クラスターサイズ、クラスター背景、及び／又はクラスター境界に基づいて、クラスターの空間分布情報を識別し、
ニューラルネットワークベースのテンプレート生成器が、クラスターメタデータへのクラスターの画像のマッピングのタスクで訓練される、生成することと、
アップサンプリングされたサブピクセル解像度でテンプレート画像内のクラスターの空間分布情報を符号化することであって、テンプレート画像のサブピクセル及びクラスターの画像のピクセルが、同じ画像化領域を表す、符号化することと、
テンプレート画像に基づいて、第２の画像データのピクセルの強度値を修正し、クラスターの空間分布情報を考慮する強度分布を有する第２の画像データの強度修正バージョンを生成することと、
ニューラルネットワークベースのベースコーラーを介して第２の画像データの強度修正バージョンを処理し、配列決定動作の１つ又はそれ以上の配列決定サイクルで、クラスターのうちの１つ又はそれ以上に対するベースコールを生成することであって、ニューラルネットワークベースのベースコーラーが、ベースコールへのクラスターの画像のマッピングのタスクで訓練される、生成することと、を含む、コンピュータ実装の方法。
２．第２の画像データのピクセルの強度値を修正する代わりに、第２の画像データをテンプレート画像に補うことと、
ニューラルネットワークベースのベースコーラーを介して、テンプレート画像に補われる第２の画像データを処理し、配列決定動作の１つ又はそれ以上の配列決定サイクルで、クラスターのうちの１つ又はそれ以上に対するベースコールを生成することと、を更に含む、請求項１に記載のコンピュータ実装の方法。
３．テンプレート画像内の各サブピクセルが、背景サブピクセル、クラスター中心サブピクセル、又はクラスター内部サブピクセルのいずれかとして識別される、項目１に記載のコンピュータ実装の方法。
４．第２の画像データのピクセルの強度値を修正することが、
第２の画像データの画像内のピクセルに対応するテンプレート画像内のどれくらい多くのサブピクセルが、クラスターのうちの１つ又はそれ以上の一部を含むかに基づいて、第２の画像データ内の１つ又はそれ以上のピクセルに対する領域重み付け係数を計算することと、
領域重み付け係数に基づいて、ピクセルの強度を修正することと、を含む、項目１～３のいずれか一項に記載のコンピュータ実装の方法。
５．第２の画像データのピクセルの強度値を修正することが、
クラスター及びそれらの周囲の背景の画像をアップサンプリングされたサブピクセル解像度にアップサンプリングして、アップサンプリングされた画像を生成することと、テンプレート画像内の背景サブピクセルに対応するアップサンプリングされた画像内のサブピクセルに背景強度を割り当てることと、テンプレート画像内のクラスター中心サブピクセル及びクラスター内部サブピクセルに対応するアップサンプリングされた画像内のサブピクセルにクラスター強度を割り当てることと、を含む、項目１～４のいずれか一項に記載のコンピュータ実装の方法。
６．背景強度が、ゼロ値を有する、項目５に記載のコンピュータ実装の方法。
７．クラスター強度が、光学ピクセル解像度でピクセルの強度を補間することによって決定される、項目１～６のいずれか一項に記載のコンピュータ実装の方法。
８．第２の画像データのピクセルの強度値を修正することが、
クラスター及びそれらの周囲の背景の画像をアップサンプリングされたサブピクセル解像度にアップサンプリングして、アップサンプリングされた画像を生成することと、テンプレート画像内のクラスター中心サブピクセル及びクラスター内部サブピクセルに対応するアップサンプリングされた画像内のピクセルの構成サブピクセルのみの間で、光学ピクセルドメイン内のピクセルの全体の強度を分散させることと、を含む、項目１～７のいずれか一項に記載のコンピュータ実装の方法。
９．第１のニューラルネットワークを使用して、クラスターに関するテンプレート画像を決定することであって、テンプレート画像が、クラスターの空間分布、クラスター形状、クラスターの中心、及びクラスター境界からなる群から選択される特性のうちの少なくとも１つを識別する、決定することと、
第２のニューラルネットワークを使用して、テンプレート画像に基づいてクラスターをベースコールすることと、を含む、コンピュータ実装の方法。
１０．テンプレート画像が、クラスターの空間分布、クラスター形状、クラスターの中心、及びクラスター境界からなる群から選択される特性のうちの少なくとも１つを識別するための修正強度値と、
第２のニューラルネットワークを介して修正強度値を処理して、クラスターをベースコールすることと、を含む、項目１０に記載のコンピュータ実装の方法。
１１．テンプレート画像が、テンプレート画像を含む、項目９又は１０に記載のコンピュータ実装の方法。
１２．少なくとも１つの特定のクラスターに対してアップサンプリングされたサブピクセルドメイン内のテンプレート画像を評価して、少なくとも１つの特定のクラスターの一部を含むピクセル、及び少なくとも１つの特定のクラスターの一部も含む、ピクセルに隣接するピクセルを識別することと、
識別されたピクセルの各々でのどれくらい多くのサブピクセルが、少なくとも１つの特定のクラスターの一部を含むかに基づいて、各ピクセルに対する領域重み付け係数を計算することと、
それぞれのピクセルに対する領域重み付け係数に基づく処理のために、識別されたピクセル及び隣接するピクセルのピクセル強度値を修正することと、を更に含む、項目１１に記載のコンピュータ実装の方法。
１３．テンプレート画像を評価することが、
第１のニューラルネットワークを介して、複数の配列決定サイクルのうちの１つ又はそれ以上の初期配列決定サイクルでそれぞれ生成される１つ又はそれ以上の初期画像セットを処理して、テンプレート画像を生成して、アップサンプリングされたサブピクセル解像度でクラスターの中心、形状、及び境界を識別することであって、各画像セットが、１つ又はそれ以上の画像を含み、画像の各々が、光学ピクセル解像度で捕捉される１つ又はそれ以上の撮像チャネルのうちのそれぞれの１つでのクラスター及びそれらの周囲の背景の強度放射を示す、識別することを更に含む、項目１２に記載のコンピュータ実装の方法。
１４．テンプレート画像を評価することが、
少なくとも１つの特定のクラスターのクラスター形状及び境界を評価して、少なくとも１つの特定のクラスターの一部を含む少なくとも１つのピクセル、及び少なくとも１つの特定のクラスターの一部も含む、ピクセルに隣接するピクセルを識別することを更に含み、方法が、テンプレート画像内に領域重み付け係数を記憶することと、
修正ピクセル強度値を有するピクセルを有する画像の各々の修正バージョンを生成することと、
第２のニューラルネットワークを介して画像の修正バージョンを処理して、修正バージョンの代替表現を生成することと、
代替表現を使用して、少なくとも１つの特定のクラスターをベースコールすることと、を更に含む、項目１２又は１３に記載のコンピュータ実装の方法。
１５．ベースコールが、
複数の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、
複数の配列決定サイクルのうちの現在の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び
複数の配列決定サイクルのうちの現在の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で光学ピクセル解像度で１つ又はそれ以上の画像にアクセスすることと、
画像の各々でのピクセルに対して、それぞれのピクセルに対するテンプレート画像内の領域重み付け係数に基づいて、ピクセル強度値を修正することと、
修正ピクセル強度値を有するピクセルを有する画像の各々の修正バージョンを生成することと、
少なくとも１つの特定のクラスターに対して、各画像パッチが、
ピクセルのアレイを有し、かつ
その中心ピクセルで、テンプレート画像で識別される特定のクラスターの中心を含むように、各修正バージョンから画像パッチを抽出することと、
第２のニューラルネットワークの畳み込みニューラルネットワークを介して、画像の修正バージョンから抽出される画像パッチを畳み込んで、画像パッチの畳み込み表現を生成することと、
出力層を介して畳み込み表現を処理して、中心ピクセルに対して、Ａ、Ｃ、Ｔ、及びＧである、複数の配列決定サイクルのうちの現在の１つで少なくとも１つの特定のクラスターに組み込まれる塩基の尤度を生成することと、
尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、を更に含む、項目１４に記載のコンピュータ実装の方法。
１６．ピクセル強度値を修正する前に、サイクル固有及び撮像チャネル固有の変換を使用して、光学ピクセル解像度で捕捉される画像の各々をテンプレート画像と位置合わせすることを更に含む、項目１４又は１５に記載のコンピュータ実装の方法。
１７．アップサンプリングされたサブピクセルドメイン内のテンプレート画像を評価して、任意のクラスターの一部を含むサブピクセルを識別することと、
いかなるクラスターにも寄与しないとしてテンプレート画像で識別されるサブピクセルに背景強度を割り当てることと、を更に含む、項目９に記載のコンピュータ実装の方法。
１８．アップサンプリングされたサブピクセルドメイン内のテンプレート画像を評価することが、
少なくとも１つのピクセル内のどれくらい多くのサブピクセルが、任意のクラスターの一部を含むかを計算することと、少なくとも１つのピクセル内のサブピクセルに対するサブピクセルごとの領域重み付け係数を計算することと、を更に含む、項目１７に記載のコンピュータ実装の方法。
１９．方法が、
第１のニューラルネットワークを介して、複数の配列決定サイクルのうちの１つ又はそれ以上の初期配列決定サイクルでそれぞれ生成される１つ又はそれ以上の初期画像セットを処理して、アップサンプリングされたサブピクセル解像度でテンプレート画像を生成することであって、各画像セットが、１つ又はそれ以上の画像を含み、画像の各々が、光学ピクセル解像度で捕捉される１つ又はそれ以上の撮像チャネルのうちのそれぞれの１つでのクラスター及びそれらの周囲の背景の強度放射を示し、テンプレート画像が、クラスター中心、背景、及びクラスター内部を含むクラスにサブピクセルを分類する、生成することと、
光学ピクセル解像度で捕捉される画像の各々をサブピクセルドメインにアップサンプリングすることと、いかなるクラスターにも寄与しないとしてテンプレート画像で識別される画像の各々のサブピクセルに背景強度を割り当てることと、
第２のニューラルネットワークを介してアップサンプリングされた画像を処理して、アップサンプリングされた画像の代替表現を生成することと、
代替表現を使用して、複数のクラスターをベースコールすることと、を含む、項目１７又は１８に記載のコンピュータ実装の方法。
２０．画像の各々をアップサンプリングすることが、
サブピクセルごとの領域重み付け係数を適用することによって、任意のクラスターに寄与するとしてテンプレート画像で識別される特定のピクセルの第１のサブピクセル間の特定のピクセルの強度を分散させることと、いかなるクラスターにも寄与しないとしてテンプレートで識別される特定のピクセルの第２のサブピクセルに背景強度を割り当てることと、を更に含む、項目１９に記載のコンピュータ実装の方法。
２１．アップサンプリングの前に、方法が、
複数の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、
複数の配列決定サイクルのうちの現在の１つに先行する複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び
複数の配列決定サイクルのうちの現在の１つに続く複数の配列決定サイクルのうちの１つ又はそれ以上でそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で光学ピクセル解像度で１つ又はそれ以上の画像にアクセスすることを含み、アップサンプリングした後に、方法が、
各画像パッチが、サブピクセルのアレイを有するように、各アップサンプリングされた画像から画像パッチを抽出することと、
第２のニューラルネットワークの畳み込みニューラルネットワークを介して、アップサンプリングされた画像から抽出される画像パッチを畳み込んで、画像パッチの畳み込み表現を生成することと、
出力層を介して畳み込み表現を処理して、アレイ内の各サブピクセルに対して、Ａ、Ｃ、Ｔ、及びＧである、複数の配列決定サイクルのうちの現在の１つで組み込まれる塩基の尤度を生成することと、
尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、
対応するクラスターの中心を含むそれぞれのサブピクセルに割り当てられる塩基分類に基づいて、複数のクラスターのうちの各々１つをベースコールすることと、を含む、項目２０に記載のコンピュータ実装の方法。
２２．アップサンプリングの前に、サイクル固有及び撮像チャネル固有の変換を使用して、光学ピクセル解像度で捕捉される画像の各々をテンプレート画像と位置合わせすることを更に含む、項目２０又は２１に記載のコンピュータ実装の方法。
２３．バイオセンサーシステムに結合された受け部であって、バイオセンサーシステムが、光検出器のアレイを備えるように構成されており、バイオセンサーシステムが、バイオセンサーを備え、バイオセンサーが、クラスターを含むように構成された反応部位を含む、受け部と、
励起光をバイオセンサーに向け、かつ反応部位内のクラスターを照明するように構成された、照明システムであって、クラスターのうちの少なくともいくつかが、照明されるときに発光信号を提供する、照明システムと、
受け部に結合されており、かつ分析モジュールを備える、システムコントローラであって、分析モジュールが、
複数の配列決定サイクルの各々で、光検出器から、光検出器によって検出される発光信号から導出される画像データを取得し、
ニューラルネットワークを介して、複数の配列決定サイクルの各々に対して画像データを処理し、かつ複数の配列決定サイクルの各々で、クラスターのうちの少なくともいくつかに対してベースコールを生成するように構成されている、システムコントローラと、を備える、配列決定システム。
項目セット３
１．ニューラルネットワークを介して入力データを処理し、入力データの代替表現を生成することであって、入力データが、配列決定動作の１つ又はそれ以上の配列決定サイクルの各々に対するサイクルごとのデータを含み、サイクルごとのデータが、それぞれの配列決定サイクルで１つ又はそれ以上の検体を示す、生成することと、
出力層を介して代替表現を処理することと、出力を生成することと、
出力に基づいて、配列決定サイクルのうちの１つ又はそれ以上で、検体のうちの１つ又はそれ以上をベースコールすることと、を含む、コンピュータ実装の方法。
２．サイクルごとのデータが、それぞれの配列決定サイクルで周囲の背景を示す、項目１に記載のニューラルネットワーク実装の方法。
３．入力データが、画像データであり、サイクルごとのデータが、それぞれの配列決定サイクルで補足される、１つ又はそれ以上の検体及び周囲の背景を示す強度放射を含む、項目１又は２に記載のニューラルネットワーク実装の方法。
４．サイクルごとのデータのピクセルと、検体のうちの１つ又はそれ以上を示す強度放射を示すピクセルとの間の距離を識別する補足距離情報に、サイクルごとのデータを伴わせることを更に含む、項目３に記載のコンピュータ実装の方法。
５．サイクルごとのデータのピクセルにスケーリング値を割り当てる補足スケーリング情報に、サイクルごとのデータを伴わせることを更に含む、項目３に記載のコンピュータ実装の方法。
６．サイクルごとのデータが、それぞれの配列決定サイクルで検出される電圧変化を示す、項目１に記載のニューラルネットワーク実装の方法。
７．サイクルごとのデータが、それぞれの配列決定サイクルで測定される電流信号を示す、項目１に記載のニューラルネットワーク実装の方法。
８．複数の配列決定サイクルを含む配列決定動作中に合成される検体をベースコールする、ニューラルネットワーク実装の方法であって、方法が、
畳み込みニューラルネットワークを介して入力データを畳み込んで、入力データの畳み込み表現を生成することであって、入力データが、配列決定動作の現在の配列決定サイクルで生成される現在の画像セット、現在の配列決定サイクルに先行する配列決定動作の１つ又はそれ以上の配列決定サイクルでそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び現在の配列決定サイクルに続く配列決動作の１つ又はそれ以上の配列決定サイクルでそれぞれ生成される１つ又はそれ以上の後続の画像セットの各々で１つ又はそれ以上の画像から抽出される画像パッチを含み、画像パッチの各々が、ベースコールされているターゲット検体の強度放射を示し、
入力データが、画像パッチの中心ピクセルからの画像パッチのピクセルのそれぞれの距離を示す距離情報を更に含む、生成することと、
出力層を介して畳み込み表現を処理して、出力を生成することと、
出力に基づいて、現在の配列決定サイクルでターゲット検体をベースコールすることと、を含む、ニューラルネットワーク実装の方法。
９．それぞれの検体を表す画像領域の中心の畳み込みニューラルネットワーク位置座標への入力として提供することを更に含み、
入力が、畳み込みニューラルネットワークの第１の層に提供され、入力が、畳み込みニューラルネットワークの１つ又はそれ以上の中間層に提供され、
入力が、畳み込みニューラルネットワークの最終層に提供される、項目８に記載のニューラルネットワーク実装の方法。
１０．画像パッチのピクセルに対応するスケーリング値を有する強度スケーリングチャネルを畳み込みニューラルネットワークへの入力として提供することを更に含み、
スケーリング値が、特定のターゲット検体を各々含む画像パッチの中心ピクセルの平均強度に基づく、項目８又は９に記載のニューラルネットワーク実装の方法。
１１．強度スケーリングチャネルが、画像パッチの全てのピクセルに対して同じスケーリング値をピクセルごとに含む、項目８～１０のいずれか一項に記載のニューラルネットワーク実装の方法。
１２．各画像パッチが、それぞれのピクセルと、複数の検体のうちの最も近い１つとの間の距離を示すピクセル距離データを更に含み、複数の検体のうちの最も近い１つが、ピクセルと検体の各々との間の中心間距離に基づいて選択される、項目８に記載のニューラルネットワーク実装の方法。
１３．各画像パッチが、各検体ピクセルを検体のうちの１つのみに分類することに基づいて選択される、複数の検体のうちの割り当てられた１つからの各検体ピクセルの距離を識別する検体距離データを更に含む、項目８に記載のニューラルネットワーク実装の方法。
１４．畳み込みニューラルネットワークを介して入力データを畳み込んで、入力データの畳み込み表現を生成することが、
畳み込みニューラルネットワークの第１の畳み込みサブネットワークを介して、サイクルごとの各画像パッチセットを別々に処理して、各配列決定サイクルに対する中間畳み込み表現を生成し、配列決定サイクル間ではなく配列決定サイクル内でのみ、強度及び距離情報を組み合わせ、かつ得られた畳み込み表現を組み合わせる畳み込みを適用することを含むことと、
畳み込みニューラルネットワークの第２の畳み込みサブネットワークを介して、一連の連続する配列決定サイクルに対する中間畳み込み表現をグループごとに処理して、一連の最終畳み込み表現を生成し、配列決定サイクル間で、中間畳み込み表現を組み合わせ、かつ得られた畳み込み表現を組み合わせる畳み込みを適用することを含むことと、を含み、
出力層を介して畳み込み表現を処理して、出力を生成することが、出力層を介して最終畳み込み表現を処理することを含む、項目８～１３のいずれか一項に記載のニューラルネットワーク実装の方法。
１５．各画像パッチのピクセルを再構成して、中心ピクセル内のターゲット検体の中心を中心にして、再構成された画像パッチを生成することを更に含み、
畳み込みニューラルネットワークを介して入力データを畳み込んで、入力データの畳み込み表現を生成することが、畳み込みニューラルネットワークを介して再構成された画像パッチを畳み込んで、畳み込み表現を生成することを含む、項目８～１４のいずれか一項に記載のニューラルネットワーク実装の方法。
１６．再構成が、再構成を補償するための各画像パッチのピクセルの強度補間を更に含む、項目１５に記載のニューラルネットワーク実装の方法。
１７．畳み込みニューラルネットワークの畳み込み層のカスケードを介して、サイクルごとの入力データの配列内のサイクルごとの各入力データを別々に処理することであって、サイクルごとの入力データの配列が、配列決定動作の一連の配列決定サイクルに対して生成され、
サイクルごとの各入力データが、それぞれの配列決定サイクルで捕捉される、１つ又はそれ以上の検体及びそれらの周囲の背景の強度放射を示す、画像チャネルを含む、処理することと、
各配列決定サイクルに対して、別個の処理に基づいて、畳み込み層の各々で畳み込み表現を生成し、それによって、畳み込み表現の配列を生成することと、そのサイクルごとの入力データを、畳み込み表現のその対応する配列と混合し、混合表現を生成することと、
その混合表現を平坦化することと、平坦化された混合表現を生成することと、
連続する配列決定サイクルの平坦化された混合表現をスタックとして配置することと、
スライディングウィンドウベースでスタック内の平坦化された混合表現のサブセットにおいて畳み込む反復ニューラルネットワークを介して前方及び後方の方向にスタックを処理することであって、各スライディングウィンドウがそれぞれの配列決定サイクルに対応し、
（ｉ）スタックにおける現在のスライディングウィンドウでの平坦化された混合表現のサブセット、及び（ｉｉ）以前の隠れ状態表現に基づいて、各配列決定サイクルに対して各時間ステップで現在の隠れ状態表現を連続的に生成する、処理することと、
前方及び後方の方向でのスタックの処理の結果に基づいて、配列決定サイクルの各々で検体の各々をベースコールすることと、を含む、ベースコールのニューラルネットワーク実装の方法。
１８．時間ステップごとに所与の配列決定サイクルの前方及び後方の現在の隠れ状態表現を組み合わせ、組み合わされた隠れ状態表現を生成することであって、組み合わせることが、連結若しくは積算又は平均を含む、生成すること、
１つ又はそれ以上の完全に接続されたネットワークを介して組み合わされた隠れ状態表現を処理すること、及び高密度表現を生成すること、
ソフトマックス層を介して、高密度表現を処理して、Ａ、Ｃ、Ｔ、及びＧである、所与の配列決定サイクルで検体の各々に組み込まれる塩基の尤度を生成すること、並びに
尤度に基づいて、塩基をＡ、Ｃ、Ｔ、又はＧと分類することによって、所与の配列決定サイクルで検体の各々をベースコールすることを更に含む、項目１７に記載のニューラルネットワーク実装の方法。
１９．反復モジュール及び畳み込みモジュールを有するハイブリッドニューラルネットワークであって、反復モジュールが、畳み込みモジュールからの入力を使用する、ハイブリッドニューラルネットワークと、
１つ又はそれ以上の畳み込み層を介して配列決定動作の一連の配列決定サイクルに対する画像データを処理し、画像データの１つ又はそれ以上の畳み込み表現を生成する、畳み込みモジュールであって、画像データが、１つ又はそれ以上の検体及びそれらの周囲の背景の強度放射を示す、畳み込みモジュールと、
畳み込み表現及び以前の隠れ状態表現を畳み込むことに基づいて、現在の隠れ状態表現を生成する、反復モジュールと、
現在の隠れ状態表現に基づいて、検体のうちの少なくとも１つ、及び配列決定サイクルのうちの少なくとも１つに対してベースコールを生成する、出力モジュールと、を備える、ベースコールのためのニューラルネットワークベースのシステム。
２０．ニューラルネットワークを介して入力データを処理して、入力データの代替表現を生成することであって、
入力データが、（ｉ）配列決定動作の１つ又はそれ以上の配列決定サイクルの各々に対するサイクルごとのデータと、（ｉｉ）補足距離情報と、を含み、サイクルごとのデータが、１つ又はそれ以上のクラスター及び配列決定サイクルのうちのそれぞれの１つで捕捉される周囲の背景を示す強度放射を示すピクセルを含み、サイクルごとのデータが、サイクルごとのデータのピクセル間の距離を識別する補足距離情報を伴い、
ニューラルネットワークによるサイクルごとのデータのピクセルの処理中に、補足距離情報が、サイクルごとのデータのピクセルのうちのどれがクラスターの中心を含むか、及びサイクルごとのデータのピクセルのうちのどれがクラスターの中心からより離れているかをニューラルネットワークに伝える加法バイアスを供給する、生成することと、
出力層を介して代替表現を処理することと、出力を生成することと、
出力に基づいて、配列決定サイクルのうちの１つ又はそれ以上で、クラスターのうちの１つ又はそれ以上をベースコールすることと、を含む、クラスターをベースコールする、コンピュータ実装の方法。
２１．加法バイアスが、ベースコールの精度を改善する、項目２０に記載のコンピュータ実装の方法。
２２．ニューラルネットワークが、補足距離情報を使用して、中心クラスターピクセル、それらの隣接するピクセル、並びに周囲クラスターピクセル、背景ピクセル、及びそれらから導出される代替表現よりも多くのそれらから導出される代替表現に対処することによって、配列決定信号をその適切なソースクラスターに割り当てる、項目２１に記載のコンピュータ実装の方法。
２３．ニューラルネットワークを介して入力データを処理して、入力データの代替表現を生成することであって、入力データが、
（ｉ）配列決定サイクルのうちのそれぞれの１つで１つ又はそれ以上のクラスターを示す強度放射を示すピクセルを含む配列決定動作の１つ又はそれ以上の配列決定サイクルの各々に対するサイクルごとのデータと、
（ｉｉ）サイクルごとのデータのピクセル間の距離を識別する補足距離情報と、を含み、
ニューラルネットワークによるサイクルごとのデータのピクセルの処理中に、補足距離情報が、サイクルごとのデータに伴い、サイクルごとのデータのピクセルのうちのどれがクラスターの中心を含むか、及びサイクルごとのデータのピクセルのうちのどれがクラスターの中心からより離れているかをニューラルネットワークに伝える、生成することと、
出力層を介して代替表現を処理することと、出力を生成することと、
出力に基づいて、配列決定サイクルのうちの１つ又はそれ以上で、クラスターのうちの１つ又はそれ以上をベースコールすることと、を含む、クラスターをベースコールする、コンピュータ実装の方法。
２４．補足距離情報が、ベースコールの精度を改善する、項目１に記載のコンピュータ実装の方法。
２５．ニューラルネットワークが、補足距離情報を使用して、中心クラスターピクセル、それらの隣接するピクセル、並びに周囲クラスターピクセル、背景ピクセル、及びそれらから導出される代替表現よりも多くのそれらから導出される代替表現に対処することによって、配列決定信号をその適切なソースクラスターに割り当てる、請求項２４に記載のコンピュータ実装の方法。
項目セット４
１．ニューラルネットワークベースのベースコーラーを介して１つ又はそれ以上の検体に対して入力データを処理し、入力データの代替表現を生成することと、
出力層を介して代替表現を処理して、出力を生成することであって、出力が、Ａ、Ｃ、Ｔ、及びＧである、検体のうちの特定の１つに組み込まれる塩基の尤度を識別する、生成することと、
出力に基づいて、検体のうちの１つ又はそれ以上に対して塩基をコールすることと、
出力によって識別される尤度に基づいて、コールされた塩基の品質スコアを決定することと、を含む、コンピュータ実装の方法。
２．尤度に基づいて、コールされた塩基の品質スコアを決定することが、
訓練中の訓練データの処理に応答して、ニューラルネットワークベースのベースコーラーによって生成される、ベースコールの分類スコアを量子化することと、
量子化分類スコアのセットを選択することと、
セット内の各量子化分類スコアに対して、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによって、ベースコール誤差率を決定することと、
量子化分類スコアとそれらのベースコール誤差率との間の適合を決定することと、
適合に基づいて、品質スコアを量子化分類スコアに相関させることと、を含む、項目１に記載のコンピュータ実装の方法。
３．量子化分類スコアのセットが、訓練中の訓練データの処理に応答して、ニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの分類スコアのサブセットを含み、
分類スコアが、実数である、項目１又は２に記載のコンピュータ実装の方法。
４．量子化分類スコアのセットが、訓練中の訓練データの処理に応答して、ニューラルネットワークベースのベースコーラーによって生成される予測されたベースコールの全ての分類スコアを含み、
分類スコアが、実数である、項目１～３のいずれか一項に記載のコンピュータ実装の方法。
５．分類スコアが、１になる指数関数的に正規化されたソフトマックススコアであり、ニューラルネットワークベースのベースコーラーのソフトマックス出力層によって生成される、項目１～４のいずれか一項に記載のコンピュータ実装の方法。
６．量子化分類スコアのセットが、

と定義される選択式に基づいて選択され、ソフトマックススコアに適用される、項目１～５のいずれか一項に記載のコンピュータ実装の方法。
７．量子化分類スコアのセットが、

と定義される選択式に基づいて選択され、ソフトマックススコアに適用される、項目１～６のいずれか一項に記載のコンピュータ実装の方法。
８．相関に基づいて、推測中にニューラルネットワークベースのベースコーラーによってコールされる塩基に品質スコアを割り当てることを更に含む、項目１～７のいずれか一項に記載のコンピュータ実装の方法。
９．推測中にニューラルネットワークベースのベースコーラーによってコールされる塩基に品質スコア対応スキームを適用することに基づいて、品質スコアを割り当てることを更に含み、
スキームが、推測中に、推測データの処理に応答して、ニューラルネットワークベースのベースコーラーによって生成される、分類スコアの範囲をセット内の対応する量子化分類スコアにマッピングする、項目８に記載のコンピュータ実装の方法。
１０．推測中に、品質スコアが現在のベースコールサイクルに対する設定された閾値を下回る検体をベースコールすることを停止させることを更に含む、項目８又は９に記載のコンピュータ実装の方法。
１１．推測中に、平均品質スコアが連続するベースコールサイクルの後に設定された閾値を下回る検体をベースコールすることを停止させることを更に含む、項目８～１０のいずれか一項に記載のコンピュータ実装の方法。
１２．予測されたベースコールを対応するグラウンドトゥルースベースコールと比較するために使用されるサンプルサイズが、各量子化分類スコアに固有である、項目８～１１のいずれか一項に記載のコンピュータ実装の方法。
１３．適合が、回帰モデルを使用して決定される、項目８～１２のいずれか一項に記載のコンピュータ実装の方法。
１４．各量子化分類スコアに対して、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによって、ベースコール精度率を決定することと、
量子化分類スコアとそれらのベースコール精度率との間の適合を決定することと、を更に含む、項目８～１３のいずれか一項に記載のコンピュータ実装の方法。
１５．対応するグラウンドトゥルースベースコールが、多数の配列決定器具、配列決定化学、及び配列決定プロトコルで配列決定される、十分に特徴付けられたヒト及び非ヒトサンプルから導出される、項目８～１４のいずれか一項に記載のコンピュータ実装の方法。
１６．並行して動作し、かつメモリに結合された多数のプロセッサと、
ニューラルネットワークのベースコール品質予測を、既知の正しいベースコールを識別するベースコール品質グラウンドトゥルースと漸進的に一致させる逆伝搬ベースの勾配更新技術を使用して、配列決定画像からのデータを含む訓練例で訓練され、かつベースコール品質グラウンドトゥルースでラベル付けされる、多数のプロセッサ上で動作するニューラルネットワークと、
多数のプロセッサのうちの少なくとも１つで動作し、かつ１つ又はそれ以上の検体に対してコールされる１つ又はそれ以上の塩基の品質を決定するために、１つ又はそれ以上の配列決定サイクルで捕捉される配列決定画像からのデータをニューラルネットワークに供給する、ニューラルネットワークの入力モジュールと、
多数のプロセッサのうちの少なくとも１つで動作し、かつニューラルネットワークによる分析を、１つ又はそれ以上の検体に対してコールされる１つ又はそれ以上の塩基の品質を識別する出力に変換する、ニューラルネットワークの出力モジュールと、を備える、ニューラルネットワークベースの品質スコアラー。
１７．ニューラルネットワークが、畳み込みニューラルネットワークである、項目１６に記載のニューラルネットワークベースの品質スコアラー。
１８．出力モジュールが、高品質、中品質、及び低品質である品質に対する尤度を生成するソフトマックス分類層を更に備え、
尤度に基づいて、品質を高品質、中品質、又は低品質と分類することを更に含む、項目１６に記載のニューラルネットワークベースの品質スコアラー。
１９．ソフトマックス分類層が、複数の品質スコアを割り当てられている品質に対する尤度を生成し、
尤度に基づいて、複数の品質スコアのうちの１つから品質に品質スコアを割り当てることを更に含む、項目１６に記載のニューラルネットワークベースの品質スコアラー。
２０．品質スコアが、ベースコール誤差確率に対数的に基づき、
複数の品質スコアが、Ｑ６、Ｑ１０、Ｑ１５、Ｑ２０、Ｑ２２、Ｑ２７、Ｑ３０、Ｑ３３、Ｑ３７、Ｑ４０、及びＱ５０を含む、項目１６～１９のいずれか一項に記載のニューラルネットワークベースの品質スコアラー。
２１．出力モジュールが、品質を識別する連続値を生成する回帰層を更に含む、項目１６～２０のいずれか一項に記載のニューラルネットワークベースの品質スコアラー。
２２．コールされる塩基の品質予測値で配列決定画像からデータを補い、
配列決定画像からのデータと共に、品質予測値を畳み込みニューラルネットワークに供給する、補足入力モジュールを更に備える、項目１６～２１のいずれか一項に記載のニューラルネットワークベースの品質スコアラー。
２３．品質予測値が、オンライン重複、純度、フェイジング、ｓｔａｒｔ５、６量体スコア、モチーフ蓄積、ｅｎｄｉｎｅｓｓ、近似ホモポリマー、強度減衰、最終チャスティティ、背景を有する信号重複（ＳＯＷＢ）、及び／又はシフトされた純度Ｇ調整を含む、項目２２に記載のニューラルネットワークベースの品質スコアラー。
２４．品質予測値が、ピーク高さ、ピーク幅、ピーク場所、相対的なピーク場所、ピーク高さ割り当て、ピーク間隔割り当て、及び／又はピーク対応を含む、項目２２に記載のニューラルネットワークベースの品質スコアラー。
２５．べースコールの品質スコアを決定するコンピュータ実装の方法であって、
ニューラルネットワークベースのベースコーラーを介して１つ又はそれ以上のクラスターに対して入力データを処理し、入力データの代替表現を生成することと、
出力層を介して代替表現を処理して、出力を生成することであって、出力が、Ａ、Ｃ、Ｔ、及びＧである、クラスターのうちの特定の１つに組み込まれる塩基の尤度を識別する、生成することと、
出力に基づいて、クラスターのうちの１つ又はそれ以上に対して塩基をコールすることと、
訓練中の訓練データの処理に応答して、ニューラルネットワークベースのベースコーラーによって生成される、ベースコールの分類スコアを量子化すること、
量子化分類スコアのセットを選択すること、
セット内の各量子化分類スコアに対して、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによって、ベースコール誤差率を決定すること、
量子化分類スコアとそれらのベースコール誤差率との間の適合を決定すること、及び
適合に基づいて、品質スコアを量子化分類スコアに相関させることによって、出力によって識別される尤度に基づいて、コールされた塩基の品質スコアを決定することと、を含む、コンピュータ実装の方法。
２６．適合が、量子化分類スコアと品質スコアとの間の対応を示す、請求項１に記載のコンピュータ実装の方法。
２７．べースコールの品質スコアを決定するコンピュータ実装の方法であって、
ニューラルネットワークベースのベースコーラーを介して１つ又はそれ以上のクラスターに対して入力データを処理し、入力データの代替表現を生成することと、
出力層を介して代替表現を処理して、出力を生成することであって、出力が、Ａ、Ｃ、Ｔ、及びＧである、クラスターのうちの特定の１つに組み込まれる塩基の尤度を識別する、生成することと、
出力に基づいて、クラスターのうちの１つ又はそれ以上に対して塩基をコールすることと、
ニューラルネットワークベースのベースコーラーの訓練に対して較正される量子化スキームに基づいて、出力によって識別される尤度に基づいて、コールされた塩基の品質スコアを決定することであって、量子化スキームが、訓練データの処理に応答して、訓練中にニューラルネットワークベースのベースコーラーによって生成されるコールされた塩基の分類スコアを量子化すること、
量子化分類スコアのセットを選択すること、
セット内の各量子化分類スコアに対して、その予測されたベースコールを対応するグラウンドトゥルースベースコールと比較することによって、ベースコール誤差率を決定すること、
量子化分類スコアとそれらのベースコール誤差率との間の適合を決定すること、及び
適合に基づいて、品質スコアを量子化分類スコアに相関させることを含む、決定することと、を含む、コンピュータ実装の方法。
項目セット５
１．フローセルのタイル上の検体を示す画像領域を決定するコンピュータ実装の方法であって、
配列決定動作中に生成された一連の画像セットにアクセスすることであって、各画像セットが、配列決定動作のそれぞれの配列決定サイクル中に生成され、一連の各画像が、検体及びそれらの周囲の背景を示し、一連の各画像が、複数のサブピクセルを有するアクセスすることと、
サブピクセルの各々を分類するベースコールをベースコールから取得し、それによって、配列決定動作の複数の配列決定サイクルにわたって、サブピクセルの各々に対してベースコール配列を生成することと、
実質的に一致するベースコール配列を共有する連続するサブピクセルの複数の不連続領域を決定することと、
決定された不連続領域を識別する検体マップを生成することと、を含む、コンピュータ実装の方法。
２．連続するサブピクセルの決定された複数の不連続領域に基づいて分類子を訓練することを更に含み、分類子が、ニューラルネットワークベースのベースコーラーによるベースコールのための、入力画像データに表される複数の検体の各々の１つ又はそれ以上の特性を表す、減衰マップ、三元マップ、又はバイナリマップを生成するために、好ましくは、ハイスループット核酸配列決定技術におけるスループットのレベルを増加させるための、画像データを処理するためのニューラルネットワークベースのテンプレート生成器である、項目１に記載のコンピュータ実装の方法。
３．不連続領域のいずれにも属しないサブピクセルを背景として識別することによって、検体マップを生成することと、を含む、項目１又は２に記載のコンピュータ実装の方法。
４．検体マップが、ベースコール配列が実質的に一致しない２つの連続するサブピクセル間の検体境界部分を識別する、項目１－３のいずれか一項に記載のコンピュータ実装の方法。
５．連続するサブピクセルの複数の不連続領域を決定することが、
ベースコーラーによって決定された検体の予備中心座標における原点サブピクセルを識別することと、
原点サブピクセルから開始し、連続的に連続する非原点サブピクセルを継続することによって、実質的に一致するベースコール配列を幅優先で検索することと、を更に含む、項目１－４のいずれか一項に記載のコンピュータ実装の方法。
６．検体マップの不連続領域の質量中心を、不連続領域を形成するそれぞれの連続するサブピクセルの座標の平均として計算することによって、検体の超位置中心座標を決定することと、
分類子を訓練するためのグラウンドトゥルースとして使用するために、メモリ内の検体の超位置中心座標を記憶することと、を更に含む、項目１～５のいずれか一項に記載のコンピュータ実装の方法。
７．検体の超位置中心座標における検体マップの不連続領域内の質量サブピクセルの中心を識別することと、
補間を使用して検体マップをアップサンプリングし、分類子を訓練するためのグラウンドトゥルースとして使用するために、メモリにアップサンプリングされた検体マップを記憶することと、
アップサンプリングされた検体マップで、連続するサブピクセルが属する不連続領域内の質量サブピクセルの中心からの連続するサブピクセルの距離に比例する減衰係数に基づいて、不連続領域内の各連続するサブピクセルに値を割り当てることと、を更に含む、項目６に記載のコンピュータ実装の方法。
８．方法が、更に好ましくは、
それらの割り当てられた値に基づいて、不連続領域内の連続するサブピクセル、及び背景として識別されたサブピクセルを表す、アップサンプリングされた検体マップから減衰マップを生成することと、
分類子を訓練するためにグラウンドトゥルースとして使用するために、メモリに減衰マップを記憶することと、を含む、項目７に記載のコンピュータ実装の方法。
９．方法が、更により好ましくは、
アップサンプリングされた検体マップにおいて、検体ベースで、不連続領域内の連続するサブピクセルを、同じ検体に属する検体内部サブピクセルとして分類することと、検体中心サブピクセルとしての質量サブピクセルの中心と、検体境界部分を境界サブピクセルとして含むサブピクセルと、背景サブピクセルとして背景として識別されたサブピクセルとを分類することと、
分類子を訓練するためにグラウンドトゥルースとして使用するために、メモリに分類を記憶することと、を含む、項目８に記載のコンピュータ実装の方法。
１０．検体ベースで、検体内部サブピクセル、検体中心サブピクセル、境界サブピクセル、及び背景サブピクセルの座標を、分類子を訓練するためのグラウンドトゥルースとして使用するために、メモリ内に記憶することと、
検体マップをアップサンプリングするために使用される因子によって座標をダウンスケールすることと、
分類子を訓練するためのグラウンドトゥルースとして使用するために、検体ベースでメモリにダウンスケールされた座標を記憶することと、を含む、項目１～９のいずれか一項に記載のコンピュータ実装の方法。
１１．アップサンプリングされた検体マップから生成されたバイナリグラウンドトゥルースデータにおいて、色符号化を使用して、検体中心クラスに属するように検体中心サブピクセルをラベル付けし、他の全てのサブピクセルが非中心クラスに属するものとしてラベル付けすることと、
分類子を訓練するためにグラウンドトゥルースとして使用するために、メモリにバイナリグラウンドトゥルースデータを記憶することと、を更に含む、項目１～１０のいずれか一項に記載のコンピュータ実装の方法。
１２．アップサンプリングされた検体マップから生成された三元グラウンドトゥルースデータにおいて、色符号化を使用して、背景クラスに属するとして背景サブピクセルをラベル付けし、検体中心クラスに属するとして検体中心サブピクセルをラベル付けし、検体内部クラスに属するとして検体内部サブピクセルをラベル付けすることと、
分類子を訓練するためのグラウンドトゥルースとして使用するために、メモリに三元グラウンドトゥルースデータを記憶することと、を更に含む、項目１～１１のいずれか一項に記載の方法。
１３．フローセルの複数のタイルの検体マップを生成することと、
検体マップをメモリに記憶し、それらの形状及びサイズを含む、検体マップに基づいて、タイル内の検体の空間分布を決定することと、
タイル中の検体のアップサンプリングされた検体マップにおいて、検体ベースで、同じ検体、検体中心サブピクセル、境界サブピクセル、及び背景サブピクセルに属する検体内部サブピクセルとして分類することと、
分類子を訓練するためにグラウンドトゥルースとして使用するために、メモリに分類を記憶することと、
タイルのわたる検体ベースで、分類子を訓練するためにグラウンドトゥルースとして使用するために、検体内部サブピクセル、検体中心サブピクセル、境界サブピクセル、及び背景サブピクセルの座標をメモリに記憶することと、
検体マップをアップサンプリングするために使用される係数によって座標をダウンスケールすることと、
分類子を訓練するためにグラウンドトゥルースとして使用するために、タイルにわたる検体ベースでダウンスケールされた座標をメモリに記憶することと、を更に含む、項目１～１２のいずれか一項に記載のコンピュータ実装の方法。
１４．ベースコール配列が、ベースコールの所定の部分が順序位置ごとに一致するときに実質的に一致する、項目１～１３のいずれか一項に記載のコンピュータ実装の方法。
１５．実質的に一致するベースコール配列を共有する連続するサブピクセルの複数の不連続領域を決定することが、不連続領域のための所定の最小数のサブピクセルに基づく、項目１～１４のいずれか一項に記載のコンピュータ実装の方法。
１６．フローセルが、検体を占有するウェルのアレイを有する少なくとも１つのパターン化表面を有し、更に、
検体の決定された形状及びサイズに基づいて、
ウェルのうちのどれが、少なくとも１つの検体によって実質的に占有されているか、
ウェルのうちのどれが最小限に占有されているか、及び
ウェルのうちのどれが、複数の検体によって共占有されているかを決定することを更に含む、項目１～１５のいずれか一項に記載のコンピュータ実装の方法。
１７．フローセルのタイル上の検体に関するメタデータを決定するコンピュータ実装の方法であって、
配列決定動作中に捕捉されたタイルの画像のセットにアクセスすることと、ベースコーラーによって決定された検体の予備中心座標にアクセスすることと、
各画像セットに対して、ベースコーラーから、４つの塩基のうちの１つとしての、予備中心座標を含む原点サブピクセルのベースコール分類を取得することと、
原点サブピクセルのうちのそれぞれの１つに連続的に連続する、連続するサブピクセルの所定の近傍であって、それによって、原点サブピクセルの各々に対して、及び連続するサブピクセルの所定の近傍の各々に対して、ベースコール配列を生成することと、
原点サブピクセルのうちのそれぞれの１つの少なくともいくつかに連続的に連続する、連続するサブピクセルの不連続領域として検体を識別する検体マップを生成することと、
４つの塩基のうちの１つの実質的に一致するベースコール配列を原点サブピクセルのうちのそれぞれの１つの少なくともいくつかと共有することと、
検体マップをメモリに記憶し、検体マップ内の不連続領域に基づいて、検体の形状及びサイズを決定することと、を含む、コンピュータ実装の方法。
１８．ニューラルネットワークベースのテンプレート生成及びベースコールのための訓練データを生成するコンピュータ実装の方法であって、
配列決定動作の複数のサイクルにわたって捕捉されたフローセルの多数の画像にアクセスすることであって、フローセルが複数のタイルを有し、多数の画像において、タイルの各々が、複数のサイクルにわたって生成された画像セットの配列を有し、画像セットの配列内の各画像が、特定の１回のサイクルにおける、特定のタイルのうちの特定の１つの検体及びそれらの周囲の背景の強度放射を示す、アクセスすることと、
複数の訓練例を有する訓練セットを構築することであって、各訓練例が、タイルのうちの特定の１つに対応し、タイルのうちの特定の１つの画像セットの配列内の少なくともいくつかの画像セットからの画像データを含む、構築することと、
訓練例の各々について少なくとも１つのグラウンドトゥルースデータ表現を生成することであって、グラウンドトゥルース表現が、タイルのうちの特定の１つで検体の少なくとも１つの特性を識別し、その強度放射が、画像データによって示され、少なくとも部分的に、項目１～１７のいずれか一項に記載の方法を使用して決定される、生成することと、を含む、コンピュータ実装の方法。
１９．検体の少なくとも１つの特性が、タイル上の検体の空間分布、検体形状、検体サイズ、検体境界、及び単一の検体を含む連続する領域の中心からなる群から選択される、項目１８に記載のコンピュータ実装の方法。
２０．画像データが、タイルのうちの特定の１つの画像セットの配列内の少なくともいくつかの画像セットの各々の画像を含む、項目１８又は１９に記載のコンピュータ実装の方法。
２１．画像データが、画像の各々から少なくとも１つの画像パッチを含む、項目１８～２０のいずれか一項に記載のコンピュータ実装の方法。
２２．画像データが、画像パッチのアップサンプリングされた表現を含む、項目１８～２１のいずれか一項に記載のコンピュータ実装の方法。
２３．複数の訓練例が、タイルのうちの同じ特定の１つに対応し、タイルのうちの同じ特定の１つの画像セットの配列内の少なくともいくつかの画像セットの各々の各画像から異なる画像パッチを画像データとしてそれぞれ含み、
異なる画像パッチのうちの少なくともいくつかが互いに重複する、項目１８～２２のいずれか一項に記載のコンピュータ実装の方法。
２４．グラウンドトゥルースデータ表現が、隣接するサブピクセルの不連続領域として検体を識別し、不連続領域のうちのそれぞれの１つの内部の質量サブピクセルの中心として検体の中心を識別し、不連続領域のうちのいずれにも属しないサブピクセルとしてそれらの周囲の背景を識別する、項目１８～２３のいずれか一項に記載のコンピュータ実装の方法。
２５．訓練セット及び関連するグラウンドトゥルースデータ表現内の訓練例を、ニューラルネットワークベースのテンプレート生成及びベースコールのための訓練データとして記憶することを更に含む、項目１８～２４のいずれか一項に記載のコンピュータ実装の方法。
２６．シーケンサによって生成された検体の配列決定画像にアクセスすることと、
配列決定画像から訓練データを生成することと、
ニューラルネットワークを訓練するための訓練データを使用して、検体に関するメタデータを生成することと、を含む、コンピュータ実装の方法。
２７．シーケンサによって生成された検体の配列決定画像にアクセスすることと、
配列決定画像から訓練データを生成することと、
ニューラルネットワークを訓練するための訓練データを使用して、検体をベースコールすることと、を含むコンピュータ実装の方法。
２８．フローセルのタイル上の検体を示す画像領域を決定するコンピュータ実装の方法であって、
配列決定動作中に生成された一連の画像セットにアクセスすることであって、一連の各画像セットが、配列決定動作のそれぞれの配列決定サイクル中に生成され、一連の各画像が、検体及びそれらの周囲の背景を示し、一連の各画像が、複数のサブピクセルを有するアクセスすることと、
サブピクセルの各々を分類するベースコールをベースコーラーから取得し、それによって、配列決定動作の複数の配列決定サイクルにわたって、サブピクセルの各々についてベースコール配列を生成することと、
実質的に一致するベースコール配列を共有する連続するサブピクセルの複数の不連続領域を決定することと、を含む、コンピュータ実装の方法。
項目セット６
１．クラスターメタデータ決定タスクのためのニューラルネットワークベースのテンプレート生成器を訓練するために、グラウンドトゥルース訓練データを生成するコンピュータ実装の方法であって、
配列決定動作中に生成された一連の画像セットにアクセスすることであって、一連の各画像セットが、配列決定動作のそれぞれの配列決定サイクル中に生成され、一連の画像が、クラスター及びそれらの周囲の背景を示し、一連の各画像が、ピクセルドメイン内のピクセルを有し、ピクセルの各々が、サブピクセルドメイン内の複数のサブピクセルに分割される、アクセスすることと、
サブピクセルの各々を４つの塩基（Ａ、Ｃ、Ｔ、及びＧ）のうちの１つと分類するベースコールをベースコーラーから取得することであって、それによって、配列決定動作の複数の配列決定サイクルにわたって、サブピクセルの各々についてベースコール配列を生成することと、
実質的に一致するベースコール配列を共有する連続するサブピクセルの不連続領域としてクラスターを識別するクラスターマップを生成することと、
クラスターマップ内の不連続領域に基づいてクラスターメタデータを決定することであって、クラスターメタデータが、クラスター中心、クラスター形状、クラスターサイズ、クラスター背景、及び／又はクラスター境界を含む、決定することと、
クラスターメタデータを使用して、クラスターメタデータ決定タスクのためのニューラルネットワークベースのテンプレート生成器を訓練するためにグラウンドトゥルース訓練データを生成することと、を含み、グラウンドトゥルース訓練データが、減衰マップ、三元マップ、又はバイナリマップを含み、ニューラルネットワークベースのテンプレート生成器が、グラウンドトゥルース訓練データに基づいて、出力として減衰マップ、三元マップ、又はバイナリマップを生成するように訓練され、
推測中のクラスターメタデータ決定タスクの実行時に、クラスターメタデータが、次に、訓練されたニューラルネットワークベースのテンプレート生成器によって出力として生成される減衰マップ、三元マップ、又はバイナリマップから決定される、コンピュータ実装の方法。
２．ハイスループット核酸配列決定技術におけるスループットを増加させるために、ニューラルネットワークベースのベースコーラーによってベースコールするためのニューラルネットワークベースのテンプレート生成器による出力として生成された、減衰マップ、三元マップ、又はバイナリマップから導出されたクラスターメタデータを使用することを更に含む、項目１に記載のコンピュータ実装の方法。
３．不連続領域のいずれにも属しないサブピクセルを背景として識別することによって、クラスターマップを生成することを更に含む、項目１に記載のコンピュータ実装の方法。
４．クラスターマップが、ベースコール配列が実質的に一致しない２つの連続するサブピクセル間のクラスター境界部分を識別する、項目１に記載のコンピュータ実装の方法。
５．クラスターマップが、
ベースコーラーによって決定されるクラスターの予備中心座標における原点サブピクセルを識別すること、及び
原点サブピクセルから開始し、連続的に連続する非原点サブピクセルを継続することによって、実質的に一致するベースコール配列を幅優先で検索することに基づいて生成される、項目１に記載のコンピュータ実装の方法。
６．クラスターマップの不連続領域の質量中心を、不連続領域を形成するそれぞれの連続するサブピクセルの座標の平均として計算することによって、クラスターの超位置中心座標を決定することと、
ニューラルネットワークベースのテンプレート生成器を訓練するためのグラウンドトゥルース訓練データとして使用するために、メモリ内のクラスターの超位置中心座標を記憶することと、を更に含む、項目１に記載のコンピュータ実装の方法。
７．クラスターの超位置中心座標におけるクラスターマップの非接合領域内の質量サブピクセルの中心を識別することと、
補間を使用してクラスターマップをアップサンプリングし、ニューラルネットワークベースのテンプレート生成器を訓練するためのグラウンドトゥルース訓練データとして使用するために、メモリ内にアップサンプリングされたクラスターマップを記憶することと、
アップサンプリングされたクラスターマップで、連続するサブピクセルが属する不連続領域内の質量サブピクセルの中心からの連続するサブピクセルの距離に比例する減衰係数に基づいて、不連続領域内の各連続するサブピクセルに値を割り当てることと、を更に含む、項目６に記載のコンピュータ実装の方法。
８．それらの割り当てられた値に基づいて、不連続領域内の連続するサブピクセル、及び背景として識別されるサブピクセルを表す、アップサンプリングされたクラスターマップから減衰マップを生成することと、
ニューラルネットワークベースのテンプレート生成器を訓練するためのグラウンドトゥルース訓練データとして使用するために、メモリに減衰マップを記憶することと、を更に含む、項目７に記載のコンピュータ実装の方法。
９．アップサンプリングされたクラスターマップにおいて、クラスターごとに、不連続領域内の連続するサブピクセルを、同じクラスターに属するクラスター内部サブピクセルとして分類し、質量サブピクセルの中心をクラスター中心サブピクセルとして分類し、クラスター境界部分を含むサブピクセルを境界サブピクセルとして分類し、背景として識別されたサブピクセルを背景サブピクセルとして分類することと、
ニューラルネットワークベースのテンプレート生成器を訓練するためのグラウンドトゥルース訓練データとして使用するために、メモリに分類を記憶することと、を更に含む、項目８に記載のコンピュータ実装の方法。
１０．クラスターごとに、クラスター内部サブピクセル、クラスター中心サブピクセル、境界サブピクセル、及び背景サブピクセルの座標を、ニューラルネットワークベースのテンプレート生成器を訓練するためのグラウンドトゥルース訓練データとして使用するために、メモリ内に記憶することと、
クラスターマップをアップサンプリングするために使用される係数によって座標をダウンスケールすることと、
クラスターごとに、ニューラルネットワークベースのテンプレート生成器を訓練するためのグラウンドトゥルース訓練データとして使用するために、メモリにダウンスケールされた座標を記憶することと、を更に含む、項目９に記載のコンピュータ実装の方法。
１１．フローセルの複数のタイルのクラスターマップを生成することと、
クラスターマップをメモリに記憶し、クラスター中心、クラスター形状、クラスターサイズ、クラスター背景、及び／又はクラスター境界を含む、クラスターマップに基づいて、タイル内のクラスターのクラスターメタデータを決定することと、
タイル内のクラスターのアップサンプリングされたクラスターマップにおいて、クラスターごとに、サブピクセルを同じクラスター、クラスター中心サブピクセル、境界サブピクセル、及び背景サブピクセルに属するクラスター内部サブピクセルとして分類することと、
ニューラルネットワークベースのテンプレート生成器を訓練するためのグラウンドトゥルース訓練データとして使用するために、メモリに分類を記憶することと、
タイルにわたるクラスターごとに、クラスター内部サブピクセル、クラスター中心サブピクセル、境界サブピクセル、及び背景サブピクセルの座標を、ニューラルネットワークベースのテンプレート生成器を訓練するためのグラウンドトゥルース訓練データとして使用するために、メモリ内に記憶することと、
クラスターマップをアップサンプリングするために使用される係数によって座標をダウンスケールすることと、
タイルにわたるクラスターごとに、ニューラルネットワークベースのテンプレート生成器を訓練するためのグラウンドトゥルース訓練データとして使用するために、メモリ内のダウンスケールされた座標を記憶することと、を更に含む、項目１０に記載のコンピュータ実装の方法。
１２．ベースコール配列が、ベースコールの所定の部分が、順序位置ごとに一致するときに実質的に一致する、項目１１に記載のコンピュータ実装の方法。
１３．クラスターマップが、不連続領域のための所定の最小数のサブピクセルに基づいて生成される、項目１に記載のコンピュータ実装の方法。
１４．フローセルが、クラスターを占有するウェルのアレイを有する少なくとも１つのパターン化表面を有し、更に、
クラスターの決定された形状及びサイズに基づいて、ウェルのうちのどれが、少なくとも１つクラスターによって実質的に占有されているか、ウェルのうちのどれが、最小限に占有されているか、及び
ウェルのうちのどれが、複数のクラスターによって共占有されているかを決定することを含む、項目１に記載のコンピュータ実装の方法。
１５．フローセルのタイル上のクラスターに関するメタデータを決定するコンピュータ実装の方法であって、
配列決定動作中に捕捉されたタイルの画像のセットにアクセスすることと、ベースコーラーによって決定されたクラスターの予備中心座標にアクセスすることと、
各画像セットに対して、ベースコーラーから、４つの塩基のうちの１つとしての、予備中心座標を含む原点サブピクセルのベースコール分類を取得することと、
原点サブピクセルのうちのそれぞれの１つに連続的に連続する、連続するサブピクセルの所定の近傍であって、それによって、原点サブピクセルの各々に対して、及び連続するサブピクセルの所定の近傍の各々に対して、ベースコール配列を生成することと、
原点サブピクセルのうちのそれぞれの１つの少なくともいくつかに連続的に連続し、かつ、４つの塩基のうちの１つの実質的に一致するベースコール配列を、原点サブピクセルのうちのそれぞれの１つの少なくともいくつかと共有する、連続するサブピクセルの不連続領域としてクラスターを識別する、クラスターマップを生成することと、
クラスターマップをメモリに記憶し、クラスターマップ内の不連続領域に基づいて、クラスターの形状及びサイズを決定することと、を含む、コンピュータ実装の方法。
１６．ニューラルネットワークベースのテンプレート生成及びベースコールのための訓練データを生成するコンピュータ実装の方法であって、
配列決定動作の複数のサイクルにわたって捕捉されたフローセルの多数の画像にアクセスすることであって、フローセルが、複数のタイルを有し、多数の画像において、タイルの各々が、複数のサイクルにわたって生成された画像セットの配列を有し、画像セットの配列内の各画像が、特定の１つのサイクルでのタイルのうちの特定の１つでクラスター及びそれらの周囲の背景の強度放射を示す、アクセスすることと、
複数の訓練例を有する訓練セットを構築することであって、各訓練例が、タイルのうちの特定の１つに対応し、タイルのうちの特定の１つの画像セットの配列内の少なくともいくつかの画像セットからの画像データを含む、構築することと、
訓練例の各々について、少なくとも１つのグラウンドトゥルースデータ表現を生成することであって、グラウンドトゥルースデータ表現が、タイルのうちの特定の１つの検体の少なくとも１つの特性を識別し、その強度放射が、画像データによって示される、生成することと、を含む、コンピュータ実装の方法。
１７．クラスターの少なくとも１つの特性が、タイル上のクラスターの空間分布、クラスター形状、クラスターサイズ、クラスター境界、及び単一のクラスターを含む連続する領域の中心からなる群から選択される、項目１６に記載のコンピュータ実装の方法。
１８．画像データが、タイルのうちの特定の１つの画像セットの配列内の少なくともいくつかの画像セットの各々での画像を含む、項目１６に記載のコンピュータ実装の方法。
１９．画像データが、画像の各々からの少なくとも１つの画像パッチを含む、項目１８に記載のコンピュータ実装の方法。
２０．画像データが、画像パッチのアップサンプリングされた表現を含む、項目１９に記載のコンピュータ実装の方法。
２１．複数の訓練例が、タイルのうちの同じ特定の１つに対応し、タイルのうちの同じ特定の１つの画像セットの配列内の少なくともいくつかの画像セットの各々での各画像からの異なる画像パッチを画像データとしてそれぞれ含み、
異なる画像パッチのうちの少なくともいくつかが互いに重複する、項目１６に記載のコンピュータ実装の方法。
２２．グラウンドトゥルースデータ表現が、隣接するサブピクセルの不連続領域としてクラスターを識別し、不連続領域のうちのそれぞれの１つの内部の質量サブピクセルの中心としてクラスターの中心を識別し、不連続領域のうちのいずれにも属しないサブピクセルとしてそれらの周囲の背景を識別する、項目１６に記載のコンピュータ実装の方法。
２３．訓練セット及び関連するグラウンドトゥルースデータ表現内の訓練例を、ニューラルネットワークベースのテンプレート生成及びベースコールのための訓練データとしてメモリ内に記憶することを更に含む、項目１６に記載のコンピュータ実装の方法。
２４．シーケンサによって生成されたクラスターの配列決定画像にアクセスすることと、
配列決定画像から訓練データを生成することと、
ニューラルネットワークを訓練するための訓練データを使用して、クラスターに関するメタデータを生成することと、を含む、コンピュータ実装の方法。
２５．シーケンサによって生成されたクラスターの配列決定画像にアクセスすることと、
配列決定画像から訓練データを生成することと、
ニューラルネットワークを訓練するための訓練データを使用して、クラスターをベースコールすることと、を含む、コンピュータ実装の方法。
２６．フローセルのタイル上の検体を示す画像領域を決定するコンピュータ実装の方法であって、
配列決定動作中に生成された一連の画像セットにアクセスすることであって、一連の各画像セットが、配列決定動作のそれぞれの配列決定サイクル中に生成され、一連の各画像が、検体及びそれらの周囲の背景を示し、一連の各画像が、複数のサブピクセルを有するアクセスすることと、
サブピクセルの各々を分類するベースコールをベースコーラーから取得し、それによって、配列決定動作の複数の配列決定サイクルにわたって、サブピクセルの各々についてベースコール配列を生成することと、
実質的に一致するベースコール配列を共有する連続するサブピクセルの複数の不連続領域を決定することと、
決定された不連続領域を識別するクラスターマップを生成することと、を含む、コンピュータ実装の方法。
項目セット７
１．１つ又はそれ以上の検体に基づいて生成される画像データから検体データを決定する、ニューラルネットワーク実装の方法であって、
画像の配列から導出される入力画像データを受信することであって、画像の配列内の各画像が、画像化領域を表し、配列決定動作の複数の配列決定サイクルのうちのそれぞれの１つで強度放射の１つ又はそれ以上の検体及び周囲の背景を示す、強度放射を示し、
入力画像データが、画像の配列内の各画像から抽出される画像パッチを含む、受信することと、
ニューラルネットワークを介して入力画像データを処理して、入力画像データの代替表現を生成することと、
出力層を介して代替表現を処理して、画像化領域のそれぞれの部分の特性を示す出力を生成することと、を含む、ニューラルネットワーク実装の方法。
２．特性が、一部が背景又は検体を表すかどうか、及び
一部が同じ検体を各々表す複数の連続する画像部分の中心を表すかどうかを含む、項目１に記載のニューラルネットワーク実装の方法。
３．出力が、１つ又はそれ以上の検体を識別し、その強度放射が、隣接するユニットの不連続領域としての入力画像データ、不連続領域のうちのそれぞれの１つの質量中心での中心ユニットとしての１つ又はそれ以上の検体の中心、及び
不連続領域のいずれにも属しない背景ユニットとしての強度放射の周囲の背景によって示される、項目１に記載のニューラルネットワーク実装の方法。
４．不連続領域のうちのそれぞれの１つでの隣接するユニットが、隣接するユニットが属する不連続領域内の中心ユニットからの隣接するユニットの距離に従って重み付けされる強度値を有する、項目３に記載のニューラルネットワーク実装の方法。
５．出力が、検体又は背景として各部分を分類するバイナリマップである、項目１～４のいずれか一項に記載のニューラルネットワーク実装の方法。
６．出力が、検体、背景、又は中心として各部分を分類する三元マップである、項目１～５のいずれか一項に記載のニューラルネットワーク実装の方法。
７．ピークロケータを出力に適用して、出力でピーク強度を見つけることと、
ピーク強度に基づいて、検体の中心の場所座標を決定することと、
入力画像データを準備するために使用されるアップサンプリング係数によって、場所座標をダウンスケールすることと、
検体のベースコールでの使用のために、ダウンスケールされた場所座標をメモリ内に記憶することと、を更に含む、項目１～６のいずれか一項に記載のニューラルネットワーク実装の方法。
８．不連続領域のうちのそれぞれの１つでの隣接するユニットを、同じ検体に属する検体内部ユニットとして分類することと、
検体のベースコールでの使用のために、検体ごとにメモリ内の検体内部ユニットの分類及びダウンスケールされた場所座標を記憶することと、を更に含む、項目１～７のいずれか一項に記載のニューラルネットワーク実装の方法。
９．ニューラルネットワークを訓練するための訓練データを取得することであって、訓練データが、複数の訓練例及び対応するグラウンドトゥルースデータを含み、各訓練例が、画像セットの配列からの画像データを含み、画像セットの配列内の各画像がフローセルのタイルを表し、フローセル上で実行される配列決定動作の複数の配列決定サイクルのうちの特定の１つで、特定の画像チャネルのために捕捉される、タイル上の検体及びそれらの周囲の背景の強度放射を示し、
各グラウンドトゥルースデータが、訓練例のそれぞれの部分の特性を識別する、取得することと、
勾配降下訓練技術を使用して、ニューラルネットワークを訓練することと、グラウンドトゥルースデータと漸進的に一致する訓練例に対する出力を生成することと、出力とグラウンドトゥルースデータとの間の誤差を最小化する損失関数を反復的に最適化することを含むことと、誤差に基づいてニューラルネットワークのパラメータを更新することと、を更に含む、項目１～８のいずれか一項に記載のニューラルネットワーク実装の方法。
１０．特性が、ユニットが中心又は非中心であるかどうかを識別することを含む、項目１～９のいずれか一項に記載のニューラルネットワーク実装の方法。
１１．最後の反復後の誤差収束の際に、メモリ内のニューラルネットワークの更新されたパラメータを記憶して、更なるニューラルネットワークベースのテンプレート生成及びベースコールに適用することを更に含む、項目９に記載のニューラルネットワーク実装の方法。
１２．グラウンドトゥルースデータで、不連続領域のうちのそれぞれの１つでの隣接するユニットが、隣接するユニットが属する不連続領域内の中心ユニットからの隣接するユニットの距離に従って重み付けされる強度値を有する、項目９～１１のいずれか一項に記載のニューラルネットワーク実装の方法。
１３．グラウンドトゥルースデータで、中心ユニットが、不連続領域のうちのそれぞれの１つの内部で最も高い強度値を有する、項目９～１１のいずれか一項に記載のニューラルネットワーク実装の方法。
１４．損失関数が、平均２乗誤差であり、誤差が、出力及びグラウンドトゥルースデータにおける対応するユニットの正規化された強度値間でユニットベースで最小化される、項目９～１３のいずれか一項に記載のニューラルネットワーク実装の方法。
１５．訓練データで、複数の訓練例がそれぞれ、同じタイルの画像セットの配列内の各画像からの異なる画像パッチを画像データとして含み、
異なる画像パッチのうちの少なくともいくつかが互いに重複する、項目９～１４のいずれか一項に記載のニューラルネットワーク実装の方法。
１６．グラウンドトゥルースデータで
検体中心として分類されるユニットは全て、同じ第１の所定のクラススコアを割り当てられ、
非中心として分類されるユニットは全て、同じ第２の所定のクラススコアを割り当てられる、項目９～１５のいずれか一項に記載のニューラルネットワーク実装の方法。
１７．損失関数が、カスタム重み付けバイナリクロスエントロピー損失であり、誤差が、出力及びグラウンドトゥルースデータにおける対応するユニットの予測スコアとクラススコアとの間でユニットベースで最小化される、項目９～１６のいずれか一項に記載のニューラルネットワーク実装の方法。
１８．グラウンドトゥルースデータで、背景として分類されるユニットが全て、同じ第１の所定のクラススコアを割り当てられ、検体中心として分類されるユニットが全て、同じ第２の所定のクラススコアを割り当てられ、
検体内部として分類されるユニットが全て、同じ第３の所定のクラススコアを割り当てられる、項目９～１７のいずれか一項に記載のニューラルネットワーク実装の方法。
１９．ユニットの出力値を閾値化することと、周囲の背景を示す背景ユニットとして、ユニットの第１のサブセットを分類することと、
ユニットの出力値内にピークを配置することと、検体の中心を含む中心ユニットとして、ユニットの第２のサブセットを分類することと、
ユニットの出力値にセグメント化器を適用することと、背景ユニットによって分離され、かつ中心ユニットで中心にされる、連続するユニットの非重複領域として、検体の形状を決定することと、を更に含み、セグメント化器が、中心ユニットから始まり、各中心ユニットに対して、中心が中心ユニット内に含まれる同じ検体を示す連続的に連続するユニットの群を決定する、項目１～１８のいずれか一項に記載のニューラルネットワーク実装の方法。
２０．非重複領域が、不規則な輪郭を有し、ユニットが、複数のユニットであり、
所与の検体の形状を識別する、連続するユニットの対応する非重複領域に基づいて、所与の検体の検体強度に寄与するユニットを識別すること、
現在の配列決定サイクルで１つ又はそれ以上の画像チャネルに対して生成される１つ又はそれ以上の光学ピクセル解像度画像内に識別されたユニットを配置すること、
画像の各々で、識別されたユニットの強度を補間すること、補間強度を組み合わせること、及び組み合わされた補間強度を正規化して、画像の各々で所与の検体に対する画像ごとの検体強度を生成すること、並びに
画像の各々に対して画像ごとの検体強度を組み合わせて、現在の配列決定サイクルで所与の検体の検体強度を決定することによって、所与の検体の検体強度を決定することを更に含む、項目１～１９のいずれか一項に記載のニューラルネットワーク実装の方法。
２１．非重複領域が、不規則な輪郭を有し、ユニットが、複数のユニットであり、
所与の検体の形状を識別する、連続するユニットの対応する非重複領域に基づいて、所与の検体の検体強度に寄与するユニットを識別すること、
現在の配列決定サイクルで１つ又はそれ以上の画像チャネルに対して生成される、対応する光学ピクセル解像度画像からアップサンプリングされる１つ又はそれ以上のユニット解像度画像内に識別されたユニットを配置すること、
アップサンプリングされた画像の各々で、識別されたユニットの強度を組み合わせること、及び組み合わされた強度を正規化して、アップサンプリングされた画像の各々で所与の検体に対する画像ごとの検体強度を生成すること、並びに
アップサンプリングされた画像の各々に対して画像ごとの検体強度を組み合わせて、現在の配列決定サイクルで所与の検体の検体強度を決定することによって、所与の検体の検体強度を決定することを更に含む、項目１～２０のいずれか一項に記載のニューラルネットワーク実装の方法。
２２．正規化が、正規化係数に基づいており、
正規化係数が、識別されたユニットの数である、項目１～２１のいずれか一項に記載のニューラルネットワーク実装の方法。
２３．現在の配列決定サイクルにおける検体強度に基づいて、所与の検体をベースコールすることを更に含む、項目１～２２のいずれか一項に記載のニューラルネットワーク実装の方法。
２４．フローセル上の検体に関するメタデータを決定する、ニューラルネットワーク実装の方法であって、
検体の強度放射を示す画像データにアクセスすることと、
ニューラルネットワークの１つ又はそれ以上の層を介して画像データを処理することと、画像データの代替表現を生成することと、
出力層を介して代替表現を処理することと、検体の形状及びサイズ並びに／又は検体の中心のうちの少なくとも１つを識別する出力を生成することと、を含む、ニューラルネットワーク実装の方法。
２５．画像データが、検体の周囲の背景の強度放射を更に示し、
検体間の周囲の背景及び境界を含む、フローセル上の検体の空間分布を識別する出力を更に含む、項目２４に記載のニューラルネットワーク実装の方法。
２６．ニューラルネットワークを介して画像データを処理し、画像データの代替表現を生成することであって、画像データが、検体の強度放射を示す、生成することと、
出力層を介して代替表現を処理することと、検体の空間分布、検体の形状、検体の中心、及び／又は検体間の境界のうちの少なくとも１つを含む、検体に関するメタデータを識別する出力を生成することと、を含む、コンピュータ実装の方法。
２７．１つ又はそれ以上のクラスターに基づいて生成される画像データからクラスターメタデータを決定する、ニューラルネットワーク実装の方法であって、
画像の配列から導出される入力画像データを受信することであって、画像の配列内の各画像が、画像化領域を表し、配列決定動作の複数の配列決定サイクルのうちのそれぞれの１つで１つ又はそれ以上のクラスター及びそれらの周囲の背景の強度放射を示し、
入力画像データが、画像の配列内の各画像から抽出される画像パッチを含む、受信することと、
ニューラルネットワークを介して入力画像データを処理して、入力画像データの代替表現を生成することであって、ニューラルネットワークが、クラスター背景、クラスター中心、及びクラスター形状を決定することを含む、クラスターメタデータ決定タスクに対して訓練される、生成することと、
出力層を介して代替表現を処理して、画像化領域のそれぞれの部分の特性を示す出力を生成することと、
出力の出力値を閾値化することと、周囲の背景を示す背景部分として画像化領域のそれぞれの部分の第１のサブセットを分類することと、
出力の出力値内にピークを配置することと、クラスターの中心を含む中心部分として画像化領域のそれぞれの部分の第２のサブセットを分類することと、
出力の出力値にセグメント化器を適用することと、背景部分によって分離され、中心部分で中心にされる画像化領域の連続する部分の非重複領域として、クラスターの形状を決定することと、を含む、ニューラルネットワーク実装の方法。
２８．１つ又はそれ以上のクラスターに基づいて生成される画像データから、クラスター背景、クラスター中心、及びクラスター形状を含むクラスターメタデータを決定する、ニューラルネットワーク実装の方法であって、
画像の配列から導出される入力画像データを受信することであって、画像の配列内の各画像が、画像化領域を表し、配列決定動作の複数の配列決定サイクルのうちのそれぞれの１つで１つ又はそれ以上のクラスター及びそれらの周囲の背景の強度放射を示し、
入力画像データが、画像の配列内の各画像から抽出される画像パッチを含む、受信することと、
ニューラルネットワークを介して入力画像データを処理して、入力画像データの代替表現を生成することであって、ニューラルネットワークが、クラスター背景、クラスター中心、及びクラスター形状を決定することを含む、クラスターメタデータ決定タスクに対して訓練される、生成することと、
出力層を介して代替表現を処理して、画像化領域のそれぞれの部分の特性を示す出力を生成することと、
出力の出力値を閾値化することと、周囲の背景を示す背景部分として画像化領域のそれぞれの部分の第１のサブセットを分類することと、
出力の出力値内にピークを配置することと、クラスターの中心を含む中心部分として画像化領域のそれぞれの部分の第２のサブセットを分類することと、
出力の出力値にセグメント化器を適用することと、画像化領域の連続する部分の非重複領域として、クラスターの形状を決定することと、を含む、ニューラルネットワーク実装の方法。

１０２配列決定機器
１０４光学系
１０６撮像装置
１０８配列決定画像
１１０サブピクセルアドレス指定器
１１２配列決定画像
１１４ベースコーラー
１１６サブピクセルごとのベースコール配列
１１８検索器
１２０クラスターマップデータストア
１２２クラスターメタデータ生成器
１２４クラスターメタデータデータストア

Claims

テンプレート生成及びベースコールを含む、エンドツーエンド配列決定のコンピュータ実装の方法であって、
光学ピクセル解像度でピクセルを含む第１の画像データ及び第２の画像データにアクセスすることであって、
前記第１の画像データが、配列決定動作の配列決定サイクルのうちの初期の１つで、配列決定システムによって捕捉される、クラスター及びクラスターの周囲の背景の画像を含み、
前記第２の画像データが、前記配列決定動作の前記配列決定サイクルで、前記配列決定システムによって捕捉される、前記クラスター及びクラスターの周囲の背景の画像を含む、アクセスすることと、
ニューラルネットワークベースのテンプレート生成器を介して前記第１の画像データを処理し、クラスターメタデータを識別するクラスターマップを生成することであって、
前記クラスターメタデータが、クラスター中心、クラスター形状、クラスターサイズ、クラスター背景、及びクラスター境界のうちの少なくとも１つを含み、
前記ニューラルネットワークベースのテンプレート生成器が、前記クラスターメタデータへの前記クラスターの前記画像のマッピングのタスクで訓練される、生成することと、
アップサンプリングされたサブピクセル解像度でテンプレート画像内の前記クラスターメタデータを符号化することであって、
前記テンプレート画像のサブピクセル及び前記クラスターの前記画像の前記ピクセルが、同じ画像領域を表す、符号化することと、
前記テンプレート画像に基づいて、前記第２の画像データの前記ピクセルの強度値を修正し、前記クラスターメタデータを考慮する強度分布を有する前記第２の画像データの強度修正バージョンを生成することと、
ニューラルネットワークベースのベースコーラーを介して前記第２の画像データの前記強度修正バージョンを処理し、前記配列決定動作の１つ又はそれ以上の配列決定サイクルで、前記クラスターのうちの１つ又はそれ以上に対するベースコールを生成することであって、前記ニューラルネットワークベースのベースコーラーが、前記ベースコールへの前記クラスターの前記画像のマッピングのタスクで訓練される、生成することと、を含む、コンピュータ実装の方法。
前記第２の画像データを前記テンプレート画像に補うことと、
前記ニューラルネットワークベースのベースコーラーを介して、前記テンプレート画像に補われる前記第２の画像データを処理し、前記配列決定動作の１つ又はそれ以上の配列決定サイクルで、前記クラスターのうちの１つ又はそれ以上に対するベースコールを生成することと、を更に含む、請求項１に記載のコンピュータ実装の方法。
前記テンプレート画像内の各サブピクセルが、背景サブピクセル、クラスター中心サブピクセル、又はクラスター内部サブピクセルのいずれかとして識別される、請求項１に記載のコンピュータ実装の方法。
前記第２の画像データの前記ピクセルの強度値を修正することが、前記第２の画像データの前記画像内のピクセルに対応する前記テンプレート画像内のどれくらい多くのサブピクセルが、前記クラスターのうちの１つ又はそれ以上の一部を含むかに基づいて、前記第２の画像データ内の１つ又はそれ以上のピクセルに対する領域重み付け係数を計算することと、前記領域重み付け係数に基づいて、前記ピクセルの強度を修正することと、を含み、
前記第２の画像データの前記ピクセルの強度値を修正することが、クラスター及びクラスターの周囲の背景の前記画像を前記アップサンプリングされたサブピクセル解像度にアップサンプリングして、アップサンプリングされた画像を生成することと、前記テンプレート画像内の背景サブピクセルに対応する前記アップサンプリングされた画像内のサブピクセルに背景強度を割り当てることと、前記テンプレート画像内のクラスター中心サブピクセル及びクラスター内部サブピクセルに対応する前記アップサンプリングされた画像内のサブピクセルにクラスター強度を割り当てることと、を含み、前記背景強度が、ゼロ値を有し、
前記第２の画像データの前記ピクセルの強度値を修正することが、クラスター及びクラスターの周囲の背景の前記画像を前記アップサンプリングされたサブピクセル解像度にアップサンプリングして、アップサンプリングされた画像を生成することと、前記テンプレート画像内の前記クラスター中心サブピクセル及び前記クラスター内部サブピクセルに対応する前記アップサンプリングされた画像内の前記ピクセルの構成サブピクセルのみの間で、光学ピクセル解像度内のピクセルの全体の強度を分散させることと、を含む、請求項１～３のいずれか一項に記載のコンピュータ実装の方法。
前記クラスター強度が、前記光学ピクセル解像度で前記ピクセルの強度を補間することによって決定される、請求項４に記載のコンピュータ実装の方法。
システムであって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサによって実行されたときに、
光学ピクセル解像度でピクセルを含む第１の画像データ及び第２の画像データにアクセスすることであって、
前記第１の画像データが、配列決定動作の配列決定サイクルのうちの初期の１つで、配列決定システムによって捕捉される、クラスター及びクラスターの周囲の背景の画像を含み、
前記第２の画像データが、前記配列決定動作の前記配列決定サイクルで、前記配列決定システムによって捕捉される、前記クラスター及びクラスターの周囲の背景の画像を含む、アクセスすることと、
ニューラルネットワークベースのテンプレート生成器を介して前記第１の画像データを処理し、クラスターメタデータを識別するクラスターマップを生成することであって、
前記クラスターメタデータが、クラスター中心、クラスター形状、クラスターサイズ、クラスター背景、及びクラスター境界のうちの少なくとも１つを含み、
前記ニューラルネットワークベースのテンプレート生成器が、前記クラスターメタデータへの前記クラスターの前記画像のマッピングのタスクで訓練される、生成することと、
アップサンプリングされたサブピクセル解像度でテンプレート画像内の前記クラスターメタデータを符号化することであって、
前記テンプレート画像のサブピクセル及び前記クラスターの前記画像の前記ピクセルが、同じ画像領域を表す、符号化することと、
前記テンプレート画像に基づいて、前記第２の画像データの前記ピクセルの強度値を修正し、前記クラスターメタデータを考慮する強度分布を有する前記第２の画像データの強度修正バージョンを生成することと、
ニューラルネットワークベースのベースコーラーを介して前記第２の画像データの前記強度修正バージョンを処理し、前記配列決定動作の１つ又はそれ以上の配列決定サイクルで、前記クラスターのうちの１つ又はそれ以上に対するベースコールを生成することであって、前記ニューラルネットワークベースのベースコーラーが、前記ベースコールへの前記クラスターの前記画像のマッピングのタスクで訓練される、生成することと、
を前記システムに実行させる命令を含む非一時的なコンピュータ可読記憶媒体と、
を備える、システム。
前記第２の画像データを前記テンプレート画像に補うことと、
前記ニューラルネットワークベースのベースコーラーを介して、前記テンプレート画像に補われる前記第２の画像データを処理し、前記配列決定動作の１つ又はそれ以上の配列決定サイクルで、前記クラスターのうちの１つ又はそれ以上に対するベースコールを生成することと、を更に含む、請求項６に記載のシステム。
前記テンプレート画像内の各サブピクセルが、背景サブピクセル、クラスター中心サブピクセル、又はクラスター内部サブピクセルのいずれかとして識別される、請求項６に記載のシステム。
前記第２の画像データの前記ピクセルの強度値を修正することが、
前記第２の画像データの前記画像内のピクセルに対応する前記テンプレート画像内のどれくらい多くのサブピクセルが、前記クラスターのうちの１つ又はそれ以上の一部を含むかに基づいて、前記第２の画像データ内の１つ又はそれ以上のピクセルに対する領域重み付け係数を計算することと、
前記領域重み付け係数に基づいて、前記ピクセルの強度を修正することと、を含み、
前記第２の画像データの前記ピクセルの強度値を修正することが、クラスター及びクラスターの周囲の背景の前記画像を前記アップサンプリングされたサブピクセル解像度にアップサンプリングして、アップサンプリングされた画像を生成することと、前記テンプレート画像内の背景サブピクセルに対応する前記アップサンプリングされた画像内のサブピクセルに背景強度を割り当てることと、前記テンプレート画像内のクラスター中心サブピクセル及びクラスター内部サブピクセルに対応する前記アップサンプリングされた画像内のサブピクセルにクラスター強度を割り当てることと、を含み、前記背景強度が、ゼロ値を有し、
前記第２の画像データの前記ピクセルの強度値を修正することが、クラスター及びクラスターの周囲の背景の前記画像を前記アップサンプリングされたサブピクセル解像度にアップサンプリングして、アップサンプリングされた画像を生成することと、前記テンプレート画像内の前記クラスター中心サブピクセル及び前記クラスター内部サブピクセルに対応する前記アップサンプリングされた画像内の前記ピクセルの構成サブピクセルのみの間で、光学ピクセル解像度内のピクセルの全体の強度を分散させることと、
を含む、請求項６～８のいずれか一項に記載のシステム。
前記クラスター強度が、前記光学ピクセル解像度で前記ピクセルの強度を補間することによって決定される、請求項９に記載のシステム。
前記少なくとも１つのプロセッサによって実行されたときに、
アクセスすることであって、
前記１つ又はそれ以上の配列決定サイクルのうちの現在の１つで生成される現在の画像セット、
前記１つ又はそれ以上の配列決定サイクルのうちの前記現在の１つに先行する前記１つ又はそれ以上の配列決定サイクルでそれぞれ生成される１つ又はそれ以上の先行する画像セット、及び
前記１つ又はそれ以上の配列決定サイクルのうちの前記現在の１つに続く前記１つ又はそれ以上の配列決定サイクルでそれぞれ生成される１つ又はそれ以上の後続の画像セット、
の各々で、前記光学ピクセル解像度で１つ又はそれ以上の画像にアクセスすることと、
第２のニューラルネットワークの出力層を介して、前記１つ又はそれ以上の画像の修正バージョンから画像パッチの畳み込み表現を処理して、画像パッチの中心ピクセルに対して、Ａ、Ｃ、Ｔ、及びＧである、前記１つ又は複数の配列決定サイクルのうちの前記現在の１つで少なくとも１つの特定のクラスターに組み込まれる塩基の尤度を生成することと、
前記尤度に基づいて、前記塩基をＡ、Ｃ、Ｔ、又はＧと分類することと、
によって、前記配列決定動作の前記１つ又はそれ以上の配列決定サイクルで、前記クラスターのうちの１つ又はそれ以上に対する前記ベースコールを生成すること、
を前記システムに実行させる命令を更に含む、請求項６に記載のシステム。
前記少なくとも１つのプロセッサによって実行されたときに、
それぞれの前記画像のピクセルに対し、それぞれのピクセルに対する前記テンプレート画像内の領域重み付け係数に基づいてピクセル強度値を修正することと、
修正ピクセル強度値を有するピクセルを有する前記画像の各々の修正バージョンを生成することと、
を前記システムに実行させる命令を更に含む、請求項１１に記載のシステム。
前記少なくとも１つのプロセッサによって実行されたときに、
前記少なくとも１つの特定のクラスターに対して、各画像パッチがピクセルのアレイを有し、かつ、前記テンプレート画像で識別される特定のクラスターの中心ピクセルを含むように、各修正バージョンから画像パッチを抽出すること
を前記システムに実行させる命令をさらに含む、請求項１２に記載のシステム。
前記少なくとも１つのプロセッサによって実行されたときに、
前記画像の修正バージョンから抽出される前記画像パッチを前記第2のニューラルネットワークの畳み込みニューラルネットワークを介して畳み込んで、前記画像パッチの畳み込み表現を生成することと
を前記システムに実行させる命令をさらに含む、請求項１３に記載のシステム。
前記少なくとも１つのプロセッサによって実行されたときに、
前記修正ピクセル強度値を生成する前に、サイクル固有及び撮像チャネル固有の変換を使用して、前記光学ピクセル解像度で捕捉される前記画像の各々を前記テンプレート画像と位置合わせすること
を前記システムに実行させる命令をさらに含む、請求項１２に記載のシステム。