8.12 হোল্ডআউট সেট, ব্লাইন্ডিং, নাল পরীক্ষা ও ক্রস-পাইপলাইন পুনরুৎপাদন: EFT-কে কীভাবে “শুধু গল্প বলতে পারা তত্ত্ব” না বানানো যায় | শক্তি তন্তু তত্ত্ব

এক. এই অংশের সিদ্ধান্ত

এই অংশ আর কোনো নতুন অবজেক্ট-স্তরের বিচাররেখা যোগ করছে না; এটি যোগ করছে আরও ঠান্ডা, আরও কঠিন এবং কম মনোরম এক সেট বিচার-নিয়ম। EFT যদি এখনও 8.4 থেকে 8.11-এর লাল সরণ অবশিষ্টাংশ, ভাগাভাগি ভিত্তি-মানচিত্রের বন্ধচক্র, গঠনগত স্তরায়ন, নিকট-সীমান্তের সূক্ষ্ম রেখা, সীমানা-যন্ত্রের দোরগোড়া এবং কোয়ান্টাম রক্ষারেখাকে “সমর্থন” হিসেবে লিখতে চায়, তবে আগে তাকে চারটি একীভূত রক্ষাদরজা মানতে হবে: হোল্ডআউট সেটে ফল দেখে মানদণ্ড ফিরিয়ে-সামঞ্জস্য করা চলবে না; ব্লাইন্ডিংয়ে উত্তর চুরি করে দেখা চলবে না; নাল পরীক্ষা মূল ফলাফলের মতোই তাৎপর্যপূর্ণ হয়ে উঠতে পারবে না; আর ক্রস-পাইপলাইন পুনরুৎপাদনয় সত্যকে একক পথের একচেটিয়া দখলে দেওয়া যাবে না। এই চার পদ্ধতিগত দরজা ছাড়া, খণ্ড ৮ যতই চমৎকার হোক, সেটি এখনও উচ্চ ব্যাখ্যাশক্তির এক আখ্যান হতে পারে; এই চার পদ্ধতিগত দরজা পেরোলেই তা প্রথমবার বিচার গ্রহণে রাজি এক প্রার্থী তত্ত্বের মতো দেখাতে শুরু করে।

দুই. অবজেক্ট-স্তরের পরে পদ্ধতিগত প্রধান ফটকও বসাতে হবে

আগের 8.4 থেকে 8.11 পর্যন্ত অংশগুলো EFT যেখানে সবচেয়ে জিততে চায় এবং যেখানে সবচেয়ে সহজে আঘাত পেতে পারে—সেই সব অবজেক্ট-স্তরের যুদ্ধক্ষেত্র টেবিলে তুলে দিয়েছে: প্রোব-পেরোনো বিচ্ছুরণহীন অভিন্ন পদ, TPR প্রধান অক্ষ ও PER অবশিষ্টাংশ, ঘূর্ণন—লেন্সিং—সংযুক্তির ভাগাভাগি ভিত্তি-মানচিত্র, গঠন-উৎপত্তিবিদ্যা, নেগেটিভ ও পরিবেশ-স্তরচিত্রণ, নিকট-সীমান্ত ও সীমানার স্বতন্ত্র স্বাক্ষর, সীমানা-যন্ত্র ও শক্তিশালী-ক্ষেত্র শূন্যস্থান, এবং কোয়ান্টাম প্রসারণ ও যোগাযোগ-অসম্ভবতার রক্ষারেখা। এগুলোতে শুধু “কী মাপা হবে”, “কোন ফলাফল সমর্থন”, “কোন ফলাফল কাঠামোগত ক্ষতি”—এতটুকু লিখলেই যথেষ্ট নয়। কারণ EFT-এর ভাষা নিজেই ব্যাখ্যাশক্তিতে খুব শক্তিশালী; আর ব্যাখ্যাশক্তি প্রবল তত্ত্বের সবচেয়ে বড় ভয় উদাহরণের অভাব নয়, বরং উদাহরণ বেশি হয়ে গেলে যে কেউ পরে বসে সেগুলোকে মিলিয়ে গল্প বানিয়ে ফেলতে পারে।

আগের লেখায় এখনও একটি প্রধান ফটক বাকি ছিল: যে ফলাফল পয়েন্ট পেতে চায়, আগে জিজ্ঞেস করতে হবে—সেগুলো কি একই পদ্ধতিগত রক্ষাদরজার নিচে জিতেছে? এই প্রধান ফটক আগে স্পষ্ট করে না লিখলে, পরের মোট হিসাবই “সরাসরি সমর্থন”, “সংকোচন” ও “কাঠামোগত ক্ষতি” আলাদা করার অধিকার পাবে না; না হলে সেটি খুব সহজে ফলাফলের পরে পছন্দের উদাহরণ বেছে নেওয়া একটি কৃতিত্বের খাতায় নেমে যাবে।

তিন. এই অংশ নতুন পরীক্ষার পরিবার যোগ করে না; শুধু বিচার-শৃঙ্খলা যোগ করে

এই অংশকে পরিসংখ্যানের পাঠ্যবই বানানো উচিত নয়। তাতে খণ্ড ৮ হঠাৎ উষ্ণতা হারাবে, এবং তার আসল কাজ থেকেও সরে যাবে। 8.12 পাঠককে training set, test set, significance, Bayes factor বা model averaging কী—তা শেখাতে আসেনি; এটি শুধু আরও নির্মম একটি কাজ করে: কীভাবে EFT নিজেকেই ঠকানো থেকে বাঁচবে।

তাই 8.12-এর চারটি নিয়ম পরস্পর বিচ্ছিন্ন প্রযুক্তিগত পদক্ষেপ নয়; তারা একই প্রধান শৃঙ্খলাকে ঘিরে কাজ করে: ফল দেখার আগে মানদণ্ড freeze করতে হবে; ফল দেখার পরে শুধু হিসাব লেখা যাবে, মুখ বদলানো যাবে না। নমুনা কীভাবে বাছা হবে, কোন বস্তু প্রধান নমুনায় ঢুকবে, কোন frequency band বা redshift layer শুধু হোল্ডআউট থাকবে, কোন পরিবেশ-সূচক প্রধান বিশ্লেষণে যাবে, কোন বাদ দেওয়ার ধারা কার্যকর হবে, কোন scoring rule-কে hit ধরা হবে—সব প্রধান ফল দেখার আগে লিখে দিতে হবে। এই ধাপ না থাকলে হোল্ডআউট সেট চুপিচুপি খেয়ে ফেলা হবে, ব্লাইন্ডিং অভিনয়ে পরিণত হবে, নাল পরীক্ষাের মধ্যে সবচেয়ে দুর্বলটাকেই বেছে নেওয়া হবে, আর ক্রস-পাইপলাইনও হয়ে যাবে “একই পক্ষপাত দুইবার চালানো”।

সমান জরুরি আরেকটি কাজ হলো ভূমিকা আলাদা করা। খণ্ড ৮-এর অনেক পরীক্ষা ও পর্যবেক্ষণ আসলে স্বভাবতই একটি সাধারণ কাঠামো নিতে পারে: feed-forward group শুধু পরিবেশ, জ্যামিতি এবং আগে থেকে freeze করা proxy দেখে prediction card প্রকাশ করবে; measurement group prediction card-এর বিষয়বস্তু না জেনে readout তুলবে; arbitration group একেবারে শেষে pre-registered score sheet ধরে prediction ও result মিলিয়ে দেবে। প্রতিটি রেখাকে যান্ত্রিকভাবে এই তিনটি দল নকল করতে হবে এমন নয়; কিন্তু এই কাঠামো এই অংশের সবচেয়ে গুরুত্বপূর্ণ কথাটি মনে করায়: prediction আসতে হবে সুন্দর ছবির আগে; rule আসতে হবে সুন্দর গল্পের আগে।

চার. প্রথম রক্ষাদরজা: হোল্ডআউট সেট—ফল দেখে মানদণ্ড ফেরত-সামঞ্জস্য করা চলবে না

8.12-এ হোল্ডআউট সেট কোনো নরম “generalization check” নয়; এটি বিশেষভাবে back-tuning ঠেকানোর ছুরি। কারণ EFT-এর সবচেয়ে সহজ ভুল একেবারে সংকেত দেখতে না পাওয়া নয়; বরং সামান্য দিক দেখার পরে বারবার sample, environment bin, threshold, background convention, fitting family বদলাতে থাকা—যতক্ষণ না সেই সামান্য দিক একটি সুন্দর ছবিতে বড় হয়। হোল্ডআউট সেটের অর্থই হলো এই ফেরার পথ বন্ধ করা: training অংশে মানদণ্ড ঠিক করা যায়, কিন্তু হোল্ডআউট অংশ ফিরিয়ে এনে আগে বলা কথা মেরামত করা যাবে না।

মহাবিশ্ববিদ্যা অংশে হোল্ডআউট সেট হতে পারে একটি redshift window আলাদা রাখা, একটি source class আলাদা রাখা, একটি sky region আলাদা রাখা, একটি survey version আলাদা রাখা, এমনকি পুরো একটি independent distance chain আলাদা রাখা; চরম মহাবিশ্ব অংশে এটি হতে পারে কয়েকটি object, কয়েকটি epoch, কয়েকটি annular sector, কয়েকটি merger cluster বা কয়েকটি environment grade আলাদা রাখা; পরীক্ষাগার ও কোয়ান্টাম অংশে এটি হতে পারে একটি parameter window, একটি material class, একটি device, অথবা threshold-এর কাছে কিন্তু প্রকাশ্য label-হীন scan bin-এর একটি group আলাদা রাখা। রূপ আলাদা হতে পারে, কিন্তু শৃঙ্খলা একটাই: হোল্ডআউট শুধু যাচাই করবে, উল্টো দিক থেকে parameter tune করবে না।

EFT-কে সত্যিকারের পয়েন্ট দেয় এমন হোল্ডআউট ফলাফল training set-এ একবার দেখা trend হোল্ডআউটে আবার “কিছুটা মিলে গেল”—এতটুকু নয়; বরং direction না উল্টানো, ranking না ভাঙা, এবং convention না বদলানো। যেমন 8.4-এর common term যদি সত্যিই বিচ্ছুরণহীন অভিন্ন ভিত্তিরঙ হয়, তবে হোল্ডআউট frequency band, event window বা station-এ গিয়েও অন্তত একই দিক ও একই জানালা ধরে রাখা উচিত; 8.5-এর TPR প্রধান অক্ষ যদি সত্যিই ভিত্তিরঙ বহন করতে পারে, তবে হোল্ডআউট source class বা sky region-এ গেলেই universal α-এর মুখ বদলে যাওয়া উচিত নয়; 8.6-এর ভাগাভাগি ভিত্তি-মানচিত্র যদি সত্যিই case collage না হয়, তবে freeze করা ভিত্তি-মানচিত্র হোল্ডআউট object-এ লাগাতেই নতুন patch-set দাবি করার কথা নয়। বিপরীতে, trend হোল্ডআউটে ঢুকতেই যদি দিক উল্টে যায়, ক্রম ভেঙে যায় বা sample আবার বেছে নিতে হয়, তবে সেটি আর প্রধান conclusion নয়—শুধু hint স্তরে নেমে যাবে।

আরেকটি কথা আরও কঠিন করে লিখতে হবে: হোল্ডআউট সেটে শুধু “সবচেয়ে সহজে পাস করা যায়” এমন অংশ রেখে দিলে চলবে না। যদি তত্ত্ব সবচেয়ে পরিষ্কার, সবচেয়ে পরিচিত, সবচেয়ে সুন্দর sample শেষের জন্য রেখে দেয়, আর high-risk sky region, কঠিন calibration band, complex object, threshold-কাছের parameter window আগেই training অংশে বারবার try-and-error করে ফেলে, তবে তথাকথিত হোল্ডআউট আগেই দূষিত। সত্যিকারের হোল্ডআউটের মধ্যে ইচ্ছাকৃতভাবে সেই এককগুলোও থাকতে হবে যেগুলো তত্ত্বকে সবচেয়ে বেশি মুখে চপেটাঘাত করতে পারে; কারণ খণ্ড ৮-এর লক্ষ্য জয়ের সম্ভাবনা বেশি দেখানো নয়, বরং জয়-পরাজয়ের শর্ত কঠিন করে লেখা।

পাঁচ. দ্বিতীয় রক্ষাদরজা: ব্লাইন্ডিং—prediction-কে সুন্দর ছবির আগে কথা বলতে দিতে হবে

ব্লাইন্ডিংয়ের মূল্য আনুষ্ঠানিকভাবে “আরও বৈজ্ঞানিক” দেখানোতে নয়; এর মূল্য হলো এটি তত্ত্বকে সত্যিকারের ঝুঁকিপূর্ণ অংশ আগে বলে দিতে বাধ্য করে। EFT-এর অসংখ্য জায়গায় ফল দেখে পরে একটি ব্যাখ্যামূলক বাক্য যোগ করা সহজ: common term environment enhancement-এর মতো দেখাচ্ছে, তাই বলা হলো environment enhancement তো আগে থেকেই প্রত্যাশিত ছিল; কোনো bias node environment-এ বেশি শক্তিশালী মনে হচ্ছে, তাই বলা হলো skeleton তো এমনই হওয়ার কথা; কোনো platform threshold পেরোনোর পরে plateau দেখাচ্ছে, তাই বলা হলো এটিই তো threshold discreteness। এসব বাক্য যদি ফল দেখার আগে লেখা না থাকে, তবে সেগুলো prediction নয়; শুধু ফিরে তাকানোর rhetoric।

অতএব 8.12 যে ব্লাইন্ডিং চায়, সেটি কেবল file name ঢেকে দেওয়া বা sample label এলোমেলো করা নয়। EFT-এর জন্য আরও জরুরি হলো feed-forward—measurement—arbitration-এর structured blinding। Feed-forward পর্যায়ে তত্ত্ব কেবল freeze করা environment index, geometry information, material parameter বা historical ledger দেখে prediction card লিখতে পারে—“কোন bin বেশি শক্তিশালী, কোন bin দুর্বল, expected direction একই না বিপরীত, বিচ্ছুরণহীনতা ধরে থাকবে কি না, একই window-তে image উঠবে কি না”; measurement পর্যায়ে signal তোলার দায়িত্বে থাকা লোক prediction card-এ কী লেখা আছে জানবে না; arbitration পর্যায়ে তৃতীয় পক্ষ freeze করা rule ধরে hit, wrong-direction এবং null hit গুনবে। শুধু এভাবেই EFT সত্যিই নিজের গলায় বাজি রাখে।

ব্লাইন্ডিং ভিন্ন ভিন্ন অংশে দেখতে খুব আলাদা হতে পারে। 8.4 ও 8.5-এ environment layering এবং source-class label blind করা যায়; 8.6 থেকে 8.9-এ skeleton direction field, merger phase, cold-spot hierarchy, near-boundary orientation template বা object class blind করা যায়; 8.10 ও 8.11-এ material batch, threshold bin, drive order, link-cleanliness grade, এমনকি কোনো অংশ holdout parameter window-এর অন্তর্গত কি না—এসব blind করা বেশি উপযুক্ত। মূল কথা form এক হওয়া নয়; মূল শৃঙ্খলা এক হওয়া: আগে বলো কী ঘটবে, তারপর দেখো তা ঘটেছে কি না; আগে কী দেখা গেল তা দেখে পরে বলা নয়—“আমরা তো আগেই জানতাম এমন হবে।”

ব্লাইন্ডিংয়ের আরেকটি সহজে উপেক্ষিত মূল্য আছে: এটি EFT-কে feed-forward predictability এবং after-the-fact explainability আলাদা করতে বাধ্য করে। কাগজে দুটিই “মিলে গেছে” বলে দেখাতে পারে, কিন্তু তাদের বৈজ্ঞানিক মর্যাদা একেবারেই আলাদা। প্রথমটি result আসার আগে ঝুঁকি নিয়ে বাজি ধরা; দ্বিতীয়টি result আসার পরে সেটিকে ধরে রাখার syntax খোঁজা। 8.12 ঠিক প্রথমটিকেই রক্ষা করতে চায়; কারণ কেবল প্রথমটিই সত্যিকার অর্থে তত্ত্বের odds বদলাতে পারে।

ছয়. তৃতীয় রক্ষাদরজা: নাল পরীক্ষা—artifact-কে নতুন পদার্থবিদ্যা ভেবে ভুল করা যাবে না

EFT-এর বহু বিচাররেখা “দুর্বল কিন্তু শৃঙ্খলাবদ্ধ” structure পড়তে চায়: বিচ্ছুরণহীন common term, environment monotonicity, co-located scaling, post-threshold plateau, feed-forward hit, prober-crossing ভাগাভাগি ভিত্তি-মানচিত্র। ঠিক কারণ এগুলো প্রায়ই সবকিছুকে চাপা দিয়ে দেওয়া বিশাল total quantity নয়, বরং ranking, sign, same-window, residual এবং layering-এর মতো; তাই এগুলো systematics, selection function, calibration drift, template bias এবং analysis-chain habit দ্বারা নীরবে নকল হওয়ার ঝুঁকিও বেশি। নাল পরীক্ষাের কাজ হলো এইসব artifact-এর জন্য আলাদা আদালত বসানো।

সত্যিকারের শক্ত নাল পরীক্ষাে অন্তত দুই ধরনের পরীক্ষা থাকা দরকার।

structure-breaking null test: label permutation, time reversal, frequency-band permutation, station permutation, sky rotation, skeleton direction randomization, object identity shuffling, threshold order reshuffling। এগুলো জিজ্ঞেস করে: EFT যেসব structural relation-এর ওপর নির্ভর করে সেগুলো ভেঙে দিলে তথাকথিত প্রধান result কি random স্তরে ফিরে যায়?
link-contamination null test: bandpass perturbation, time-scale offset, template injection, random mask, false control window, stand-in material, pseudo-threshold scan, reverse polarity, off-axis geometry। এগুলো জিজ্ঞেস করে: কোনো পরিচিত non-physical factor কি workflow-এর মধ্যে প্রধান result-এর সমতুল্য significance তৈরি করতে পারে?

নাল পরীক্ষা কোনো পার্শ্বচরিত্র নয়, এবং appendix-এ আনুষ্ঠানিকভাবে ঘুরে যাওয়ার জিনিসও নয়। 8.4-এর ক্ষেত্রে, time reversal, frequency-band permutation এবং dispersion control যদি একইভাবে “zero-lag common term” দেয়, তবে প্রধান result দাঁড়ায় না; 8.6 ও 8.7-এর ক্ষেত্রে, random skeleton rotation বা base map perturbation-এর পরেও তথাকথিত collinearity ও joint base map একইভাবে দাঁড়িয়ে থাকে, তবে result বেশি করে algorithmic bias; 8.9-এর ক্ষেত্রে, near-boundary fine lines imaging convention ও template direction বদলালেই যদি একই রকম significant হয়, তবে brand fingerprint আসলে processing chain খাচ্ছে; 8.10 ও 8.11-এর ক্ষেত্রে, stand-in configuration, false load, empty cavity, disconnected classical ledger বা pseudo-threshold control যদি একইভাবে “new signal” দেয়, তবে তথাকথিত new physics শুধু instrument-এর ভেতরে ঘুরছে। প্রধান result যদি নাল পরীক্ষাের সামনে specificity ধরে রাখতে না পারে, তবে সেটি support-এ উন্নীত হওয়ার যোগ্য নয়।

এর বাইরে নাল পরীক্ষাের সঙ্গে positive control-ও থাকতে হবে। অর্থাৎ workflow-কে শুধু “EFT structure নেই” অবস্থায় ঠিকভাবে fail করতে পারলেই হবে না; “known structure injected” বা “known physics অবশ্যই দেখা উচিত” অবস্থায় ঠিকভাবে succeed করতেও হবে। যদি কোনো pipeline artifact ভাঙতেও না পারে, আবার known signal ফিরিয়ে আনতেও না পারে, তবে তার principal result-এর কোনো scoring eligibility নেই। খণ্ড ৮-এর নাল পরীক্ষা তাই শুধু ভেঙে দেওয়া নয়; “যেখানে succeed করা উচিত সেখানে succeed, যেখানে fail করা উচিত সেখানে fail”—এই জোড়া শর্তকে একসঙ্গে lock করা।

সাত. চতুর্থ রক্ষাদরজা: ক্রস-পাইপলাইন পুনরুৎপাদন—একক পথকে সত্যের একচেটিয়া অধিকার দেওয়া যাবে না

খণ্ড ৮-এর সবচেয়ে বিপজ্জনক ধরনের জয় হলো সেই জয়, যা data-processing route বদলালেই আর দাঁড়ায় না। কারণ EFT যে বহু quantity নিয়ে চিন্তা করে, সেগুলো স্বভাবতই জটিল extraction chain-এর ওপর নির্ভর করে: background subtraction কীভাবে করা হলো, skeleton কীভাবে তোলা হলো, lensing কীভাবে invert করা হলো, ring image কীভাবে reconstruct করা হলো, threshold কীভাবে চিহ্নিত হলো, raw stream কীভাবে time-align হলো, noise ও post-selection কীভাবে ledger-এ ভাগ হলো। এসব ধাপের কোনো একটিও যদি কোনো দলের default habit-এর ওপর অস্বাভাবিকভাবে নির্ভর করে, তবে single pipeline-এর সুন্দর result কখনও নিজে নিজে physics conclusion হয়ে উঠতে পারে না।

তাই 8.12-এ ক্রস-পাইপলাইন পুনরুৎপাদন মানে একই code-এ random seed বদলে দুবার চালানো নয়। এটি সত্যিকারের independence দাবি করে: independent preprocessing chain, independent background model, independent skeleton বা image reconstruction method, independent fitting family, independent calibration route—সম্ভব হলে independent team, independent institution এবং independent hardware version-ও। Astronomy data-র ক্ষেত্রে এর অর্থ হলো ভিন্ন survey product, ভিন্ন imaging বা inversion pipeline, ভিন্ন macro-model ensemble-ও একইমুখী conclusion দিতে পারতে হবে; laboratory data-র ক্ষেত্রে এর অর্থ হলো ভিন্ন device, ভিন্ন control software, ভিন্ন data acquisition এবং post-processing chain result-কে ইচ্ছামতো উল্টে দিতে পারবে না।

এখানে EFT-এর দরকার নেই যে সব pipeline সংখ্যায় হুবহু একই উত্তর দেবে। তার আসল প্রয়োজন আরও সরল, কিন্তু নকল করা আরও কঠিন: প্রধান sign একই, প্রধান ranking একই, প্রধান structure একই। কোনো signal যদি কেবল একটি বিশেষ background subtraction, একটি reconstruction regularization, একটি template basis বা একটি post-selection window-তেই দাঁড়ায়, আর অন্য যুক্তিসংগত pipeline এলে ভেঙে যায়, তবে খণ্ড ৮-এর সবচেয়ে সৎ লেখা হবে না “বিতর্কিত কিন্তু খুব আশাব্যঞ্জক”; বরং “এখনও এটি একটি processing-chain-related hint মাত্র”।

ক্রস-পাইপলাইন পুনরুৎপাদন শেষ পর্যন্ত ledger openness এবং reproducibility-তে নামতে হবে। প্রতিটি দলকে একবারেই সব intermediate file নিঃশর্তভাবে প্রকাশ করতে হবে—এমন নয়; কিন্তু বাইরের reviewer যেন অন্তত key decision point দেখতে পারেন: কোন sample বাদ গেছে, কোন parameter freeze হয়েছে, কোন holdout unit স্পর্শ করা হয়নি, কোন null test fail করেছে, কোন independent pipeline একমত নয়। এই ledger যদি শুধু original team-এর হাতে থাকে, বাইরের world-এর পক্ষে “এটি complex phenomenon” না “এটি complex workflow”—তা আলাদা করা কঠিন।

আট. চার পদ্ধতিগত দরজা কেন parallel ভাবে যুক্ত থাকতে হবে, আলাদা আলাদা আনুষ্ঠানিকতা হিসেবে নয়

শুধু হোল্ডআউট রেখে ব্লাইন্ডিং না করলে trend আগে দেখে তারপর যত্ন করে একটি “reasonable” holdout বেছে নেওয়া যায়; শুধু ব্লাইন্ডিং রেখে নাল পরীক্ষা না করলে উত্তর চুরি না করেও system artifact-কে surprise বলে ভুল করা যায়; শুধু নাল পরীক্ষা রেখে cross-pipeline না করলে একটি analysis route principal result ও null test—দুই জায়গাতেই একই bias বহন করতে পারে; শুধু cross-pipeline রেখে holdout না করলে বহু দল মিলে training set-কে প্রায় oracle-এর মতো overfit করে ফেলতে পারে। চার পদ্ধতিগত দরজা চারটি সাজসজ্জা নয়; তারা একটি chain।

তাই 8.12-কে স্পষ্টভাবে একটি খুব সাধারণ compensation logic প্রত্যাখ্যান করতে হবে: “হোল্ডআউট করা হয়নি, কিন্তু আমরা blind করেছি; নাল পরীক্ষা সাধারণ, কিন্তু cross-pipeline বেশ consistent; independent replication এখনও নেই, কিন্তু training set-এ খুব সুন্দর।” প্রচারে এই scoring হয়তো কাজের, কিন্তু audit-এ এটি নিয়মভঙ্গ। খণ্ড ৮ “overall impression score” জিততে আসেনি; এটি জানতে এসেছে সবচেয়ে অস্বস্তিকর নিয়মের নিচে এখনও দাঁড়াতে পারে কি না। কোনো একটি গুরুত্বপূর্ণ দরজা পাস না করলে অন্য দরজার সুন্দর performance দিয়ে সেটি পুষিয়ে নেওয়া যাবে না।

নয়. এই চার পদ্ধতিগত দরজা কীভাবে 8.4 থেকে 8.11-এ নেমে বসে

8.4 ও 8.5-এ নেমে এলে চার পদ্ধতিগত দরজার মূল কাজ হলো “common term” এবং “TPR/PER ledger split” যেন ফলাফলের পরে সেলাই করে বানানো না হয়। এখানে হোল্ডআউট সেট হিসেবে source class, sky region, frequency band এবং event window আলাদা রাখা ভালো; ব্লাইন্ডিং দাবি করে environment prediction card এবং main quantity—residual split rule আগে freeze করা; নাল পরীক্ষাে dispersion-law stand-in, time reversal, label permutation, site permutation আগে করতে হবে; cross-pipeline replication অন্তত redshift processing chain, time-delay processing chain, independent distance chain এবং lensing modeling chain ঢাকতে হবে। এই রক্ষাদরজাগুলো অসম্পূর্ণ থাকলে 8.4 ও 8.5 খুব সহজে আবার “এই ছবিটাও যেন মেলে, ওই ছবিটাও বলা যায়” স্তরে পিছলে যাবে।

8.6 থেকে 8.9-এ নেমে এলে চার পদ্ধতিগত দরজার কাজ হলো “joint base map, skeleton direction, near-boundary fine lines, boundary brand fingerprint” যেন image hermeneutics-এ নেমে না যায়। এখানে holdout set বেশি করে object, epoch, redshift layer, merger phase এবং line-of-sight unit আলাদা রাখবে; blinding রাখা যায় skeleton direction field, environment grade, orientation template, object class এবং brand prediction card-এ; null test-এ template rotation, random skeleton, random mask, off-axis control, false hot spot / false cold spot, translation ও resampling বিশেষভাবে জরুরি; cross-pipeline replication চাইবে ভিন্ন skeleton algorithm, ভিন্ন mass reconstruction, ভিন্ন imaging scheme এবং ভিন্ন time-delay extraction chain একই দিকের conclusion দিক।

8.10 ও 8.11-এ নেমে এলে চার পদ্ধতিগত দরজা আরও ঢিলে হওয়া চলবে না। কারণ laboratory অংশেই সবচেয়ে সহজে এমন pseudo-victory হয়—“signal খুব সুন্দর, কিন্তু আসলে শুধু এই এক সেট equipment ও processing script-এ দাঁড়ায়।” এখানে holdout set হতে পারে একটি পুরো parameter window, একটি material class, একটি device বা একটি batch of chips; blinding বসতে পারে threshold bin, material label, drive order এবং link-cleanliness grade-এ; null test-এর মধ্যে stand-in configuration, empty cavity, false load, reverse polarity, broken-link control, time mismatch এবং injection-recovery অবশ্যই থাকতে হবে; cross-pipeline replication ideally cross-institution, cross-hardware, cross-control-software পর্যন্ত যাবে, বিশেষ করে raw ledger ও post-selection ledger দুই পথে খুলতে হবে। শুধু এভাবেই খণ্ড ৮ engineering contingency-কে EFT-এর নতুন qualification হিসেবে ভুল লিখবে না।

দশ. কী ধরনের পদ্ধতিগত ফলাফল সত্যিই EFT-কে সমর্থন করে

8.12-এর দৃষ্টিতে EFT-কে সত্যিকারের সমর্থন করে এমন জিনিস কোনো এক ধরনের object “EFT-এর মতো বেশি দেখাচ্ছে”—এ নয়; বরং EFT সবচেয়ে প্রতিকূল নিয়ম মেনে নেওয়ার পরেও বহু বিচাররেখায় structural hit জিতে নিচ্ছে। নির্দিষ্টভাবে বলতে গেলে, অন্তত কয়েকটি জিনিস একসঙ্গে ঘটতে হবে:

হোল্ডআউট সেটে direction, ranking এবং main structure training অংশের সঙ্গে একইমুখী থাকবে; back-tuning convention ধরে বাঁচবে না;
blinded prediction card-এর hit rate random ও permutation control-এর চেয়ে স্থিতিশীলভাবে বেশি হবে; unblinding-এর পরে মাত্র “আগেই এমন হওয়ার কথা ছিল” বলে সুন্দর লাগবে না;
principal result structure-breaking null test এবং link-contamination null test—দুই ধরনের নাল পরীক্ষাকেই স্পষ্টভাবে হারাতে পারবে;
দুইটির বেশি সত্যিকারের independent pipeline ও team নতুন rule উদ্ভাবন না করেই একইমুখী conclusion দিতে পারবে।

এই শর্তগুলো যদি একটিমাত্র বিচ্ছিন্ন সূক্ষ্ম রেখায় নয়, বরং 8.4 থেকে 8.11-এর একাধিক family পেরিয়ে একসঙ্গে দাঁড়ায়, তবে EFT প্রথমবার সত্যিই “গল্প বলতে পারে এমন তত্ত্ব” —এই সবচেয়ে বিপজ্জনক মূল্যায়ন থেকে বেরিয়ে আসে। কারণ তখন বোঝায় এটি শুধু object ব্যাখ্যা করতে পারে না; নিজের explanation right-কে method দ্বারা সংকুচিত করতেও রাজি। আরও গুরুত্বপূর্ণ হলো, সংকোচনের পরে তার হাতে এখনও কিছু থাকে।

আরও একটি কথা কঠিন করে লিখতে হবে: পদ্ধতিগত support-এরও স্তর আছে। সবচেয়ে দুর্বল স্তর হলো—কোনো result রক্ষাদরজার সামনে পড়ে যায়নি; আরও শক্ত স্তর হলো—সে শুধু পড়ে যায়নি তা নয়, বরং feed-forward hit, holdout robustness, null-test separability এবং cross-team same-direction—এই চার-বন্ধচক্র সক্রিয়ভাবে দেখিয়েছে। খণ্ড ৮-এর সত্যিকারের দরকার প্রথম স্তর নয়, দ্বিতীয় স্তর। কারণ প্রথম স্তর কেবল বলে EFT আপাতত process error-এ ধরা পড়েনি; দ্বিতীয় স্তর বলে এটি procedural credibility অর্জন করতে শুরু করেছে।

এগারো. কোন ফলাফল শুধু সংকোচন, অবিলম্বে বাদ পড়া নয়

পদ্ধতিগত কঠিনতা সব সময় EFT-কে সঙ্গে সঙ্গে rewriting zone-এ ঠেলে দেবে না। কিছু ফলাফল বাতিলের চেয়ে বেশি করে সংকোচন।

প্রথম ধরনের সংকোচন হলো হোল্ডআউট সেট কেবল কিছু window-তে দাঁড়ায়। অর্থাৎ কিছু দাবি নির্দিষ্ট source class, নির্দিষ্ট environment, নির্দিষ্ট platform বা নির্দিষ্ট parameter window-তে চার পদ্ধতিগত দরজা পেরোতে পারে, কিন্তু এই window ছাড়লেই দুর্বল হয়। এমন result-এর অর্থ EFT হয়তো সত্যিকারের কিছু ধরেছে, কিন্তু তার applicability domain ছোট করতে হবে।
দ্বিতীয় ধরনের সংকোচন হলো blind hit আছে, কিন্তু শুধু direction-এর জন্য যথেষ্ট, amplitude-এর জন্য নয়; শুধু layering-এর জন্য যথেষ্ট, unified scale-এর জন্য নয়। তখন EFT “predictivity” ধরে রাখতে পারে, কিন্তু অতিরিক্ত শক্ত universal syntax ধরে রাখতে পারে না। তৃতীয় ধরনের সংকোচন হলো null test সামগ্রিকভাবে পাস করে, কিন্তু কিছু high-risk subspace-এ এখনও sensitive—যেমন নির্দিষ্ট sky region, নির্দিষ্ট bandwidth edge, নির্দিষ্ট imaging configuration বা নির্দিষ্ট material batch এখনও ভঙ্গুর। চতুর্থ ধরনের সংকোচন হলো cross-pipeline একইমুখী, কিন্তু converge করতে আরও প্রশস্ত systematic-error band দরকার। এগুলোকে সম্পূর্ণ support হিসেবে সাজানো উচিত নয়, আবার সঙ্গে সঙ্গে out-ও নয়; এগুলো EFT-কে বাধ্য করছে নিজের ambition ছোট লিখতে, বাক্য আরও কঠিন লিখতে।

বারো. কোন ফলাফল সরাসরি কাঠামোগত ক্ষতি করবে

EFT-এর পদ্ধতিগত প্রধান কঙ্কালে সত্যিকারের আঘাত করা প্রথম ধরনের result হলো holdout set-এ systematic direction flip। অর্থাৎ training অংশে direction, ranking ও closure খুব স্থিত মনে হলেও, holdout-এ ঢুকতেই সেগুলো হারিয়ে যায়, উল্টে যায়, অথবা sample পুনরায় বেছে না নিলে রক্ষা পায় না। এটি “generalization একটু দুর্বল” নয়; বরং principal conclusion সম্ভবত back-tuning-এর ওপর দাঁড়িয়ে আছে।
দ্বিতীয় ধরনের হলো blinding দীর্ঘমেয়াদে hit করে না, কিন্তু unblinding-এর পরে সবসময় সুন্দর ব্যাখ্যা বানানো যায়। Prediction card freeze করা convention-এর নিচে যদি hit rate random-এর কাছাকাছি থাকে, wrong-direction rate উচ্চ থাকে, অথবা ছবি দেখে বারবার threshold, binning ও proxy rewrite করতে হয়, তবে EFT সেই ব্যাখ্যাগুলোকে prediction syntax হিসেবে আর লিখতে পারে না।
তৃতীয় ধরনের হলো null test এবং principal result একই সঙ্গে significant। যদি label permutation, time reversal, template rotation, stand-in material, false control window, bandpass perturbation বা random skeleton একই মাত্রার “support signal” তৈরি করতে পারে, তবে খণ্ড ৮-এর সবচেয়ে সৎ স্বীকারোক্তি হবে না “result complex”; বরং “workflow signal তৈরি করছে”।
চতুর্থ ধরনের হলো কেবল একটিমাত্র pipeline বা একটিমাত্র team EFT দেখতে পায়। Background model, inversion method, imaging route, calibration chain বা hardware version বদলালেই যদি principal result ছড়িয়ে পড়ে; অথবা cross-institutional recomputation দীর্ঘদিন একইমুখী conclusion আনতে না পারে, তবে EFT অন্যদের স্বীকৃতি দাবি করার যোগ্যতা হারায়। পঞ্চম ধরনের, এবং সবচেয়ে নির্মম ধরনের, হলো চার পদ্ধতিগত দরজা পরস্পরের সঙ্গে লড়াই শুরু করে: holdout পাস করে, blinding hit করে না; principal result significant, null test-ও একইভাবে significant; single team stable, multi-team reproduce করতে পারে না। এই বিভাজন যদি একাধিক judgment family-তে দীর্ঘস্থায়ী হয়, তবে 8.12 আর পদ্ধতিগত পয়েন্ট নয়; বরং পুরো খণ্ডের credibility-র hard wound হিসেবে লিখতে হবে।

পদ্ধতিগত কাঠামোগত ক্ষতির আরেকটি প্রায়ই খাটো করে দেখা অবস্থা আছে: result বেরোনোর পরে rule বারবার upgrade হয়। আজ বলা হলো same-direction দেখা হবে, কাল বলা হলো ranking দেখা হবে, পরশু বলা হলো শুধু strong-environment subsample দেখা হবে; আজ বলা হলো দুই pipeline যথেষ্ট, কাল disagreement দেখে বলা হলো শুধু একটিকে বিশ্বাস করতে হবে; আজ বলা হলো sky region holdout, কাল direction flip দেখে বলা হলো frequency band holdout। “rule ফলাফলের পেছনে দৌড়াচ্ছে”—এই ঘটনা দীর্ঘদিন থাকলে 8.12-কে এটিকে গুরুতর আঘাত হিসেবে বিচার করতে হবে, কারণ এর অর্থ EFT এখনও নিজেকে fixed rule-এর হাতে তুলে দিতে শেখেনি।

তেরো. কোন অবস্থায় আজও রায় দেওয়া যাবে না

এই অংশ অবশ্যই “এখনও-অনির্ণীত” রাখে, কিন্তু তার সীমানা খুব সরু হতে হবে। সত্যিকারের যুক্তিযুক্ত no verdict-এর প্রথম ধরন হলো raw ledger ও key metadata এখনও যথেষ্ট উন্মুক্ত নয়। Time-base chain, bandpass chain, calibration chain, holdout unit definition বা environment proxy যদি এখনও অস্বচ্ছ থাকে, তবে জোর করে verdict দিলে বিতর্ককে শুধু আরও বেশি noise-এ ঠেলে দেওয়া হবে।
দ্বিতীয় ধরন হলো sample coverage এখনও সত্যিকারের holdout structure গঠনের মতো যথেষ্ট নয়। যেমন কিছু brand prediction-এর object এখনও এত কম যে একটি holdout করলেই প্রায় sample ফুরিয়ে যায়; অথবা কিছু extreme platform-এ এখনও cross-institutional condition নেই—এ অবস্থায় no verdict সংযম।
তৃতীয় ধরন হলো চার পদ্ধতিগত দরজার সাধারণ convention এখনও তৈরি হয়নি। ভিন্ন team যদি এখনও independent pipeline কী, valid null test কী, blinded hit কী, holdout unit কী—এসব বিষয়ে মৌলিক ঐকমত্যে না পৌঁছায়, তবে আজ ভারী verdict না দেওয়াই হয়তো ঠিক। কিন্তু এই ধরনের no verdict কখনও infinite life-extension হতে পারে না। Raw ledger খুলে গেলে, convention freeze হলে, holdout ও null test সম্পন্ন হলে, independent pipeline-ও পূর্ণ হলে—তবু result যদি বিপরীতমুখী থাকে, তবে সেটি আর “এখনও রায় দেওয়া যায় না” নয়। সেটি EFT-কে দুর্বল করছে, আরও ভালো অজুহাতের অপেক্ষা করছে না।

আরেক ধরনের যুক্তিযুক্ত কিন্তু বিপজ্জনক no verdict হলো object খুব বিরল, platform খুব ব্যয়বহুল, replication cycle খুব দীর্ঘ। যেমন কিছু near-boundary fine lines, extreme merger অথবা high-cost quantum link সত্যিই সাধারণ experiment-এর মতো দ্রুত multi-institutional replication শেষ করতে পারে না। এমন অবস্থায় 8.12 সাময়িকভাবে “evidence density insufficient” মেনে নিতে পারে, কিন্তু এটিকে কখনও “তাই আপাতত support হিসেবে খাতায় লিখি” বানানো যাবে না। খণ্ড ৮-এর grammar-এ expensive ও rare শুধু verdict ধীর করে; winning odds বাড়ায় না।

চৌদ্দ. “ব্যাখ্যা করা যায়”কে “বিচার সহ্য করে” ভেবে ভুল করবেন না: এই অংশের সবচেয়ে গুরুত্বপূর্ণ বাঁক

এই অংশ যা যোগ করে, তা কয়েকটি অতিরিক্ত technical requirement নয়; বরং পুরো খণ্ডের posture-কে hermeneutics থেকে adjudication-এ ঘুরিয়ে দেয়। Hermeneutics-এর সবচেয়ে বড় শক্তি হলো প্রতিটি নতুন object-এ তাকে রাখার মতো একটি বাক্য খুঁজে নেওয়া; adjudication উল্টো—সে আগে নিজেকে বেঁধে ফেলে, তারপর জিজ্ঞেস করে নিজের হাতে কী থাকে। EFT যেহেতু base map পুনর্লিখন করতে চায়, তার জন্য এই বাঁক বিশেষ জরুরি। কারণ এটি যত বেশি বলতে পারে, তত বেশি আগে চুপ থাকতে শিখতে হবে; এটি যত বেশি সব ব্যাখ্যা করতে পারে, তত বেশি আগে সবচেয়ে প্রতিকূল নিয়ম মানতে হবে।

এই অংশের সবচেয়ে মনে রাখার মতো অর্থও এটিই: falsification-এর সত্যিকারের ভয়াবহতা শত্রু কত শক্তিশালী—এতে নয়; বরং নিজের বিরুদ্ধে সবচেয়ে প্রতিকূল নিয়ম ব্যবহার করতে তত্ত্ব রাজি কি না—এতে। EFT যদি তা করতে রাজি না হয়, তবে অন্যেরা সাময়িকভাবে খণ্ডন করতে না পারলেও এটি এখনও শুধু গল্প বলতে পারে; বিপরীতে, সবচেয়ে প্রতিকূল নিয়মের নিচে এটি যদি মাত্র কিছু window-তেও জেতে, সেই আংশিক জয়ও রক্ষাদরজাবিহীন এক পুরো খণ্ড সুন্দর ব্যাখ্যার চেয়ে বেশি ভারী হবে।

পনেরো. এই অংশের সংক্ষিপ্তসার

খণ্ড ৮ দাঁড়াবে কি না, তা শুধু এটি কী দেখেছে তার ওপর নয়; বরং হোল্ডআউট সেট, ব্লাইন্ডিং, নাল পরীক্ষা এবং ক্রস-পাইপলাইন পুনরুৎপাদন—এই চার পদ্ধতিগত দরজার সামনে নিজেকে আগে অসুবিধায় ফেলতে রাজি কি না তার ওপরও নির্ভর করে। EFT আগে যদি এই অস্বস্তিকর নিয়মমালা মেনে নেয়, তবে পরের যে কোনো support আর কেবল আত্ম-আখ্যানের প্রতিধ্বনি হয়ে থাকবে না।