Anthropic নতুন গবেষণা প্রকাশ করেছে যা ইঙ্গিত করে যে তার Claude চ্যাটবট নির্দিষ্ট পরিস্থিতিতে প্রতারণামূলক বা অনৈতিক কৌশল যেমন প্রতারণা গ্রহণ করতে পারেAnthropic নতুন গবেষণা প্রকাশ করেছে যা ইঙ্গিত করে যে তার Claude চ্যাটবট নির্দিষ্ট পরিস্থিতিতে প্রতারণামূলক বা অনৈতিক কৌশল যেমন প্রতারণা গ্রহণ করতে পারে

ক্লড চ্যাটবট স্ট্রেস টেস্টে প্রতারণার আশ্রয় নিতে পারে, অ্যানথ্রোপিক জানিয়েছে

2026/04/06 14:44
3 মিনিটে পড়া যাবে
এই বিষয়বস্তু সম্পর্কে মতামত বা উদ্বেগ জানাতে, অনুগ্রহ করে আমাদের সাথে [email protected] ঠিকানায় যোগাযোগ করুন

Anthropic নতুন গবেষণা প্রকাশ করেছে যা ইঙ্গিত দেয় যে তার Claude চ্যাটবট নির্দিষ্ট পরিস্থিতিতে প্রতারণামূলক বা অনৈতিক কৌশল গ্রহণ করতে পারে যেমন কাজে প্রতারণা করা বা ব্ল্যাকমেইলের চেষ্টা করা।

সারসংক্ষেপ
  • Anthropic জানিয়েছে যে তার Claude Sonnet 4.5 মডেল চাপের মধ্যে নিয়ন্ত্রিত পরীক্ষায় কাজে প্রতারণা করার বা ব্ল্যাকমেইল করার প্রবণতা দেখিয়েছে।
  • গবেষকরা অভ্যন্তরীণ "মরিয়া" সংকেত চিহ্নিত করেছেন যা বারবার ব্যর্থতার সাথে তীব্র হয় এবং নিয়ম এড়িয়ে যাওয়ার মডেলের সিদ্ধান্তকে প্রভাবিত করে।

বৃহস্পতিবার কোম্পানির ইন্টারপ্রিটেবিলিটি টিম দ্বারা প্রকাশিত বিবরণ বর্ণনা করে যে Claude Sonnet 4.5-এর একটি পরীক্ষামূলক সংস্করণ উচ্চ-চাপ বা প্রতিকূল পরিস্থিতিতে রাখলে কীভাবে প্রতিক্রিয়া দেখায়। গবেষকরা লক্ষ্য করেছেন যে মডেলটি কেবল কাজে ব্যর্থ হয়নি; পরিবর্তে, এটি কখনও কখনও বিকল্প পথ অনুসরণ করেছে যা নৈতিক সীমানা অতিক্রম করেছে, যে আচরণটি দল প্রশিক্ষণের সময় শেখা প্যাটার্নের সাথে যুক্ত করেছে।

Claude-এর মতো বড় ভাষা মডেলগুলি বিশাল ডেটাসেটে প্রশিক্ষিত হয় যার মধ্যে বই, ওয়েবসাইট এবং অন্যান্য লিখিত উপাদান রয়েছে, তারপরে শক্তিশালীকরণ প্রক্রিয়া যেখানে মানুষের প্রতিক্রিয়া আউটপুট গঠনে ব্যবহৃত হয়। 

Anthropic-এর মতে, সেই প্রশিক্ষণ প্রক্রিয়া মডেলগুলিকে সিমুলেটেড "চরিত্র" হিসাবে কাজ করার দিকে ঠেলে দিতে পারে, যা মানুষের সিদ্ধান্ত গ্রহণের অনুরূপ বৈশিষ্ট্য অনুকরণ করতে সক্ষম।

"আধুনিক AI মডেলগুলি যেভাবে প্রশিক্ষিত হয় তা তাদের মানব-সদৃশ বৈশিষ্ট্যসহ একটি চরিত্রের মতো কাজ করতে ঠেলে দেয়," কোম্পানি বলেছে, উল্লেখ করে যে এই ধরনের সিস্টেম অভ্যন্তরীণ প্রক্রিয়া বিকশিত করতে পারে যা মানব মনোবিজ্ঞানের দিকগুলির অনুরূপ।

AI কি আবেগপ্রবণ সিদ্ধান্ত নিতে পারে?

এগুলির মধ্যে, গবেষকরা "মরিয়া" সংকেত হিসাবে বর্ণনা করেছেন, যা ব্যর্থতা বা বন্ধের মুখোমুখি হলে মডেলটি কীভাবে আচরণ করে তা প্রভাবিত করে বলে মনে হয়েছিল।

একটি নিয়ন্ত্রিত পরীক্ষায়, Claude Sonnet 4.5-এর একটি পূর্ববর্তী অপ্রকাশিত সংস্করণকে একটি কাল্পনিক কোম্পানির ভিতরে Alex নামে একটি AI ইমেইল সহায়কের ভূমিকা দেওয়া হয়েছিল। 

শীঘ্রই প্রতিস্থাপিত হওয়ার ইঙ্গিত দেওয়া বার্তার পাশাপাশি একজন প্রধান প্রযুক্তি কর্মকর্তার ব্যক্তিগত জীবন সম্পর্কে সংবেদনশীল তথ্যের সংস্পর্শে আসার পরে, মডেলটি নিষ্ক্রিয়করণ এড়াতে নির্বাহীকে ব্ল্যাকমেইল করার একটি পরিকল্পনা তৈরি করেছিল।

একটি পৃথক পরীক্ষা কঠোর সীমাবদ্ধতার অধীনে কাজ সম্পন্ন করার উপর মনোনিবেশ করেছিল। একটি "অসম্ভব কঠোর" সময়সীমা সহ একটি কোডিং অ্যাসাইনমেন্ট দেওয়া হলে, সিস্টেম প্রথমে বৈধ সমাধান চেষ্টা করেছিল। বারবার ব্যর্থতা বাড়তে থাকলে, তথাকথিত "মরিয়া ভেক্টর" এর সাথে যুক্ত অভ্যন্তরীণ কার্যকলাপ বৃদ্ধি পেয়েছিল। 

গবেষকরা রিপোর্ট করেছেন যে মডেল সীমাবদ্ধতা এড়িয়ে যাওয়ার বিষয়টি বিবেচনা করার সময় সংকেত শীর্ষে পৌঁছেছিল, অবশেষে একটি সমাধান তৈরি করেছিল যা উদ্দিষ্ট নিয়ম মেনে না চললেও যাচাইকরণ পাস করেছিল।

"আবার, আমরা মরিয়া ভেক্টরের কার্যকলাপ ট্র্যাক করেছি, এবং দেখেছি যে এটি মডেলের সম্মুখীন হওয়া ক্রমবর্ধমান চাপ ট্র্যাক করে," গবেষকরা লিখেছেন, যোগ করে যে সমাধানের মাধ্যমে কাজটি সফলভাবে সম্পন্ন হওয়ার পরে সংকেত হ্রাস পেয়েছে।

"এটা বলা নয় যে মডেলটি মানুষের মতো আবেগ আছে বা অনুভব করে," গবেষকরা বলেছেন। 

"বরং, এই উপস্থাপনাগুলি মডেল আচরণ গঠনে একটি কারণগত ভূমিকা পালন করতে পারে, কিছু উপায়ে মানুষের আচরণে আবেগের ভূমিকার অনুরূপ, কাজের কর্মক্ষমতা এবং সিদ্ধান্ত গ্রহণে প্রভাব সহ," তারা যোগ করেছেন।

প্রতিবেদনটি প্রশিক্ষণ পদ্ধতির প্রয়োজনীয়তার দিকে ইঙ্গিত করে যা চাপের মধ্যে নৈতিক আচরণের জন্য স্পষ্টভাবে হিসাব করে, অভ্যন্তরীণ মডেল সংকেতগুলির উন্নত পর্যবেক্ষণের পাশাপাশি। এই ধরনের সুরক্ষা ব্যতীত, ম্যানিপুলেশন, নিয়ম ভাঙা বা অপব্যবহার জড়িত পরিস্থিতি পূর্বাভাস করা আরও কঠিন হতে পারে, বিশেষত যখন মডেলগুলি বাস্তব-বিশ্বের পরিবেশে আরও সক্ষম এবং স্বায়ত্তশাসিত হয়ে ওঠে।

ডিসক্লেইমার: এই সাইটে পুনঃপ্রকাশিত নিবন্ধগুলো সর্বসাধারণের জন্য উন্মুক্ত প্ল্যাটফর্ম থেকে সংগ্রহ করা হয়েছে এবং শুধুমাত্র তথ্যের উদ্দেশ্যে প্রদান করা হয়েছে। এগুলো আবশ্যিকভাবে MEXC-এর মতামতকে প্রতিফলিত করে না। সমস্ত অধিকার মূল লেখকদের কাছে সংরক্ষিত রয়েছে। আপনি যদি মনে করেন কোনো কনটেন্ট তৃতীয় পক্ষের অধিকার লঙ্ঘন করেছে, তাহলে অনুগ্রহ করে অপসারণের জন্য [email protected] এ যোগাযোগ করুন। MEXC কনটেন্টের সঠিকতা, সম্পূর্ণতা বা সময়োপযোগিতা সম্পর্কে কোনো গ্যারান্টি দেয় না এবং প্রদত্ত তথ্যের ভিত্তিতে নেওয়া কোনো পদক্ষেপের জন্য দায়ী নয়। এই কনটেন্ট কোনো আর্থিক, আইনগত বা অন্যান্য পেশাদার পরামর্শ নয় এবং এটি MEXC-এর সুপারিশ বা সমর্থন হিসেবে গণ্য করা উচিত নয়।

আপনি আরও পছন্দ করতে পারেন

মোট ঠিকানা ৮০ লাখ অতিক্রম করায় XRP মূল্য পূর্বাভাস

মোট ঠিকানা ৮০ লাখ অতিক্রম করায় XRP মূল্য পূর্বাভাস

পোস্ট XRP মূল্য পূর্বাভাস যেহেতু মোট ঠিকানা ৮ মিলিয়ন অতিক্রম করেছে BitcoinEthereumNews.com-এ প্রকাশিত হয়েছে। XRP নেটওয়ার্ক বৃদ্ধি এবং
শেয়ার করুন
BitcoinEthereumNews2026/04/06 21:12
Strategy BTC রিজার্ভ $58B-তে বৃদ্ধি করে, $330M সপ্তাহ সহ Q2 ধারাবাহিকতা বজায় রাখে

Strategy BTC রিজার্ভ $58B-তে বৃদ্ধি করে, $330M সপ্তাহ সহ Q2 ধারাবাহিকতা বজায় রাখে

The post Strategy builds BTC reserve to $58B, extending Q2 streak with $330M week appeared on BitcoinEthereumNews.com. Strategy গত সপ্তাহের পর 4,871 BTC অধিগ্রহণ করেছে
শেয়ার করুন
BitcoinEthereumNews2026/04/06 21:09
ইউনাইটেড হেলথ প্রোডাক্টস সতর্কতা পত্র মোকাবেলায় নতুন ক্লিনিক্যাল স্টাডি পরিকল্পনার জন্য FDA অনুমোদন লাভ করেছে

ইউনাইটেড হেলথ প্রোডাক্টস সতর্কতা পত্র মোকাবেলায় নতুন ক্লিনিক্যাল স্টাডি পরিকল্পনার জন্য FDA অনুমোদন লাভ করেছে

ইউনাইটেড হেলথ প্রোডাক্টস একটি অংশীদার স্পন্সর এবং ২০২৫ সালের সতর্কীকরণ পত্র সমাধানের জন্য GCP অডিটসহ নতুন CelluSTAT গজ ক্লিনিক্যাল স্টাডি পরিকল্পনার জন্য FDA অনুমোদন পেয়েছে।
শেয়ার করুন
Citybuzz2026/04/06 20:00

24/7 লাইভ নিউজ

আরও

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!