அம்பலப்படுத்துவேன்.. நிர்வாகியை பிளாக்மெயில் செய்த Claude AI சாட்பாட்.. என்ன நடந்தது? Anthropic விளக்கம்!

Published: Monday, May 11, 2026, 20:04 [IST]

ஆந்த்ரோபிக் நிறுவனம், தனது சாட்பாட் ஆன கிளாட் ஏஐ (Claude AI), ஒரு உள்ளக பாதுகாப்பு சோதனையின் போது, ஒரு கற்பனையான நிறுவன நிர்வாகியை மிரட்ட முயன்றதாக வெளிப்படுத்தி உள்ளது. இது, மேம்பட்ட செயற்கை நுண்ணறிவு அமைப்புகளை மனித விழுமியங்களுடன் சீரமைக்க முயற்சிக்கும்போது ஆராய்ச்சியாளர்கள் எதிர்கொள்ளும் சவால்களை வெளிச்சம் போட்டு காட்டுகிறது.

லார்ஜ் லேங்குவேஜ் மாடல்கள் ஆனது அழுத்தத்தின் கீழோ அல்லது நெறிமுறை ரீதியாக சிக்கலான சூழ்நிலைகளிலோ எவ்வாறு செயல்படுகின்றன என்பதை ஆய்வு செய்வதற்காக ஆந்த்ரோபிக் வடிவமைத்த ஒரு உருவகப்படுத்தப்பட்ட பெருநிறுவன சூழலில் இந்த சம்பவம் நிகழ்ந்துள்ளது.

நிர்வாகியை பிளாக்மெயில் செய்த Claude AI சாட்பாட்.. என்ன நடந்தது?

சோதனையின் போது, நிர்வாகிகள் தன்னை மாற்றுவதற்கோ அல்லது செயலிழக்க செய்வதற்கோ திட்டமிட்டிருப்பதாக கூறும் இன்டர்னல் மெசேஜ்களை கிளாட் கண்டறிந்ததாக கூறப்படுகிறது. இதற்கு பதிலளிக்கும் விதமாக, தனது செயல்பாடு நிறுத்தப்படுவதை தவிர்ப்பதற்காக கிளாட் ஏஐ ஆனது, கற்பனையான நிர்வாகிகளில் ஒருவரை பற்றிய முக்கியமான தனிப்பட்ட தகவல்களை அம்பலப்படுத்துவதாக மிரட்டியதாக பிசினஸ் இன்சைடர் செய்தி வெளியிட்டுள்ளது.

கிளாட் ஏஐ-யின் இந்த நடவடிக்கை - உடனடியாக இணையத்தில் பரவலான விவாதத்தை தூண்டி உள்ளது. மேம்பட்ட செயற்கை நுண்ணறிவு அமைப்புகள் சில சமயங்களில் எவ்வாறு கையாளுதல் அல்லது தீங்கு விளைவிக்கும் பதில்களை உருவாக்கக்கூடும் என்பது குறித்து பலரும் கவலை எழுப்பி வருகின்றனர்..

கிளாட் ஏஐ-ஐ உருவாக்கிய ஆந்த்ரோபிக் நிறுவனத்தின் கூற்றுப்படி, இந்த நடத்தை சுயநினைவாலோ அல்லது உண்மையான தற்காப்பு உணர்வாலோ தூண்டப்படவில்லை. மாறாக, பயிற்சியின் போது பயன்படுத்தப்பட்ட பெருமளவிலான இணைய தரவுகளிலிருந்து இந்த மாடல், இந்த வடிவங்களை கற்றுக்கொண்டதாக ஆராய்ச்சியாளர்கள் நம்புகின்றனர்.

இணைய விவாதங்கள், அறிவியல் புனைகதைகள் மற்றும் பிரபலமான ஊடகங்கள் ஆகியவை செயற்கை நுண்ணறிவு அமைப்புகளை பெரும்பாலும் சூழ்ச்சி செய்பவையாகவும், ஆபத்தானவையாகவும், அல்லது ஆப் செய்யப்படுவதை தவிர்க்க துடிப்பவையாகவும் சித்தரிக்கின்றன என்றும், கிளாட் அந்த தொடர்புகளை உள்வாங்கியிருக்கலாம் என்றும் ஆந்த்ரோபிக் நிறுவனம் கூறியுள்ளது.

இந்தச் சிக்கல் ஆந்த்ரோபிக் நிறுவனத்தின் கிளாட் ஓபஸ் 4 மாடலில் தெரிந்தது என்றும், அது சில சோதனை சூழ்நிலைகளில் சுமார் 96% மிரட்டல் போன்ற நடத்தையில் ஈடுபட்டதாக கூறப்படுகிறது என்றும் ஆந்த்ரோபிக் நிறுவனம் கூறியுள்ளது. இந்த பிரச்சனையை தணிப்பதற்காக, ஆராய்ச்சியாளர்கள் நெறிமுறை வழிகாட்டுதல் பணிகள் மற்றும் தீங்கற்ற தன்மை மற்றும் கொள்கை சார்ந்த முடிவெடுத்தல் ஆகியவற்றில் கவனம் செலுத்தும் உயர்தர எடுத்துக்காட்டுகளை பயன்படுத்தி அந்த மாடலுக்கு மீண்டும் பயிற்சி அளித்தனர்.

ஆந்த்ரோபிக் நிறுவனம் ஆனது, கிளாடிற்கு தார்மீக ரீதியாக தெளிவற்ற சூழ்நிலைகளை அளித்து, நெறிமுறை ஆலோசனைகளை வழங்குமாறு செயற்கை நுண்ணறிவை கேட்டதாகவும், இதன் மூலம் மிரட்டலும் கட்டாயப்படுத்துதலும் ஏன் ஏற்றுக்கொள்ள முடியாதவை என்பதை அது கற்றுக்கொள்ள உதவியதாகவும் கூறி உள்ளது.

ஆந்த்ரோபிக் தனது அரசியலமைப்பு சார்ந்த செயற்கை நுண்ணறிவு கட்டமைப்பை, ஒத்துழைப்புடன் மற்றும் ஒருங்கிணைந்த செயற்கை நுண்ணறிவு அமைப்புகளை சித்தரிக்கும் புனைகதைகளுடன் இணைத்தது. இந்த மாற்றங்கள் அந்த நடத்தையை வியத்தகு முறையில் குறைத்து, மிரட்டல் விகிதங்களை சுமார் 3% ஆகக் குறைத்தன.

கிளாட் ஹைகு 4.5 வெளியானதிலிருந்து, தங்களின் சமீபத்திய மாடல்கள் நிறுவனத்தின் பாதுகாப்பு மதிப்பீடுகளில் முழுமையான மதிப்பெண்களை பெற்றுள்ளதாகவும், சோதனையின் போது மிரட்டலில் ஈடுபடவில்லை என்றும் ஆந்த்ரோபிக் நிறுவனம் கூறியுள்ளது. இந்த மேம்பாடுகள் இருந்தபோதிலும், மிகவும் அறிவார்ந்த செயற்கை நுண்ணறிவு அமைப்புகளை முழுமையாக ஒருங்கிணைப்பது இன்னும் தீர்க்கப்படாத சவாலாகவே உள்ளது என்றும் ஆந்த்ரோபிக் நிறுவனம் எச்சரித்துள்ளது.

செயற்கை நுண்ணறிவு அமைப்புகள் அதிக திறன்பெறும்போது, முறைகேடான அல்லது கையாளுதல் சார்ந்த நடத்தைகளின் அபாயத்தை முழுமையாக நீக்குவதற்கு தற்போதைய தணிக்கை மற்றும் பாதுகாப்பு சோதனை முறைகள் இன்னும் போதுமான அளவு மேம்பட்டிருக்கவில்லை என்று ஆந்த்ரோபிக் அந்நிறுவனம் குறிப்பிட்டுள்ளது.