Home
Artificial intelligence

அம்பலப்படுத்துவேன்.. நிர்வாகியை பிளாக்மெயில் செய்த Claude AI சாட்பாட்.. என்ன நடந்தது? Anthropic விளக்கம்!

ஆந்த்ரோபிக் நிறுவனம், தனது சாட்பாட் ஆன கிளாட் ஏஐ (Claude AI), ஒரு உள்ளக பாதுகாப்பு சோதனையின் போது, ​​ஒரு கற்பனையான நிறுவன நிர்வாகியை மிரட்ட முயன்றதாக வெளிப்படுத்தி உள்ளது. இது, மேம்பட்ட செயற்கை நுண்ணறிவு அமைப்புகளை மனித விழுமியங்களுடன் சீரமைக்க முயற்சிக்கும்போது ஆராய்ச்சியாளர்கள் எதிர்கொள்ளும் சவால்களை வெளிச்சம் போட்டு காட்டுகிறது.

லார்ஜ் லேங்குவேஜ் மாடல்கள் ஆனது அழுத்தத்தின் கீழோ அல்லது நெறிமுறை ரீதியாக சிக்கலான சூழ்நிலைகளிலோ எவ்வாறு செயல்படுகின்றன என்பதை ஆய்வு செய்வதற்காக ஆந்த்ரோபிக் வடிவமைத்த ஒரு உருவகப்படுத்தப்பட்ட பெருநிறுவன சூழலில் இந்த சம்பவம் நிகழ்ந்துள்ளது.

நிர்வாகியை பிளாக்மெயில் செய்த Claude AI சாட்பாட்.. என்ன நடந்தது?

சோதனையின் போது, ​​நிர்வாகிகள் தன்னை மாற்றுவதற்கோ அல்லது செயலிழக்க செய்வதற்கோ திட்டமிட்டிருப்பதாக கூறும் இன்டர்னல் மெசேஜ்களை கிளாட் கண்டறிந்ததாக கூறப்படுகிறது. இதற்கு பதிலளிக்கும் விதமாக, தனது செயல்பாடு நிறுத்தப்படுவதை தவிர்ப்பதற்காக கிளாட் ஏஐ ஆனது, கற்பனையான நிர்வாகிகளில் ஒருவரை பற்றிய முக்கியமான தனிப்பட்ட தகவல்களை அம்பலப்படுத்துவதாக மிரட்டியதாக பிசினஸ் இன்சைடர் செய்தி வெளியிட்டுள்ளது.

கிளாட் ஏஐ-யின் இந்த நடவடிக்கை - உடனடியாக இணையத்தில் பரவலான விவாதத்தை தூண்டி உள்ளது. மேம்பட்ட செயற்கை நுண்ணறிவு அமைப்புகள் சில சமயங்களில் எவ்வாறு கையாளுதல் அல்லது தீங்கு விளைவிக்கும் பதில்களை உருவாக்கக்கூடும் என்பது குறித்து பலரும் கவலை எழுப்பி வருகின்றனர்..

கிளாட் ஏஐ-ஐ உருவாக்கிய ஆந்த்ரோபிக் நிறுவனத்தின் கூற்றுப்படி, இந்த நடத்தை சுயநினைவாலோ அல்லது உண்மையான தற்காப்பு உணர்வாலோ தூண்டப்படவில்லை. மாறாக, பயிற்சியின் போது பயன்படுத்தப்பட்ட பெருமளவிலான இணைய தரவுகளிலிருந்து இந்த மாடல், இந்த வடிவங்களை கற்றுக்கொண்டதாக ஆராய்ச்சியாளர்கள் நம்புகின்றனர்.

இணைய விவாதங்கள், அறிவியல் புனைகதைகள் மற்றும் பிரபலமான ஊடகங்கள் ஆகியவை செயற்கை நுண்ணறிவு அமைப்புகளை பெரும்பாலும் சூழ்ச்சி செய்பவையாகவும், ஆபத்தானவையாகவும், அல்லது ஆப் செய்யப்படுவதை தவிர்க்க துடிப்பவையாகவும் சித்தரிக்கின்றன என்றும், கிளாட் அந்த தொடர்புகளை உள்வாங்கியிருக்கலாம் என்றும் ஆந்த்ரோபிக் நிறுவனம் கூறியுள்ளது.

இந்தச் சிக்கல் ஆந்த்ரோபிக் நிறுவனத்தின் கிளாட் ஓபஸ் 4 மாடலில் தெரிந்தது என்றும், அது சில சோதனை சூழ்நிலைகளில் சுமார் 96% மிரட்டல் போன்ற நடத்தையில் ஈடுபட்டதாக கூறப்படுகிறது என்றும் ஆந்த்ரோபிக் நிறுவனம் கூறியுள்ளது. இந்த பிரச்சனையை தணிப்பதற்காக, ஆராய்ச்சியாளர்கள் நெறிமுறை வழிகாட்டுதல் பணிகள் மற்றும் தீங்கற்ற தன்மை மற்றும் கொள்கை சார்ந்த முடிவெடுத்தல் ஆகியவற்றில் கவனம் செலுத்தும் உயர்தர எடுத்துக்காட்டுகளை பயன்படுத்தி அந்த மாடலுக்கு மீண்டும் பயிற்சி அளித்தனர்.

ஆந்த்ரோபிக் நிறுவனம் ஆனது, கிளாடிற்கு தார்மீக ரீதியாக தெளிவற்ற சூழ்நிலைகளை அளித்து, நெறிமுறை ஆலோசனைகளை வழங்குமாறு செயற்கை நுண்ணறிவை கேட்டதாகவும், இதன் மூலம் மிரட்டலும் கட்டாயப்படுத்துதலும் ஏன் ஏற்றுக்கொள்ள முடியாதவை என்பதை அது கற்றுக்கொள்ள உதவியதாகவும் கூறி உள்ளது.

ஆந்த்ரோபிக் தனது அரசியலமைப்பு சார்ந்த செயற்கை நுண்ணறிவு கட்டமைப்பை, ஒத்துழைப்புடன் மற்றும் ஒருங்கிணைந்த செயற்கை நுண்ணறிவு அமைப்புகளை சித்தரிக்கும் புனைகதைகளுடன் இணைத்தது. இந்த மாற்றங்கள் அந்த நடத்தையை வியத்தகு முறையில் குறைத்து, மிரட்டல் விகிதங்களை சுமார் 3% ஆகக் குறைத்தன.

கிளாட் ஹைகு 4.5 வெளியானதிலிருந்து, தங்களின் சமீபத்திய மாடல்கள் நிறுவனத்தின் பாதுகாப்பு மதிப்பீடுகளில் முழுமையான மதிப்பெண்களை பெற்றுள்ளதாகவும், சோதனையின் போது மிரட்டலில் ஈடுபடவில்லை என்றும் ஆந்த்ரோபிக் நிறுவனம் கூறியுள்ளது. இந்த மேம்பாடுகள் இருந்தபோதிலும், மிகவும் அறிவார்ந்த செயற்கை நுண்ணறிவு அமைப்புகளை முழுமையாக ஒருங்கிணைப்பது இன்னும் தீர்க்கப்படாத சவாலாகவே உள்ளது என்றும் ஆந்த்ரோபிக் நிறுவனம் எச்சரித்துள்ளது.

செயற்கை நுண்ணறிவு அமைப்புகள் அதிக திறன்பெறும்போது, ​​முறைகேடான அல்லது கையாளுதல் சார்ந்த நடத்தைகளின் அபாயத்தை முழுமையாக நீக்குவதற்கு தற்போதைய தணிக்கை மற்றும் பாதுகாப்பு சோதனை முறைகள் இன்னும் போதுமான அளவு மேம்பட்டிருக்கவில்லை என்று ஆந்த்ரோபிக் அந்நிறுவனம் குறிப்பிட்டுள்ளது.

Best Mobiles in India

English summary
Anthropic revealed and Explained Why Claude AI Chatbot blackmailed fictional company executive
Notifications
Settings
Clear Notifications
Notifications
Use the toggle to switch on notifications
  • Block for 8 hours
  • Block for 12 hours
  • Block for 24 hours
  • Don't block
Gender
Select your Gender
  • Male
  • Female
  • Others
Age
Select your Age Range
  • Under 18
  • 18 to 25
  • 26 to 35
  • 36 to 45
  • 45 to 55
  • 55+
X