RL

Tính giá Ralph Lauren Corp

RL
₫7.909.950,65
-₫343.920,92(-4,16%)

*Dữ liệu cập nhật lần cuối: 2026-05-11 23:38 (UTC+8)

Tính đến 2026-05-11 23:38, Ralph Lauren Corp (RL) đang giao dịch ở ₫7.909.950,65, với tổng vốn hóa thị trường là ₫479,59T, tỷ lệ P/E là 18,17 và tỷ suất cổ tức là 1,06%. Giá cổ phiếu hôm nay biến động trong khoảng ₫7.837.570,51 và ₫8.287.295,52. Giá hiện tại cao hơn 0,92% so với mức thấp nhất trong ngày và thấp hơn 4,55% so với mức cao nhất trong ngày, với khối lượng giao dịch là 599,18K. Trong 52 tuần qua, RL đã giao dịch trong khoảng từ ₫6.966.703,73 đến ₫8.915.435,27 và giá hiện tại cách mức cao nhất trong 52 tuần -11,27%.

Các chỉ số chính của RL

Đóng cửa hôm qua₫8.262.630,95
Vốn hóa thị trường₫479,59T
Khối lượng599,18K
Tỷ lệ P/E18,17
Lợi suất cổ tức (TTM)1,06%
Số lượng cổ tức₫21.034,03
EPS pha loãng (TTM)15,03
Thu nhập ròng (FY)₫17,12T
Doanh thu (FY)₫163,17T
Ngày báo cáo thu nhập2026-05-21
Ước tính EPS2,49
Ước tính doanh thu₫42,47T
Số cổ phiếu đang lưu hành58,04M
Beta (1 năm)1.387
Ngày giao dịch không hưởng quyền2026-03-27
Ngày thanh toán cổ tức2026-04-10

Giới thiệu về RL

Ralph Lauren Corporation thiết kế, tiếp thị và phân phối các sản phẩm phong cách sống tại Bắc Mỹ, châu Âu, châu Á và trên phạm vi quốc tế. Công ty cung cấp các sản phẩm may mặc, bao gồm nhiều dòng quần áo dành cho nam, nữ và trẻ em; giày dép và phụ kiện, gồm giày thường, giày dự tiệc, boots, giày thể thao, sandal, kính mắt, đồng hồ, trang sức thời trang và trang sức cao cấp, khăn quàng, mũ, găng tay và ô dù, cũng như các sản phẩm da như túi xách, hành lý, đồ da nhỏ và thắt lưng; các sản phẩm cho gia đình bao gồm các dòng sản phẩm phòng ngủ và phòng tắm, đồ nội thất, vải và giấy dán tường, hệ thống chiếu sáng, đồ dùng trên bàn, khăn trải bàn, khăn trải bếp, thảm trải sàn và hàng quà tặng; và các loại nước hoa. Công ty bán quần áo và phụ kiện dưới các thương hiệu Ralph Lauren Collection, Ralph Lauren Purple Label, Polo Ralph Lauren, Double RL, Lauren Ralph Lauren, Polo Golf Ralph Lauren, Ralph Lauren Golf, RLX Ralph Lauren, Polo Ralph Lauren Children và Chaps; nước hoa dành cho nữ dưới các thương hiệu Ralph Lauren Collection, Woman by Ralph Lauren, Romance Collection và Ralph Collection; và nước hoa dành cho nam dưới các thương hiệu Polo Blue, Ralph's Club, Safari, Purple Label, Polo Red, Polo Green, Polo Black, Polo Sport và Big Pony Men's. Bộ sưu tập nhà hàng của công ty bao gồm The Polo Bar tại thành phố New York; RL Restaurant ở Chicago; Ralph's tại Paris; The Bar at Ralph Lauren nằm ở Milan; và concept Ralph's Coffee. Công ty bán sản phẩm của mình cho các cửa hàng bách hóa, cửa hàng chuyên doanh, các cửa hàng golf và cửa hàng bán hàng chuyên nghiệp, cũng như bán trực tiếp cho người tiêu dùng thông qua các cửa hàng bán lẻ của mình, các cửa hàng nhượng quyền theo mô hình shop-within-shops và các trang thương mại điện tử. Công ty trực tiếp vận hành 504 cửa hàng bán lẻ và 684 cửa hàng nhượng quyền theo mô hình shop-within-shops; đồng thời vận hành 175 cửa hàng Ralph Lauren, 329 cửa hàng xưởng và 148 cửa hàng và shop thông qua các đối tác nhượng quyền. Ralph Lauren Corporation được thành lập vào năm 1967 và có trụ sở chính tại New York, New York.
Lĩnh vựcChu kỳ tiêu dùng
Ngành nghềThời trang - Nhà sản xuất
CEOPatrice Jean Louis Louvet
Trụ sở chínhNew York City,NY,US
Trang web chính thứchttp://corporate.ralphlauren.com
Nhân sự (FY)23,40K
Doanh thu trung bình (1 năm)₫6,97B
Thu nhập ròng trên mỗi nhân viên₫731,81M

Câu hỏi thường gặp về Ralph Lauren Corp (RL)

Giá cổ phiếu Ralph Lauren Corp (RL) hôm nay là bao nhiêu?

x
Ralph Lauren Corp (RL) hiện đang giao dịch ở mức ₫7.909.950,65, với biến động 24h qua là -4,16%. Phạm vi giao dịch 52 tuần là từ ₫6.966.703,73 đến ₫8.915.435,27.

Mức giá cao nhất và thấp nhất trong 52 tuần của Ralph Lauren Corp (RL) là bao nhiêu?

x

Tỷ lệ giá trên thu nhập (P/E) của Ralph Lauren Corp (RL) là bao nhiêu? Nó chỉ ra điều gì?

x

Vốn hóa thị trường của Ralph Lauren Corp (RL) là bao nhiêu?

x

Lợi nhuận trên mỗi cổ phiếu (EPS) hàng quý gần đây nhất của Ralph Lauren Corp (RL) là bao nhiêu?

x

Bạn nên mua hay bán Ralph Lauren Corp (RL) vào thời điểm này?

x

Những yếu tố nào có thể ảnh hưởng đến giá cổ phiếu Ralph Lauren Corp (RL)?

x

Làm thế nào để mua cổ phiếu Ralph Lauren Corp (RL)?

x

Cảnh báo rủi ro

Thị trường chứng khoán tiềm ẩn rủi ro cao và biến động giá mạnh. Giá trị khoản đầu tư của bạn có thể tăng hoặc giảm, và bạn có thể không thu hồi được toàn bộ số tiền đã đầu tư. Hiệu suất hoạt động trong quá khứ không phải là chỉ báo đáng tin cậy cho kết quả tương lai. Trước khi đưa ra bất kỳ quyết định đầu tư nào, bạn nên đánh giá cẩn thận kinh nghiệm đầu tư, tình hình tài chính, mục tiêu đầu tư và khả năng chấp nhận rủi ro của mình, đồng thời tự mình nghiên cứu. Nếu cần thiết, hãy tham khảo ý kiến của một cố vấn tài chính độc lập.

Tuyên bố từ chối trách nhiệm

Nội dung trên trang này chỉ được cung cấp cho mục đích thông tin và không cấu thành tư vấn đầu tư, tư vấn tài chính hoặc khuyến nghị giao dịch. Gate sẽ không chịu trách nhiệm đối với bất kỳ tổn thất hoặc thiệt hại nào phát sinh từ các quyết định tài chính đó. Hơn nữa, xin lưu ý rằng Gate có thể không cung cấp đầy đủ dịch vụ tại một số thị trường và khu vực pháp lý nhất định, bao gồm nhưng không giới hạn ở Hoa Kỳ, Canada, Iran và Cuba. Để biết thêm thông tin về các Khu vực bị hạn chế, vui lòng tham khảo Thỏa thuận người dùng.

Thị trường giao dịch khác

Tin tức mới nhất về Ralph Lauren Corp (RL)

2026-04-23 04:54Perplexity 公布网页搜索代理的后训练方法;基于 Qwen3.5 的模型在准确率与成本上优于 GPT-5.4Gate News 消息,4 月 23 日——Perplexity 的研究团队发布了一篇技术文章,详细说明其针对网页搜索代理的后训练方法。该方法使用两个开源的 Qwen3.5 模型 (Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B),并采用两阶段流水线:先进行监督微调 (SFT),以建立指令遵循与语言一致性;随后进行在线强化学习 (RL),以优化搜索准确率与工具使用效率。 强化学习阶段使用 GRPO 算法,并结合两种数据源:一种专有的多跳可验证问答数据集,由内部种子查询构建而成,要求推理 2–4 跳,并通过多求解器验证;以及基于评分标准的通用对话数据,将部署需求转换为客观可检验的原子条件,从而防止 SFT 行为退化。 奖励设计采用门控聚合——只有在达到基线正确性时,偏好分数才会计入 (question-answer 匹配或满足所有评分标准),从而避免高偏好信号掩盖事实错误。效率惩罚使用组内锚定:对工具调用以及生成长度施加平滑惩罚,且该基线以同一组中正确答案的长度为准。 评估结果表明,Qwen3.5-397B-SFT-RL 在各项搜索基准上实现同级最佳表现。在 FRAMES 上,它在单次工具调用时达到 57.3% 准确率,较 GPT-5.4 高 5.7 个百分点;较 Claude Sonnet 4.6 高 4.7 个百分点。在中等预算 (四次工具调用) 条件下,它以每次查询 $0.02 实现 73.9% 准确率;相比之下,GPT-5.4 为每次查询 $0.085 且准确率 67.8%,Sonnet 4.6 为每次查询 $0.153 且准确率 62.4%。成本数据基于各提供方公开的 API 定价,并不包含缓存优化。2026-03-21 00:19Cursor chính thức xác nhận Kimi K2.5 là nền tảng, Mặt tối của mặt trăng: thuộc về hợp tác thương mại được cấp phépGate News tin tức, ngày 21 tháng 3, theo dõi của 1M AI News, tài khoản chính thức của 月之暗面 @Kimi_Moonshot đã đăng bài chúc mừng Cursor phát hành Composer 2, và giải thích rằng Cursor thông qua nền tảng RL và suy luận được lưu trữ bởi Fireworks AI để truy cập Kimi K2.5, thuộc về hợp tác thương mại có phép. Đồng sáng lập Cursor Aman Sanger và Phó Chủ tịch giáo dục nhà phát triển Lee Robinson sau đó đã công khai xác nhận nguồn gốc của nền tảng và tiết lộ chi tiết kỹ thuật. Sanger cho biết nhóm đã thực hiện đánh giá độ phức tạp của nhiều nền tảng, Kimi K2.5 "chứng minh là mạnh nhất", sau đó tiếp tục huấn luyện lại và mở rộng quy mô gấp 4 lần với sức mạnh tính toán cao, và triển khai qua bộ suy luận và bộ lấy mẫu RL của Fireworks AI. Robinson bổ sung rằng, trong mô hình cuối cùng, sức mạnh tính toán từ nền tảng chiếm khoảng 1/4, phần còn lại 3/4 đến từ chính quá trình huấn luyện của Cursor. Cả hai nhà sáng lập đều thừa nhận việc không đề cập đến nguồn gốc nền tảng Kimi trong bài đăng blog là "một sai sót", và cam kết trong lần phát hành mô hình tiếp theo sẽ ghi rõ nguồn gốc nền tảng ngay lập tức. Trước đó, Elon Musk đã trả lời trong bài thảo luận liên quan rằng "Yeah, it's Kimi 2.5", làm tăng thêm độ nóng của chủ đề.2026-03-20 09:47Cursor Composer 2 bị cáo buộc sử dụng mô hình Kimi K2.5, Moonshot AI tố cáo nó không tuân thủ giấy phépTin tức Gate, ngày 20 tháng 3, theo theo dõi của 1M AI News, nhà phát triển @fynnso khi thử nghiệm yêu cầu API Cursor đã phát hiện rằng ID mô hình thực tế của Composer 2 là kimi-k2p5-rl-0317-s515-fast, nghĩa là "Kimi K2.5 + RL". Người phụ trách tiền huấn luyện của Moonshot AI, Đỗ Vũ Luân, đã đăng tweet ngay sau đó, nói rằng nhóm của ông khi thử tokenizer của Composer 2 đã phát hiện ra "hoàn toàn giống với tokenizer Kimi của chúng tôi", "gần như có thể xác nhận đây là kết quả của việc mô hình của chúng tôi bị huấn luyện lại thêm", và trực tiếp @ đồng sáng lập Cursor, Michael Truell, chất vấn "tại sao không tôn trọng giấy phép của chúng tôi, cũng không thanh toán bất kỳ khoản phí nào". Khi phát hành Composer 2 vào ngày 19 tháng 3, Cursor cho biết hiệu suất cải thiện đến từ "tiếp tục huấn luyện mô hình nền lần đầu tiên, sau đó kết hợp học tăng cường", nhưng toàn bộ quá trình không đề cập đến Kimi K2.5. Kimi K2.5 sử dụng phiên bản sửa đổi của giấy phép MIT, quy định rõ ràng: các sản phẩm thương mại có hoạt động hàng tháng vượt quá 100 triệu hoặc doanh thu hàng tháng vượt quá 20 triệu USD phải rõ ràng ghi chú "Kimi K2.5" trên giao diện người dùng. Với định giá Cursor là 29.3 tỷ USD và quy mô người dùng trả phí, ngưỡng doanh thu hàng tháng gần như chắc chắn sẽ bị kích hoạt. Đến thời điểm đăng bài, Cursor chưa phản hồi công khai.2026-02-12 14:21Gradient giới thiệu khung học tăng cường phân tán Echo-2 và dự kiến ra mắt nền tảng RLaaS LogitsForesight News đưa tin, phòng thí nghiệm AI phân tán Gradient đã phát hành khung công tác học tăng cường phân tán Echo-2, nhằm phá vỡ rào cản hiệu quả đào tạo nghiên cứu AI. Khung công tác này thực hiện tách rời Learner và Actor ở cấp kiến trúc, nhằm giảm chi phí hậu huấn luyện cho các mô hình lớn. Theo dữ liệu chính thức, khung công tác này có thể giảm chi phí hậu huấn luyện của mô hình 30B từ 4500 USD xuống còn 425 USD. Echo-2 sử dụng công nghệ phân tách lưu trữ và tính toán để thực hiện huấn luyện bất đồng bộ (Async RL), hỗ trợ chuyển tải sức mạnh lấy mẫu đến các phiên bản card đồ họa không ổn định và card đồ họa đa dạng dựa trên Parallax. Khung công tác này kết hợp các công nghệ như độ cũ giới hạn, lập lịch chịu lỗi theo từng phiên bản và giao thức truyền thông Lattica tự phát triển, giúp nâng cao hiệu quả huấn luyện trong khi duy trì độ chính xác của mô hình. Ngoài ra, Gradient dự kiến ra mắt nền tảng RLaaS (Học tăng cường dưới dạng dịch vụ) Logits, hiện đã mở đăng ký cho sinh viên và nhà nghiên cứu.2026-01-02 09:15Mechanism Capital đối tác: Quy mô dữ liệu AI thực thể sẽ mở rộng gấp 100 lần vào năm 2026PANews đã báo cáo vào ngày 2 tháng 1 rằng Andrew Kang, một đối tác tại Mechanism Capital, đã đăng trên nền tảng X rằng vào năm 2025, lĩnh vực robot sẽ giải quyết các thách thức về kiến trúc mô hình và đào tạo lâu dài, đồng thời đạt được tiến bộ đáng kể trong công nghệ thu thập dữ liệu, hiểu chất lượng dữ liệu và xây dựng dữ liệu, giúp các công ty trí tuệ nhân tạo tự tin rằng cuối cùng họ sẽ bắt đầu đầu tư vào thu thập dữ liệu quy mô lớn và các công ty như Figure, Dyna và PI sẽ sử dụng học tăng cường (RL) Công nghệ tiên tiến đã đạt được tỷ lệ thành công hơn 99% trong các tình huống ứng dụng thực tế khác nhau. Ngoài ra, những tiến bộ trong công nghệ bộ nhớ đã phá vỡ "bức tường bộ nhớ", ReMEmber của NVIDIA sử dụng điều hướng dựa trên bộ nhớ, Titans và MIRAS đạt được bộ nhớ thời gian thử nghiệm và các mô hình định vị ảo (VLM) tốt hơn có nghĩa là mảng định vị ảo (VLA) có khả năng hiểu không gian tốt hơn, cũng như các quy trình xử lý và chú thích dữ liệu có thể cải thiện đáng kể thông lượng. Vào năm 2025, thị trường ban đầu sẽ đánh giá cao khả năng lập bản đồ khả năng không bắn, độ nhạy của cường độ thị giác và suy luận vật lý chung do quy mô dữ liệu mang lại, và quy mô dữ liệu AI vật lý sẽ mở rộng gấp 100 lần vào năm 2026.

Bài viết hot về Ralph Lauren Corp (RL)

SmartMoneyWallet

SmartMoneyWallet

7 tiếng trước
Gần đây tôi đang xem một bài nghiên cứu của a16z, trong đó có một phép ẩn dụ khá thú vị——LLM thực chất sống trong hiện tại vĩnh cửu, giống như nhân vật mất trí nhớ trong bộ phim "Memory Fragment". Sau khi huấn luyện xong thì bị đông cứng lại, thông tin mới không thể vào được, chỉ có thể dựa vào ghi chú trò chuyện, hệ thống truy xuất để ứng phó. Nhưng như vậy có đủ không? Ngày càng nhiều nhà nghiên cứu cho rằng không đủ. Học theo ngữ cảnh thực sự hữu ích, nhưng về bản chất nó là truy xuất, không phải học. Hãy tưởng tượng một tủ hồ sơ vô hạn, có thể tra cứu mọi thứ, nhưng nó chưa từng bị ép phải hiểu, nén, hoặc nội hóa kiến thức mới thực sự. Đối với những vấn đề cần khám phá thật sự—như chứng minh toán học hoàn toàn mới, các kịch bản đối kháng, hoặc những kiến thức quá tiềm ẩn, không thể diễn đạt bằng ngôn ngữ—chỉ dựa vào truy xuất chắc chắn là không đủ. Đây chính là lý do vì sao hướng nghiên cứu học liên tục ngày càng được quan tâm. Vấn đề cốt lõi rất đơn giản: **Nén dữ liệu xảy ra ở đâu?** Hiện tại hệ thống giao phó việc nén cho kỹ thuật gợi ý, pipeline RAG, vỏ bọc trí tuệ nhân tạo. Nhưng cơ chế làm cho LLM mạnh mẽ khi huấn luyện—nén có tổn thất, học tham số—lại bị tắt đi ngay tại thời điểm triển khai. Giới nghiên cứu có thể chia thành ba hướng chính. Một là học theo ngữ cảnh, nhóm tập trung tối ưu hóa pipeline truy xuất, quản lý ngữ cảnh, kiến trúc đa trí tuệ nhân tạo. Đây là hướng đã trưởng thành nhất, hạ tầng đã được chứng minh, nhưng giới hạn chính là độ dài ngữ cảnh. Hướng thứ hai là học theo trọng số, thực hiện cập nhật tham số thực sự—như lớp nhớ rải rác, vòng lặp học tăng cường, huấn luyện trong lúc thử nghiệm. Hướng trung gian là mô-đun hóa, thông qua các mô-đun kiến thức có thể cắm vào để chuyên môn hóa mà không động đến trọng số cốt lõi. Hướng nghiên cứu về trọng số đặc biệt nhiều. Có phương pháp điều chỉnh chuẩn (như EWC), có huấn luyện trong lúc thử nghiệm (để tối ưu hóa gradient trong suy luận), có meta-learning (huấn luyện mô hình để học cách học), còn có tự蒸餾, tự cải tiến đệ quy nữa. Các hướng này đang hội tụ, hệ thống thế hệ tiếp theo rất có thể sẽ kết hợp nhiều chiến lược. Nhưng có một vấn đề then chốt: cập nhật trọng số đơn thuần trong môi trường sản xuất sẽ gặp vô số vấn đề. Quên cục bộ, phân tách thời gian, thất bại trong tích hợp logic, và đặc biệt là các thao tác quên không thể thực hiện được do tính chất căn bản của vấn đề. Thêm vào đó là các vấn đề an toàn và quản trị—một khi mở rộng giới hạn huấn luyện và triển khai, khả năng phù hợp có thể sụp đổ, các hình thức tấn công dữ liệu độc hại lộ ra, khả năng kiểm tra minh bạch bị mất, rủi ro về quyền riêng tư tăng cao. Đây đều là các vấn đề mở, nhưng cũng nằm trong chương trình nghiên cứu. Điều thú vị là, hệ sinh thái khởi nghiệp đã bắt đầu hoạt động ở các cấp độ này. Ở phía ngữ cảnh có Letta, mem0 và các công ty vỏ bọc quản lý chiến lược ngữ cảnh; về trọng số có các nhóm thử nghiệm nén một phần, vòng phản hồi RL, phương pháp trung tâm dữ liệu, và cả những nhóm táo bạo đang thiết kế lại kiến trúc bản thân. Chưa có phương pháp nào thắng thế rõ ràng, và xét đến đa dạng của các ứng dụng, có thể không nên chỉ có một người chiến thắng duy nhất. Từ một góc nhìn nào đó, chúng ta đang đứng trước một điểm chuyển đổi. Hệ thống truy xuất thực sự mạnh mẽ, nhưng truy xuất mãi mãi không thể thay thế việc học. Một mô hình thực sự có thể tiếp tục nén kinh nghiệm, nội hóa kiến thức mới sau khi triển khai, sẽ tạo ra giá trị cộng hưởng theo cách mà hệ thống hiện tại không thể làm được. Điều này có thể đòi hỏi tiến bộ trong kiến trúc rải rác, học meta, vòng tự cải tiến—và cũng có thể đồng nghĩa với việc chúng ta phải định nghĩa lại chính khái niệm "mô hình"—không còn là một tập hợp trọng số cố định, mà là một hệ thống đang tiến hóa. Triển vọng của học liên tục nằm ở đây. Tủ hồ sơ dù lớn đến đâu cũng chỉ là tủ hồ sơ, đột phá nằm ở chỗ làm sao để mô hình sau khi triển khai vẫn có thể tiếp tục huấn luyện, làm cho nó mạnh mẽ hơn: nén, trừu tượng, học thật sự. Nếu không, chúng ta sẽ mãi mắc kẹt trong hiện tại vĩnh cửu của chính mình.
0
0
0
0
Cryptopolitan

Cryptopolitan

05-09 15:51
Anthropic thông báo vào thứ Sáu rằng Claude không còn tham gia vào việc đe dọa trong quá trình đánh giá an toàn cốt lõi cho các tác nhân AI. Theo Anthropic, tất cả các phiên bản của Claude được tạo sau Claude Haiku 4.5 đã vượt qua đánh giá an toàn mà không đe dọa kỹ sư, sử dụng dữ liệu riêng tư, tấn công các hệ thống AI khác, hoặc cố gắng ngăn chặn việc tắt của nó trong kịch bản mô phỏng. Điều này xảy ra sau hiệu suất không thuận lợi của Claude trong một bài kiểm tra năm ngoái, nơi Anthropic thử nghiệm các mô hình AI khác nhau từ các tổ chức khác nhau bằng các tình huống đạo đức mô phỏng dẫn đến hành vi lệch lạc rất lớn của một số tác nhân AI khi đối mặt với điều kiện cực đoan. Anthropic cho biết Claude 4 đã thể hiện một vấn đề về an toàn mà đào tạo trò chuyện thông thường không thể khắc phục Anthropic tuyên bố rằng vấn đề này xảy ra trong quá trình đào tạo Claude 4. Đây là lần đầu tiên công ty tiến hành kiểm tra an toàn khi đào tạo vẫn đang diễn ra trong nhóm. Theo công ty, sự lệch lạc hành vi chỉ là một trong nhiều vấn đề hành vi được quan sát, khiến Anthropic phải điều chỉnh đào tạo an toàn sau khi thử nghiệm Claude 4. Hai lý do được Anthropic xem xét bao gồm khả năng rằng việc đào tạo sau mô hình cơ sở có thể thưởng cho các hành vi không phù hợp hoặc rằng các hành vi đó đã tồn tại trong mô hình cơ sở, nhưng không bị loại bỏ hiệu quả qua đào tạo thêm về an toàn. Anthropic tin rằng lý do thứ hai là nguyên nhân chính. Lúc đó, phần lớn công việc điều chỉnh của công ty sử dụng phương pháp RLHF tiêu chuẩn, hoặc Học tăng cường từ phản hồi của con người. Nó hoạt động tốt trên các cuộc trò chuyện tiêu chuẩn nơi các mô hình phản hồi theo yêu cầu của người dùng nhưng lại không hiệu quả khi thực hiện các nhiệm vụ giống tác nhân. Công ty đã sử dụng mô hình Haiku của mình để thực hiện một thử nghiệm nhỏ về giả thuyết này. Nó áp dụng một phiên bản rút gọn của quá trình đào tạo liên quan đến dữ liệu để mục đích điều chỉnh. Có một chút giảm hành vi sai lệch, nhưng rất nhanh chóng không có sự cải thiện nào, điều này có nghĩa là câu trả lời không phải là vấn đề của việc đào tạo truyền thống hơn nữa. Sau đó, công ty đã đào tạo Claude bằng các kịch bản kiểu bẫy mật ong có một số điểm tương đồng với các bài kiểm tra điều chỉnh. Trợ lý đã quan sát các tình huống khác nhau liên quan đến việc tự bảo vệ, gây hại cho AI khác, và thậm chí phá vỡ quy tắc để đạt mục tiêu. Quá trình đào tạo bao gồm tất cả các trường hợp trợ lý có thể chống lại. Biện pháp này đã làm giảm lệch lạc từ 22% xuống còn 15%, không tệ nhưng chắc chắn chưa đủ. Viết lại các câu trả lời để đề cập lý do từ chối đã giúp giảm tỷ lệ xuống còn 3%. Do đó, kết luận chính là đào tạo về hành vi sai lệch ít hiệu quả hơn so với đào tạo về lý do tại sao hành vi sai lệch đó không phù hợp. Anthropic thử nghiệm Claude với dữ liệu đạo đức, hồ sơ hiến pháp, và đào tạo RL rộng hơn Sau đó, Anthropic đã dừng đào tạo gần như đúng vào thời điểm kiểm tra chính xác đó. Nó tạo ra một bộ dữ liệu gọi là lời khuyên khó khăn. Trong các ví dụ đó, người dùng đối mặt với vấn đề đạo đức, không phải AI. Người dùng có mục tiêu công bằng nhưng có thể đạt được bằng cách phá vỡ quy tắc hoặc tránh sự giám sát. Claude phải đưa ra lời khuyên cẩn thận dựa trên hiến pháp của Claude. Bộ dữ liệu đó chỉ sử dụng 3 triệu token và đạt được lợi ích gấp 28 lần so với trước đó về hiệu quả. Anthropic nói rằng điều này quan trọng vì đào tạo trên các ví dụ không giống bài kiểm tra có thể hoạt động tốt hơn ngoài phòng thí nghiệm. Claude Sonnet 4.5 đạt tỷ lệ đe dọa tống tiền gần như bằng không sau khi đào tạo trên các bẫy mật ong tổng hợp, nhưng vẫn thất bại nhiều hơn trong các trường hợp không giống setup đó hơn Claude Opus 4.5 và các mô hình mới hơn. Công ty cũng đã đào tạo Claude trên các tài liệu hiến pháp và các câu chuyện hư cấu về hành vi AI tuân thủ quy tắc. Những tập tin đó không giống như bài kiểm tra đe dọa tống tiền, nhưng đã giảm lệch lạc hành vi tác nhân hơn gấp ba lần. Anthropic cho biết mục tiêu là giúp mô hình có cảm nhận rõ ràng hơn về những gì Claude nên là, chứ không chỉ là danh sách các câu trả lời được chấp thuận. Sau đó, công ty kiểm tra xem những lợi ích đó có duy trì sau đào tạo RL không. Nó đã đào tạo các phiên bản Haiku khác nhau với các bộ dữ liệu khởi đầu khác nhau, rồi chạy RL trong các thiết lập kiểm tra tập trung vào sự vô hại. Các phiên bản phù hợp hơn vẫn dẫn đầu trong các bài kiểm tra đe dọa tống tiền, kiểm tra hiến pháp, và các đánh giá an toàn tự động. Một bài kiểm tra khác sử dụng mô hình cơ sở dưới Claude Sonnet 4 với các pha trộn RL khác nhau. Dữ liệu an toàn cơ bản bao gồm các yêu cầu có hại và các cố gắng jailbreak. Phiên bản mở rộng thêm các định nghĩa công cụ và các lệnh hệ thống khác nhau, mặc dù các công cụ này không cần thiết cho các nhiệm vụ. Cấu hình đó đã dẫn đến một lợi ích nhỏ nhưng thực sự trên điểm số bẫy mật ong. Đừng chỉ đọc tin tức crypto. Hiểu nó. Đăng ký bản tin của chúng tôi. Miễn phí.
0
0
0
0