std::string底层实现之COW(Copy-On-Write)

关注公众号【高性能架构探索】,第一时间获取最新文章;公众号内回复【pdf】,免费获取经典书籍

你好,我是雨乐!

在开始正文之前,先看一段代码,如下:

 std::string s("str");
 std::string s1 = s;
 char *p = const_cast<char*>(s1.data());
 p[2] = '\0';

 std::cout << s << std::endl;
 std::cout << s1 << std::endl;

可能会有部分人认为上面代码的输出结果是:

st
st

也有部分人认为上述代码输出结果是:

str
st

其实,上述两种结果都是正确的,第一种正确的前提是基于gcc5.1之前的版本,第二种正确的前提是基于gcc5.1(包含)以后的版本。

而第一种之所以正确,这是基于std::string的另外一个特性:COW(Copy On Write)。

COW

COW是Copy On Write的缩写,是一种很常见且很重要的优化方式。核心思想是对多个实体的资源请求进行延时处理,如果不存在资源更改行为,则多个实体共享该块资源,直到有实体需要对资源进行修改时,才真正为该实体分配私有的资源。

COW技术的一个经典应用在于Linux内核在进程fork时对进程地址空间的处理。由于fork产生的子进程需要一份和父进程内容相同但完全独立的地址空间,一种做法是将父进程的地址空间完全复制一份,另一种做法是将父进程地址空间中的页面标记为共享的(引用计数+1),使子进程与父进程共享地址空间,但当有一方需要对内存中某个页面进行修改时,重新分配一个新的页面(拷贝原内容),并使修改进程的虚拟地址重定向到新的页面上。

COW技术有哪些优点呢?

  1. 减少了分配(和复制)大量资源带来的瞬间延迟(注意仅仅是latency,但实际上该延迟被分摊到后续的操作中,其累积耗时很可能比一次统一处理的延迟要高,造成throughput下降是有可能的)
  2. 另一方面减少不必要的资源分配。(例如在fork的例子中,并不是所有的页面都需要复制,比如父进程的代码段(.code)和只读数据(.rodata)段,由于不允许修改,根本就无需复制。而如果fork后面紧跟exec的话,之前的地址空间都会废弃,花大力气的分配和复制只是徒劳无功。)

COW的思想在资源管理上被广泛使用,本文中分析的string中也用到了COW思想~~。

实现

为了分析COW在string中的实现机制,我们对上述代码进行分析。下面源码版本为4.6.0(在线地址为:string源码)。

在上节内容中,我们提到一般实现COW的策略,都用了引用计数,std::string也不例外,使用如下结构:

struct _Rep_base
       {
     size_type       _M_length;
     size_type       _M_capacity;
     _Atomic_word        _M_refcount;
       };

 struct _Rep : _Rep_base
       {
     // Types:
     typedef typename _Alloc::template rebind<char>::other _Raw_bytes_alloc;

         bool
     _M_is_leaked() const
         { return this->_M_refcount < 0; }

         bool
     _M_is_shared() const
         { return this->_M_refcount > 0; }

         void
     _M_set_leaked()
         { this->_M_refcount = -1; }

         void
     _M_set_sharable()
         { this->_M_refcount = 0; }

     void
     _M_set_length_and_sharable(size_type __n)
     {
 #ifndef _GLIBCXX_FULLY_DYNAMIC_STRING
       if (__builtin_expect(this != &_S_empty_rep(), false))
 #endif
         {
           this->_M_set_sharable();  // One reference.
           this->_M_length = __n;
           traits_type::assign(this->_M_refdata()[__n], _S_terminal);
           // grrr. (per 21.3.4)
           // You cannot leave those LWG people alone for a second.
         }
     }

     _CharT*
     _M_refdata() throw()
     { return reinterpret_cast<_CharT*>(this + 1); }

     _CharT*
     _M_grab(const _Alloc& __alloc1, const _Alloc& __alloc2)
     {
       return (!_M_is_leaked() && __alloc1 == __alloc2)
               ? _M_refcopy() : _M_clone(__alloc1);
     }

     // Create & Destroy
     static _Rep*
     _S_create(size_type, size_type, const _Alloc&);

     void
     _M_dispose(const _Alloc& __a)
     {
 #ifndef _GLIBCXX_FULLY_DYNAMIC_STRING
       if (__builtin_expect(this != &_S_empty_rep(), false))
 #endif
         {
           // Be race-detector-friendly.  For more info see bits/c++config.
           _GLIBCXX_SYNCHRONIZATION_HAPPENS_BEFORE(&this->_M_refcount);
           if (__gnu_cxx::__exchange_and_add_dispatch(&this->_M_refcount,
                              -1) <= 0)
         {
           _GLIBCXX_SYNCHRONIZATION_HAPPENS_AFTER(&this->_M_refcount);
           _M_destroy(__a);
         }
         }
     }  // XXX MT

     void
     _M_destroy(const _Alloc&) throw();

     _CharT*
     _M_refcopy() throw()
     {
 #ifndef _GLIBCXX_FULLY_DYNAMIC_STRING
       if (__builtin_expect(this != &_S_empty_rep(), false))
 #endif
             __gnu_cxx::__atomic_add_dispatch(&this->_M_refcount, 1);
       return _M_refdata();
     }  // XXX MT

     _CharT*
     _M_clone(const _Alloc&, size_type __res = 0);
       };

在上述结构中,有一个变量_M_refcount,用来记录当前引用该string的对象个数。在string的COW实现中,当新建一个string或者为其分配内存时,会额外创建一个_Rep_base对象用来存放引用对象的个数,当发生拷贝或者赋值的时候,这个引用计数就会+1。而在内容修改时,string类为查看这个引用计数是否为0,如果不为零,表示有人在共享这块内存,那么自己需要先做一份拷贝,然后把引用计数-1,再把数据拷贝过来。_Rep的各种成员函数,则是用来对引用计数进行操作。

构造函数

在代码std::string s("str");构建一个string对象,我们看下其具体实现,代码如下:

 template<typename _CharT, typename _Traits, typename _Alloc>
     basic_string<_CharT, _Traits, _Alloc>::
     basic_string(const _CharT* __s, const _Alloc& __a)
     : _M_dataplus(_S_construct(__s, __s ? __s + traits_type::length(__s) :
                    __s + npos, __a), __a)
     { }

在该实现中,调用了_M_dataplus()函数,其实际上是某个对象的构造函数,有两个参数,一个为_S_construct生成的char*指针,另一个则为分配器。

_M_dataplus的定义如下:

struct _Alloc_hider : _Alloc
       {
     _Alloc_hider(_CharT* __dat, const _Alloc& __a)
     : _Alloc(__a), _M_p(__dat) { }

     _CharT* _M_p; // The actual data.
       };
mutable _Alloc_hider  _M_dataplus;

_M_dataplus中有个成员变量_M_p指向实际的字符串地址,而该地址是由_S_construct生成,代码如下:

template<typename _CharT, typename _Traits, typename _Alloc>
     template<typename _InIterator>
       _CharT*
       basic_string<_CharT, _Traits, _Alloc>::
       _S_construct(_InIterator __beg, _InIterator __end, const _Alloc& __a,
            input_iterator_tag)
       {
 #ifndef _GLIBCXX_FULLY_DYNAMIC_STRING
     if (__beg == __end && __a == _Alloc())
       return _S_empty_rep()._M_refdata();
 #endif
     // Avoid reallocation for common case.
     _CharT __buf[128];
     size_type __len = 0;
     while (__beg != __end && __len < sizeof(__buf) / sizeof(_CharT))
       {
         __buf[__len++] = *__beg;
         ++__beg;
       }
     _Rep* __r = _Rep::_S_create(__len, size_type(0), __a); // 创建Rep*对象,即包含有引用计数的
     _M_copy(__r->_M_refdata(), __buf, __len);
     __try
       {
         while (__beg != __end)
           {
         if (__len == __r->_M_capacity)
           {
             // Allocate more space.
             _Rep* __another = _Rep::_S_create(__len + 1, __len, __a);
             _M_copy(__another->_M_refdata(), __r->_M_refdata(), __len);
             __r->_M_destroy(__a);
             __r = __another;
           }
         __r->_M_refdata()[__len++] = *__beg;
         ++__beg;
          }
       }
     __catch(...)
       {
         __r->_M_destroy(__a);
         __throw_exception_again;
       }
     __r->_M_set_length_and_sharable(__len);
     return __r->_M_refdata();
       }

上述代码还是比较简单易理解的,无非就是将字符串拷贝到内存,生成COW所需要的对象~~

这块需要注意的是,在string定义中,并没有一个单独的_Rep对象,即并没有为了实现COW的引用计数功能而单独定义一个对象,而是为了节省内存,该_Rep对象均是通过指针偏移来实现。在前面内容中,有提到,_M_dataplus._M_p用来指向真正的存储数据的地址。

下面是string的数据成员:

template<typename _CharT, typename _Traits, typename _Alloc>
  class basic_string {
    // **********
    static const size_type    npos = static_cast<size_type>(-1);
    mutable _Alloc_hider  _M_dataplus;
  }

下面继续分析_S_construct代码,在该函数中,比较重要的一行

_Rep* __r = _Rep::_S_create(__len, size_type(0), __a);

该行中主要负责分配内存,由分配器__a进行分配(string中的分配方式与vector类似,都采用了预分配方式,以提升性能),其如图所示:

![image-20221010110814876](/Users/lijun/Library/Application Support/typora-user-images/image-20221010110814876.png)

这块设计非常巧妙,在_Rep::_S_create源码实现中,通过分配器分配一块内存,然后通过placement new构建_Rep对象,如下:

void* __place = _Raw_bytes_alloc(__alloc).allocate(__size);
       _Rep *__p = new (__place) _Rep;
       __p->_M_capacity = __capacity;

那么有个疑问,string如何获取到存储实际数据的指针,以及又如何对引用计数进行操作的呢?

相信我们经常都会用到string::c_str()操作,这个函数的作用就是返回实际的存储数据的地址,实现如下:

const _CharT*
       c_str() const
       { return _M_data(); }

_CharT*
       _M_data() const
       { return  _M_dataplus._M_p; }

通过如上代码,进一步证明_M_dataplus._M_p指向实际存储数据的地址。而_M_p则是在构造函数_M_dataplus()中由_S_construct()生成,在_S_construct函数的最后一行为return __r->_M_refdata();,其返回的是实际存储数据地址,但__r类型为_Rep,又是如何返回的呢,不妨看下函数实现:

_CharT*
     _M_refdata() throw()
     { return reinterpret_cast<_CharT*>(this + 1); }

结合上图,通过this + 1,移动指针,自然就到了可存储数据部分。那么string又是如何进行引用计数操作的呢?通过_M_dataplus._M_p指针反向操作,自然可以得到_Rep对象。

_Rep*
       _M_rep() const
       { return &((reinterpret_cast<_Rep*> (_M_data()))[-1]); }

拷贝构造

在本文例子中,同样一块代码,在不同版本中的运行结果不一致,其根源就在于std::string s1 = s;,这句代码调用了拷贝构造函数,所以,不妨从其构造函数入手,来研究其实现😁。

template<typename _CharT, typename _Traits, typename _Alloc>
     basic_string<_CharT, _Traits, _Alloc>::
     basic_string(const basic_string& __str)
     : _M_dataplus(__str._M_rep()->_M_grab(_Alloc(__str.get_allocator()),
                       __str.get_allocator()),
           __str.get_allocator())
     { }

显然,该函数实现简单,只调用了_M_dataplus函数,其定义如下:

struct _Alloc_hider : _Alloc
       {
     _Alloc_hider(_CharT* __dat, const _Alloc& __a)
     : _Alloc(__a), _M_p(__dat) { }

     _CharT* _M_p; // The actual data.
       };

mutable _Alloc_hider  _M_dataplus;

通过上述定义,可以看出,_M_dataplus是一个对象,在其构造函数中有两个参数,一个为char类型的实际数据,另外一个为分配器(分配器不在本文讨论范围内),所以重点就在于char数据了,通过函数调用发现,char*是通过_M_grab来获取的。也就是说,string的拷贝构造函数仅仅对_M_dataplus对象进行构造,看来重点在`__str._M_rep()->_M_grab这块了,源码如下:

_CharT*
     _M_grab(const _Alloc& __alloc1, const _Alloc& __alloc2)
     {
       return (!_M_is_leaked() && __alloc1 == __alloc2)
               ? _M_refcopy() : _M_clone(__alloc1);
     }

在_M_grab函数中,如果字符串可共享,进行引用拷贝(即引用计数+1,返回源数据地址),否则进行深度拷贝。那么判断字符串共享的条件是什么?显然!M_is_leaked() && alloc1 == alloc2,正常情况下,字符串都可被共享(使用不同分配器这种情况忽略哈),只有个别情况下不可共享,比如这个字符串正在被写入时就不可被共享(比如调用了insert函数等)。

引用拷贝是通过_M_refcopy()函数来实现的,其定义如下:

_CharT*
     _M_refcopy() throw()
     {
 #ifndef _GLIBCXX_FULLY_DYNAMIC_STRING
       if (__builtin_expect(this != &_S_empty_rep(), false))
 #endif
             __gnu_cxx::__atomic_add_dispatch(&this->_M_refcount, 1);
       return _M_refdata();
     }  // XXX MT

在引用拷贝的方法实现_M_refcopy中,对字符串的引用计数+1,然后直接返回源字符串的字符串地址。

必须说明的该函数只有在basic_string的copy ctor和assignment中才可能被调用,也就是说只有在新的字符串按copy或者赋值创建的时候才考虑使用引用计数。
进行refcopy或者clone的关键标识是:首先没有内存泄漏标志(关于这个标志主要是禁止string再次被共享),然后就是两个string对象的分配相同。

结语

COW的核心思想就是lazy-copy,是一种常见的优化手段,通常发生在拷贝、赋值等操作上,但是如果使用不当,则会导致预期之外的结果,虽然COW在gcc的高版本实现中已经去掉了,但是,因为种种原因,仍然有许多开发人员使用的老版本gcc,那么这个优化导致的问题就不得不引起关注,正所谓知己知彼,方能百战不殆

原创文章受到原创版权保护。转载请注明出处:https://www.ccppcoding.com/archives/1201

非原创文章文中已经注明原地址,如有侵权,联系删除

关注公众号【高性能架构探索】,第一时间获取最新文章

转载文章受原作者版权保护。转载请注明原作者出处!

(3)
上一篇 2022年9月6日 下午5:00
下一篇 2022年10月26日 下午10:08

相关推荐