タグ内の文字列（商品名）に含まれるメタ文字を取り除く正規表現を知りたい

Question

PythonのScrapyを使って、HTMLから文字列を取り出しています。

ガリガリ君の商品名を抜き出すために、以下のコードを書きました。

```python

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


# ガリガリ君
class AkagiGarigariSpider(CrawlSpider):
    name = 'garigari'
    allowed_domains = ['www.akagi.com']
    start_urls = (
        'https://www.akagi.com/products/garigari/soda_stick.html',
        'https://www.akagi.com/products/gatsun/mikan_stick.html',
        )

    rules = (

        # 辿ってほしいリンクの条件(ルール)を指定する
        Rule(LinkExtractor(allow=r'/garigari/.+$'), callback='parse_ice'),

        Rule(LinkExtractor(allow=r'/gatsun/.+$'), callback='parse_ice'),
        
        )

    def parse_ice(self, response):

        yield{
            # 商品名の要素h1の中には<span>が含まれているため、.xpath('string()')でh1以下のすべてのテキストを取得
            'item_name': response.css('#contents article h1').xpath('string()').extract(),
            'image': response.css('article .photo figure img::attr("src")').extract(),
        }

```

出力結果ですが、以下のように商品名の先頭と最後にメタ文字（
	など）が含まれてしまいます。

```
{
    "item_name": [
      "
	ガリガリ君コーラ（棒）
"
    ],
    "image": [
      "content/images/products/200gif/gari_cola_stick.gif"
    ]
  },
  {
    "item_name": [
      "
	ガリガリ君ソーダ（棒）
"
    ],
    "image": [
      "content/images/products/200gif/gari_soda_stick_samurai18.gif"
    ]
  },
以下略
```

item_name　を抜き出すための正規表現を変えれば、商品名だけ（たとえば「ガリガリ君コーラ（棒）」）を取り出すことは可能でしょうか？

また、可能であればその正規表現を教えていただけますと幸いです。

よろしくお願いします。

Accepted Answer

``str.strip()``を使用するとよいのではないでしょうか

```Python
yield{
    'item_name': response.css('#contents article h1').xpath('string()').extract_first().strip(),
    ...
    }
```

関連した質問