WordをHTMLエディタにコピーすると発生する可能性のあるガベージコード

ウィンドウテキストに加えて、Word を HTML にコピーした後に多くのガベージ コードが生成されます。一般的なジャンク コードの名前は次のとおりです。

MsoNormal: これは Word が既定で使用するスタイル名で、ジャンク コードの最も一般的な種類の 1 つです。
MsoListParagraph: リストの段落に使用されるスタイル名。
MsoTitle: タイトルに使用されるスタイル名。
MsoHeader: ヘッダーに使用されるスタイルの名前。
MsoFooter: フッターに使用されるスタイル名。
MsoTable: テーブルに使用されるスタイル名。
MsoCommentText: コメントに使用されるスタイル名。
MsoBodyText: 本文テキストのスタイル名。
これらのジャンク コードはスタイルを乱雑にする原因となることが多いため、HTML コードを扱うときはできるだけ削除することをお勧めします。

他にも次のような名前があります。

mso-padding-alt
mso-margin-top-alt
mso-margin-bottom-alt
mso-list
mso-list-level
mso-tab-count
mso-layout-grid-align
mso-char-indent-count
mso-header- margin
mso-footer-margin
mso-paper-source
mso-page-orientation
これらの名前も、Word で編集して HTML にコピーした後に生成されたコードに由来しています。

Word には他にも次のような一般的なスタイル名があります。

mso-spacerun: Word に複数のスペースが入力されたときに自動的に生成されるスタイル
mso-list: スタイルのリスト
mso-bidi-font-size、mso-ascii-font-family、mso-hansi-font-family、mso-ansi- language、 mso-fareast- language、mso-bidi- language: これらのスタイルは主に多言語テキストを処理するために使用され、ページ レイアウトやフォント表示効果に影響を与える可能性があります。Word のバージョンが異なると生成される HTML コードが異なる場合があることに注意してください
。異なるスタイル名やガベージ コードが発生する可能性があります。Word によって生成された HTML コードを扱う場合は、まず特定の状況を理解してから、対応する解決策を策定することが最善です。

以下は、一般的、一般的ではない、特殊なスタイルのプロパティ名を含む、より包括的なリストです。

windowtext
mso-padding-alt
mso-margin-alt
mso-table-anchor-horizo​​ntal
mso-table-anchor-vertical
mso-padding-alt-top
mso-padding-alt-right
mso-padding-alt-bottom
mso-padding- alt-left
mso-margin-alt-top mso-margin-
alt-right mso-margin-alt-bottom mso-margin-alt-left mso-table-layout-alt mso-border-alt mso-border-alt-top mso-border-alt-right mso-border-alt-bottom mso-border-alt-left mso-border-alt-colspan mso-border-alt-rowspan mso-cellspacing mso-cellpadding mso-yfti-tbllook mso-yfti-相対サイズmso-yfti-font-family















mso-yfti-font-size
mso-yfti-font-weight
mso-yfti-font-style
mso-yfti-font-color
mso-yfti-rowanchor
mso-yfti-firstrow
mso-yfti-lastrow
mso-yfti-trowgranularity
mso- yfti-trowautofit
mso-yfti-rowheight
mso-yfti-wrap
mso-hansi-font-family
mso-bidi-font-family
mso-ansi-font-size
mso-bidi-font-size
mso-ansi-font-style
mso- bidi-font-style
mso-ansi-font-weight
mso-bidi-font-weight
mso-ansi-font-color
mso-bidi-font-color
mso-font-kerning
mso-font-charset
mso-generic-font-family
mso-font-format
mso-font-pitch
mso-font-signature
mso-ascii-font-family
mso-hansi-theme-font
mso-ascii-theme-font
mso-bidi-theme-font
mso-theme-font mso-
theme-font-major
mso-theme-font -マイナー
mso-bidi-言語
mso-ansi-言語
mso-言語
mso-no-proof
mso-spacerun
mso-style-locked
mso-style-priority
mso-background-source
mso-pattern
mso-protection
mso-position-horizo​​ntal
mso -position-horizo​​ntal-relative
mso-position-vertical
mso-position-vertical-relative
mso-width-percent
mso-height-percent
mso-horizo​​ntal-position-percent
mso-vertical-position-percent
mso-ignore
mso-number-format
mso-layout-grid-align
mso-layout-grid-mode
mso-layout-grid-type
mso-line-height-rule
mso-list
mso-list-テンプレート
mso-list-id
mso-list-type
mso-outline-level
mso-list-level
mso-list-level-text
mso-list-level-tab-stop
mso-list-level-number-position
mso-list-レベルタブ停止位置
mso-list-level-align
mso-list-level-text-indent
mso-list-level-number-indent
mso-list-level-previous
mso-list-level-following
mso-list-インデント
mso-list-hang

他にも次のようなジャンクコードがあります。

mso-padding-alt
mso-table-anchor
mso-char-indent
mso-pagination
mso-para-margin
mso-border-alt
これらのコードは、Word やその他のエディターが HTML にコピーされるときにも生成されるため、クリアする必要があります。

ここに画像の説明を挿入

次のガベージ要素が生成されます

<v:…> 要素は、「VML」(Vector Markup Language) タグとして知られる Microsoft Office 製品の非標準タグで、Office アプリケーションでベクター グラフィックを作成するために使用されます。これらのタグは HTML にエクスポートするときに存在することが多く、ページのレンダリングの問題を引き起こす可能性があります。これらのグラフィックを HTML で表示する必要がある場合は、解析とレンダリングにサードパーティのライブラリを使用できます。

<v:…> などの要素に加えて、オフィス製品では HTML にコピーされるときに次のガベージ要素も生成される場合があります。

<o:…>: Office XML 要素
<w:…>: WordML 要素
<m:…>: MathML 要素
st1:...: 従来の Word 要素
st2:...: 従来の Word 要素
これらの要素には、多くの要素を含めることができます。不要 HTML ページのパフォーマンスと保守性を向上させるために、HTML ページのスタイルとコードをクリーンアップして最適化する必要があります。

上記のガベージ要素に加えて、数式エディター、SmartArt、グラフなどの Word の特殊な機能を使用すると、HTML にコピーされたときに対応するガベージ コードも生成されます。さらに、Word の一部の特殊な形式やスタイル (段落スタイル、リスト スタイル、表スタイルなど) も、HTML に変換するときに冗長なコードが生成される可能性があります。

Word のコピー&ペーストされた HTML に表示されるその他の要素は次のとおりです。

<o:p>: 段落の始まりと終わりをマークするために使用されます。
<w:br>: 改行文字を示すために使用されます。
<w:tab>: タブ文字を表すために使用されます。
<w:pict>: 画像を表すために使用されます。
<w:smartTag>: スマート タグ (自動リンク、スペル チェック、日付など) を表すために使用されます。
<w:hyperlink>: ハイパーリンクを示すために使用されます。
これらの要素は Web ページのレイアウトと表示に影響を与える可能性があるため、後続の処理で注意を払う必要があります。

これらは比較的一般的なガベージ要素であるはずであり、これら以外にもいくつかある可能性がありますが、あまり一般的ではありません。一般に、Word を HTML にコピーすると、多くの冗長なコードが生成されるため、クリーンアップが必要な場合は、状況に応じて対処することをお勧めします。

次のような、一般的ではないガベージ要素もいくつかあります。

<o:p>: 段落の終わりに空白行をマークする Office ドキュメント内のプレースホルダー。
: Office 2003 より前は、追加情報を保存するために使用されていましたが、現在はカスタム XML データを保存するために使用されています。
<m:oMathPara> および <m:oMath>: MathML 数式の要素。これらの要素は Office で頻繁に表示されますが、他のシナリオでは一般的に使用されません。
もちろん、これらの要素の使用頻度は比較的低いため、一般的なジャンク要素のみを処理する必要がある場合は、これらの一般的ではない要素は無視しても問題ありません。

ほとんどは o、w、m で始まります。もちろん、他にも次のようなあまり一般的ではないタグがあります。

<v:textbox>
<v:image>
mso-spacerun:
mso-tab-count:
mso-hide:
mso-ignore:
mso-element:
mso-comment-text:
これらのタグも、HTML にコピーされた Office 製品です。ガベージ コードです。の場合に生成される可能性があります。

上記に加えて、次のような珍しいものもあります。

<o:p> および <w:WordDocument>: これらの要素は、Microsoft Word が HTML 出力で使用するタグです。
<m:math> および <m:oMath>: これらの要素は、Microsoft Word が数式を HTML に変換するために使用するタグです。
これらの要素は Word コンテンツをコピーするときに HTML に表示されることがありますが、必ずしも「ジャンク要素」であるわけではなく、一部は役立つ場合があることに注意してください。そのため、WordでコピーしたHTMLを加工する際には、実情に応じてフィルタリングやクリーンアップを行う必要があります。

おすすめ

転載: blog.csdn.net/snans/article/details/129251290