๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

๐Ÿ ํŒŒ์ด์ฌ5

[Pandas] ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ”„๋กœ์ ํŠธ์—์„œ ์œ ์šฉํ•˜๊ฒŒ ์“ฐ์ด๋Š” ๊ธฐ๋Šฅ ์กฐ๊ฐ ๋ชจ์Œ ๐Ÿ’ก Index 1. Pandas Dataframe์—์„œ e ์ง€์ˆ˜ ํ‘œํ˜„ ์—†์• ๊ธฐ pd.options.display.float_format = '{:.5f}'.format ์ด๋•Œ ์—ฌ๊ธฐ์„œ .5f๋Š” ์†Œ์ˆซ์  5์ž๋ฆฌ๊นŒ์ง€๋ฅผ ์˜๋ฏธํ•˜๊ธฐ์— ํŽธ์˜์— ๋”ฐ๋ผ ๋ณ€๊ฒฝ๊ฐ€๋Šฅํ•˜๋‹ค. ์ดํ›„ ํ•ด๋‹น ์„ค์ •์„ ์›๋ž˜๋Œ€๋กœ ๋ณ€๊ฒฝํ•˜๊ณ  ์‹ถ์€ ๊ฒฝ์šฐ์—๋Š” ์•„๋ž˜ ์ฝ”๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋œ๋‹ค. pd.reset_option('display.float_format') 2023. 7. 20.
[Pandas] ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”ํ•˜๊ธฐ ๐Ÿ’ก Index 1. ๋‚ ์งœ๋ณ„ sales ์‹œ๊ฐํ™”ํ•˜๊ธฐ # ๋‚ ์งœ๋ณ„ sale ์‹œ๊ฐํ™”ํ•˜๊ธฐ grouping_columns = ['year', 'month','day', 'day_name','quarter','day_of_week'] fig, axes = plt.subplots(3,2, figsize=(12,18)) axes = axes.flatten() for idx, column in enumerate(grouping_columns): grouped_data = df.groupby(column)['sales'].sum() grouped_data = pd.DataFrame(grouped_data).reset_index() sns.lineplot(data=grouped_data, x=column, y='sales',a.. 2023. 7. 20.
[Pandas] ๋ฐ์ดํ„ฐ ๋ณ€ํ˜•ํ•˜๊ธฐ, GroupBy, ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„ ํ•ฉ์น˜๊ธฐ 1. ๋ฐ์ดํ„ฐ ๋ณ€ํ˜•ํ•˜๊ธฐ 1) ์ •๊ทœํ‘œํ˜„์‹์œผ๋กœ ๋ฌธ์ž ๋ฐ์ดํ„ฐ ์ •๋ฆฌํ•˜๊ธฐ # ์ •๊ทœํ‘œํ˜„์‹ - ^ ; Not์˜ ์˜๋ฏธ์™€ ๊ฐ™์Œ. ์ฆ‰ 0~9 a~z A~Z : , ๊ฐ€ ์•„๋‹Œ ์ด์™ธ์˜ ๋ฌธ์ž๋Š” ๋ชจ๋‘ ๋„์–ด์“ฐ๊ธฐ๋กœ ๋Œ€์ฒดํ•˜๊ฒ ๋‹ค๋Š” ์˜๋ฏธ. df['Book-Title'] = [re.sub(r'[^0-9a-zA-Z:,]', ' ',str(i)) for i in df['Book-Title']] df['Main_Title'] = [i.split(' ')[0] for i in df['Book-Title']] # Main Title ์ด ํ›„์˜ ์ œ๋ชฉ ๋‹จ์–ด๋“ค ๋‹ค ๊ฐ€์ ธ์˜ค๊ธฐ df['Sub_Title'] = [''.join(i.split(' ')[1:]) for i in df['Book-Title']] 2) np.where ํ†ตํ•ด ๊ฐ’ ๋ณ€๊ฒฝํ•˜๊ธฐ # Sub Title.. 2023. 7. 11.
[Pandas] ๋ฐ์ดํ„ฐ ์…€๋ ‰์…˜๊ณผ Null, ์ค‘๋ณต ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌํ•˜๊ธฐ ๐Ÿ’ก Index 1. ๋ฐ์ดํ„ฐ ์…€๋ ‰์…˜ 1) ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์˜ [ ] ์—ฐ์‚ฐ์ž (1) ์ปฌ๋Ÿผ(col)์„ ๊ธฐ์ค€์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์…€๋ ‰์…˜ ํ•˜๋Š” ๊ฒฝ์šฐ # ํ•˜๋‚˜์˜ col์— ๋Œ€ํ•ด ์…€๋ ‰์…˜ ํ•˜๋Š” ๊ฒฝ์šฐ df['col_name'] # ๋‘๊ฐœ ์ด์ƒ์˜ Col์— ๋Œ€ํ•ด ์…€๋ ‰์…˜ ํ•˜๋Š” ๊ฒฝ์šฐ # -> Col๋“ค์„ ๋ฆฌ์ŠคํŠธํ˜•ํƒœ๋กœ ๋ฌถ๋Š”๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด [[]]์™€ ๊ฐ™์ด ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋ฅผ ์ดํ•ดํ•˜๊ธฐ ํŽธํ•˜๋‹ค. df[['col_name1','col_name2']] # Series ํ˜•ํƒœ๋Š” ์ธ๋ฑ์Šค๊ฐ€ ๋ถ€์—ฌ๋˜์–ด ํ”„๋ฆฐํŠธ๋œ๋‹ค๋Š” ๊ฒƒ์ด ๋ฆฌ์ŠคํŠธ์™€๋Š” ๋‹ค๋ฅธ ์ ์ด๋‹ค. type(df['col_name']) # output: pandas.core.series.Series # ํŠน์ • ์กฐ๊ฑด์„ ๋ถ€์—ฌํ•˜๊ณ  ์‹ถ์€ ๊ฒฝ์šฐ df[df['col_name']== 2]] # col_name์˜ ๊ฐ’์ด 2์ธ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋Š”.. 2023. 7. 11.
[Pandas] ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์˜ ๊ธฐ๋ณธ๊ณผ ์ƒ์„ฑ, ์ˆ˜์ •, ์‚ญ์ œ ๐Ÿ’ก Index ์ผ๋‹จ ๊ฐ€์žฅ ๊ธฐ๋ณธ์ธ pandas๋ฅผ import ํ•ด์ค€๋‹ค. import pandas as pd 1. ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ 1) Encoding ์ง€์ •ํ•ด์ฃผ๊ธฐ ํ•œ๊ธ€ ํŒŒ์ผ ํฐํŠธ๊ฐ€ ๊นจ์ง€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์ธ์ฝ”๋”ฉ์„ ์„ค์ •ํ•ด์ค€๋‹ค. ์•„๋ž˜ ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹์€ Mac ์šด์˜์ฒด์ œ์—์„œ ํ•œ๊ธ€์ด ๊นจ์ง์—†์ด ์ž˜ ์ ์šฉ๋˜์—ˆ๋‹ค. encoding = 'utf-8' df = pd.read_csv('./data/train.csv', encoding = 'utf-8') 2) ์ˆซ์ž ๊ตฌ๋ถ„ ๊ธฐํ˜ธ ์—†์ด ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ ์ˆซ์ž์— ์ฝค๋งˆ(,)๋กœ ์ฒœ ๋‹จ์œ„ ๊ตฌ๋ถ„์ด ๋˜์–ด์žˆ๋Š” ๊ฒฝ์šฐ, ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์œผ๋กœ ๋ถˆ๋Ÿฌ์™”์„ ๋•Œ Objectํ˜•์œผ๋กœ ์ธ์‹ํ•˜๊ฒŒ ๋œ๋‹ค. ์ด ๊ฒฝ์šฐ ์ฝค๋งˆ ๋•Œ๋ฌธ์— ํ•œ ๋ฒˆ์— ์ˆซ์žํ˜•์œผ๋กœ ๋ณ€ํ™˜๋˜์ง€ ์•Š๋Š”๋‹ค. ๋”ฐ๋ผ์„œ ์ดˆ๋ฐ˜์— ์ฝค๋งˆ๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์œผ๋กœ ๋ถˆ๋Ÿฌ์˜ค๋„.. 2023. 7. 10.